电力人工智能系统安全防护技术规范1目 次目 次 2前 言 3人工智能平台系列规范-第 3 部分:人工智能安全防护(试行) 41 范围 42 规范性引用文件 43 术语和定义 43.1 调用方 43.2 开发环境 43.3 评估环境 43.4 样本库 44 电力人工智能平台服务调用安全防护 44.1 服务接口安全防护 54.2 调用方数据存储安全防护 55 电力人工智能平台开发环境安全防护 55.1 开发资源保护 55.2 用户空间保护 55.3 恶意脚本攻击防范 56 电力人工智能平台模型研发安全防护 56.1 样本数据安全防护 66.2 标注工具选择标准 66.3 数据集保护 66.4 算法模型保护 67 电力人工智能平台应用安全防护 67.1 信息采集规范 67.2 隐私数据保护 67.3 缓存数据保护 7电力人工智能系统安全防护技术规范1 范围本标准规定了电力人工智能平台应用侧安全防护技术要求,包括服务调用安全防护要求、开发环境安全防护要求、模型研发安全防护要求和个人信息保护等内容本标准适用于电力人工智能平台开展智能应用建设2 规范性引用文件下列文件对于本规定的应用是必不可少的。
凡是注日期的引用文件,仅注明日期的版本适用于本规定;凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本规定GB/T 22239-2019 《信息安全技术 网络安全等级保护基本要求》GB/T 25070-2019 《信息安全技术 网络安全等级保护安全设计技术要求》GB/T 35273—2020《信息安全技术个人信息安全保护规范》BMB17-2006《涉及国家秘密的信息系统分级保护技术要求》Q/CSG 11804-2010《IT 主流设备安全基线技术规范》Q/CSG 11805-2011《信息系统应用开发安全技术规范》Q/CSG1210045-2020《人工智能应用建设规范》3 术语和定义下列术语和定义适用于本文件3.1 调用方指对接使用电力人工智能平台智能组件的第三方系统或平台通过http服务请求接口进行调用,并且传递的内容是符合Restful风格,接口里面是自带加密方法,如使用token进行加密解密、使用RSA配合签名进行加密解密等3.2 开发环境指在人工智能平台上基于系统提供的 CPU、GPU 等资源、功能及流程机制所创建的,用于开展人工智能模型研发、调试、训练、封装的一组软件。
其中 CPU、GPU 资源的分配使用到了Kubernetes 容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理模型开发涉及到 Python 语言的编写, 这里提供 Jupyterlab 以及Vscode 两种开发工具选择3.3 评估环境指的是人工智能平台用于评估算法的模块,用于对开发环境训练完成的模型进行评估评估的指标 可以是默认的,也可以是用户自定义的指标3.4 样本库用于管理电力数据集的综合系统,支持各类数据,包括已标注数据和未标注数据的上传,编辑等, 样本库里面的数据集可以无缝添加到开发环境去进行模型训练4 电力人工智能平台服务调用安全防护4.1 服务接口安全防护4.1.1 服务接口调用中的鉴权、请求头参数、请求体参数等需严格遵循《人工智能应用建设规范》相关技术要求;4.1.2 使用https 通信4.2 调用方数据存储安全防护4.2.1 针对调用方系统和用户重要信息采用加密技术进行数据加密存储;4.2.2 对调用方系统和用户敏感数据应采用脱敏技术处理;4.2.3 对于调用方系统和用户数据的存储应遵循“最小化”原则,确保只存储有必要的数据5 电力人工智能平台开发环境安全防护5.1 开发资源保护5.1.1 禁止开发环境中 JupyerLab 工具的右键下载功能;5.1.2 为每个用户提供对应的缓存目录,将开发环境中 workspace 目录涉及的日志、模型、缓存文件等数据迁移到用户所对应的缓存目录中,禁止挂载到用户启动的容器中,确保用户无法通过 JupyterLab 对缓存数据进行编辑操作;5.1.3 提供缓存目录的页面查看功能,该页面只展示用户缓存目录中的日志、模型、缓存文档等数据的列表,禁止查看详细的内容,但可查看加密后的文件 URL;5.1.4 对于在workspace 目录存储较大的目录提供告警触发功能,运维人员根据告警进行审查;5.1.5 在启动训练作业时,不挂载workspace 目录,避免用户通过该目录抓取目标数据;5.1.6 将平台核心功能封装为 C/S 架构的应用程序,应用程序新增防截屏、屏蔽浏览器调试等功能, 防止核心数据或代码遗漏。
5.2 用户空间保护5.2.1 用户自行上传的私有数据仅限于用户自身查看和使用,其他用户无权限获取相关数据;5.2.2 用户需将私有数据对其他用户开放时,需设置该私有数据的共享对象、共享目录、有效时长等权限信息;5.2.3 系统定时清理用户私有空间workspace 目录的数据5.3 恶意脚本攻击防范5.3.1 在开发环境下设置供用户上传数据专用的目录,并将目录部署在独立的容器中,确保用户上传的恶意脚本只影响该容器,而不对系统其它容器或服务节点造成影响;5.3.2 系统对每个容器的资源情况进行实时监控,提供资源异常告警功能,发生异常时,运维人员及时介入干预;5.3.3 将用户上传的文件数据存放在专用的文件上传缓冲区,在完成安全检验后,再将通过校验的文件迁移到制定目标位置6 电力人工智能平台模型研发安全防护56.1 样本数据安全防护6.1.1 进行图片样本预览时,只展示图片的缩略图,不展示原图数据;6.1.2 系统在图片样本自动添加水印,通过水印可追溯泄露样本数据的用户信息;6.1.3 记录用户浏览样本数据的行为,对系统用户行为进行监控、审计;6.1.4 屏蔽数据预览时的鼠标右键下载功能;6.1.5 数据预览时,对浏览器中暴露的文件存储路径进行加密处理,禁止通过文件路径访问到数据内容;6.1.6 将开发调试和训练过程进行拆分,在开发调试阶段只提供少量的样本数据,在训练阶段才使用全量数据。
6.2 标注工具选择标准在进行相关数据标注工作过程中,选择标注工具应符合以下标准6.2.1 安全性 应选用安全可信的标注工具进行标注工作,避免数据泄露造成安全事故;6.2.2 易操作性 标注工具应具有提高标注效率的功能,在减少标注人员工作量的同时确保标注质量;6.2.3 数据输入输出规范性 标注工具应支持导入及导出功能,可导入指定格式的数据可导出符合要求格式及质量要求的数据;6.2.4 统一性 标注工具应优先选用人工智能相关平台标注工具,人工智能平台的标注工具,可以对图片,以及音频等素材进行标注同时,输出 json,xml 等标注格式;6.2.5 标注后的样本数据需经系统管理员审核,确认合格后才能入库6.3 数据集保护6.3.1 平台的开源数据集由平台运营团队统一管理、维护,在新增开源数据集前,运营团队将安排技术人员对数据集的版本信息、安全性进行评估,确保纳入平台的数据集安全、可靠;6.3.2 用户在使用训练数据集时,需提出数据使用申请,由系统管理员审批通过后,才能继续使用对应的数据6.4 算法模型保护6.4.1 用户在开发调试阶段,可选择将执行代码提交至平台内嵌的git 代码仓库,确保代码安全、可靠的保存在平台中,供后续开发使用;6.4.2 用户完成模型训练后,生成的模型将保存在平台系统指定区域,除用户本人外,其他用户无权限获取相关信息。
7 电力人工智能平台应用安全防护7.1 信息采集规范7.1.1 在进行个人信息采集前需明确申明告知用户;7.1.2 在需要采集用和保存户个人信息时,应事先向用户弹出采集声明对话框,在对话框中明确需7.1.3 要采集用户个人信息的内容、范围、用途和方式,以及允许或拒绝的后果;7.1.3 涉及采集的个人信息包括个人信息包括姓名、出生日期、身份证件号码、个人生物识别信息、通讯联系方式等7.2 隐私数据保护7.2.1 在展示个人信息时通过对个人信息的部分隐藏进行去标识化处理,降低个人信息在展示环节的泄露风险;7.2.2 通过二次鉴权和个人信息详情查看申请等,严格控制对个人信息的访问权限,对不具备权限的用户,无法感知到任何权限范围外其他数据;7.2.3 在系统使用者需要批量查看非自身个人信息时,应先弹出申请对话框,向上级主管或系统设定的审批人员进行申请,经审批同意后,方可批量查看7.3 缓存数据保护7.3.1 提供用户注销功能,由用户确认注销以后,系统在后台查找用户个人信息数据所在关联表项和数据字段,彻底清除相关个人信息数据后,完成正式注销;7.3.2 用户创建的开发环境在长期(具体时限由平台统一设定)不使用后,系统将自动释放用户创建的环境,确保及时清理用户模型研发的相关遗留数据。