文档详情

2023电力人工智能训练数据集归集标准

职**
实名认证
店铺
DOCX
38.27KB
约11页
文档ID:342414994

电力人工智能训练数据集归集标准(试用版)目 次1. 范围 12. 规范性引用文件 13. 术语和定义 14. 标注任务技术说明要求 35. 待标注数据整理技术要求 45.1. 电力业务数据收集 45.2. 电力业务数据整理 45.3. 电力业务数据文件命名规则 56. 标注环境及工具选用要求 56.1. 标注环境选择标准 56.2. 标注工具选择标准 57. 标注任务执行技术要求 57.1. 标注子任务创建 57.2. 标注数据移交 67.3. 标注任务分发 67.4. 标注任务开展 68. 结果质量保障技术要求 78.1. 质量检查 78.2. 质量控制 79. 结果交付技术要求 79.1. 数据标注结果通用技术要求 79.2. 常见数据类型标注结果技术要求 89.3. 数据交付技术参数要求 810. 安全技术要求 9I电力人工智能训练数据集归集标准1 范围人工智能图像、语音训练数据集归集标准明确了电力企业人工智能训练数据标注工作涉及的数据收集整理、标注环境及工具选用、标注任务执行、标注结果质量控制、标注结果交付等技术要求本标准适用于电力业务场景下的人工智能训练数据集归集2 规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。

其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件GB/T 38318-2019 《电力监控系统网络安全评估指南》GB/T15237.1《术语工作 词汇 第 1 部分:理论与应用》GB/T5271.1《信息技术 词汇 第 1 部分:基本术语》GB/T5271.28《信息技术 词汇 第 28 部分:人工智能 基本概念与专家系统》GB/T5271.29《信息技术 词汇 第 29 部分:人工智能 语音识别与合成》GB/T5271.31《信息技术 词汇 第 31 部分:人工智能 机器学习》GB/T5271.34《信息技术 词汇 第 34 部分:人工智能 神经网络》3 术语和定义下列术语和定义适用于本文件3.1智能组件 intelligent component智能组件是基于人工智能对数据和函数的封装包括调用 API 组件、下载的工具组件、SDK 组件3.2图像分类 image classification图像分类通过手工特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别3.3光学字符识别 optical character recognition(OCR)光学字符识别,是指利用深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。

3.4语音 speech某一给定自然语言的话音、模式、或模拟这类模式的声学信号3.5语音识别 speech recognition通过功能单元对人的语音所表示信息的感知与分析要识别的信息可以是预定义的字序列中的一个字,或是预定义的语言中的一个音素,有时可通过说话者的声音特征对说话者进行标识3.69数据标注 data annotation对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待 标注数据增加标签,生成满足机器学习训练要求的机器可读数据编码3.7标签 label标识数据的特征、类别和属性等,可用于建立数据及机器学习训练要求所定义的机器可读数据编码间的联系3.8标注任务 annotation task按照数据标注规范对指定数据集进行标注的过程3.9标注工具 annotation tool数据标注员完成标注任务产生标注结果时所需的工具和软件标注工具可生成标签并提供参考模板不同的数据类型和标注任务需要不同的标注工具标注工具按自动化程度可分为全人工标注、半自动标注3.10标注平台 annotation platform开展标注任务的系统化框架标注平台在包含标注工具全部功能的基础上将所有标注环节工具化, 可有效地对标注任务进行全局管理和跟踪。

3.11标注描述说明 annotation instruction数据需求方用于明确标注任务和标注数据的书面陈述,包含执行标注任务所需的标注工具、任务描 述、标注方法、正确示例、常见错误等内容3.12标注方法 annotation method定义数据标注员进行数据标注时的环境和流程,应包含标注对象定义、所用标注工具和标注平台、标注格式、标注前的准备工作、标注后的处理工作等3.13全人工标注 full-manual annotation指完全依靠人力对全部待标注数据进行标注3.14半自动标注 semi-automatic annotation使用人工结合自动化工具或训练模型的方式进行数据标注3.15结果文件 result file指待标注数据在完成标注工作后产生带有标签信息的文件3.16数据标注员 data labeler负责对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作的工作人员4 标注任务技术说明文件要求在进行相关机器学习数据标注任务前,应明确本次标注工作的技术标准,生成详细的技术说明文件标注任务的技术说明文件应包含本次描述文件的版本信息、标注工作的任务背景、标注数据的应用场景、标注数据的类型、标注方式、导入导出格式、标注结果格式、标注结果可选值、标注工作的实施环境、数据保密规则、标注的正确示例、标注的错误示例以及术语体系规范化要求。

1) 版本信息描述说明文件应详细记录说明文件当前的版本、编辑时间、通过审批时间、修订时间等2) 工作背景概括性描述本次任务的产生原因、标注数据的来源等3) 数据应用场景概括性描述本次数据标注完成后的应用方式或应用场景4) 数据类型确定本次标注数据的数据类型如图片、文字、语音、视频等,提供数据类型展示实例5) 标注方式明确本次采用全人工或半人工方式进行标注并确定需要使用的工具6) 导入导出格式应明确提出本次待标注数据导入或导出标注工具的格式7) 标注结果格式应明确提出本次标注结果输出格式8) 标注结果可选值如标注结果存在可选值范围,应明确列出9) 实施环境描述标注工作的实施环境,如电力行业的敏感数据应在内网环境下进行标注工作,而非敏感数据则可以到相关方任何的标注环境中进行标注10) 标注正确示例应提供标注任务正确标注或有效标注的实例11) 标注错误示例应提供标注任务错误标注或无效标注的实例12) 数据保密规则应根据《数据资产管理办法》判定数据是否涉密,并根据规定对标注数据进行保护13) 标注开始时间描述本次标注任务的具体开始时间14) 期望交付时间描述本次标注任务的期望交付时间15) 术语体系规范化要求在标注过程中使用的术语体系需要规范化,至少应满足下列要求:1) 应遵从国家法规和行业规范。

2) 应符合企业内部管理规范及要求3) 应建立统一的标注术语字典,确保数据标注人员对术语定义的理解一致4) 在学习标注说明规则及进行相应的培训后,数据标注人员能够规范地使用标注术语完成任务5) 应被标注任务的发布方及相关方认可5 待标注数据整理技术要求5.1 电力业务数据收集标注数据收集工作应以业务为导向开展,主要涉及生产领域图像、视频、点云数据,营销场景语音、 文本等,根据标注任务的业务场景、标注样本或前期经验进行数据收集分析,数据收集需明确的要素包括但不限于类型、量级、数据涉密程度、工作量估算、用途及应用场景5.1.1 类型应明确标注数据类型如图像、音频、文本、视频等5.1.2 量级本次标注任务待标注数据的数量5.1.3 来源业务系统本次标注任务数据所产生的源业务系统,一般生产类数据来自电网管理平台相关应用系统,营销类 数据来自客户服务平台相关应用系统,例如变电站设备、表计读数图像来自变电站智能巡检系统、95598 语音数据来自 95598 智能客服系统等5.1.4 数据产生方式本次标注任务数据的产生方式,如客户来电录音、服务工单等5.1.5 数据文件命名规则本次标注任务数据文件的命名规律或规范说明。

5.1.6 数据保密程度应根据《数据资产管理办法》判定数据是否涉密5.1.7 用途确认标注结果将作为模型的测试集或训练集5.1.8 应用场景确认标注结果的应用场景如绝缘子的破损检测、施工人员人脸识别、设备仪表数值状态检测等5.1.9 标注领域应明确标注领域,如图片分类、语音识别、语音匹配等5.1.10 工作量估算根据标注数据的类型、量级、用途、标注任务人员来源、标注平台、标注组件等要素确定本次任务工作量5.2 电力业务数据整理在进行标注数据整理过程中,应明确数据与结果文件存放目录结构,在任务分配与回收的时候按指定的目录进行数据组织,数据的整理应体现业务需求,存放整理后有利于根据业务开展后续工作,例如生产域不同类型场景分别存放,同样场景一起存放数据整理应符合以下要求:(1) 文件夹及各级子目录名称首选简洁的拼音首字母组合标识2) 数据整理目录首选按照类别分类,简化目录级别3) 子目录等级最深不超过 4 级5.3 电力业务数据文件命名规则标注任务的数据文件及结果文件命名规则应符合以下要求:(1) 要标注的文件名称应简短(最长不能超过 32 个字符)且只能包含字母、数字、下划线、中间杠2) 待标注数据文件与结果文件命名应进行区分,数据文件应使用“data_”为前缀,结果文件应 使用“result_”为前缀。

3) 为避免出现标注数据重名,应在基础文件名后添加唯一标识码,标识码生成应按十进制顺序递增规则生成四位数或以上唯一标识码,如:000001、000002、000003 等等,标识码具体位数可根据文件数据量级进行增加6 标注环境及工具选用要求6.1 标注环境选择标准数据标注任务具有一定特殊性,部分企业内部数据具有较高保密要求,应根据《数据资产管理办法》规定对标注环境进行选择应根据标注数据不同涉密情况选择以下环境进行标注:(1) 涉密数据:标注工作应在可信任的企业内部环境或任务发布方指定的可信任外部环境下进行2) 非涉密数据:标注团队可根据具体情况选择标注环境6.2 标注工具选择标准在进行相关数据标注工作过程中,选择标注工具应符合安全性、易操作性、数据输入输出规范性、统一性以及合法性标准6.2.1 安全性应选用安全可信的标注工具进行标注工作,避免数据泄露造成安全事故6.2.2 易操作性标注工具应具有提高标注效率的功能,在减少标注人员工作量的同时确保标注质量6.2.3 数据输入输出规范性标注工具应支持导入及导出功能,可导入指定格式的数据可导出符合要求格式及质量要求的数据6.2.4 统一性标注工具应优先选用企业统一的人工智能平台提供的标注工具,若平。

下载提示
相似文档
正为您匹配相似的精品文档