资源描述
工业互联网标识数据处理 预处理规程
目 次
1 范围 .............................................................................. 2
2 规范性引用文件 2
3 术语和定义 2
4 缩 略语 3
5 工业互联网标识数据预处理 3
5.1 预处理的目的及效果 3
5.2 预处理步骤的分类 4
5.3 数据发现 4
5.4 数据验证 4
5.5 数据结构化 4
5,6 数据充实 4
5.7 数据过滤 5
5.8 数据清洗 5
I
1
工业互联网标识数据处理 预处理规程
1 范 围
本文件规定了工业互联网标识数据的预处理过程和规程。
本文件适用于各工业互联网标识数据的预处理流程的设计、改进与应用。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
工业互联网数据 Industrial Internet data:
工业互联网数据是指在工业互联网应用中所产生的数据,是工业互联网的核心.从数据类型上主要包括设备数据、应用系统数据、企业数据、知识库数据和用户个人数据等,覆盖工业数据全生命周期。
工业大数据 industrial big data:
将标识符翻译成与其相关联的信息的过程。
在工业活动过程中产生的具有体量巨大、来源多样、生成极快、多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。
时间序列标识 time series identifier:
在一个系统中表征特定时间序列数据的唯一标识符。
时间戳 time stamp:
对时间和其他待签名数据进行签名得到的,用于表明数据时间属性的数据。
[来源:GB/T 25069-2022,3.541]
时间序列数据 time series data:
在多个时间点观察或测量的并按照时间排列的一组数据。
时间序列数据元数据 metadata for time series data: 描述时间序列数据类型、格式等属性信息的数据。
数据预处理 data preprocessing:
5
在对所采集的原始工业数据进行研究、处理等相关操作前,对原始数据进行的如数据清洗、数据集成、数据规约、数据变换等预操作。
4 缩略语
下列缩略语适用于本文件。本文件没有缩略语。
5 工业互联网标识数据预处理
5.1 预处理的目的及效果
工业互联网标识数据的原始数据在许多不同场景下采集:日志、传感器输出、政府数据、医学研究数据、气候数据、地理空间数据等。完成采集的数据通过许多不同的方式存储,如不同的文件系统或在线数据仓库。
在典型的场景中,来自各种来源的原始数据没有任何标准化的格式或结构,也没有特定的目标用例。因此,原始数据中可能会出现数据格式上、内容上或其它方面的诸多错误,如包含无效字符,使用不同的编码,缺少必要的属性列,包含不需要的行,存在缺失值,不遵循合法的数据结构和模式等等。为了修正或消除上述各类在原始数据采集过程中可能存在的数据质量问题,需要在正式对数据进行操作前 对其进行预处理。
因此,作为整个数据分析及处理流水线中的非常靠前的步骤,数据预处理流程对原始数据进行的结构级和语法级的数据转换,有助于提高数据的可用性、可读性、可解释性、改进数据质量并为后续的数据 操作及分析步骤提供便利。
图 1 数据预处理流程的目的
5.2 预处理步骤的分类
数据预处理不是一个单一步骤的过程。相反,它通常由许多单独的准备步骤组成。工业互联网标识数据的预处理规程可分为六个更广泛的类别:
l 数据发现
l 数据验证
l 数据结构化
l 数据充实
l 数据过滤
l 数据清洗
5.3 数据发现
数据发现是分析和整合采集自不同来源的数据的过程。由于存储各工业数据的不同数据库可能存在相同字段具有不同的名字的情况,或所包含字段重复、确实、冲突的情况,因此数据发现过程可以消除这些数据中存在的不一致和冗余。
常见的数据发现过程包括:
l 匹配数据模式
l 寻找缺失的数据
l 定位离群点
5.4 数据验证
数据验证是依据预设置的规则和约束对原始数据进行检查的过程。常见的数据验证过程包括:
l 依据正确性规则进行数据验证
l 依据完整性规则进行数据验证
l 依据其他数据质量约束规则进行数据验证
5.5 数据结构化
数据结构化包括创建、表示和构造信息的任务。常见的数据结构化过程包括:
l 更新模式
l 检测及更改编码
l 根据预定义的数据结构及格式转换数据
5,6 数据充实
数据充实是为采集自不同来源的原始数据增加或补充信息的过程。常见的数据充实过程包括:
l 使用默认值进行数据充实
l 使用平均值进行数据充实
l 使用回归方法所得的预测值进行数据充实
l 使用极大似然估计法所得的预测值进行数据充实
5.7 数据过滤
数据过滤生成所考虑的数据的子集,便于人工检查和删除不规则的数据行或值。常见的数据过滤包括:
l 提取部分文本
l 保留或删除过滤后的行
5.8 数据清洗
数据清洗指的是将原始数据中不精确或不准确的数据值删除、添加或替换为更合适、更准确或更有代表性的值。
常见的数据清洗包括:
l 重复数据删除
l 缺失值的填充
l 无意义空值的删除
展开阅读全文
温馨提示:
金锄头文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
相关搜索