大数据预处理之数据转换

上传人:m**** 文档编号:457957780 上传时间:2023-12-02 格式:DOCX 页数:3 大小:11.53KB
返回 下载 相关 举报
大数据预处理之数据转换_第1页
第1页 / 共3页
大数据预处理之数据转换_第2页
第2页 / 共3页
大数据预处理之数据转换_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《大数据预处理之数据转换》由会员分享,可在线阅读,更多相关《大数据预处理之数据转换(3页珍藏版)》请在金锄头文库上搜索。

1、大数据预处理之数据转换数据转换就是将数据进行转换或归并,从而构成一个适合数据处理的描述形式。数据转换包含以下处理内容。1)平滑处理帮助除去数据中的噪声,主要技术方法有Bin方法、聚类方法和回归方法。2)合计处理对数据进行总结或合计操作。例如,每天的数据经过合计操作可以获得每月或每年的总额。这一操作常用于构造数据立方或对数据进行多粒度的分析。3)数据泛化处理用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。例如,街道属性可以泛化到更高层次的概念,如城市、国家,数值型的属性,如年龄属性,可以映射到更高层次的概念,如年轻、中年和老年。4)规格化处理将有关属性数据按比例投射到特定的小范围之中。

2、例如,将工资收入属性值映射到0到1范围内。5)属性构造处理根据已有属性集构造新的属性,以帮助数据处理过程。卜面将着重介绍规格化处理和属性构造处理。规格化处理就是将一个属性取值范围投射到一个特定范围之内以消除数值型属性因大小不一而造成挖掘结果的偏差,常常用于神经网络、基于距离计算的最近邻分类和聚类挖掘的数据预处理。对于神经网络,采用规格化后的数据不仅有助于确保学习结果的正确性,而且也会帮助提高学习的效率。对于基于距离计算的挖掘,规格化方法可以帮助消除因属性取值范围不同而影响挖掘结果的公正性。下面介绍常用的3种规格化方法。最大最小规格化方法该方法对被初始数据进行一种线性转换。例如,假设属性的最大值

3、和最小值分别是98000元和12000元,利用最大最小规格化方法将顾客收入属性的值映射到01的范围内,则顾客收入”属性的值为73600元时,对应的转换结果如下。(73600-12000)/(98000-12000)*(1.0-0.0)+0=0.716计算公式的含义为(待转换属性值-属性最小值)/(属性最大值-属性最小值)*(映射区间最大值-映射区间最小值)+映射区间最小值。零均值规格化方法该方法是指根据一个属性的均值和方差来对该属性的值进行规格化。假定属性“顾客收入的均值和方差分别为54000元和16000元,则顾客收入属性的值为73600元时,对应的转换结果如下。(73600-54000)/

4、16000=1.225计算公式的含义为(待转换属性值-属性平均值)/属性方差。十基数变换规格化方法该方法通过移动属性值的小数位置来达到规格化的目的。所移动的小数位数取决于属性绝对值的最大值。假设属性的取值范围是-986917,则该属性绝对值的最大值为986。属性的值为435时,对应的转换结果如下。435/10人3=0.435计算公式的含义为“待转换属性值/10”,其中,j为能够使该属性绝对值的最大值(986)小于1的最小值。属性构造方法可以利用已有属性集构造出新的属性并将其加入到现有属性集合中以挖掘更深层次的模式知识,提高挖掘结果准确性。例如,根据宽、高属性,可以构造一个新属性(面积)构造合适的属性能够减少学习构造决策树时出现的碎块情况。此外,属性结合可以帮助发现所遗漏的属性间的相互联系,而这在数据挖掘过程中是十分重要的。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号