datapreprocess(数据预处理)

上传人:宝路 文档编号:48219395 上传时间:2018-07-11 格式:PPT 页数:29 大小:94.96KB
返回 下载 相关 举报
datapreprocess(数据预处理)_第1页
第1页 / 共29页
datapreprocess(数据预处理)_第2页
第2页 / 共29页
datapreprocess(数据预处理)_第3页
第3页 / 共29页
datapreprocess(数据预处理)_第4页
第4页 / 共29页
datapreprocess(数据预处理)_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《datapreprocess(数据预处理)》由会员分享,可在线阅读,更多相关《datapreprocess(数据预处理)(29页珍藏版)》请在金锄头文库上搜索。

1、数据预处理l为什么要预处理数据l 与现实世界有关 数据库太大,信息多而杂 数据易受噪声数据、空缺数据和不一致性数据 的侵扰数据预处理l提高数据质量,提高挖掘结果的质量l使挖掘过程更有效、更容易l如何预处理数据l一般的预处理方法数据清理、数据集成和变换、数据归约数据预处理l用于一些具体的web挖掘中的方法使用预处理:数据净化、用户识别、会话识别、 帧页面识别、路径补缺、事务识别等结构预处理:站点拓扑内容预处理:页面信息抽取、信息主观兴趣特征 定义数据预处理v一般的预处理方法v数据清理原因:现实世界的数据一般是脏的、不完整和不一致的 。功能:填充空缺值、识别孤立点、消除噪声、纠正数据 不一致。具体

2、实现:q空缺值q忽略元组 :除非元组有多个属性缺少值,否则该方法不是很 有效。 数据预处理q人工填写空缺值:费时,数据集大时可能行不通q使用一个全局常量填充空缺值:如Unknow或- q使用属性的平均值填充空缺值q使用与给定元组属同一类的所有样本的平均值q使用最有可能的值填充空缺值:利用回归、判定树归纳等方式 确定数据预处理q噪声数据噪声是一个测量变量中的随机错误或偏差噪声平滑技术:q分箱:例:原始数据为4,8,15,21,21,24,25,28,34划分为为(等深的)箱 箱14815 箱2212124 箱3252834数据预处理用箱的平均值值平滑 箱1999 箱2222222 箱329292

3、9用箱边边界平滑 箱14415 箱2212124 箱3252534划分为为(等深的 )箱 箱14815 箱2212124 箱3252834数据预处理l聚类:将类似的值组织成群或“聚类”,落在聚类集合 外的点被视为孤立点l计算机和人工检查结合:计算机根据信息度量理论等 进行初次筛选,将筛选结果交由人来复查l回归:通过让数据适合一个函数(如回归函数)来平 滑数据数据预处理q不一致数据对于有些事务,所记录的数据可能存在不一致。 有些数据不一致可以使用其他材料人工地更正。知识 工程工具也可以用来检测违反限制的数据。例如,知 道属性的函数依赖,可以查找违反函数依赖的值。数据预处理v数据集成 功能:将来自

4、不同数据源的数据整合成一致的数据存储。 元数据、相关分析、数据冲突检测和语义异种性的解 析都有助于数据集成。问题和解决办法: 问题1:模式集成来自多个信息源的现实世界的实体如何“匹配”?-实体识别问 题数据预处理例如:数据分析者或计算机如何才能确信一个数据库中的 customer_id和另一个数据库中的cust_number指的是同一个实体 ? 解决方法:利用数据库的元数据 - 一种关于数据的数据。这种元 数据可以帮助避免模式集成中的错误。问题2:冗余一个属性若能由另一个表导出,它便是冗余的。例如年薪。属性 或维命名的不一致也可能导致数据集中的冗余。 解决方法:可利用相关分析的方法检测冗余。

5、除了检测属性间的冗余外,“重复”也当在元组级进行检测。 所谓重复是指对于同一数据,存在两个或多个相同的元组。数据预处理问题3:数据值冲突的检测和处理对于现实世界的同一实体,来自不同数据源的属性值可能不 同。这可能是因为表示、比例或编码的不同。例如重量属性可能 在一个系统中以公制单位存放,而在另一个系统中以英制单位存 放。数据这种语义上的异种性,是数据集成的巨大挑战。数据预处理v数据变换将数据转换成适合挖掘的形式。q平滑:去掉数据中的噪声。这种技术包括分箱、聚类 和回归。q聚集:对数据进行汇总和聚集。例如可以聚集日销售 数据,计算年销售额。通常这一步用来为多粒度数据 分析构造数据立方体。数据预处

6、理q数据概化:使用概念分层,用高层次的概念替换低层 次的“原始”数据。如分类的属性street可以概化为较高 层的概念,如city或country。q规范化:将属性数据按比例缩放,使之落入一个小的 特定区间,如-1.0到1.0或0.0到1.0o最小-最大规范化:对原始数据进行线形变换。假定属性A的 最小和最大值分别为minA和maxA,计算数据预处理将A的值映射到区间new_minA,new_maxA中的vo z-score规范化:属性A的值基于A的平均值和标准差规范化,计算o小数定标规范化:通过移动属性A的小数点位置进行规范化,计算数据预处理q属性构造:由给定的属性构造和添加新的属性,以帮

7、助提高精度和对高维数据结构的理解。例如,我们可 能根据属性height和width添加属性area。通过组合属 性,属性构造可以发现关于数据属性间联系的丢失信 息,这对知识发现是有用的。v数据归约对数据处理的技术,如数据立方体聚集、维归约 、数据压缩、数值归约和离散化都可以用来得到数据 的归约表示,而使得信息内容的损失最小。数据预处理l数据立方体聚集:聚集操作用于数据立方体中的数据 。l维归约:通过删除不相关的属性(或)维减少数据量 。通常使用属性子集选择方法。属性子集选择方法: 目标:找出最小属性集,使得数据类的概率分布尽可能地 接近使用所有属性的原分布。 优点:减少了出现在发现模式上的属性

8、的数目,使得模式 更易于理解。数据预处理属性子集选择方法包括以下技术:l逐步向前选择:由空属性集开始,每次都选择原属性集中最好 的属性,将其添加到集合中。l逐步向后删除:由整个属性集开始,在每一步,删除掉尚在属 性集中的最坏属性。l向前选择和向后删除的结合:每一步选择一个最好的属性,并 在剩余属性中删除一个最坏的属性。l判定树归纳:用判定树算法选择“最好”的属性,将数据划分成 类。数据预处理l数据压缩有损压缩和无损压缩无损压缩的不足:只允许有限的数据操作。两种流行和有效的有损数据压缩方法:小波变换主要成分分析数据预处理l数值归约选择替代的、较小的数据表示形式来减少数据量。有参方法:回归和对数线

9、形模型 无参方法:直方图、聚类和选样数据预处理lSome methods used in web miningvStructure and Content PreprocessingPreprocessing the structure and content of a web site are inter-related tasks.The degree of difficulty in performing preprocessing is highly dependent on the technology used to create the Web site content.数据预处

10、理There are two major tasks associated with content and structure preprocessing - determining what constitutes a unique page file, and determining how to represent the content and structure or the page file in a quantifiable from.vUsage PreprocessingThe goal of usage preprocessing is to end up with a

11、 set of minable objects for a particular Web site(or set of sites).数据预处理The most common form of input is a Web server log in the CLF( Common Log Format) or ECLF( Extended Common Log Format ) format.However, usage data can also come from HTTP packet sniffers or application logs.lData CleaningTechniqu

12、es to clean a server log to eliminate irrelevant items are of importance for any type of Web log analysis, not just data mining.数据预处理lUser IdentificationUse cookiesUse log/site recordEach IP represent a user groupIf the IP address is the same ,make each different agent type for an IP address represe

13、nt a different user.lSession IdentificationGoal: to divide the page accesses of each user into individual session.数据预处理Methods: use a timeout ,if the time between page requests exceeds a certain limit, it is assumed that the user is starting a new session.lPath CompletionIf a page request is made th

14、at is not directly linked to the last page a user requested, the referrer log can be checked to see what page the request came for.数据预处理For example: assume a sequence of a session is A-B-C-D, if neither B or C can reach D, but A can , the complete path will be A-B-C-B-A-D.lPage View IdentificationPa

15、ge view identification relies heavily on the results of the structure and content preprocessing for the site.数据预处理The page view identification step determines which page file requests part of the same page view and what content was served.The first part this step is to identify the content served by

16、 each page file request in a session.The second part of page view identification is determining which page files make up each page view. (use some algorithm)数据预处理The page view identification step can find errors or anomalies in a Web site by identifying sessions with incomplete page views.lTransaction IdentificationGoal: to create meaningful clusters of references for each user.Task: dividing a large transaction into multi

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号