数据预处理一、实验原理预处理方法基本方法1、数据清洗去掉噪声和无关数据2、数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储中3、数据变换把原始数据转换成为适合数据挖掘的形式4、数据归约主要方法包括: 数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等二、实验目的掌握数据预处理的基本方法三、实验内容1、 R语言初步认识(掌握R程序运行环境)2、 实验数据预处理掌握R语言中数据预处理的使用)对给定的测试用例数据集,进行以下操作1) 、加载程序,熟悉各按钮的功能2) 、熟悉各函数的功能,运行程序,并对程序进行分析对餐饮销量数据进统计量分析,求销量数据均值、中位数、极差、标准差,变异系数和四分位数间距对餐饮企业菜品的盈利贡献度(即菜品盈利帕累托分析),画出帕累托图3) 数据预处理缺省值的处理:用均值替换、回归查补和多重查补对缺省值进行处理对连续属性离散化:用等频、等宽等方法对数据进行离散化处理四、实验步骤1、R语言运行环境的安装配置和简单使用( 1 ) 安装 R 语言R语言下载安装包,然后进行默认安装,然后安装RStudio工具(2) R 语言控制台的使用1.2.1 查看帮助文档> 耐 Jj4rilh J.-I J: -■ "SUH a FM •*tEin=L事皑 g S£L1 Im. F. E:d>UUZ£. ^3E 2:*:^JI:3»L 3BpLXfl i■用妁",卄 i3U-Hii宵酯业工LX出:K占曲片临.■ -33 = .U*f|- A •玄勺船■»■■■ AHI牛咅n>H4f. ***AA±«k!7f!M.*Ia—.・—冃应吐 .日・4- ■■晝■一•云貝忖£. 4 -W3.J苞远章客・41占鷲鼻.|£■i ■Eiai|..AiAlc ii -Jld^nK.:H .JS-qii -dl±K.Wt-xfE?' HAReJ- H'S^S 皀if 畐■■■i«i/I131 .1-3. 11ICMZJJui'kMCi.■■.■!«■■a; y R. E?ii f« n2 Oafa Xu"u ILbd^ui*n Qi^iiuT*E»XHnEHQjfXiBH.曲 LjiXa*aLUI iLhE*rh hLlmHKAwiw^ Rcwjt帰Tw*r1.2.2安装软件包> instil 1・FEcktgjea |,nim«t") f--芒归埋锻陪段时诸诜乏知的谨子—试幵URIZhfttpN; //eland B x-pro jec七 u arg,/bin/-wi.ndowa5/co£itz:ih-/3 u 4/n_n.«t_7.3-15 Content type 1 as>plicaclan/' lenijch 13^917 b^res LL31 KB)rLawnlaaderi 131 KB程序包Fm:■■寸开成功:M珀和撞空也通辻下载的二进规程乎包在3: e rs\ 亠m'. ippUa二a",二acaiL Tenp\ Rcmp^eS 3oK\doHnlc ade tl 匚 m akay1.2.3进行简单的数据操作> a<-c|lF5^r6|> sort |c)[1] 1 1 S 6> mean|a)[1]咗> mix |a)>::]63) RStudio 简单使用1.3.1 RStudio 中进行简单的数据处理a 1+2:1] 3> a sum(a)[1J b> 5Cirt(aj[11 1 2 21.3.2RStudio 中进行简单的数据处理Fie Edit Code View Plots Session Build Debug Profile Tools HelpBq 2.rQ Source on Sa^f # *—► Run i ij* Sciurce 丁1祖谟蛊二作空间2set irtid C d: /dme x/ e xl/t es t,p);3卓埶ta筒单处理4声魏馨喘值5*<-£(3.5.2,1):6家对救拒排序|G ?sort的d救搦拝帛> sort Ca);[1]二 2 12、 R 语言中数据预处理1)加载程序,熟悉各按钮的功能。
> carCccrdiraC.lsii]^i.aooaooaoa0.OO92OS0O9 D. D1C799J2B 0_45553BlLfi5百督苗匹風爪 S-hlf^BEK itflM汁邛卷昏 乐11購牛超主滋•工住音砖卜特#.'4.S.»FSL-D. 30^89^5-310.204 9979404.12744 &24$-0-0302 7^54.4fl.425315253裝更坯香as覆 test汁些uw 5:.ei*E &:■+*«& a.d(»2O5^3 1.0000000000. 304414107-0.8312279359U|L-D. 1-5D44C245D-D.az^oaaufl0 O62UM2a.27DZ763Za0.020462147D. IFlti7^933 0. 3CUdU17 L. OODODCaD0.03 51^4 60HA -0.1B42BSF3 D. 157271550a 12154 U J 0-0778&511 D. Q2flD7417Q.4S&63317 -0.0122793* 0. D1^134«l l-oacofloacHiD. 32M«5172 0.29760187 -o MftsetiJ -0-03022205fl.4210773S主聖黑心Pi衍曲KER nA n.m氓49弓丹 Mi -0.lKu.dC3t mA -0.14425973HA0. H54 fi!72Ni1. QMDODOa0. 36576749 0 G3ft2 3ML6 0.&i9S9M& 0.1223677®書百韭工復香術易卜悍匡汁厝Bt罢赴0.2D4 847&4-fr.O3t9Ci£ll4O.1-B727155a.jfljfifliazIMA0. 3*97-B~43l.a&Dooa&D0上的昭KWa.157357550. 5E7311!Kia.i274+-B25:CL如29廟出5 □ . 121^4 34^ -0-MA&5&I3N.A □ .0^52^31$ a. 00554 10D l^MQOOMO 0-17HH3W3-O.Q3a2755:5Ob370276J?0.077^0411-fl. Q3O222D5M|L a.O4!M!3WD O.157S57E5 0-.17S3J56J 1. DDDDC4D0 O.DSaQ-B02 20. 42831526 0 02046315 0.02907437 D.421S77S5M£ a.LZ23Br79 0-557131^0 0. 的D. DS9B50221-DOOOaDOO2)熟悉各函数的功能,运行程序,并对程序进行分析2.2.1 销量中位数、极差、标准差,变异系数和四分位数间距。
■俪毁雷&ii-aaldi r^iii.uwi; ril»B_! -fd^tail ^Ei«ttrltK|_kiil¥_Hll .imv,',hi ai>ir 11 ^KLM «£ir«^in«7lOiI 4ni|rt_-HH4>Na»HR - ri .m - T)5tri_ SVtlMir.: MlfS .ni .I'W ・ THMWUrinFi_-讲・_ f ■■*■_q1sV«wti Bvf 1*101 rt-ZS-^nii-rvi ■ T)qt fvwti Ev( 1*101 r4_ FE-^nii-m * T)码兮位MJ®aisurwA Ria q i亠>Hg*_,.-ec«_ rv^i-iL,qz:,di-Eiinc« |, i ^yr^u - r pwhiiws忖"刽j申栓営虫异系處l j卅号屉打畸怕(r 也井减阳asnTnnHir^i> mi'Jjiljnfc.- sW_ / w?*b_>袒盼潴> q1"f qJ"fua/l:i lv( caIvr., A.TG ,n*. m " TJ>观&住斷庭、daatin - i-B-中也檢”十爭垂-「韦帖”匸疫畀瘙昭~ J*时饭卽广s廿也fir「3卄曲曲6|距-F>戸“口卄[1J V 1-ii 丸 1 帕丼 IL丹I佃蛤 * TU «,2.2.2 对餐饮企业菜品的盈利贡献度(即菜品盈利帕累托分析),画出帕累托图。
s-r- ra? < i. i* i:■irarAilj0-llfeM^-i■Fw Irr IwjI*■m I I, III I I 117 G lb 3.191 I2WI 円右・l +1钿視E■*+*<. -M I lif Is_w m・ son- £T sn.o'y・-s no ro s r- s "0 E _»3)数据预处理缺省值的处理:用均值替换、回归查补和多重查补对缺省值进行处理对连续属性离散化:用等频、等宽等方法对数据进行离散化处理五、实验结果按照实验步骤对餐饮销量数据进统计量分析,求出了销量数据均值、中位数、极差、标准差, 变异系数和四分位数间距,并在上述报告中用表格显示出来;得到了餐饮企业菜品的盈利贡 献度(即菜品盈利帕累托分析);最后进行数据预处理BU i i 玛・・.皆 ■.»!軋皆 >.HI P.taA k*a- ■BIB I ■:m i i.nqi i d i d d h + i-...11. [I.n^ J- R » I H H >h I h -i ...oi g 13 |j 14I ,91,-ri.aiM 产峠再申J聖■ |1 叮六、思考与分析1、 异常值的存在会对挖掘结果带来什么样的不良影响?答:在实验中,由于测量产生误差,从而导致个别数据出现异常,往往导致结果产生 较大的误差,即出现数据的异常•而异常数据的出现会掩盖实验数据的变化规律,以致使研究对象变化规律 异常,得出错误结论。
2、 为什么需要对数据进行规范化?答:规范化目的是使结构更合理,消除存储异常,使数据冗余尽量小,便于插入、删 除和更新。