WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据)

上传人:工**** 文档编号:509195376 上传时间:2023-01-06 格式:DOCX 页数:5 大小:53.27KB
返回 下载 相关 举报
WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据)_第1页
第1页 / 共5页
WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据)_第2页
第2页 / 共5页
WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据)_第3页
第3页 / 共5页
WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据)_第4页
第4页 / 共5页
WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据)_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据)》由会员分享,可在线阅读,更多相关《WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据)(5页珍藏版)》请在金锄头文库上搜索。

1、WEKA对wisconsin-breast-cancer数据挖掘分析报告数据集实验采用UCI数据集中的Wisconsin医学院的William H.Wolberg博士提供的乳 腺 癌的数 据样本 (http:/archive.ics.uci.edu/ml/machineTearning- databases/breast-cancer-wisconsin/)。所有数据来自真实临床案例,每个案例有10 个属性。其中前九个属性是检测指标,每个属性值用1到10的整数表示,1表示检测 指标最正常,10表示最不正常。第十个属性是分类属性,指示该肿瘤是否为恶性。数据 集中的肿瘤性质是通过活检得出的结果。肿

2、块厚度细胞大小的均匀性细胞形状的均匀性 边缘粘性单上皮细胞的大小裸核乏味染色体正常核有丝分裂肿瘤性质 该数据集共有669个实例。Clump_Thickness integer 1,10Cell_Size_Uniformity integer 1,10Cell_Shape_Uniformity integer 1,10Marginal_Adhesion integer 1,10Single_Epi_Cell_Size integer 1,10Bare_Nuclei integer 1,10Bland_Chromatin integer 1,10Normal_Nucleoli integer 1,

3、10Mitoses integer 1,10Class benign, malignant本次实验对以上数据集进行了分类、聚类、关联规则三部分操作,以熟悉weka软 件的操作使用,并尝试挖掘数据中的实际价值。分类中,尝试用前九个属性值来预测肿 瘤的性质(良性、恶性);聚类中,寻找各个簇病人(尤其是恶性肿瘤病人)的显著特 征,可用来辅助制定针对性治疗计划;关联规则的探索,寻找不同属性值之间的相关性。二、分类1. 数据预处理将Wisconsin-breast-cancer数据集分割为两个,分别作为train set (469个)和test set (200 个)。2. 实验过程用j48分类树对tr

4、ain set进行分类运算,结果如下:Cl uaiLx Outpube 1.口口 isci 匚rK3.ci.i rac=C&CE-GCT:ly!1C lc-d 工lbs 匚4 8012E.LQ24Hnun =* ut: 1 y CLa a1 f 1-heL 工*LflS.BOTE1Efappa statl 5T1O:。打EE4Ro-z-t DH*n 3flicco-Era. i e 4 eFeabs口LLtbe erro-rL4,31B7Bjaor ielarlveerr口工3asassJo-ral WLinl:亡三 of In.9T:an.ces,1*ecIEly _.巴 9=7P RAra

5、ELar-BP 细亡11F-M4a.sur4RDC JlmnCl SiSa:.AST口-口3D.-9B口 . D37d.口 -”T6寻7Db9S3a .977口石丘0-i77Confajicn Itit-riKa b-c izl&asLf led as3-S1 L3 | bvraLijn.C 191 It = unLLTnariD结果表明,模型分类的准确率达到了 96%。Confusion Matrix表明有13例良性肿瘤 被错位的归类为恶性(4.5%);有6例恶性肿瘤被错误的归类为良性(3.1%)。将以上模型应用于test set以检验预测准确率,运行结果如下:CLu-sifiuf 口口iL

6、it=Evaluation 口 n test a-stA=吕ma如工丫 =CDE-recrly Classified Io=icaj3.cea19E954InDorreurLy Claaslfl-ed Instances2iKappai 匚DMean aiz-EDLuLe tira-E-D0291ELQQt mean aqiiEred =rroz-aeLariVr! iabJcLuie r:ror6.5359Root relffitiv?! squalid erroi21r3S21电T-atal Ksmb-ez sf I31 aace?20D= De tai Led 上匸匸 uca 匚# By

7、 Cltaja =rP Rote FP RatePreciaRecallF-MecijutcROC Are-aClfll3 3a.93701OuSa?0.994a .997ioaai30,5-57iDr?7Sd r 557TTWllflnarLtW=igh.b=日 Avg.0.990.0D30.99ELMa. as?= CcKifusioa HatrixabC-classified1542Ia= benlgti0丽Ib- malignanT结果表明,预测准确率达到了 99%。Confusion Matrix表示有2例良性肿瘤被错误 的归类为恶性(1.3%);而恶性肿瘤均被正确分类。3.结果分析

8、=7勺丁=3匕翠首先,通过检验,j48方法通过训练集生成的决策树对肿瘤性质的预测准确率可以 稳定在较高水平,因此可以将此模型用于临床诊断。这对于因医疗条件不佳而不能进行 活检或病灶位置不易进行活检的病人来说具有较高的实用价值。其次,从分类树可以看出,肿瘤性质与“细胞大小均匀性”“裸核”属性的关联度较 高;而“细胞形状均匀性”“边缘粘性”“单上皮细胞大小”“乏味染色体”“有丝分 裂”对肿瘤良、恶性的诊断几乎没有参考意义。这表明在日常诊断中,若受医疗条件和 治疗时机的制约,可以适当减少检测指标,根据预测结果尽早采取治疗措施。最后,通过对Confusion Matrix的分析可知,该模型存在两类错误

9、:将良性误诊为 恶性、将恶性误诊为良性。这两类错误都是应该极力避免的,第一类错误可能导致病人 情绪低落、不配合治疗,最终导致病情恶化;第二类错误可能导致治疗方案的错误,过 于激进的治疗可能适得其反。很难评判这两类错误哪种更为严重,但模型的结果表明, 犯第二类错误的概率较低,特别在测试集中,准确率达到了100%。三、聚类1. 数据预处理由于聚类中对于离散属性将显示其众数,不利于了解数值结构,所以将Class属性类 型由Nominal转换为Numeric。用0表示benign,即良性;1表示malignant,即恶性。这 样各个簇中的数值越接近1,表明该簇中恶性肿瘤比例越高。2. 实验过程用Sim

10、plekMeans算法,设置参数numClusters=5, seed=50进行聚类运算,得到结果 如下:Nuxioer IveraLlansi 22WLchla cluaMit aim of ssjuaMd errorss 193,5S3850 9B52088 MLsslng valutarrplactd with mtan/TiDdeCluster ee-ntcsi-ds eCLuirP-TJilcJmsasCel L_S l ztnltcizinL 匚主, Ce L L_Sh.npe-_ITn.if Dimity 赳二 g jjHiak L_JL-ah-5iciiS Lnal_Eci_C

11、*ll_S i ze Bare:TuslelBL and_jCJiraffia cln Norirai_Nucl coll HLED3ESCLSJ3SS17)(25311LO)LSD,41775,05864,0871,24477,15457.2234.3S291-27271.12234.4SLSS.323221741.4191.21284.79-06*60694x17651*3430i.iaes4-3455-55733*3152*035Glu97313-66364.5036 5-9475251.2495!. 3L537 9D5匚.33244.11752,04351,9947,5455,3313Z.Sfi-75.41LB1-18131,06333,77Z71133.5S94L.1TS5L. 2771.1OLL1.77273.274S.340QQ11FllLL Data0143Tlie talreri w build modslfull training tLatn)DrOa aecQnenigri 402 Ei

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号