数据挖掘概念与技术chapter1-引言

上传人:ji****n 文档编号:54946118 上传时间:2018-09-22 格式:PPT 页数:60 大小:1.41MB
返回 下载 相关 举报
数据挖掘概念与技术chapter1-引言_第1页
第1页 / 共60页
数据挖掘概念与技术chapter1-引言_第2页
第2页 / 共60页
数据挖掘概念与技术chapter1-引言_第3页
第3页 / 共60页
数据挖掘概念与技术chapter1-引言_第4页
第4页 / 共60页
数据挖掘概念与技术chapter1-引言_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《数据挖掘概念与技术chapter1-引言》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术chapter1-引言(60页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘:概念与技术,Jiawei Han and Micheline Kamber著 Monrgan Kaufmann Publishers Inc. 范明 孟小峰等译 机械工业出版社,教师: 杨昆 办公室:一教南楼517 毕业:哈尔滨工业大学 计算机系 老师邮箱: Telephone: 86878578 计算机应用技术研究所 杭州电子科技大学,基本信息,基本信息,研究方向: 计算生物学、生物信息学(Bioinforamtics) 项目: 样本不平衡的基因表达数据的分析方法研究 (Y1080973) 浙江省自然科学基金DNA甲基化异常的分析与预测(60903086) 国家自然科学青年基金,4

2、,Bioinforamtics 生物信息学,杨昆 计算机应用技术研究所 杭州电子科技大学,5,教材-作者,http:/www.cs.illinois.edu/homes/hanj/ The book will be covered in two courses at CS, UIUC:伊利诺伊大学,厄巴纳-尚佩恩(University of Illinois at Urbana-Champaign) CS412: Introduction to data warehousing and data mining Coverage (Chapters 1-7 of This Book) CS512

3、: Data mining: Principles and algorithms (Chapters 8-11 of This Book),6,Data and Information Systems (DAIS:) Course Structures at CS/UIUC,Coverage: Database, data mining, text information systems and bioinformatics Data mining Intro. to data warehousing and mining (CS412: HanFall) Data mining: Princ

4、iples and algorithms (CS512: HanSpring) Seminar: Advanced Topics in Data mining (CS591HanFall and Spring. 1 credit unit) Independent Study: only if you seriously plan to do your Ph.D. on data mining and try to demonstrate your ability Database Systems: Database mgmt systems (CS411: Kevin Chang Fall

5、and Spring) Advanced database systems (CS511: Kevin Chang Fall) Text information systems Text information system (CS410 ChengXiang Zhai)Bioinformatics Introduction to BioInformatics (Saurabh Sinha) CS591 Seminar on Bioinformatics (Sinha, Zhai, Han, Schatz, Zhong),7,课程信息,数据挖掘的(前7章的内容), 第1章 引言 第2章 数据预

6、处理 第3章 数据仓库与OLAP技术概述 第4章 数据立方体计算与数据泛化 第5章 挖掘频繁模式、关联和相关 第6章 分类和预测 第7章 聚类分析 如果有时间(第11章 数据挖掘的应用和发展趋势) 导论课程(从数据库角度出发) 相关涉及:数据库系统、统计学与机器学习的概念和技术,8,课时安排与考核,课时安排 总学时 48,讲课学时 36,课内上机学时 12(课外上机学时 20)起止01-16周 考核 平时成绩+考试成绩,9,第1章 引论,动机:为什么要数据挖掘? 什么是数据挖掘? 数据挖掘:在什么数据上进行? 数据挖掘功能 所有的模式都是有趣的吗? 数据挖掘系统分类 数据挖掘的主要问题,10,

7、数据处理技术的演进,1960s: 数据收集, 数据库创建, IMS层次和网状 DBMS 1970s: 关系数据库模型, 关系 DBMS 实现 1980s: RDBMS, 先进的数据模型 (扩充关系的, OO, 演绎的, 等.) 和面向应用 的 DBMS (空间的, 科学的, 工程的, 等.) 1990s2000s: 数据挖掘和数据仓库, 多媒体数据库, 和 Web 数据库,11,12,动机: 需要是发明之母,数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库, 数据仓库, 和其它信息存储中 Business: Web, e-commerce, transactions,

8、 stocks, Science: Remote sensing, bioinformatics, scientific simulation, Society and everyone: news, digital cameras, YouTube 我们正被数据淹没,但却缺乏知识 数据丰富,但信息贫乏 解决办法: 数据仓库与数据挖掘 数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则, 规律性, 模式, 限制等),13,数据挖掘界简史,1989 IJCAI Workshop on Knowledge Discovery in Databases (Piatetsky

9、-Shapiro) Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 International Conferences on K

10、nowledge Discovery in Databases and Data Mining (KDD95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2001 conferences, and SIGKDD Explorations More conferences on data mining PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, etc. ACM Transactions on KDD starting in

11、2007,14,Conferences and Journals on Data Mining,KDD Conferences ACM SIGKDD Int. Conf. on Knowledge Discovery in Databases and Data Mining (KDD) SIAM Data Mining Conf. (SDM) (IEEE) Int. Conf. on Data Mining (ICDM) Conf. on Principles and practices of Knowledge Discovery and Data Mining (PKDD) Pacific

12、-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD),Other related conferences ACM SIGMOD VLDB (IEEE) ICDE WWW, SIGIR ICML, CVPR, NIPS Journals Data Mining and Knowledge Discovery (DAMI or DMKD) IEEE Trans. On Knowledge and Data Eng. (TKDE) KDD Explorations ACM Trans. on KDD,15,Where 2 Find Re

13、ferences? DBLP, CiteSeer, Google,Data mining and KDD (SIGKDD: CDROM) Conferences: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, etc. Journal: Data Mining and Knowledge Discovery, KDD Explorations, ACM TKDD Database systems (SIGMOD: ACM SIGMOD AnthologyCD ROM) Conferences: ACM-SIGMOD, ACM-PODS, VLDB,

14、IEEE-ICDE, EDBT, ICDT, DASFAA Journals: IEEE-TKDE, ACM-TODS/TOIS, JIIS, J. ACM, VLDB J., Info. Sys., etc. AI & Machine Learning Conferences: Machine learning (ML), AAAI, IJCAI, COLT (Learning Theory), CVPR, NIPS, etc. Journals: Machine Learning, Artificial Intelligence, Knowledge and Information Sys

15、tems, IEEE-PAMI, etc. Web and IR Conferences: SIGIR, WWW, CIKM, etc. Journals: WWW: Internet and Web Information Systems, Statistics Conferences: Joint Stat. Meeting, etc. Journals: Annals of statistics, etc. Visualization Conference proceedings: CHI, ACM-SIGGraph, etc. Journals: IEEE Trans. visuali

16、zation and computer graphics, etc.,16,什么是数据挖掘?,数据挖掘 (从数据中挖掘知识): 从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的 并且是潜在有用的) 信息或模式 数据挖掘: 用词不当? 其它叫法和“inside stories”内幕新闻 : 数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD), 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology), 数据捕捞(data dredging), 信息收获(information harvesting), 商务智能(business intelligence), 等. 什么不是数据挖掘? (演绎) 查询处理. 专家系统 或小型 机器学习(ML)/统计程序 处理大量数据/ 有效的可伸缩的技术,Why Not Traditional Data Analysis?,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 初中教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号