数据挖掘与统计决策--学科概述聚类分析因子分析

资源描述

《数据挖掘与统计决策--学科概述聚类分析因子分析》由会员分享，可在线阅读，更多相关《数据挖掘与统计决策--学科概述聚类分析因子分析（144页珍藏版）》请在金锄头文库上搜索。

1、,课程名称：数据挖掘与统计决策教师：廖芹 Email : ,课程简介,参考教材和资料：,1、数据挖掘与数学建模, 廖芹,郝志峰编著,国防工业出版社,2010年2月,2、大数据分析：方法与应用，,王星等编著，清华大学出版社,3、数据挖掘教程，郭崇慧等翻译，清华大学出版社,4、数据挖掘软件Clementine11.0的教学资料（word形式、视频形式）。,3、神经网络模型建立及应用,二、数据挖掘方法及原理,5、关联分析分类/时序关联及应用,6、遗传算法的优化控制及应用,2、主成分/因子分析的变量提取及应用,4、决策树分类推理及应用,教学提纲,一、数据挖掘学科概述,三、数据挖掘方法应用案

2、例分析,1、聚类分析的数据特征发现及应用,4、神经网络：模仿大脑神经功能和结构而建立的一种信息处理与建模的分类或预测方法。,1、聚类分析：根据对象的属性，以对象的相似性进行度量，把对象归类,使类间相似性尽量少,类内相似性尽量大的一种分类方法。,6、关联分析：对多个数据项（研究对象）同时或时序出现的规律知识模式进行分析的方法。,7、遗传算法：一种基于生物自然选择与遗传机理（优胜劣汰）的寻求满意解的算法。,3、回归/逻辑回归分析：基于一组相关数据建立自变量与因变量的确定性关系，并以此研究统计意义下实变量与随机变量的不确定性关系的方法。,2、主成分/因子分析：对多维变量进行降维，以选择适合建模变

3、量的方法。,5、决策树：通过原因对结果影响程度的树结构分析，提取原因判别结果的规则方法。,教学内容,教学安排,教学要求（3学分，48学时）: 笔试（闭卷考试）占70%，作业及考勤占30%.,课程设计（ 2学分，2周）：数据挖掘方法软件的设计、应用及实践,教学安排,作业题：借助数据挖掘软件Clementine（12.0），对上市公司股票的财务数据进行数据挖掘，建立“证券收益的预测、分类与控制”。分为五个作业： 1、聚类分析；2、主成分/因子分析；3、神经网络；决策树分析；关联分析。,作业要求：按课程进度上交相应的作业，作业word文件表示，内容包括： 1、数据处理与分析； 2、数学建模过程

4、论述； 3、 Clementine（12.0）辅助过程（选项描述、参数选择、数据项属性设置等，附界面）； 4、 Clementine（12.0）辅助结果分析（结果图形表示、结果数据分析）。,教学安排,课程设计题目：遗传优化与神经网络结合在统计决策支持的应用设计（包括输入、建模、决策、输出相应页面及功能设计），题目待定,课程设计要求： 1、以2-5人为一小组在上述七个方法中选一题进行设计并编程实现； 2、上交的课程设计报告用A4纸（不少于10页）打印，并附课程设计报告的word文件、可运行的遗传程序光盘。期末课程考试时上交。,一、数据挖掘学科概述,数据挖掘定义（Data Mining,简记DM）

5、对数据库中潜在的、不明显的数据关系进行分析与建模的算法。,一、数据挖掘学科概述,1、信息化发展与数据挖掘,五十年代初 : 产生数据处理系统(Data Processing Systems, 简记DPS) 或电子数据处理系统 (Electronic Data Processing Systems, 简记EDP),七十年代初: 产生MIS；七十年代末: 产生DSS,八十年代中: 产生专家系统(ES)、智能决策支持系统(IDSS)、智能管理系统(IMS),九十年代中：产生综合决策支持系统（Synthetic Decision Supporting Systems，简记SDSS，SDSS= IDSS

6、+数据仓库+数据挖掘。,1、企业信息化建设：各类管理信息系统、决策支持系统等，如MRP（Material Requirements Planning,物料需求计划系统）、MRPII（Manufacturing Resource Planning,制造资源计划系统）、ERP（Enterprise Resource Planning,企业资源计划系统）、ERPII（协同商务与智能商务的ERP）。,2、电子商务建设：信息流、资金流、物流、商务智能、协同商务的模式与技术。,3、电子政务建设：利用互联网实现法律、法规、政策等的宣传、引导和监控。,4、教育信息化建设：利用计算机和网络技术实现教学方法改革和

7、教育资源共享，如网络课程、网络试题库、网络资源库等。,一、数据挖掘学科概述信息化发展与数据挖掘,当前研究热点：1）大数据“科学、工程、技术与应用”2）信息资源的云集成,一、数据挖掘学科概述信息化发展与数据挖掘,数据输入,信息输出,数据处理,数据模型数学模型,数据存储,信息化发展需要解决的问题：如何在海量数据中，获取有价值的决策信息？获取过程需要应用哪些大数据处理的方法？应用那些模型？,一、数据挖掘学科概述信息化发展与数据挖掘,管理信息系统定义( Management Information Systems，简记MIS）MIS是一种集成化的人机系统. 它能为组织机构的作业, 管理和决策职能提供

8、信息支持.,信息系统“MRP、MRPII、ERP、ERPII”特点,主生产计划,物料需求计划,能力需求计划,销售管理,采购管理,库存管理,生产管理,财务管理,人事管理,质量管理,信息管理,供应链管理,客户管理,协同商务,商务智能,管理,注：BOM即 Bill of Meterial,物料清单，一种产品组成结构的树型表示。供应链管理即SCM系统，客户管理，即CRM系统（客户关系管理系统）。,一、数据挖掘学科概述信息化发展与数据挖掘,一、数据挖掘学科概述信息化发展与数据挖掘,决策支持系统定义(Decision Supporting Systems,简记DSS）指能够综合利用各种数据、信息知识、

9、人工智能和模型技术, 辅助高级决策者解决半结构化或非结构化决策问题的人机交互信息系统.,1、数据仓库（ Data Warehouse，简记DW ）：是一种管理技术，旨在通过通畅、合理、全面的信息管理达到有效的决策支持。,一、数据挖掘学科概述信息化发展与数据挖掘,支持数据仓库的两种必要数据处理功能：1）OLAP（在线分析处理）：针对确定的数据关系建立数据模型，包括切片、切块、钻取、旋转等多维数据模型。2）数据挖掘（DM）：针对潜在的、不明显的数据关系建立数据模型辅助决策。,结构化决策: 指能建立适当的模型产生决策方案,并能从多个方案中得到问题解的、可程序化的决策。,非结构化决策: 指不易用确

10、定的数学模型来描述其决策过程,只能得到一定假设条件下问题近似解的、通过规则推理可转换为程序化的决策.,结构化决策问题之一：在已知成本的条件下，求使利润最大的销量与售价。非结构化决策问题之一：确定最优的销售策略。,一、数据挖掘学科概述信息化发展与数据挖掘,应用案例地下燃气管道安全状况评价系统主页面,一、数据挖掘学科概述信息化发展与数据挖掘,应用案例地下燃气管道安全状况评价模型建立页面,一、数据挖掘学科概述信息化发展与数据挖掘,应用案例食品安全风险推理系统页面,一、数据挖掘学科概述信息化发展与数据挖掘,应用案例食品安全风险推理系统页面,一、数据挖掘学科概述信息化发展与数据挖掘,1、规划问题,2、

11、控制问题,规划：预测未来、确立目标、决定政策、选择方案的一系列过程的结果。主要预测问题：市场预测、销量预测、成本预测、投资预测、筹资预测、利润预测、效益预测、人才流动预测等。,控制：预定（计划）指标与实际指标的差异监督与改正。形式：事前控制、过程控制、事后控制。主要控制问题：质量控制，成本控制，生产控制、资源控制等。,一、数据挖掘学科概述信息化发展与数据挖掘,信息化发展中的四类主要决策问题,4、评价问题,3、优化问题,1、优化：在多个可选择方案中选择使目标最好（如利润最大、成本最少，效益/效率最高）的方案。 2、主要优化问题：资源配置优化，生产工艺参数优化、产品结构优化，投资/筹资组合优

12、化等。,1、评价：通过建立评价指标与影响因素之间的模型关系，对获取因素的测评数据计算指标数值，达到对指标的综合评价。 2、主要评价问题：安全评价、质量评价、能力评价、素质评价、发展水平评价等。,一、数据挖掘学科概述信息化发展与数据挖掘,教育部资产资源的投入产出绩效综合评价与优化配置1、高校投入产出绩效综合评价(投入产出模型+神经网络+遗传算法）2、根据高校投入产出绩效优化配置未来的资源(神经网络+遗传算法） 3、对高校配置资源结果进行风险预测(神经网络+遗传算法+统计方法）4、对高校配置资源进行效益预测(模糊评价+遗传算法）,一、数据挖掘学科概述信息化发展与数据挖掘,1、结构化决策辅助：模型的

13、自适应变化,2、非结构化决策辅助：包括,智能化辅助过程的知识规则提取,不确定知识推理,随机信息,模糊信息,其中，结构化决策: 指能建立适当的模型产生决策方案,并能从多个方案中得到问题解的、可程序化的决策。,其中，非结构化决策: 指不易用确定的数学模型来描述其决策过程,只能得到一定假设条件下问题近似解的、通过规则推理可转换为程序化的决策.,一、数据挖掘学科概述信息化发展与数据挖掘,当前决策中的主要问题：,一、数据挖掘学科概述统计学科与数据挖掘,经典统计局限问题：大样本，少变量，多输入，单输出，随机性；现代统计面临问题：大数据量，少样本，多变量，多输出，混合模糊与随机性；,数据挖掘方法的特点：1、

14、高维数据特征分析 2、模型自适应变化3、多输入多输出的非线性关系建立4、混合随机与模糊不确定性的分类与预测5、多目标多维数据的优化与控制,因此，数据挖掘是现代统计学科分支，既属于统计学科，也属于计算机科学学科。,CRISP-DM(CRoss-Industry Standard Process for Data Mining):各企业中被广泛采用的数据挖掘标准流程。包括6个步骤：商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。,数据挖掘软件： Clementine 12.0: SPSS公司推出的企业级数据挖掘软件产品,二、数据挖掘及其软件概述,一、数据挖掘学科概述数据挖掘流程,一、数

15、据挖掘学科概述数据挖掘及其软件,一、数据挖掘学科概述数据类型的一致化方法,要点：建立数学模型时，需要把不同数据类型转换为相同的数据类型,一、数据挖掘学科概述数据类型的一致化方法,为了使不同量纲的数据能够进行可加与可比，需要对数据进行无量纲处理。常用处理方法为：,一、数据挖掘学科概述数据无量纲化方法,一、数据挖掘学科概述数据无量纲化方法,问题：上述六个变量如何转换为【0，1】无量纲数据？,取四个值中的最大M=1.5，最小m=-1.5，由公式 y=(x-m)/(M-m)=(x+1.5)/(1.5+1.5), 分别把x转换为如下y：X=1.5,y=1, X=-1.5,y=0, X=0.5,y=0.6

16、3, X=-0.5,y=0.37,一、数据挖掘学科概述数据无量纲化方法,聚类：根据事物的某些属性，定义相似度表示事物的相似性，把相似事物聚集成类，使类间相似性尽量少，类内元素相似性尽量大的数据划分方法。,特点：已知类别变量属性对样本数据进行划分，称为分类，未知类别变量（没有先验知识）而按相似度大小对样本数据进行划分，称为聚类。,二、数据挖掘方法聚类分析,问题：1)如何从海量的数据中寻找有代表性的、有建模价值的数据？2)对于多维数据，如何了解数据变化特点？,引入例：1）100个学生按语文成绩分类，如何分？2）100个学生按语文成绩、数学成绩、英语成绩分类，应该如何分？,主要问题：（1）如何定义两类之间的相似度？（2）如何按相似度进行聚类？（3）如何表出谱系图？（4）聚类分析的应用？,问题1）思路:1)定义两元素相似度量（一般可用距离、变量相关系数等定义）,

展开阅读全文