2019年大学数据挖掘软件与工具课件

上传人:我*** 文档编号:145002686 上传时间:2020-09-15 格式:PPT 页数:28 大小:2.17MB
返回 下载 相关 举报
2019年大学数据挖掘软件与工具课件_第1页
第1页 / 共28页
2019年大学数据挖掘软件与工具课件_第2页
第2页 / 共28页
2019年大学数据挖掘软件与工具课件_第3页
第3页 / 共28页
2019年大学数据挖掘软件与工具课件_第4页
第4页 / 共28页
2019年大学数据挖掘软件与工具课件_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《2019年大学数据挖掘软件与工具课件》由会员分享,可在线阅读,更多相关《2019年大学数据挖掘软件与工具课件(28页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘软件与工具,2020/9/14,docin/sundae_meng,1,数据挖掘是多学科知识的综合,涵盖了数据库技术、统计学、可视化技术、信息科学、机器学习等多方面知识。 数据挖掘的重要作用已为人们了解,为了实现有效的数据挖掘,绝大多数用户必须借助于合适的数据挖掘软件,所以,数据挖掘软件的研究是数据挖掘的一个重要研究方向。,2020/9/14,docin/sundae_meng,2,一、数据挖掘软件重要研究方向,3,二、数据挖掘软件的发展,2020/9/14,docin/sundae_meng,数据挖掘功能,2020/9/14,docin/sundae_meng,数据挖掘,估计Esti

2、mation,分类Classification,预测Prediction,关联规则Association Rules,描述与可视化Description and Visualization,聚类Cluster,4,数据挖掘模型的分类,数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(Prediction) 相关分析(Dependency analysis),docin/sundae_meng,5,2020/9/14,数据挖掘技

3、术的分类,docin/sundae_meng,6,数据挖掘,描述,预测,统计回归,关联规则,决策树,可视化,聚类,顺序关联,汇总,神经网络,分类,时间序列预测,2020/9/14,数据挖掘的典型结果金融,问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树),docin/sundae_meng,7,收入大于5万元/年,是,否,有无储蓄帐户,是否房主,否,是,是,否,批准,不批准,批准,2020/9/14,数据挖掘的典型结果电信,问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络),docin/sundae_meng,8,输 入,流失概率

4、(0.87),输 出,男,29,3000元/月,套餐A,130元/月,2020/9/14,数据挖掘的典型结果零售,问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图),docin/sundae_meng,9,2020/9/14,数据挖掘的典型结果制造业,问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类),docin/sundae_meng,10,2020/9/14,数据挖掘的典型结果政府,问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络),docin/sundae_meng,11,2020/9/14,Busines

5、s Understanding,商业理解过程 理解商业目标 熟悉业务流程 统一业务术语 成本/收益分析 当前系统评估 主要用户使用者 结果的输出形式 挖掘任务的结果和现有系统的集成 任务分解 挖掘目标分解为子任务 将商业目标转化为数据挖掘任务 约束条件确认 资源 数据保护制度等 制定项目计划,2020/9/14,docin/sundae_meng,12,Data Understanding,数据理解过程 数据源情况 数据处理范围 数据源访问情况 数据描述 数据质量描述 基本统计值/汇总值 数据探索 数据分布 相关性分析 缺失值处理 空值处理 奇异值处理,2020/9/14,docin/sund

6、ae_meng,13,Data Preparation,数据准备过程 数据整合 多个数据表的数据联合 数据的汇总和聚合 数据选择 记录的选择和排除 数据集合构成:测试集,检验集 数据转换 函数转换 标准化处理 离散化处理 数据清洗 数据缺失值处理 数据派生 新变量的生成,2020/9/14,docin/sundae_meng,14,Modeling,数据建模过程 选择合适的建模技术 数据预处理的情况 依赖于数据挖掘问题类型和输出形式 构建模型训练环境 训练样本的构建 模型建立 选择初始化参数设置 模型估计 考虑过训练的情况 误差分布的调查 模型参数修正及其原因,2020/9/14,docin/

7、sundae_meng,15,Evaluation,模型评估过程 模型评估 根据专家的知识和经验进行人工评估 从商业角度来评价结果的有效性 定义参照对象 计算升益曲线(Lift Curve) 期望的投资回报率(ROI) 对整个数据挖掘过程进行回顾 决定下一步骤 模型发布的时机 发布框架结构 进一步改进模型,2020/9/14,docin/sundae_meng,16,Deployment,模型发布过程 数据挖掘结果的发布方式 模型的结果输出到数据库 形成简单的报表 结果转化为可解释的业务规则 在线实时地模型评分过程 数据的输入输出 与原有业务系统的集成 实时数据的来源和结果反馈 模型运用的模式

8、 实时处理 批处理 自动化问题(周期),2020/9/14,docin/sundae_meng,17,Clementine的软件构成,Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。,docin/sundae_meng,18,2020/9/14,Clementine的两种运行方式,单机版运行 以下情况必须使用单机版运行: 数据存储在本机,且不能在网络上共享; 机器不联网; 无Clementine Serv

9、er可供使用。 以下情况可以使用单机版运行: 要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处; 单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。,docin/sundae_meng,19,C/S结构运行 以下情况必须使用C/S结构运行: 单机内存或者硬盘不够大,难以运行大量数据; 单机上没有或者无法配置数据连结,无法从数据库中获取数据; 组织规则不允许下载大量数据到单机。 以下情况可以使用C/S结构运行: 要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处; 单机速度慢,Clementine Server运行的机器

10、配置高。,2020/9/14,Clementine的系统结构,docin/sundae_meng,20,Clementine的三层结构: 1、数据库层; 通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行; 2、服务器端; 进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程) 3、客户端。 在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。,Clementine Client和Clementine Server通过SD

11、L(Stream Description Language )之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。,2020/9/14,Clementine运行的两种方式,图形界面方式 适用操作系统 Windows系列 特点: 图形化界面 与客户直接交互 适合交互式分析过程,docin/sundae_meng,21,命令行方式 使用操作系统 Windows系列 Unix系列 特点: 命令行操作 不能生成图形,所有结果保存在文件里或者数据库中 适合于以下情况使用: 运行耗时较长的建模过程 希望在后台运行一些耗时较长的数据准备 过程希望按照一定的时间定

12、期运行(比如每周、每月等) 希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中,2020/9/14,Clementine的界面和设计思路,可视化界面 四个区域分别是建模区、结点区、模型描述区、项目管理区 通过连接结点构成数据流建立模型 Clementine通过7类结点的连接完成数据挖掘工作,它们是: Source(源结点):Database、Var. Files等 Record Ops (记录处理结点):Select、Sample等 Field Ops(字段处理结点):Type、Filter等 Graphs(图形结点):Plot、Distribute等 Modeling(模型结点

13、):Neural Net、C5.0等 Output(输出结点):Table、Matrix等,docin/sundae_meng,22,2020/9/14,七大类节点,按功能分为七大类节点 数据源节点 记录处理节点 变量处理节点 图形节点 模型节点 输出节点 导出节点,2020/9/14,docin/sundae_meng,23,图形,基本版产生图形种类,2020/9/14,docin/sundae_meng,24,记录和变量的处理,对于记录的处理 对于变量的处理 DEMO 数据探索 数据清洗,2020/9/14,docin/sundae_meng,25,丰富的数据挖掘模型,2020/9/14,docin/sundae_meng,聚类算法模型,关联分析模型,26,使用演示,2020/9/14,docin/sundae_meng,27,2020/9/14,docin/sundae_meng,28,Thank You!,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号