浙江工商大学金融学院sas数据挖掘课件

上传人:aa****6 文档编号:32641556 上传时间:2018-02-12 格式:DOC 页数:58 大小:3.49MB
返回 下载 相关 举报
浙江工商大学金融学院sas数据挖掘课件_第1页
第1页 / 共58页
浙江工商大学金融学院sas数据挖掘课件_第2页
第2页 / 共58页
浙江工商大学金融学院sas数据挖掘课件_第3页
第3页 / 共58页
浙江工商大学金融学院sas数据挖掘课件_第4页
第4页 / 共58页
浙江工商大学金融学院sas数据挖掘课件_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《浙江工商大学金融学院sas数据挖掘课件》由会员分享,可在线阅读,更多相关《浙江工商大学金融学院sas数据挖掘课件(58页珍藏版)》请在金锄头文库上搜索。

1、浙江工商大学彭寿康金融数据挖掘讲稿1第一章:绪论与 SAS 基础第一节:数据挖掘概论一、数据挖掘的基本概念与应用现代信息社会的特征:各类数据泛滥、知识相对缺乏。随着计算机技术、数据库技术的快速发展和广泛应用,各行业中积累的数据越来越多,金融行业尤其如此。有数据表明,进入 20 世纪 90 年代后,人类积累的数据量以每月高于15%的速度增长,原有的数据库技术不能从海量数据库中挖掘出决策有用信息或新的知识,或者说,原有的数据库技术或统计分析方法不能帮助我们很好地理解这些数据。比如,无法发现数据库中存在的关系与规则、无法根据现有的数据去预测未来的变化趋势。这样就出现了数据泛滥、知识相对缺乏的状态。例

2、如:投资者如何从大量的股票交易的历史数据中发现其变化规律,预测未来趋势,从而决定未来的投资方向与投资策略?大型超市的决策人员如何从过去数年的销售记录中,分析判断顾客的消费习惯与行为,从而找到合理的营销策略,提高企业经营效率?金融领域的风险管理人员如何从历史数据中发现规律,识别可能的金融欺诈或者潜在的信用风险,从而降低金融企业的经营风险?为了解决“数据爆炸但知识贫乏”的问题,从 20 世纪 90 年代起,数据挖掘技术开始兴起。数据挖掘是一门交叉学科,涉及数据库、统计学、人工智能和机器学习等多个领域。与数据挖掘有关的最早的相近概念称为数据库中的知识发现(KDD, knowledge discove

3、ry in database) 。1989 年第十一届国际联合人工智能学术会议上,首次出现了这个概念。而数据挖掘(date mining)的概念则是 1995 年在加拿大蒙特利尔的第一届知识发现和数据挖掘国际会议上提出的。数据挖掘可以定义为:数据挖掘是从海量数据中发掘那些潜在的、鲜为人知的数据规律和数理模式(新的决策有用知识) ,其目的是在海量数据的基础上发现规律、预测未来的发展趋势。或者简单地说,数据挖掘就是从大量数据中提取或者挖掘有用的知识。最近 20 年来,数据挖掘技术成功应用的一些例子:例 1:数据挖掘在商业管理中的应用日本超市中啤酒与尿片的规律;英国超市中大额交易者与某种品牌的奶酪的

4、联系;浙江工商大学彭寿康金融数据挖掘讲稿2消费者视角的主要停留区域与商品布置。例 2:数据挖掘在银行中的应用信用卡违约与欺诈预测模型构建;企业贷款的信用风险预测模型构建;反洗钱预警系统构建。例 3:数据挖掘在金融市场中的应用趋势图与关联规则挖掘;股票自动交易模式的识别与自动交易系统构建;外资并构企业预测模型构建。二、不同学科对数据挖掘技术的研究与开发数据挖掘是一门综合性的新兴学科,其应用前景十分广泛。1990 年代末,在对 100 名美国著名科学家的问卷调查中,数据挖掘被列为 21 世纪对人类发展影响最大、最有前途的10 大高新技术的第三位。我国对数据挖掘技术也十分重视,数据挖掘技术的开发与应

5、用最近 10 年来都被列为国家 873、973 重大高科技项目,列为我国科技的一个重点发展方向。数据挖掘是一门综合性的跨学科技术,因此对其的研究也涉及多个学科领域。现在对数据挖掘技术的研究主要包括:数据挖掘的理论研究:各种数据挖掘技术的理论基础,理论依据研究。从数学、统计学、人工智能、计算机图形学等领域对此展开研究。数据挖掘的技术研究。从计算数学、统计学、人工智能、机器学习、计算机图形学、软件工程等领域对此展开研究。数据管理策略研究。从数据库管理技术等领域展开研究。数据挖掘技术的应用研究。数据挖掘可以在十分广泛的领域中得到应用,其中数据挖掘在金融领域的应用是一个很重要、很有前途的方向。计算机系

6、统、信息网络在金融领域中应用最为普及,从而积累了海量的各类金融数据,而金融领域的知识发现对增强金融机构的市场竞争能力与赢利能力是至关重要的。本课程主要涉及数据挖掘技术在金融领域的一些创造性应用。例 4:金融机构中设置的金融数据挖掘师岗位国外许多银行的 KDD 岗位;KDD :knowledge discovery in database浙江工商大学彭寿康金融数据挖掘讲稿3我国各行业广泛招聘的数据挖掘工程师,有许多招聘明确要求是在金融领域的应用,要求熟悉 SAS 软件来完成数据挖掘工作。三、数据挖掘技术中比较成熟的主要功能模块数据挖掘是一门不断发展中的高新技术,因此其功能处在不断地拓展中。到目前

7、为止,相对比较成熟的、应用比较广泛的功能模块有:1、特征化、比较与关联规则挖掘特征化就是总结某类样本的主要特征。如银行的优质客户有哪些特征,哪些客户是银行的潜在的优质客户,应该向谁推荐某种保险产品或理财产品,等等,这些问题都涉及到数据挖掘中的特征化挖掘。比较是分析不同组样本之间的最显著的差异是什么?如职业“成功人士”与“非成功人士”的最显著差异是什么?信用卡欺诈用户与信用卡优良用户的最显著区别是什么?关联规则挖掘就是发现对象的各个指标之间具有怎样的潜在关联性,如哪些指标会同时出现,哪个指标出现后很有可能会同时出现另外一个(另外一些)指标,这些关联规律的适用性与可靠性如何?2、分类与预测分别就是

8、建立某种分类规则,根据这种规则可以判断某些样本分别属于哪一类别:违约、不违约;有信用卡欺诈嫌疑、没有信用卡欺诈嫌疑。分类是对离散变量的预测,而预测则是对连续变量的预测,如对企业信贷违约概率的预测。3、聚类分析哪些样本点应该属于同一类型、哪些样本点应该属于其他类型,应该总共分成几类比较合适,同一类之间有什么共同的特征,不同类之间的主要区别。4、序列发现(时间序列的数据挖掘)历史可能会重演。哪些时间序列(或时间序列描绘的图形)具有预测功能,分别预测了未来的什么?现在是否正在形成类似这样的序列?四、SAS 软件简介数据挖掘的应用与模块功能的实现,需借助于相应的数据挖掘软件来实现。现在许多软件都具有一

9、定的数据挖掘功能,如 SAS 软件、SPSS 软件、智能数据挖掘(Intelligent miner for data)等。各种软件都有特定的长处与短处。由于具有广泛的商业应用前景,各种新的软件还在不断地开发过程中。浙江工商大学彭寿康金融数据挖掘讲稿4本课程学习如何利用 SAS 软件来实现数据挖掘功能。采用这个软件是因为:1、SAS 软件是受到学术界广泛认可的软件,而且这个软件的功能十分强大,利用SAS 软件来实现数据挖掘功能,有利于今后对这个软件的进一步学习。2、SAS 软件在金融领域得到广泛应用,许多招聘单位在招聘数据挖掘师或其他相关人员时,明确表示很欢迎熟悉 SAS 软件的人。SAS 系

10、统是美国 SAS 软件研究所研制开发的大型集成软件系统。该系统早期的名称为统计分析系统(Statistical Analysis System) ,英文缩写为“SAS” 。SAS 系统经过几十年的发展,已成为国际上最有知名度的数据处理软件之一。SAS 系统最早由北卡罗来纳大学的两位研究生编制,1972 年研制出第一版,1976 年SAS 研究所成立后正式推出了 SAS 软件。SAS 软件的版本更新很快,功能也不断加强,本课程主要学习 SAS 的 6.12 版本。五、SAS 功能模块简介SAS 是一个集成软件,其中包含几十个功能模块,这儿介绍与金融数据分析关系密切的三个功能模块。1、BASE S

11、AS 模块BASE SAS 模块是 SAS 系统的核心,主要功能是数据管理和数据加工处理,并有报表生成和描述统计的功能。BASE SAS 模块可以单独使用,也可以与其他模块一起组成一个用户化的 SAS 系统。本课程将利用这个模块来建立挖掘数据库,并对挖掘数据库进行各种需要的编辑,同时还将利用这个模块来协作完成数据挖掘的其他编程任务。2、统计分析模块统计分析模块(SASSTAT)是一个完整的统计分析软件包,覆盖了所有的实用数理统计分析方法,是国际统计分析领域的标准软件。它包含了各种回归分析、方差分析、属性数据分析、判别与聚类分析等几十个过程,每个过程还提供了多种不同的算法和模型选择。我们可以应用

12、这个模块来开展涉及横截面数据的各种数据挖掘工作。3、经济计量学和时间序列分析模块经济计量学和时间序列分析模块(SASETS)提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具。我们将利用这个模块来开展涉及时间序列数据的各种数据挖掘工作。浙江工商大学彭寿康金融数据挖掘讲稿5第二节:SAS 挖掘数据库的建立与编辑一、SAS 系统的启动、运行与退出1、SAS 系统的启动安装 SAS 软件后,在 Windows 开始菜单的程序组中将包括一项“The SAS System”。单击该项就可启动 SAS 系统,进入 SAS 显示管理环境。图 1-1 中,屏幕最上方部分为 SAS 系

13、统菜单栏、命令栏和工具选项;屏幕上部窗口内容为 SAS 系统的信息及运行记录;下部窗口是用户编辑 SAS 源程序,存储或调入文件,提交 SAS 程序给 SAS 系统执行的场所,是用户使用 SAS 系统的主要窗口。屏幕出现图 1-1 窗口后,光标位于下部窗口,此时光标可自由移动。在上部窗口还显示关于 SAS 系统的版本等信息。至此 SAS 系统已启动完毕,等待用户输入程序和命令。图 1-1 Windows 环境下的 SAS 系统及 PGM 窗口的 SAS 程序2、SAS 系统的运行用 SAS 系统进行数据挖掘时,首先需要利用 DATA 步输入数据,把需要分析的数据组织成 SAS 系统能识别的 S

14、AS 数据集。然后利用 PROC 步根据用户需要选择 SAS 系统提供的 SAS 过程来进行数据挖掘。SAS 系统要求用户把你想做的工作,通过一些近似自然英语的指令SAS 程序在PGM 窗口采用交互方式提交给 SAS 系统执行,执行过程中的记录信息(包括出错信息)在 LOG 窗口显示; SAS 过程产生的输出结果在 OUTPUT 窗口显示,见图 1-2。这就是SAS 会话系统。如果 LOG 窗口显示输入的 SAS 语句有错误时,必须返回到 PGM 窗口,重新调入刚浙江工商大学彭寿康金融数据挖掘讲稿6才输入的 SAS 程序,并对错误的语句作出修改,修改完毕后再重新提交 SAS 程序。图 1-2

15、SAS 系统的 OUTPUT 窗口3、退出 SAS 系统数据挖掘工作完成后,退出 SAS 系统有两种方法:方法 1:在命令栏中用命令 BYE 或在 PGM 窗口提交 ENDSAS,都可以退出 SAS 系统并返回到 Windows 的桌面系统。方法 2:在 Windows 环境下退出 SAS 系统可从 File 菜单选择 Exit 退出,或用Windows 关闭窗口的标准方法关闭 SAS 的主窗口也可退出 SAS 系统。二、SAS 挖掘数据库的建立与管理1、外部数据库的输入在开展金融数据挖掘工作时,最常遇到的数据集是 Excel 数据库或文本文件给出的数据库,由于 SAS 系统不能直接在这些数据

16、集上进行数据挖掘工作,因此需要将这些数据集转化为 SAS 数据集。Excel 数据集转化为 SAS 数据集的方法将 Excel 数据集保存为 Excel4.0 工作表;打开 SAS 软件,按照步骤导入外部数据库,导入的数据集可以临时保存在 Work 库标记下(退出 SAS 系统后,导入的数据集将丢失) ,也可以长期保存在 SASUSER 库标记下。由于 6.12 版本的 SAS 软件并没有汉化,因此数据集中的变量名中不要出现中文。具体步骤(通过下拉菜单的方式):File / import,在显示窗口中选择外部数据集类型(现在可选 Excel 5 or 7 spreadsheet 或者选择 Excel 4 spreadsheet) ,点击 next 键;选择外部数据集所在的路径,打开后,点击 next 键;在显示窗口中选择库标记(系统默认的库标记为 work) ,给定要建立的 SAS 数据集的名称,点击 Finish 键;系统将在 LOG 窗口中给出所建立的 SAS 数据集的信息。注意:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号