投资理财数据挖掘讲课教案

上传人:yulij****0329 文档编号:252191092 上传时间:2022-02-10 格式:PPT 页数:82 大小:6.26MB
返回 下载 相关 举报
投资理财数据挖掘讲课教案_第1页
第1页 / 共82页
投资理财数据挖掘讲课教案_第2页
第2页 / 共82页
投资理财数据挖掘讲课教案_第3页
第3页 / 共82页
投资理财数据挖掘讲课教案_第4页
第4页 / 共82页
投资理财数据挖掘讲课教案_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《投资理财数据挖掘讲课教案》由会员分享,可在线阅读,更多相关《投资理财数据挖掘讲课教案(82页珍藏版)》请在金锄头文库上搜索。

1、LOGO数据挖掘在投资理财分析中的运用基于CATI的数据挖掘模型 DMCLOGO 目 录 研究结论及其建议5.投资理财建模分析4.3.数据挖掘流程2.绪论1.投资理财分析中的数据挖掘技术 DMCLOGO 1.绪 论1.1 研究背景1.2 研究动机1.3 研究目的1.4 研究问题与范围1.5 报告架构与研究流程 DMCLOGOLOGO1.1 研 究 背 景v 台湾经济状况: DMCLOGOv 台湾股市: DMC1.1 研 究 背 景LOGO个人理财热度比较平稳台湾人的投资理财观台湾经济在起伏中进入平稳发展期台湾民众投资狂热逐渐消退有财富积累,财务压力较小,理财愿望相对较弱台湾部分资金流向海外投资

2、 DMC1.1 研 究 背 景LOGOv 由于市场竞争日益激烈,再加上民众投资热情减退,证券公司要如何挖掘潜在的客户,创造客户的需求,针对客户的行为做出适当的营销决策,最大化自己和盈利,建立自身的核心竞争力,对于证券公司的发展乃至生存都是至关重要的。 DMC1.1 研 究 背 景LOGO 1.2 研 究 动 机客户细分企业在明确的战略业务模式和专注市场中根据客户的价值、需求和偏好等综合因素对客户进行分类,对不同的客户群提供具有针对性的产品、服务和营销模式。交叉销售指向现有客户提供新的产品和服务的营销过程。企业通过对原有客户实施交叉销售既可以因销售额的增长而获益,又可以通过为客户提供更多更好的产

3、品和服务来增进与客户间的良好关系。 DMC客户获得它对于企业发现自己的潜在客户群,提高市场活动的回报率,有的放矢地进行营销起到至关重要的作用。LOGO商务智能1数据挖掘2数据挖掘标准流程32 数据挖掘流程简介 DMCLOGO2.1 商务智能商业信息商业信息商务智能是一系列商业活动行为的数据收集与信息转化作业,协助企业制订出最佳的策略主题与策略目标。商务智能能透过数据的淬取、整合及分析,支持决策过程的技术和商业处理流程商务智能是企业利用现代信息收集、管理和分析结构化和非结构化的商务数据和信息,增强综合竞争力的智慧和能力” DMCLOGO2.2 数据挖掘 DMCLOGO 2.3 数据挖掘标准流程数

4、据挖掘标准流程(CRISP-DM) DMCLOGO3 投资理财分析中的数据挖掘技术 DMC数据挖掘技术在证券行业的应用1客户关系管理2本文采用的数据挖掘算法3本文采用的模型评估方法4LOGO3.1 数据挖掘技术在证券行业的应用客户交易数据在各个证券公司的营业部产生,分布于证券公司的营业部及证券交易所,属于相对私有数据.股票行情数据由交易所产生,一些现有的实时行情接收分析系统如钱龙、汇金、指南针等都能够对其进行从简单到复杂的分析整个运营系统产生的两大类数据 DMCLOGO3.2 客户关系管理 DMC即如何留住客户,以降低开发新客户的成本客户描绘目标市场购物篮分析客户关系管理数据挖掘的主要应用方式

5、数据挖掘的主要应用方式准确筛选营销对象帮助零售业者了解客户的消费行为,以提高顾客的消费额应用于如何获得新顾客LOGO3.3 本文采用的数据挖掘算法 DMCDecision Tree决策树Logistic Regression 罗吉斯回归算法Cluster 群集算法Association 关联规则算法Nave Bayes Classifer贝氏机率分类算法Neural Network 类神经网络算法挖掘模型LOGO DMC3.3 本文采用的数据挖掘算法DecisionTreesDecisionTreesClusteringClusteringAssociationAssociationNaveB

6、ayesNaveBayesNeuralNetworkNeuralNetworkLogisticRegressionLogisticRegressionLOGO3.3 本文采用的数据挖掘算法 DMC提升图挖掘模型最可能介于随机推测模型和理想或精确无误的预测模型之间。与随机推测相比,预测率的任何提高均被视为提升。.模型的评估方法分类矩阵每个矩阵的行代表模型的预测值,而列则代表实际值。由分类矩阵进一步比较,判别两模型的预测能力。LOGO3.3 本文采用的数据挖掘算法模型评估方法提升图 DMC红线表示理想模型LOGO3.3 本文采用的数据挖掘算法模型评估方法分类矩阵 DMCLOGO4.投资理财建模分析

7、数据准备1购买和未购买股票各占一半的调查者行为分析2股票购买者投资行为分析3美金购买者行为分析4期货购买者行为分析5 DMCLOGO4.1 数据准备 DMC数据的说明数据分类数据的获得本数据来自台湾辅仁大学统计资讯学系的电话调查(ComputerAidedTelephoneInvestigation,CATI)中心。资料总共490088笔,我们将任何一项存在缺失值的数据都删掉,这样剩下有效数据425693笔。问卷一共有32个问题调查所得的有效数据中,未购买股票的调查对象占总调查对象的83.7%,购买股票的调查对象占总调查对象的16.7%。LOGO4.1 数据准备 DMC问题问题Q1 请问您目前

8、有没有在证券公司或是银行上班?Q2最近一年内,请问您有没有购买上市、上柜公司的股票?Q3请问您目前投资在股票上的金额大约是多少?Q4请问您在购买股票时,最主要的考虑因素是什么? (复选,请随机提示1-5项)。Q5请问在金融保险类股中,您所知道的股票有哪几家?还有没有?还有没有(复选5项,不提示)?Q6 以下我将念出金融保险类股的股票,请问您听过哪几家?(复选,随机提示1-20项)Q7请问您有没有购买金融保险类股的股票?那么,哪一家股票,您所投资的金额最多?(复选5项,不提示)Q8那么,您清不清楚这几家上市公司的主要经营项目?Q9请问在电子类股中,您所知道的股票有哪几家? (复选5项,不提示)?

9、Q10以下我将念出电子类股的股票,请问您听过哪几家?(复选,随机提示1-20项)Q11请问您有没有购买电子类股的股票?那么,哪一家股票,您所投资的金额最多?(复选5项,不提示)?Q12那么,您清不清楚这几家上市公司的主要经营项目?Q13请问在纺织纤维类股中,您所知道的股票有哪几家? (复选5项,不提示)?Q14以下我将念出纺织纤维类股的股票,请问您听过哪几家?(复选,随机提示1-20项)Q15请问您有没有购买纺织纤维类股的股票?那么,哪一家股票,您所投资的金额最多?(复选5项,不提示)?Q16那么,您清不清楚这几家上市公司的主要经营项目?Q17请问在钢铁类股中,您所知道的股票有哪几家?还有没有

10、?还有没有(复选5项,不提示)?Q18以下我将念出钢铁类股的股票,请问您听过哪几家?(复选,随机提示1-20项)Q19请问您有没有购买钢铁类股的股票?那么,哪一家股票,您所投资的金额最多?(复选5项,不提示)?Q20那么,您清不清楚这几家上市公司的主要经营项目?Q21请问在上柜证券类股中,您所知道的股票有哪几家? (复选5项,不提示)?Q22以下我将念出上柜证券类股的股票,请问您听过哪几家?(复选,随机提示1-17项)Q23请问您有没有购买上柜证券类股的股票?那么,哪一家股票,您所投资的金额最多?(复选5项,不提示)?Q24最近一年内,请问您有没有购买美金,我们这里所说的购买美金不包括出国结汇

11、,纯粹为了投资而购买的美金?Q25请问您购买的美金大约折合台币多少钱?Q26最近一年内,请问您有没有购买期货?Q27请问您购买的期货大约折合台币多少钱?Q28性别Q29请问您的年龄?Q30请问您的教育程度是?Q31请问您的职业是?Q32请问您个人一个月的收入大约是多少?LOGO4.1 数据准备 DMC第1题筛选被访者,在证券公司和银行工作的人不列为被访对象Q28-Q32:被访者的个人信息,包括性别,年龄,学历,职业和收入等第2题区分被访者后续回答的问题种类。购买股票的被要回答完所有的问卷,未购买股票的跳到24题Q3-Q4:说明证券投资的金额及其购买理由Q24-27:被访者购买美金和期货的信息Q

12、5-Q23:股票购买者对金融保险,纺织,钢铁,电子,证券类的了解及其购买情况数据说明LOGO4.1 数据准备 DMC数据分析结构LOGO4.2购买和未购买股票各占一半的调查者行为分析 DMC分析方法分析方法决策树决策树LogitLogit回归回归贝叶斯分类贝叶斯分类分析购买者及未购买者共同的问题LOGO4.2购买和未购买股票各占一半的调查者行为分析v 变量的筛选和模型的建立我们将所有个人信息变量输入作为自变量,来作为判断其是否购买股票的标准。我们采取SQL的建议(SQL内部从中抽取一部分样本,进行验证),选择“年龄”,“教育程度”,“职业”,和“收入”作为自变量,分别建立决策树,逻辑回归,贝叶

13、斯模型来预测被访者是否购买股票。 DMCLOGOv 模型的精确度分析v 三个模型都能预测出被访者是否购买股票,我们对三个模型进行对比,分别用提升图和分类矩阵方法进行筛选。提升图: DMC4.2购买和未购买股票各占一半的调查者行为分析LOGOv 分类矩阵: DMC4.2购买和未购买股票各占一半的调查者行为分析选择决策树作为我们最终模型LOGO4.2购买和未购买股票各占一半的调查者行为分析相依程度: DMC影响投资者是否购买股票因素由强到弱为:收入教育程度职业年龄LOGOLOGO4.3股票购买者投资行为分析v 对于购买的股票的人群来说,考虑的最主要的因素分析如下: DMC选项N比率相对于样本的比率

14、Q41选股理由公司运营4140530.3%60.7%Q42选股理由亲友介绍2239916.4%32.8%Q43选股理由朋友33162.4%4.9%Q44选股理由自己分析4220630.8%61.8%Q45选股理由第四台1908613.9%28.0%Q46选股理由其他84606.2%12.4%总计136872100.0%200.5%LOGO4.3股票购买者投资行为分析Q5-Q23Q5-Q23针对针对5 5类股票中类股票中的的100100只股票只股票, ,均为多选均为多选题题, ,我们在数据预处理中我们在数据预处理中将选择了一种股票的记将选择了一种股票的记为为1,1,未选择的记为未选择的记为0,0

15、,通过通过多选题分析的方法得到多选题分析的方法得到其比率其比率Q5,Q9,Q13,Q17,Q21为在未提醒被访者的情况下让被访者说出至多5只股票,我们认为被访者对这些股票比较熟悉Q7,Q11,Q15,Q19,Q23为是否购买这只股票,最大选择个数为5 DMCLOGOLOGO4.3.2股票投资者的购买行为分析数据的处理:Q8,Q12,Q16,Q20,问投资者分别对金融板块,纺织板块,钢铁板块, 这几家上市公司的主要经营项目是否熟悉。如果投资者对每一个板块,我们记为1,否则为0。然后将四个板块的值加权重,形成新的变量Q30(清楚业务汇总).Q6,Q10,Q14,Q18,问题为:以下我将念出金融保险

16、类股(或其他四个板块)的股票,请问您听过哪几家?复选,随机提1-20项。在访问员说出这只股票,如果被访者听说过,我们就将其记为1,说明他对这只股票有印象,否则为0。我们假定听说过的股票越多,对证券市场越了解。将被访者对各个板块听说过的股票数量加总起来,作为衡量被访者对股市的了解程度。但是这个指标的范围在0-90之间,分布图如下:我们根据这个指标的分布,将选择数量在0-40记为1(一般了解),31-50的记为2(比较了解),50-70的记为3(很了解),70以上的记为4(非常了解)。还有一个重要的指标即是股票购买金额。下面我们用这些指标建立聚类分析。 DMCLOGO4.3.2股票投资者的购买行为分析 DMCLOGO4.3.2股票投资者的购买行为分析 DMCLOGO4.3.2股票投资者的购买行为分析优质客户主妇类客户潜在优质客户普通客户比较优质客户 DMC教育程度较高的男性,对股票非常了解,年龄主要在30-39岁间,职业大多为管理阶层和白领,月收入介于3-7万,中高等的受教育程度较低,高中或高职,男性居多,收入较低,年龄处于30-39岁大多在大专以上,年龄在20-29岁间的白领上班族,收入

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号