基于演员信息结果的数据挖掘.doc

上传人:cn****1 文档编号:556212374 上传时间:2023-07-17 格式:DOC 页数:17 大小:576KB
返回 下载 相关 举报
基于演员信息结果的数据挖掘.doc_第1页
第1页 / 共17页
基于演员信息结果的数据挖掘.doc_第2页
第2页 / 共17页
基于演员信息结果的数据挖掘.doc_第3页
第3页 / 共17页
基于演员信息结果的数据挖掘.doc_第4页
第4页 / 共17页
基于演员信息结果的数据挖掘.doc_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《基于演员信息结果的数据挖掘.doc》由会员分享,可在线阅读,更多相关《基于演员信息结果的数据挖掘.doc(17页珍藏版)》请在金锄头文库上搜索。

1、商务智能与数据挖掘数据挖掘技术在电影行业中的应用 基于演员信息调查结果的研究 目录1商业理解11.1研究背景与目的11.2研究对象11.3研究方法12 数据理解12.1数据的收集12.2.数据预处理23数据准备23.1数据输入23.2数据编码34.建立模型54.1决策树模型54.2关联规则模型94.3 BRP神经网络模型124.3.1 训练124.3.2 测试145. 总结151商业理解1.1研究背景与目的在当今的电影行业中,导演在选取演员时很多都是凭感觉和推荐,很好去挖掘演员信息来确定,在薪酬方面也不合理,有些导演为了提高电影票房,一味的去选取知名度较高的明星及所谓的大腕,付予高报酬,大大地

2、增加了其制作成本。本文通过对演员调查信息的分析,找出与收入有关的因素,并分析其规则。为导演在选取演员和决定所付薪水时提供依据,有效地减少制作成本。1.2研究对象本文主要以Movie Survey中所调查的演员为研究对象来对演员的Income进行分析,找出其有关因素。1.3研究方法主要采用的是决策树技术、关联规则、神经网络3种数据挖掘方法,对大量的演员信息调查数据进行分析与挖掘,最后形成相关数据模型。2 数据理解2.1数据的收集本文主要是以MovieSurvey.mdb中所调查的演员为研究对象,由于所调查的演员数量较多有3500多条,并且某些演员信息不全,经筛选后这里只取了信息完整的,所在国家为

3、United States的Female演员,一共有310条记录。将前200条记录作为训练集,后面110条数据作为测试集。2.2.数据预处理由于准备用于挖掘的演员信息表中的属性个数较多,有22个。为了便于决策树模型的建立,选择其中与Income属性相关性较大的Age ,Education Level, Marital Status, Home Ownership, Num Children, Num Cars, Theater Freq 七个属性作为建立Income分类决策树模型的依据,生成新的演员信息基本数据表。3数据准备3.1数据输入(1)在数据窗口,选择菜单“文件新建数据窗口”,建立一个

4、新的数据文件。如图3-1。图3-1 进入数据窗口(2)在数据窗口,点击工具栏上的变量设置按钮,切换到变量窗口。并进行变量设置如下:图3-3 变量设置(3)数据录入3.2数据编码编码规则:1. 变量Age属性:2030用“1”表示,3040用“2”表示,4050用“3”表示,5060用“4”表示2. 变量Education level属性:masters degree 用“1”表示,Post-Doc用“2”表示,Bachelors degree用“3”表示,some college 用“4”表示,Doctorate 用“5”表示,Associates degree用“6”表示,Grade Sch

5、ool 用“7”表示,high school 用“8”表示。3. 变量Home Ownership属性:Own用“1”表示,Rent 用“2”表示4. 变量Marital Status属性:Married用“1”表示,Never Ma用“2”表示,Separate用“3”表示,Other 用“4”表示5. 变量Num Children属性:用0、1、2、3表示实际个数6. 变量Num Cars属性:用0、1、2、3、4表示实际个数7. 变量Theater Freq属性:Rarely用“1”表示,weekly用“2”表示,Monthly用“3”表示,Never 用“4”表示1编码后结果如下图3-

6、4 编码后数据表(图中为一部分)4.建立模型4.1决策树模型用决策树方法进行挖掘的步骤和结果如下所示:1.选择数据挖掘决策树图4-1 选择数据源2.选择决策树方法 图4-23.数据源、决策树相关设置其相关设置如图4-4和图4-5所示。图4-3数据源设置图4-4 变量设置图4-5 决策树设置4.得出统计信息(1)决策树描述: 所处理记录个数:200;丢弃的记录个数:2;决策树正确率:100.0,(分裂时一个分支的最小样本数大于2 ,连续值分叉结点的最大分叉数3;生成树方法为信息熵 ;树剪枝的方法:深度剪枝,最大深度为5) (2)决策树结果见图4-6图4-6 决策树(3) 决策树变量分类重要性决策

7、树变量分类重要性变量名称重要性Education Level87.22Home Ownership55.91Marital Status100.00Theater Freq58.12Customer ID62.26Age58.02Num Children29.32Num Cars58.78表4-7决策树变量分类重要性(4)相关规则有决策树结果信息和变量属性的表示方法可以得到65条规则.由于规则较多,下面选取的是可信度为100%的规则一共19条规则4 如果: Marital Status 属于 Married 并且: Education Level 属于 Bachelors Degree 并且:

8、 Customer ID 属于 884765.99 ,891464.40) 并且: Theater Freq 属于 Never 那么: Income = 150000(可信度100.00%)规则9 如果: Marital Status 属于 Married 并且: Education Level 属于 Bachelors Degree 并且: Customer ID 属于 =904861.20 并且: Home Ownership 属于 Rent 那么: Income = 60000(可信度100.00%)规则15 如果: Marital Status 属于 Married 并且: Educa

9、tion Level 属于 Masters Degree 并且: Age 属于 32.00 ,37.40) 并且: Num Cars 属于 =2.20 那么: Income = 150000(可信度100.00%)规则17 如果: Marital Status 属于 Married 并且: Education Level 属于 Masters Degree 并且: Age 属于 =37.40 并且: Customer ID 属于 890003.33 ,900478.00) 那么: Income = 100000(可信度100.00%)规则24 如果: Marital Status 属于 Mar

10、ried 并且: Education Level 属于 Associates Degree 并且: Customer ID 属于 =892014.27 那么: Income = 75000(可信度100.00%)规则26 如果: Marital Status 属于 Married 并且: Education Level 属于 Doctorate 并且: Theater Freq 属于 Weekly 那么: Income = 120000(可信度100.00%)规则28 如果: Marital Status 属于 Married 并且: Education Level 属于 Doctorate

11、并且: Theater Freq 属于 Never 那么: Income = 100000(可信度100.00%)规则29 如果: Marital Status 属于 Married 并且: Education Level 属于 Grade School 那么: Income = 70000(可信度100.00%)规则44 如果: Marital Status 属于 Never Ma 并且: Education Level 属于 Masters Degree 并且: Age 属于 =36.40 并且: Theater Freq 属于 Monthly 那么: Income = 60000(可信度

12、100.00%)规则49 如果: Marital Status 属于 Never Ma 并且: Education Level 属于 Doctorate 那么: Income = 100000(可信度100.00%)规则50 如果: Marital Status 属于 Never Ma 并且: Education Level 属于 High School 那么: Income = 80000(可信度100.00%)规则51 如果: Marital Status 属于 Separate 并且: Education Level 属于 Bachelors Degree 那么: Income = 20

13、0000(可信度50.00%)规则52 如果: Marital Status 属于 Separate 并且: Education Level 属于 Doctorate 那么: Income = 135000(可信度100.00%)规则53 如果: Marital Status 属于 Separate 并且: Education Level 属于 Post-Doc 那么: Income = 100000(可信度100.00%)规则58 如果: Marital Status 属于 Divorced 并且: Education Level 属于 Bachelors Degree 并且: Home Ownership 属于 Own 并且: Customer ID 属于 =890170.80 那么: Income = 75000(可信度100.00%)规则59 如果: Marital Status 属于 Divorced 并且: Education Level 属于 Bachelors Degree 并且: Home Ownership 属于 Rent 那么: Income = 45000(可信度100.00%)规则60 如果: Marital Status 属于 Divorced 并且: Education Level

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号