读客网用户行为分析系统——“相关分析”模块-论文正文

上传人:wo7****35 文档编号:54428404 上传时间:2018-09-12 格式:DOC 页数:50 大小:631KB
返回 下载 相关 举报
读客网用户行为分析系统——“相关分析”模块-论文正文_第1页
第1页 / 共50页
读客网用户行为分析系统——“相关分析”模块-论文正文_第2页
第2页 / 共50页
读客网用户行为分析系统——“相关分析”模块-论文正文_第3页
第3页 / 共50页
读客网用户行为分析系统——“相关分析”模块-论文正文_第4页
第4页 / 共50页
读客网用户行为分析系统——“相关分析”模块-论文正文_第5页
第5页 / 共50页
亲,该文档总共50页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《读客网用户行为分析系统——“相关分析”模块-论文正文》由会员分享,可在线阅读,更多相关《读客网用户行为分析系统——“相关分析”模块-论文正文(50页珍藏版)》请在金锄头文库上搜索。

1、厦门大学软件学院本科毕业论文 I 读客网用户行为分析系统 “相关分析”模块 【摘要摘要】作为解决目前企业信息系统中普遍面临的数据爆炸而导致信息缺乏 状况的最有效的手段之一,数据挖掘受到了学术界和企业界的极大关注。 在电子杂志网站运营中,运用数据挖掘技术对服务器上的日志文件等 Web 数据进行客户访问信息以及客户注册信息的数据挖掘,了解用户的访问行为, 从而调整站点的结构、市场策略等,使网站运营更有针对性。 本项目即是数据挖掘在实践中的应用。该系统基于 C# .NET 平台开发,使 用 SQL SERVER 2000 开发后台数据库,实现了三种基本的相关分析算法和一 元线性回归模型的拟合算法。

2、本文主要介绍了系统开发的理论和技术基础支持和读客网用户行为分析系 统中的“相关分析”模块的设计与测试。 【关键词关键词】数据挖掘 相关分析 回归分析 厦门大学软件学院本科毕业论文 II Users Behavior Analysis System for DUKEWANG Correlation Analysis Module Abstract At a most valid means of solving the status of data explosion but information lack that current enterprise information systems

3、 are faced with, data mining is paying maximum attention to the academic and enterprise. In e-magizine website operation, the users browsing behavior can be discovered by applying data mining technology on web data such as server logs and users register information.In addition, the site structure, m

4、arketing strategies can be modified according to the discovered knowledge. This project is just an application of a theory to practice. This system is based on C# .NET platform.The database is Microsoft SQL Server 2000.The system emplentment three basic correlation analysis algorithm and simple line

5、ar regression model. This article is firstly introduced the theory and technology basics of the system development, and then mainly about the design and test of Correlation Analysis the part of the system of users browsing behavior analysis of DUKEWANG website. Key words Data Mining Correlation Anal

6、ysis Regression Analysis 厦门大学软件学院本科毕业论文 III 目录目录 第一章引言1 1.1 项目背景.1 1.2 目标和任务.1 1.3 相关分析模块的目标.2 第二章理论与开发技术基础3 2.1 数据挖掘基础知识.3 2.2 相关分析基础知识.4 2.3 回归分析基础知识.7 2.4 项目开发环境介绍.8 第三章系统总体设计14 3.1 系统整体架构.14 3.2 系统功能模块设计.14 3.2.1 数据预处理模块14 3.2.2 基于平台结构的分析模块20 3.2.3 基于平台使用的分析模块20 3.2.4 分析结果输出模块21 第四章相关分析模块测试22 4.

7、1 四种类型的变量.22 4.2 皮尔逊积差相关(用于“比例-比例”型变量).22 5.3 肯氏等级相关系数(用于“次序次序”型等级变量).25 5.4 肯氏另一种相关系数(用于“次序比率”型变量).28 5.5 斯皮尔曼等级相关(“次序次序”等级变量).30 5.6 一元线性回归模型.33 第五章结束语36 致谢37 参考文献38 厦门大学软件学院本科毕业论文 IV CONTENTS Chapter 1 Introduction 1 1.1 Project Background.1 1.2 Targets and tasks 1 1.3 Objective of correlation an

8、alysis module .2 Chapter 2 Theory and technology basics .3 2.1 The rudiments of data mining.3 2.2 The rudiments of correlation.4 2.3 The rudiments of regression.7 2.4 Development environment introduction8 Chapter 3 System design .14 3.1 Construction of system.14 3.2 Functional modularity design14 3.

9、2.1 Data pre-processing module.14 3.2.2 Analysis module based on the structure of the platform .20 3.2.3 Analysis module based on the usage of the platform .20 3.2.4 Output module.21 Chapter 4 Design and test of correlation module .22 5.1 Four types of variable.22 5.2 Pearson correlation coefficient

10、.22 5.3 Kendall correlation coefficient.25 5.4 Another Kendall correlation coefficient.28 5.5 Spearman correlation coefficient30 5.6 Simple linear regression model33 Chapter 5 Summary36 Acknowledgement.37 References38 厦门大学软件学院本科毕业论文 1 第一章第一章引言引言 1.11.1 项目背景项目背景 目前的电子杂志行业还处于探索阶段,如同当初的门户网站一样,对于运 营模式只有

11、模糊的方向。电子杂志发布公司要充分挖掘运营模式还需要很长的 时间。电子杂志行业又是一个充满了跟随者和模仿者的市场,在这个广阔的市 场中如何能抢先定位并锁定客户,是在现尚处于发展阶段的电子杂志行业中成 功的关键。 读客网的目标是成为新一代网络分众媒体。对读客网而言,谁是最好的客 户?怎样做能留住他们?怎样吸引其它这样的用户?怎样改进运行方式提高竞 争力,这些问题日趋紧迫。为了获得可靠回答,需要在每天收集的毫无关联的 数据中生成情报。识别正确的人群,正确的渠道,及正确的出价,来获得最大 收益。建立一套完整的程序:数据导入,建立模型和数据挖掘,结果展示。从 帮助企业阐明以用户为重的战略来瞄准最好的前

12、景,建立一套能在用户关系上 获得最大回报的解决方案。 1.21.2 目标和任务目标和任务 读客网用户行为分析系统就是是在读客网现有数据基础上,进行数据预处 理,并建立模型对处理后的数据进行数据挖掘分析,得出有价值的信息,并以 可视化的图形和报表形式提供分析结果。 本项目的主要目标有以下几方面: 1)保留老读客,挖掘新读客 2)借助收集好的相关数据,分析读客阅读行为的特征,进行分类 3)统计读客的分布状况 4)杂志的分类 本项目的主要工作有以下几点: 1)分析读客网需求,确定原始数据需求 2)用户阅读行为分析 厦门大学软件学院本科毕业论文 2 3)建立相应的数据挖掘模型 4)开发读客网的专用数据

13、挖掘系统 1.31.3 相关分析模块的目标相关分析模块的目标 本文主要讨论读客网用户行为分析系统中的“相关分析”模块的设计和测 试。 “相关分析”模块主要实现三种基本的相关分析算法和一元线性回归模型的 拟合算法。 相关分析是一种研究变量之间关系密切程度的一种统计方法。事物之间是 相互关联、相互影响与相互制约的,将事物之间的这种相互关系加以量化,即 说明相关的变量之间存在着一定的定量关系,并且根据这些关系可以很好的判 断和预测。相关分析最基本三种算法是皮尔逊积差相关、斯皮尔曼等级相关和 肯氏相关,可以对“比例-比例”型变量、 “次序次序”型等级变量和“次序 比率”型变量进行相关性分析,计算变量之

14、间的相关程度。其中皮尔逊积差 相关主要用于“比例-比例”型变量的相关性分析,斯皮尔曼等级相关和肯氏相 关用于对“次序次序”型等级变量的相关性分析。 在变量之间相关性较强的情况下,若把存在相关关系的两个变量,一个作 为自变量,一个作为因变量,并把两者之间不确定的关系用数学方程表示出来, 则可以通过此方程式由自变量的值来估算因变量的值。这时我们可以利用一元 线性回归模型的拟合算法进行计算,得到一元线性回归数学方程。 厦门大学软件学院本科毕业论文 3 第二章第二章理论与开发技术基础理论与开发技术基础 2.12.1 数据挖掘基础知识数据挖掘基础知识 2.1.1 数据挖掘的定义 数据挖掘(Data Mi

15、ning,简称 DM) ,简单地讲就是从大量数据中挖掘或抽 取出知识,数据挖掘概念的定义描述有若干版本,以下给出一个被普遍采用的 定义描述: 数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database,简称 KDD) ,它是一个从大量数据中抽取挖掘出未知的、有价值的模 式或规律等知识的复杂过程。 2.1.2 数据挖掘研究内容 1)广义知识(Generalization):指类别特征的概括性描述知识。根据数据的 微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的 知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。 2)关联知识(Ass

16、ociation):它反映一个事件和其他事件之间依赖或关联的知 识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依 据其他属性值进行预测。最为著名的关联规则发现方法是 R.Agrawal 提出 的 Apriori 算法。 3)分类知识(ClassificationClustering):它反映同类事物共同性质的特征知识 和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的 分类方法。它是从实例集中构造决策树,是一种有指导的学习方法。该方 法先根据训练子集(又称为窗口)形成决策树。如果该树不能对所有对象 给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形 成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有 分枝的属性,该分枝对应该属性的某一可能值。最为典型的决策树学习系 统是 ID3,它采用自顶向下不回溯策略,能保证找到一个简单的树。算法 厦门大学软件学院本科毕业论文 4 C4.5 和 C5.0 都是 ID3 的扩展,它们将分类领域从类别属性扩展到数值型属 性。 4)预测型知识(Predi

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号