数据挖掘相关论文

上传人:公**** 文档编号:547408149 上传时间:2023-01-09 格式:DOCX 页数:10 大小:16.08KB
返回 下载 相关 举报
数据挖掘相关论文_第1页
第1页 / 共10页
数据挖掘相关论文_第2页
第2页 / 共10页
数据挖掘相关论文_第3页
第3页 / 共10页
数据挖掘相关论文_第4页
第4页 / 共10页
数据挖掘相关论文_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《数据挖掘相关论文》由会员分享,可在线阅读,更多相关《数据挖掘相关论文(10页珍藏版)》请在金锄头文库上搜索。

1、资料范本本资料为word版本,可以直接编辑和打印,感谢您的下载数据挖掘相关论文地点:时间:说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与 义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时 请详细阅读内容数据挖掘论文题 目:数据挖掘技术在电子商务中的应用系 别:计算机学院专业:11网络工程1班学生姓名:黄坤学号: 1110322111指导教师:江南2014年11月06日数据挖掘技术在电子商务中的应用一、研究原因电子商务在现代商务活动中的正变得日趋重要,随着大数据时代的到来, 商务信息显得尤为重要,在电子商务中谁掌握了有利的市场信息,谁就能在这 个竞争激烈

2、电商行业中占据绝对的优势。而数据挖掘技术是获取信息的最有效 的技术工具。本文讨论了数据挖掘的主要方法,具体阐述了数据挖掘技术在电 子商务中的作用及应用。在信息经济时代,对企业来说,谁对市场变化反应速度快,谁将在激烈的 市场竞争中占据有利的地位,竞争的结果最终将促使企业价值从市场竞争输家 转移到赢家,这样就使企业面临一个问题:如何才能把大量的数据资源,转化 成自身价值呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司 自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成 为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖 掘和知识发现(DMKD)技术应运

3、而生,并得以蓬勃发展,越来越显示出其强大的 生命力。二、2.1国内研究现状KDD (从数据库中发现知识)一词首次出现在1989年8月举行的第11届国 际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD已经召 开了 7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七 八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用, 并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容 的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一 大热点。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物 也纷纷开

4、辟了 KDD专题或专刊。IEEE的Knowledge and Data Engineering会 刊领先在1993年出版了 KDD技术专刊,所发表的5篇论文代表了当时KDD研究 的最新成果和动态,较全面地论述了 KDD系统方法论、发现结果的评价、KDD系 统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、 空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理 统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了 KDD在 从建立分子模型到设计制造业的具体应用。不仅如此,由美国人工智能学会主办 的KDD国际研讨会规模由原来的专题讨论会发展到国际

5、学术大会,研究重点也 逐渐从发现方向转向系统应用,注重多重发现策略和技术集成,以及多种学科 之间的相互渗透,并且有很多学校和科研机构也正投入大量资金进行数据挖掘 技术的进一步开发和深入研究。国内对数据挖掘的研究稍晚,没有形成整体力 量。但是国内的高校,例如清华大学、中科院计算机技术研究所等,都已开展 了不同程度的知识发现的基础理论及其应用研究。其中,北京系统工程研究所 对模糊方法在知识发现中的应用进行了较深入的研究。与国外相比,我国对数 据挖掘领域的研究仍处于初级阶段,绝大多数工作集中于局部算法设计,进行 综合的系统集成设计却寥寥无几。由于核心技术的欠缺,使得数据挖掘在国内 一些领域只是初步应

6、用,如银行、金融、GIS等领域。所以研究数据挖掘技 术,并将其应用到科研、经济、教育等领域的重要性是可见一斑的。电子商务(E-Commerce)是以指利用电子数据交换(Electronic Data Interchange, EDI)、电子邮件(E-mail)、电子资金转账(Electronic Funds Transfer, EFT)和Internet等主要技术在个人、企业和国家之间进行 无纸化的信息交换,包括商品信息及其订购信息、资金信息及其支付信息、安 全及其认证信息等,即以现代信息技术为手段,以经济效益为中心的现代化商 业运转模式。其最终目标是实现商务活动的网络化、自动化与智能化。随着

7、Internet的迅速发展,电子商务的应用不断深入。在电子商务应用系 统中,相关的用户数据日益增多,数据挖掘技术具有从大量复杂数据中发现特 定规律的能力。商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的 选择,同时也为商家提供了更加深入了解客户需求信息和购物行为特征的可能 性。2.2数据挖掘技术2.2.1统计技术统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合 假定了一个分步或者概率的模型(比如一个正态分布),然后根据模型采用相 应的方法进行挖掘。2.2.2关联规则数据关联是数据库中存在的一类很重要的可以发现的知识。若两个或者多 个变量的取值之间存在某种规律性,就成为关联

8、。关联可分为简单关联,时序 关联,因果关联。关联分析的目的是找出数据库中隐含的关联网,优势并不知 道数据库中的关联函数,即使知道也是不确定的,因此关联分析生成的规则带 有可信度。2.2.3 基于历史的分析 MBR (Memory-based Reasoning)MBR的本质是:现根据经验知识寻找相似情况,然后再将这些情况的信息 应用于当前的例子中。使用的三个问题是:寻找确定的历史数据;决定表示历 史数据的最有效方法;决定距离函数、联合函数和邻近的数量。2.2.4 遗传算法 GA (Genetic Aigorithms)该算法是基于进化理论,并采用遗传结合、遗传变异及自然选择等方法优 化结果。主

9、要思想是:根据适者生存的原则,形成由当前群体中最适合的规则 组成新的群体,以及这些规则的后代。规则的适合度(Fitness)是对训练样本 分类准确性的评估。2.2.5聚集检测将物理或者抽象对象的集合,分组成为由类似的对象组成的多个类的过程 被成为聚类。在由聚类生成的数据对象集合中,这些对象具有相似性,并与其 他集合中的对象具有相异性。这种相异度是根据描述对象的属性值来计算的, 距离是经常被采用的度量方法。2.2.6连接分析它的基本理论是图论,图论的思想是寻找一个可以得出好的结果但不是完 美结果的算法。这种不完美但是可行的思想模式,可以使之运用到更广的用户 群中。2.2.7决策树决策树是能够被看

10、成一棵树的预测模型。树的每个分支都是一个分类的问 题,内部节点表示在一个属性上的测试,树叶代表类或者分布。决策树算法是目前应用最广泛的归纳推理算法之一,是一种逼近离散值函 数的方法,也可将它看作是一个布尔函数。它是以实例为基础的归纳学习算 法,通过对一组训练数据的学习,构造出决策树形式的只是表示,在决策树的 内节点进行属性值的比较并根据不同的属性值判断从该节点向下的分枝,从而 在决策树叶节点得到结论。所以从根到叶节点的一条路径就对应着一条规则, 整棵决策树就对应着一组吸取表达式规则。2.2.8神经网络神经网络是指由大量神经元互联而成的网络,类似于服务器互联而成的因 特网。它主要由“神经元”的互

11、联,或按组织的结点构成。通常神经网络模型 由三个层次组成:输入层,中间层,输出层。在神经元求得输入值后,再汇总计算总输入值;由过滤机比较总输出值, 确定网络的输出值。可以通过模拟判断,来不断修正计算的“权值”来达到学 习的目的,增加判断的正确性。2.2.9粗糙集粗糙值是一种研究不确定性问题的工具,它根据已有的给定问题的知识, 对问题论域进行划分,然后对划分后的每个组成部分确定其对某个概念的支持 程度。它用于从数据库中发现分类规则的基本思路是将数据库中的属性分为条 件属性和结论属性。对数据库中的元组根据各个属性不同的属性值分成相应的 子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似

12、关系生 成判定规则。2.2.10回归分析回归分析分为线性回归、多元回归和非线性回归。线性回归中,数据是用 直线建模;多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在 基本线性模型上添加多个项式项形成为线性回归模型。数据挖掘阶段分析数据挖掘阶段作为整个项目的重中之重,通常数据挖掘的流程包括项目理 解、数据理解、数据准备、建立模型、模型评估和模型发布等。3.1项目理解阶段此阶段主要确定项目目标,订立项目成功的标准,完成项目形势评估及制 定项目执行计划等等。项目成功的标准是模型的准确率达到多少、纯度达到多 少等,而形式评估则主要对项目实施未来可能遇到的问题作一个简单的评估, 业务及行业规则

13、不断变化,模型在应用过程中会遇到各种问题等。至于项目计 划则是对整个项目需要的时间,资源作一个整体的规划把控。除此之外,此阶 段还需要对相关专业术语进行解释说明等。3.2 数据理解和数据准备数据挖掘对数据的依赖性非常高,为了能够实现数据挖掘的目标,要求收 集的数据足够全,质量尽量高。通常在这个阶段花费的时间占整个项目的一半 还多。原始数据采集完后,还需要对数据进行描述和处理,比如进一步探查已 选变量与目标变量之间是否存在关系,各变量数据的基本探查,如空值数目、 唯一值数目、最小最大值的统计以及数据质量检验等。数据准备数据集描述清洗数据构造数据选择数据格式化数据整合数据3.3建立模型阶段数据挖掘

14、项目的建立模型都要经过三个阶段:建立模型,测试并调整模 型,应用模型。建立模型,就得选择相应的建模技术,可能应用到决策树、神 经网络及回归分析等统计技术,在项目运营的各个阶段,数据不同,运营宣传 方式也不同,这就可能利用模型的组合,各个项目阶段采用不同的模型进行预 测分析。3.4模型评估阶段模型的应用通常需要较长周期的检验才能准确的评估其是否满足商业标 准,在传统行业,这个评估通常在模型应用一年后作出。此外,对于设计的模 型,不但要评估模型的准确性和通用性,还要努力找出相关商业理由解释说明 模型的欠缺,把生成的结果与建模初订立的标准进行对比,同时根据目前的状 况对数据仓库变量做适当的修正调整,

15、以满足日常数据分析需要。数据挖掘运营分析调研验证3.5模型发布阶段在模型通过评估满足商业目标情况后,进入模型发布阶段。模型发布阶段 的内容主要包括相关模型检测和维护计划(常规调整和适应性的调整应用于节 假日及寒暑假等特殊日期),以确保模型的准确预测和预警。同时,还要利用 模型指导日常运营发布相关数据分析报告。确定研究目标提出策略意见分析数据现象与目标的关联找出真实原因数据挖掘技术在电子商务中的应用4.1电子商务中数据挖掘技术的适用价值目前对于数据挖掘的对象和使用的方法层出不穷,随着电子商务的兴起, 电子商务将是未来数据挖掘的主要发展方向之一,它在各种商业领域都存在广 泛的使用价值。4.1.1客

16、户细分随着以客户为中心的经营理念不断深入人心,分析客户、了解客户并引导 客户的需求己成为企业经营的重要课题。通过对电子商务系统收集的交易数据 进行分析,可以按各种客户指标(如自然属性、收入贡献交易额、价值度等)对 客户分类,然后确定不同类型客户的行为模式以便采取相应的营销措施促使企 业利润的最大化。4.1.2客户获得比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学 历、收入如何,有什么爱好,是什么职业等等。甚至可以发现不同的人在购买 该种商品的相关商品后多长时间有可能购买该种商品,以及什么样的人会购买 什么型号的该种商品等等。也许很多因素表面上看起来和购买该种商品不存在 任何联系,但数据挖掘的结果却证明他们之间有联系。在采用了数据挖掘后, 针对目

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号