人工智能技术与数据挖掘

资源描述

《人工智能技术与数据挖掘》由会员分享，可在线阅读，更多相关《人工智能技术与数据挖掘（8页珍藏版）》请在金锄头文库上搜索。

1、人工智能技术与数据挖掘摘要:数据挖掘是人工智能中的一个重要分支。对人工智能的发展及其最基本的技术:知识表示、知识推理、搜索，以及数据挖掘进行了详细介绍。通过实例给出了数据挖掘的定义，最后论述了数据挖掘与人工智能的联系，并结合国内外在该领域的研究成果指出了其广阔的发展前景。关键词:人工智能;数据处理;展望Data Mining and Technology of Artificial IntelligenceAbstract: Data mining is an important branch of artificial intelligence. Development of arti

2、ficial intelligence and it sessential technologies such as knowledge expression, knowledge reference and searching, as well data mining are introduced in details. Then a definition about data mining is given by an example. Finally, the relation between datamining and artificial intelligence is discu

3、ssed, and the trend is pointed out.Key words: Artificial intelligence; Data processing; Forecast一前言当人工智能进展到一定程度时，对符号处理技术和神经网络处理技术相结合的要求越来越强烈，其中数据挖掘便是二者很好的结合。数据挖掘体现了人工智能技术的进展，其应用领域日益广泛。本文综述了人工智能和数据挖掘的产生、发展及其相互联系，以便引起更多研究者的关注。二人工智能的发展人工智能(Artificial Intelligence,简记为AI)研究计算和知识之间的关系1用机器去模拟人的智能,使机器具有

4、类似于人的智能，其实质是研究如何构造智能机器或智能系统，以模拟、延伸、扩展人类的智能。人工智能是在计算机科学、控制论、信息论、神经心理学、哲学、语言学等多种学科研究的基础上发展起来的。人工智能是当前信息化社会的迫切要求。例如，人工智能技术在Internet 和未来的信息高速公路上将发挥重要作用。人工智能是1956年由McCarthy；等正式提出的。随后人工智能的研究取得了许多引人注目的成就。例如，1956 年Samuel L研制出了跳棋程序,6年之后击败了一个州的跳棋冠军;1958年美籍华人王浩在IBM2704计算机上用35min证明了有关命题演算的全部定理；1959 年Selfri

5、deO推出了一个模式识别程序;1965年Roberts编制出了可分辨积木构造的程序;Feigenbaum E A于1968年研制成功了 DENDRAL专家系统；1972年法国人Comerauer A提出并设计实现了逻辑程序设计语言PROLOG;同一时期,斯坦福大学的Short liffe E H开始研制用于诊断和治疗感染性疾病的专家系统 MYCIN;1977年Feigenbaum E A在第五届国际人工智能联合会议上提出了 “知识工程”的概念，对以知识为基础的智能系统的研究与建造起到了重要作用；1991 年第12届国际人工智能联合会议上日本展出了 PSI23智能工作站和由4X4PSI2

6、3 构成的模型机系统；1997年,IBM公司制造的“深蓝”号计算机系统战胜了国际象棋大师卡斯帕罗夫等。人工智能早期的研究领域有:专家系统、机器学习、模式识别、自然语言理解、自动定理证明、自动程序设计、机器人学、博弈、人工神经网络等；目前已涉及到以下研究领域:数据挖掘、智能决策系统、知识工程、分布式人工智能等。其中，数据挖掘的出现是人工智能发展史上具有重大意义的事件。这是因为 20世纪80年代初，美国、欧洲和日本制定的一批针对人工智能的大型项目都面临了重重困难:一是所谓的交叉问题，即传统方法只能模拟人类深思熟虑的行为，而不包括人与环境的交互行为；二是所谓的扩展问题，即传统人工智能方法

7、只适合于建造领域狭窄的专家系统,不能把这种方法简单地推广到规模更大、领域更宽的复杂系统中去。以上两个根本性问题使人工智能研究进入低谷。数据挖掘的出现使人们又重新看到人工智能的希望5,6。三数据挖掘数据挖掘(Data Mining, DM)是指从大量的数据或信息中挖掘或抽取出知识的过程。这里包含数据的挖掘和智能信息的抽取过程，前者要从大量纷繁复杂的现实世界数据中挖掘出未知的、有价值的模式或规律，后者是对知识进行比较、选择，总结出原理和法则,形成所谓的智能7,8。目前，在很多重要的领域，尤其是在银行、电信、保险、交通、零售(如超级市场)等商业应用领域，数据挖掘能够帮助解决许多典型的商

8、业问题，如数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross2Selling) 等市场行为，以及客户流失性分析(Churn Analysis)、客户信用评分(Credit Scoring)、欺诈发现(Fraud Detection)等等。数据挖掘技术在企业市场营销中的应用是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明” 8数据挖掘有两种分析处理形式，有监督学习和无监督学习，前者是在已

9、知训练样本集合类别的基础上通过学习建立相应模型;后者是指训练样本类别与个数未知的学习。例如，表1为某超市顾客信息数据库的部分内容，包括顾客信用卡号、姓名、性别、年龄、收入、职业、联系方式、购买商品信息、消费记录等属性描述，利用这些数据可以给潜在顾客发送用于促销的新产品宣传手册,以及将要开始的商品打折信息。表1某超市顾客信息表顾客号姓名性别年龄收入职业联系方式消费记录信用等级 101 江吉芳女 30 2000科技人员学院路35号关联表1 一般 103 叶关丽女 20 1000教师公主坟1号关联表3 高 104 张建国男 50 2500销售代理西苑4号关联表4 中用“人工智能”

10、的方法对以上信息进行处理的步骤为：首先，对原始数据进行填补遗漏数据、消除异常数据、平滑噪声数据等处理，提高数据挖掘进程的有效性和准确性。然后，利用AOI算法(基于属性归纳算法)对原始数据进行归纳抽象, 即去掉取值过多且不均匀的属性和概念层次树中不存在的属性，最终得到一个更加泛化的关系表2。表2顾客信息泛化关系表姓名年龄收入顾客类别江吉芳30中忠实顾客姚玉民3040高幸运顾客叶关丽30摆动顾客最后，应用数据挖掘算法，获得分类规则，对不同类别的顾客采用不同的宣传和打折策略。当新顾客的信息被加入到数据库中时，就需要对该顾客的类型进行判断，以决定是否给顾客发送相应的宣传手册和打折信息。有针对

11、性地给有最大可能购买力的顾客发送其所需要的商品广告，使其保持最大购买共振状态，才是一种高效节俭的市场营销策略。四数据挖掘与人工智能技术的联系人工智能技术包括推理技术、搜索技术、知识表示与知识库技术、归纳技术、联想技术、分类技术、聚类技术等等,其中最基本的三种技术即知识表示、推理和搜索都在数据挖掘中得到了体现。（1）知识表示知识表示是指在计算机中对知识的一种描述，是一种计算机可以接受的用于描述知识的数据结构。由于目前对人类知识的结构及机制还没有完全搞清楚，因此关于知识表示的理论及规范尚未建立起来。尽管如此，人们在对智能技术系统的研究及建立过程中还是结合具体研究提出了一些知识表示方法

12、：符号表示法和连接机制表示法符号表示法使用各种包含具体含义的符号，以各种不同的方式和次序组合起来表示知识,它主要用来表示逻辑性知识。连接表示法是把各种物理对象以不同的方式及次序连接起来，并在其间相互传递及加工各种包含具体意义的信息。数据挖掘中关联规则的挖掘用到了符号表示法。关联规则挖掘是从大量的数据中挖掘出有价值的描述数据项之间相互联系的有关知识。例如，通过分析某个超市的数据库后,发现许多顾客在购买A牌子牛奶时，同时也购买了 A牌子的面包，显然这是一个很重要的知识，因为它可以帮助商家对这两种商品打包出售，并且及时调整货架商品摆放。这一条知识可以用以下规则来表示：A 牌子的牛奶A

13、牌子的面包 Support=20%,Confidence=60%其中Support=20%表示支持度是20%,即交易库中同时包含A牌子的面包和A 牌子的牛奶的记录占总记录数的20%,Confidence=60%表示有60%的顾客在购买A 牌子的牛奶的同时，还会购买A牌子的面包。整条规则描述为如果顾客购买了 A 牌子的牛奶，那么他有60%的可能性去购买A牌子的面包。连接表示法对应于数据挖掘中神经网络分类法。神经网络通过调整权重来实现输入样本与其类别的对应，从而达到从训练后的神经网络中挖掘出知识。(2) 推理技术推理技术从已知的事实出发，运用已掌握的知识，找出其中蕴含的实事，或归纳出新的实

14、事。推理可分为经典推理和非经典推理，前者包括自然演绎推理、归纳演绎推理、与/或形演绎推理等,后者主要包括多值逻辑推理、模态逻辑推理、非单调推理等。一般而言，数据挖掘在处理过程中其基本思想是非经典的，而其依据的“剪枝”规则应该是经过经典推理严格证实的有其严格的数学背景。比如，聚类处理时的基本思想是基于非经典推理，但为了提高效率而采取的“剪枝”技术必须保证完备性、正确性，经得起推理，否则便成了随意剪枝和删除信息，虽然提高了效率，但其正确性不能保证，就没有什么意义了。(3) 搜索技术搜索是根据问题的实际情况不断寻找可利用的知识,从而构造一条代价较小的推理路线。搜索分为盲目搜索和启发式搜

15、索，盲目搜索是按预定的控制策略进行搜索，在搜索过程中获得的中间信息不用来改进控制策略。启发式搜索是在搜索过程中加入与问题有关的启发性信息，用于指导搜索朝着最有希望的方向前进, 加速问题的求解过程，并找到最优解。搜索机制在数据挖掘中得到了最详尽的体现。例如，在属性约简中，如果我们发现某一列属性的取值完全一样或区分能力不大，则可以提前删去。另外，在挖掘关联规则时,如果发现频繁K项集的任一 (K21)项候选集不存在，则终止搜索剩余的(K21 )项候选集，就可以判断“频繁K项集是不存在的”；等等。搜索机制提高了数据挖掘的效率，这对解决人工智能中的NP难问题是一个积极的探索。五展望目前数据挖

16、掘和人工智能存在以下几个发展趋势。(1) 更加注重智能化。人工智能和数据挖掘都很注重对智能技术的研究，例如自动客户需求分析、自动资料更新、机器人自动识别、自动交通管理等。高度的智能化是数据挖掘和人工智能研究最终追求的目标，也是二者最终合而为一的标志。可以预计未来的10年里将是人工智能和数据挖掘高度智能化发展的10年。(2) 网络化。将人工智能的技术应用于网络中将会使网络技术带上“智能”的特性,可以提高网络运行效率、解决网络拥塞问题、增加网络安全性、智能管理网络客户等。目前关于数据挖掘在网络上的应用已经很常见了，例如，提出了用数据挖掘的方法在万维网上进行搜索的三种算法，文献10提出了一种基于数据挖掘的高效搜索引擎的编制算法。但是，人工智能和数据挖掘的网络化，仍然存在着算法效率和结果的

展开阅读全文