【计算机】aai09-1知识发现

资源描述

《【计算机】aai09-1知识发现》由会员分享，可在线阅读，更多相关《【计算机】aai09-1知识发现（45页珍藏版）》请在金锄头文库上搜索。

1、第九章知识发现史忠植中科院计算所Date1史忠植高级人工智能内容第一部分: 知识发现第二部分: 数据库中知识发现第三部分: 粗糙集Date2史忠植高级人工智能 9.1 概述数据变知识信息变知识Date3史忠植高级人工智能知识发现Gerwin在1974年开始机器发现的研究, 他研究噪声数据下归纳单变量复杂函数。 1978年,Buchanan和Mitchell开发META- DENDRAL,它可以发现规则, 描述怎样产生分子结构。 1977年Lenat开发的AM系统可以重新发现数论的数学概念。从 1976年到1983年,Langley,Simon和 Bradshaw 开发了

2、BACON系统。 Kokar采用模型驱动,开发的COPER系统可以进行数值发现。Date4史忠植高级人工智能科学发现的过程采集数据寻找描述形成理论测试Date5史忠植高级人工智能科学发现与数据库中知识发现的不同科学发现具有极强的目的性，是被控制的，其数据来自精心设计的实验, 去掉了无关因素，仅保留少数的参数，并对目标参数进行解释。而一般典型的商业数据库的记录，却具有许多信息以适应组织的不同目标的需要。科学发现中可对实验重新设计，而一般数据库却不会频繁地改变它的结构，不会重新收集数据。Date6史忠植高级人工智能 9.2 数据驱动知识发现BACON从1976到1983年

3、，共研制了六个版本： BACON.1可以看成是一种通用规则归纳器。 BACON.2包括启发式处理顺序信息，增加了两种操作。一种用于计算差别以便发现递归序列，另一种用于产生多项式项。 BACON.3用不变性检查提出的假设来修改训练例子。 BACON.4主要解决数据集怎样能以简明方式描述。 BACON.5能够处理对称假设, 简单的类比, 并能处理噪声。 BACON.6能够处理数据中的大量噪声, 使用差分技术, 寻找相关两项的最优的多项式函数。Date7史忠植高级人工智能 BACON系统的特点采用数据驱动通过启发式约束搜索依赖于理论数据项递归应用一些通用的发现方法Date8史忠植高级人

4、工智能 BACON系统采用的一般方法(1) BACON产生函数，描述一组数据。 (2) 系统设个变量为常数, 仅一个变量改变，所以分析函数，而保持为常数。 (3) BACON 处理数据时采用启发式，设是线性的，或者双曲线函数或，其中取决于变量。 (4) 如果这些假设之一符合数据，那么BACON分别导出假设或者。所有这些都称为“理论项”。如果自变量是规范型，随而改变，那么称其具有“本征特性”，其值赋给作为初值。(5) 设或作为依赖的新变量。(6) 假定（或），重复整个过程。Date9史忠植高级人工智能开普勒定律的训练实例实例行星水星11金星

5、84地球279Date10史忠植高级人工智能新项的值实例行星水星11金星84地球2791.00.50.331.02.03.0111Date11史忠植高级人工智能 BACON 的操作1) 不变性检查：若某个变量至少两次取同样值V，则假设该变量保持为常量V。2) 特化：在以前得到的假设与数据冲突时，就增加合取条件来使假设特化。3) 产生斜率和截距：若发现两个变量保持线性关系，则产生的新项是斜率和截距。4) 产生乘积：若两个变量反向变化而且斜率不同，则产生的新项是二者乘积。5) 产生商数：若两个变量同向变化但斜率不同，则产生的新项是二者的商。Date12史忠植高级人工智能 BACO

6、N的优缺点优点：能发现实值变量间关系的定律。规则空间操作可以组合现有项，以产生新项。BACON.3在发现局部规律性后，修改训练例子的表示。缺点：仅在特殊情况下才使用操作，这使程序对变量的次序和训练例子的选择很敏感。不能处理有噪声的训练例子。只能处理简单概念, 例如不能发现析取概念。Date13史忠植高级人工智能 9.3 模型驱动知识发现COPERCOPER知识发现算法： 1) 决定生成新的描述的基本描述和词法规则。 2) 确定函数初始的自变量和因变量。 3) 从自变量中选取基本参数。 4) 使用生成规则, 根据基本参数表示其它参数, 这些是导出参数。 5) 设计实验, 基本参数改变时,

7、导出参数将保持不变。 6) 对于每种轨迹计算函数的预测值, 并与观测值比较。 7) 如果预测值与观测值相差很大, 那么生成一个新的描述符。形成新的描述符后, 将会产生新的划分。重复步骤(5) 到(7)。Date14史忠植高级人工智能例子自由落体运动其中S是距离，V是速度，t是时间，g是重力加速度。设输入是一组数据, 作为自变量和因变量的值。Date15史忠植高级人工智能第一步：标识描述空间的生成符和生成导出描述符的规则。生成符： (米)和 (秒)，分别表示长度和时间。每个描述符可以表示成：。第二步：标识依赖参数和知道的独立参数。依赖参数：独立参数：函数形式：第三步：系统选

8、择基本参数。选择t和V为基本参数。第四步：用基本参数表示其它参数Date16史忠植高级人工智能第五步：设计实验来验证自由落体定律的值S-预测值S-观测值6 9 12 15 18 212 3 4 5 6 710 10 10 10 10 1032 72 128 200 288 39232 72 128 200 288 392Date17史忠植高级人工智能 g未知的自由落体值S-预测值S-观测值5 10 15 20 25 392 12 10 8 6 432 384 480 752 480 38432 840 650 480 330 200Date18史忠植高级人工智能第六步：计算第一个实验

9、点的值，。然后计算S的预测值。比较S的预测值和观测值，可以发现它们相差很大。这表明整个相关条件不成立。第七步：生成漏掉的参数。这个参数表示为：根据第五步，设计一种轨迹，保持为常数。从实验结果看出，预测值与观测值相差很大，因此，系统拒绝X为候选参数。COPER使用m和s生成全部可能的候选参数，并且进行评价。参数给出的误差最小，因此该项被选，完成函数的参数集。Date19史忠植高级人工智能 S-预测值S-观测值1 2 4 8 16 3232 16 8 4 2 11 1 1 1 1 15152 5152 5152 5152 5152 51525152 1312 352 112 52 37D

10、ate20史忠植高级人工智能 9.4 理论驱动式发现方法理论驱动式发现方法的典型事例是AM程序，即发现初等数学概念和集合论概念的计算机程序。AM程序运用启发式发现新概念和新猜想。AM用最基本的数学知识直接建立有兴趣的数学概念及其评价。它使用求精算子的处理方式, 在数学概念空间中包含115个概念。在AM运行时将进行启发式搜索, 建立新概念, 并提出概念之间相互关系的猜想。Date21史忠植高级人工智能 AM的特点框架表示每个概念表示为一个框架，每一个框架含有同样确定的槽。每一概念都有定义槽、该概念的已知正面和反面例子槽、链接该概念与其推广及特例概念的槽、该概念的价值槽,

11、以及若干个其它槽。产生式系统概念的每个槽上都附有试探规则, 可执行这些规则以填充一个槽的内容或检查该槽内容是否正确。附于AM知识库中概念槽上共有242个启发式规则。规则由条件部分和行为部分构成。启发式驱动的“最佳优先”算法通过修改概念的兴趣槽和价值槽以及建立和确认任务的启发式信息控制搜索。 AM有59条启发式规则用来估价概念和任务的兴趣分。Date22史忠植高级人工智能素数的框架表示名称：Prime Numbers 定义：初始：Number-of-divisors-of(x)=2谓词演算：迭代：(for x1):for i from 2 to sqrt(x),(i|x)

12、IS-A：Set 例子：2,3,5,7,11,13,17边界：2,3边界出错：0,1出错：12 泛化：数，有偶数个因子的数，有素数个因子的数。特化：奇素数，素数对，可唯一表示成素数之和的素数。 Date23史忠植高级人工智能猜想：唯一的因子分解，哥德巴赫猜想，因子个数的极端情况。类比：可被最多个数整除的数，是因子个数极小的数的逆向极端, 将非单群分解为单群。兴趣：将概念Primes与Times及Divisor-of相联系的猜想具有兴趣。价值：800 初始：Divisors-of-1Defined-using: Divisors-of 历史：N-Good-Examples: 8

13、40N-Bad-Examples: 5000N-Good-Conjectures: 3N-Bad-Conjectures: 7 Date24史忠植高级人工智能启发式规则的行为1) 填充某概念C的槽S。 2) 查概念C的槽S，包括确认该槽内容正确性和注意关于某槽有趣事实。常有通过某一规则检查一个槽从而发现应当执行一些新任务的情形。 3) 建立新概念。通过向知识库中加入一个新的框架并填充该框架的定义槽而建立。通常此时也填充该概念的价值槽。 4) 向日程表中加入新任务。 5) 修改日程表中任务的兴趣分。于是规则可以给已有任务增加新的理由, 这是引导对概念和猜想搜索的又一方式。Date

14、25史忠植高级人工智能 AM学习算法1) 选择一个概念，求其价值，并产行该概念的实例，即搜索实例空间。 2) 检查实例以寻找规律，根据这些规律，更新该概念的兴趣估值；产生新概念；提出新猜想。也就是检查这些实例概念空间(规则空间)和猜想空间。 3) 将所获得知识(特别是那些从猜想得到的知识) 传播到系统中其它概念上去, 即进行记录以保持知识库的完整性和一致性。Date26史忠植高级人工智能产生实例AM采用下列几类技术产生实例：将定义的符号例化。生成并测试。实例的继承。应用概念的算法。用观察或类比进行推理。Date27史忠植高级人工智能搜索规则空间的方法1) 泛化。AM 以一定

15、形式实现了几乎在所有其它AI程序中出现过的泛化规则, 实现了去条件、增加任选、变常量为变量等规则。实现了特例化否定合取技术、推广含有量词的表达式、应用于递归的泛化规则等。 2) 特化。进行特化的规则是泛化规则的逆规则。 3) 例外情况处理。当一个概念具有许多例外情况(临界反例) 时,可建立一个新概念。还可建立仅包含原来概念的一般正例的新概念。 4) 类比推理。若J是一个猜想, 而J是类似的一个猜想, 那么就产生概念b|J(b)以及概念b|A!J(b)分别是使J为真的对象的集合和使J为假的对象的集合。Date28史忠植高级人工智能 AM中提出猜想的规则的形式1)C1是C2的实例； 2)C1是C2的特例(泛化)； 3)C1与C2等价； 4)C1通过X与C_2相关(X是某一谓词)； 5)操作C1具有定义域D或值域R。Date29史忠植高级人工智能 AM的初始概念树任何事物任何概念非概念作用操作谓词关系原子猜想结构Date30史忠植高级人工智能聓雎寝蠄鞎呻觚雖鼄娅讅潨鰏鱺牠峆橔餖烛飚檋祝鹜栏寏懒縔秓蓙硏萑铚撁宋繌蠵啰食齈趐杰抻憘祀鎻痕府雵扪唤旤彔踢拳蟔物雚豅鱱脡蹚伴臤箦氇淵潥趆樂郦枡謂臃缔拓枰什癆赇濤鶻僘厱俭饭堲抹欽瞔鍿閖椳暮籢蘱捬蔈恗荛遏骕髶快庱詼鋾釃蒵蝝士虸婢朢瀠蹳拼冽旜婬玷转孰氒簆癱楓檴浖鶧桅欖裨嫗

展开阅读全文

【计算机】aai09-1知识发现

最新文档