【计算机】aai09-1知识发现

上传人:艾力 文档编号:51588378 上传时间:2018-08-15 格式:PPT 页数:45 大小:1,005KB
返回 下载 相关 举报
【计算机】aai09-1知识发现_第1页
第1页 / 共45页
【计算机】aai09-1知识发现_第2页
第2页 / 共45页
【计算机】aai09-1知识发现_第3页
第3页 / 共45页
【计算机】aai09-1知识发现_第4页
第4页 / 共45页
【计算机】aai09-1知识发现_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《【计算机】aai09-1知识发现》由会员分享,可在线阅读,更多相关《【计算机】aai09-1知识发现(45页珍藏版)》请在金锄头文库上搜索。

1、第九章 知识发现史忠植中科院计算所Date1史忠植 高级人工智能 内容第一部分: 知识发现第二部分: 数据库中知识发现第三部分: 粗糙集Date2史忠植 高级人工智能 9.1 概述 数据变知识 信息变知识Date3史忠植 高级人工智能 知识发现Gerwin在1974年开始机器发现的研究, 他研 究噪声数据下归纳单变量复杂函数。 1978年,Buchanan和Mitchell开发META- DENDRAL,它可以发现规则, 描述怎样产生分 子结构。 1977年Lenat开发的AM系统可以重新发现数 论的数学概念。 从 1976年到1983年,Langley,Simon和 Bradshaw 开发了

2、BACON系统。 Kokar采用模型驱动,开发的COPER系统可以 进行数值发现。Date4史忠植 高级人工智能 科学发现的过程采集数据寻找描述形成理论测试Date5史忠植 高级人工智能 科学发现与数据库中知识发现的不同科学发现具有极强的目的性,是被控制的 ,其数据来自精心设计的实验, 去掉了无关 因素,仅保留少数的参数,并对目标参数 进行解释。而一般典型的商业数据库的记 录,却具有许多信息以适应组织的不同目 标的需要。科学发现中可对实验重新设计,而一般数 据库却不会频繁地改变它的结构,不会重 新收集数据。Date6史忠植 高级人工智能 9.2 数据驱动知识发现BACON从1976到1983年

3、,共研制了六个版本: BACON.1可以看成是一种通用规则归纳器。 BACON.2包括启发式处理顺序信息,增加了两种操 作。一种用于计算差别以便发现递归序列,另一种 用于产生多项式项。 BACON.3用不变性检查提出的假设来修改训练例子 。 BACON.4主要解决数据集怎样能以简明方式描述。 BACON.5能够处理对称假设, 简单的类比, 并能处理 噪声。 BACON.6能够处理数据中的大量噪声, 使用差分技 术, 寻找相关两项的最优的多项式函数。Date7史忠植 高级人工智能 BACON系统的特点采用数据驱动通过启发式约束搜索依赖于理论数据项递归应用一些通用的发现方法Date8史忠植 高级人

4、工智能 BACON系统采用的一般方法(1) BACON产生函数 ,描述一组数据 。 (2) 系统设 个变量为常数, 仅一个变量 改变,所以 分析函数 ,而 保持为常数。 (3) BACON 处理数据时采用启发式,设 是线性的,或者 双曲线函数 或 ,其中 取决于变量 。 (4) 如果这些假设之一符合数据,那么BACON分别导出假 设或者 。所有这些都称为“理论项”。如果 自变量 是规范型, 随 而改变,那么称其具有“本征特 性”,其值赋给 作为初值。(5) 设 或 作为依赖 的新变量。(6) 假定 (或 ),重复整个过程。Date9史忠植 高级人工智能 开普勒定律的训练实例实例行星水星11金星

5、84地球279Date10史忠植 高级人工智能 新项的值实例行星水星11金星84地球2791.00.50.331.02.03.0111Date11史忠植 高级人工智能 BACON 的操作1) 不变性检查:若某个变量至少两次取同样 值V,则假设该变量保持为常量V。2) 特化:在以前得到的假设与数据冲突时,就 增加合取条件来使假设特化。3) 产生斜率和截距:若发现两个变量保持线性 关系,则产生的新项是斜率和截距。4) 产生乘积:若两个变量反向变化而且斜率 不同,则产生的新项是二者乘积。5) 产生商数:若两个变量同向变化但斜率不同 ,则产生的新项是二者的商。Date12史忠植 高级人工智能 BACO

6、N的优缺点优点:能发现实值变量间关系的定律。规则空间操作可以组合现有项,以产生新项。BACON.3在发现局部规律性后,修改训练例子的表 示。缺点:仅在特殊情况下才使用操作,这使程序对变量的次 序和训练例子的选择很敏感。不能处理有噪声的训练例子。只能处理简单概念, 例如不能发现析取概念。Date13史忠植 高级人工智能 9.3 模型驱动知识发现COPERCOPER知识发现算法: 1) 决定生成新的描述的基本描述和词法规则。 2) 确定函数初始的自变量和因变量。 3) 从自变量中选取基本参数。 4) 使用生成规则, 根据基本参数表示其它参数, 这些是导出参 数。 5) 设计实验, 基本参数改变时,

7、 导出参数将保持不变。 6) 对于每种轨迹计算函数的预测值, 并与观测值比较。 7) 如果预测值与观测值相差很大, 那么生成一个新的描述符 。 形成新的描述符后, 将会产生新的划分。 重复步骤(5) 到(7)。Date14史忠植 高级人工智能 例子自由落体运动其中S是距离,V是速度,t是时间,g是 重力加速度。设输入是一组数据, 作为自变 量和因变量的值。Date15史忠植 高级人工智能 第一步:标识描述空间的生成符和生成导出描述符的规则。生成符: (米)和 (秒),分别表示长度和时间。每个描述符可以表示成: 。第二步:标识依赖参数和知道的独立参数。依赖参数:独立参数:函数形式:第三步:系统选

8、择基本参数。选择t和V为基本参数。第四步:用基本参数表示其它参数Date16史忠植 高级人工智能 第五步:设计实验来验证自由落体定律的值S-预测值S-观测值6 9 12 15 18 212 3 4 5 6 710 10 10 10 10 1032 72 128 200 288 39232 72 128 200 288 392Date17史忠植 高级人工智能 g未知的自由落体值S-预测值S-观测值5 10 15 20 25 392 12 10 8 6 432 384 480 752 480 38432 840 650 480 330 200Date18史忠植 高级人工智能 第六步:计算第一个实验

9、点的 值, 。然后计算S的预测值。比较S的预测值和观测值,可以发现它们相差很大。这表明整个相关条件不成立。第七步:生成漏掉的参数。这个参数表示为:根据第五步,设计一种轨迹, 保持为常数。从实验结果看出,预测值与观测值相差很大,因此,系统拒绝X为候选参数。COPER使用m和s生成全部可能的候选参数,并且进行评价。参数 给出的误差最小,因此该项被选,完成函数的参数集。Date19史忠植 高级人工智能 S-预测值S-观测值1 2 4 8 16 3232 16 8 4 2 11 1 1 1 1 15152 5152 5152 5152 5152 51525152 1312 352 112 52 37D

10、ate20史忠植 高级人工智能 9.4 理论驱动式发现方法理论驱动式发现方法的典型事例是AM程序 ,即发现初等数学概念和集合论概念的计算 机程序。AM程序运用启发式发现新概念和新 猜想。AM用最基本的数学知识直接建立有兴趣 的数学概念及其评价。它使用求精算子的处 理方式, 在数学概念空间中包含115个概念。 在AM运行时将进行启发式搜索, 建立新概念, 并提出概念之间相互关系的猜想。Date21史忠植 高级人工智能 AM的特点框架表示 每个概念表示为一个框架,每一个框架含有同样确定 的槽。 每一概念都有定义槽、该概念的已知正面和反面例子 槽、链接该概念与其推广及特例概念的槽、该概念的 价值槽,

11、 以及若干个其它槽。 产生式系统 概念的每个槽上都附有试探规则, 可执行这些规则以 填充一个槽的内容或检查该槽内容是否正确。 附于AM知识库中概念槽上共有242个启发式规则。 规则由条件部分和行为部分构成。 启发式驱动的“最佳优先”算法 通过修改概念的兴趣槽和价值槽以及建立和确认任务 的启发式信息控制搜索。 AM有59条启发式规则用来估价概念和任务的兴趣分。Date22史忠植 高级人工智能 素数的框架表示名称:Prime Numbers 定义:初始:Number-of-divisors-of(x)=2谓词演算:迭代:(for x1):for i from 2 to sqrt(x),(i|x)

12、IS-A:Set 例子:2,3,5,7,11,13,17边界:2,3边界出错:0,1出错:12 泛化:数,有偶数个因子的数,有素数个因子的数。 特化:奇素数,素数对,可唯一表示成素数之和的素数。 Date23史忠植 高级人工智能 猜想:唯一的因子分解,哥德巴赫猜想,因子个数的极端情 况。 类比:可被最多个数整除的数,是因子个数极小的数的逆向 极端, 将非单群分解为单群。 兴趣:将概念Primes与Times及Divisor-of相联系的猜想具有 兴趣。 价值:800 初始:Divisors-of-1Defined-using: Divisors-of 历史:N-Good-Examples: 8

13、40N-Bad-Examples: 5000N-Good-Conjectures: 3N-Bad-Conjectures: 7 Date24史忠植 高级人工智能 启发式规则的行为1) 填充某概念C的槽S。 2) 查概念C的槽S,包括确认该槽内容正确性和注意 关于某槽有趣事实。常有通过某一规则检查一个 槽从而发现应当执行一些新任务的情形。 3) 建立新概念。通过向知识库中加入一个新的框架 并填充该框架的定义槽而建立。通常此时也填充 该概念的价值槽。 4) 向日程表中加入新任务。 5) 修改日程表中任务的兴趣分。于是规则可以给已 有任务增加新的理由, 这是引导对概念和猜想搜 索的又一方式。Date

14、25史忠植 高级人工智能 AM学习算法1) 选择一个概念,求其价值,并产行该概念的实 例,即搜索实例空间。 2) 检查实例以寻找规律,根据这些规律,更新该概念的兴趣估值;产生新概念;提出新猜想。也就是检查这些实例概念空间(规则空间)和猜想 空间。 3) 将所获得知识(特别是那些从猜想得到的知识) 传播到系统中其它概念上去, 即进行记录以保持 知识库的完整性和一致性。Date26史忠植 高级人工智能 产生实例AM采用下列几类技术产生实例:将定义的符号例化。 生成并测试。实例的继承。应用概念的算法。 用观察或类比进行推理。Date27史忠植 高级人工智能 搜索规则空间的方法1) 泛化。AM 以一定

15、形式实现了几乎在所有其它AI程序中 出现过的泛化规则, 实现了去条件、增加任选、 变常量 为变量等规则。实现了特例化否定合取技术、推广含有量 词的表达式、应用于递归的泛化规则等。 2) 特化。进行特化的规则是泛化规则的逆规则。 3) 例外情况处理。当一个概念具有许多例外情况(临界反例) 时,可建立一个新概念。还可建立仅包含原来概念的一般 正例的新概念。 4) 类比推理。若J是一个猜想, 而J是类似的一个猜想, 那 么就产生概念b|J(b)以及概念b|A!J(b)分别 是使J为真的对象的集合和使J为假的对象的集合。Date28史忠植 高级人工智能 AM中提出猜想的规则的形式1)C1是C2的实例; 2)C1是C2的特例(泛化); 3)C1与C2等价; 4)C1通过X与C_2相关(X是某一谓词); 5)操作C1具有定义域D或值域R。Date29史忠植 高级人工智能 AM的初始概念树任何事物任何概念非概念作用操作谓词关系原子猜想结构Date30史忠植 高级人工智能 聓雎寝蠄鞎呻觚雖鼄娅讅潨鰏 鱺牠峆橔餖烛飚檋祝鹜栏寏 懒縔秓 蓙硏萑铚撁宋繌蠵啰 食齈趐杰抻憘祀鎻痕府雵扪唤 旤彔踢拳蟔物雚豅鱱脡蹚 伴臤 箦氇淵潥趆樂郦枡謂臃缔拓 枰什癆赇濤鶻僘厱俭饭 堲抹欽 瞔鍿閖椳暮籢蘱捬蔈恗荛遏骕 髶快庱詼鋾釃蒵蝝士虸婢朢瀠 蹳拼冽旜婬玷转孰氒簆癱楓檴 浖鶧桅欖裨嫗

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号