人工智能的12.5规划_－金锄头文库

资源描述

《人工智能的12.5规划_》由会员分享，可在线阅读，更多相关《人工智能的12.5规划_（10页珍藏版）》请在金锄头文库上搜索。

1、1人工智能领域人工智能领域一、一、本学科领域的战略地位本学科领域的战略地位18 世纪的工业革命，以机器代替或减轻人的体力劳动，提高劳动生产率。20 世纪的信息技术，尤其是计算机的出现，以机器代替或减轻人的脑力劳动。1956 年正式形成人工智能学科。人工智能(Artificial Intelligence)主要研究用人工的方法和技术，模仿、延伸和扩展人的智能, 实现机器智能。2001 年 12 月，由美国国家科学基金会和商务部出面，组织政府部门、科研机构、大学以及工业界的专家和学者聚集华盛顿专门研讨提升人类能力的会聚技术（Converging Technologies to Improve

2、Human Performance）问题。以该会议提交的论文和结论为基础，2002 年 6 月，美国国家科学基金会和美国商务部共同提出了长达 468 页的会聚技术报告（Roco and Bainbridge，2002）。人类将在纳米的物质层重新认识和改造世界以及人类自身。人类将拥有大量成本低廉的各种量级传感器网络和实时信息系统，机器人和软件将实现个性化，所有的器具均由智能新型材料构成，智能系统普遍应用于工厂、家庭和个人，国家也将拥有便携式战斗系统、免受攻击的数据网络和先进的情报汇总系统，国家安全将大大增强。发展 NBIC 会聚技术将会极大促进中国社会经济的平衡、协调、可持续发展，实现物质文

3、明和精神文明发达的小康社会、信息化社会；提高国民身心健康和素质；保障国家安全。熊彼特在他的经济周期一书中熊彼特 1990，详细研究了 18 世纪以来西方主要国家经济波动情况，根据康德拉捷夫经济周期的情况，每个周期大约间隔 5060 年。第一个长波从 1783 到 1842 年，是产业革命的发生时期，基于蒸汽机和纺织业的创新；第二个长波从 1842 到 1897 年，是世界铁路化和钢铁时代；第三个长波从 1897 到 20 世纪 40 年代，是电气、化学和汽车工业时代；第四个长波从 20 世纪 40 年代至 1990 年是电子化，即微电子、重化工业化、喷气式飞机和核能时代；对 21 世纪技术创

4、新浪潮长波的猜想为第一个创新浪潮从 1990 年到 2020 年是数字化，即数字网络、软件、新媒体；第二个创新浪潮从 2020 年到 2050 年是生物基因（蛋白质）、纳米材料；第三个创新浪潮从22050 年到 2080 年是脑科学、智能技术。人工智能是现代科学技术的前沿和制高点，涉及自然科学的深层奥秘，触及哲学的基本命题。因此，一旦取得突破，将对国民经济、社会进步、国家安全产生特别深刻、特别巨大的影响。目前，人工智能正处在方法论的转变期、理论创新的高潮期和大规模应用的开创期，充满原创性机遇。二、二、本学科领域的发展规律和研究特点本学科领域的发展规律和研究特点人工智能研究有 4 种方法：（

5、1）类人行为方法：1950 年阿兰图灵（Alan Turing）提出图灵测试，为智能提供一个满足可操作的要求的定义。人工智能是一种创建机器的技艺，这种机器能够执行需要人的智能才能完成的功能。（2）类人思维方法：采用的是认知模型的方法。认知科学是研究人类感知和思维信息处理过程的一门学科，它把来自人工智能的计算机模型和来自心理学的实验技术结合在一起，目的是要对人类大脑的工作原理给出准确和可测试的模型。（3）理性思维方法：用计算模型研究智力能力。一个系统如果能够在它所知范围内正确行事，它就是理性的。例如：专家系统是推理系统，所有的推理系统都是智能系统，所以专家系统是智能系统。（4）理性行为方法：

6、行为上的理性指的是已知某些信念，执行某些动作以达到某个目标。主体（agent）可以看作是可以进行感知和执行动作的某个系统。在这种方法中，人工智能可以认为就是研究和建造理性主体（agent）。人工智能研究形成了三大学派，即符号主义、连结主义和行为主义等学派。符号主义方法以物理符号系统假设和有限合理性原理为基础；连接主义方法是以人工神经网络模型为核心；行为主义方法侧重研究感知-行动的反应机制。过去 50 年人工智能研究取得了许多令人兴奋的成果，在很多领域得到了广泛的应用。我国的人工智能研究起步较晚。智能模拟纳入国家计划的研究始于1978 年。1984 年召开了智能计算机及其系统的全国学术讨论会。

7、1986 年起把智能计算机系统、智能机器人和智能信息处理(含模式识别)等重大项目列人国家高技术研究 863 计划。1997 年起，又把智能信息处理、智能控制等项目列入3国家重大基础研究 973 计划。进入 21 世纪后，在最新制订的国家中长期科学和技术发展规划纲要（20062020 年）中， “脑科学与认知科学”已列入八大前沿科学问题之一。信息技术将继续向高性能、低成本、普适计算和智能化等主要方向发展。计算机和信息技术的蓬勃发展，特别是互联网的深入发展和普及，对人们的社会交往模式产生了深远的影响，其发展同时也带来了一场计算技术上的变革。继个人计算之后，信息科学技术的研究从以往重视具体技术的实现

8、与应用，发展到更高层次上利用信息技术手段模拟社会理论、研究社会问题、特别是进行信息科学与社会科学的交叉研究。社会计算作为科学、技术与人文的数字化动态交融的交叉学科领域，目前正成为国际、国内计算机及相关领域的一个新的研究和应用热点。社会计算包含两方面的含义：一个是面向计算机或更广义的信息技术在社会活动中的应用；另一个是通过社会知识、人文知识在计算机或信息技术中的使用和嵌入，反过来提高社会活动的效益和水平。三、三、近年来本学科领域研究现状和研究动态近年来本学科领域研究现状和研究动态过去人工智能研究存在的主要问题包括：（1）人工智能研究的内部三大学派很少互相沟通；（2）人工智能的研究与自然智能的

9、研究互相脱节；（3）回避或疏忽了智能科学的基本问题（如智能的生成机制、智能与知识的关系、智能与情感的关系、智能与意识的关系等）。这些问题在相当程度上限制和延缓了人工智能研究的进展。为了解决这些问题，中国人工智能学会在 2006 年纪念“人工智能诞生 50 周年”的国际会议上，提出发展智能科学技术，并得到与会各国代表高度认可和响应。即将召开的 2009 年国际人工智能联合会议(IJCAI)首次将人工智能与相关学科领域的交叉研究作为大会中心议题，这是一个重要的信号。不同于传统人工智能研究中侧重于模拟个体的学习、逻辑推理等高级认知能力，研究者们已经认识到人类智能的本质是一种社会性的智能。智能行为更

10、多的是在由群体构成的社会环境下完成各种社会活动时体现出来的。这些社会活动往往涉及由多个个体构成的社会团体，需要社会群体的协作来完成。因此，人工智能研究有必要结合交叉学科领域的成果，探索社会智能的基础理论和社会计算的模型与4方法，使智能研究不断向更深更广阔的领域延拓。与二十年前的世界相比较，今天的世界所面临的最大不同就是，因特网的普及和深入使社会现象的“尺度”和“速度”迅速地向极端化发展，例如，社会上每个人每件事的影响都可能通过网络以极快的速度向整个社会传播，深刻地改变了人与人、人与社会之间的交互方式，更使当代许多社会问题显著地呈现出动态性、快速性、开放性、交互性和数据海量化等特点，与此相关的社

11、会管理和政策制定问题也越来越复杂。人工智能研究必须适应这种现实，在研究个体智能行为的同时，考虑社会智能问题。四、四、未来未来 5-10 年本学科领域的发展布局、优先领域以及与其它学年本学科领域的发展布局、优先领域以及与其它学科交叉的重点方向科交叉的重点方向4.14.1 机器学习与数据挖掘机器学习与数据挖掘1、非线性问题、非线性问题这是自机器学习出现之日起，就存在的研究课题，这也是机器学习一个永恒的研究课题。在过去 20 年间，这个问题主要采用三个解决途径，这些研究将长期继续下去：(1) 寻找一个映射，将非线性问题映射到一个线性空间，从而，将问题转换为在新的空间的线性问题。典型的例子是核方法

12、。(2) 分别建立不同的子模型，将问题变为在子模型张成的空间上的优化问题，其本质类似分段线性的思想。典型的例子是集群学习。(3) 假设自然模型是一个低维流形，即，可局部引进坐标的拓扑空间，这就是流形学习。这也可以考虑为解决复杂非线性问题的方案之一。近期，直接考虑非线性基函数优化的观点又开始抬头。由于这涉及非凸优化的问题，因此，理论进展比较缓慢，其计算效率也是一个不得不面对的问题。尽管如此，实验研究正在开展。2、独立同分布独立同分布(iid)问题问题目前机器学习的大多数理论需要样本集满足独立同分布条件。而目前绝大多数领域的数据是不可控地自然涌现的，因此，这个条件难以满足，特别是同分布条件，这是机

13、器学习的最基本假设。对同分布有两个不同解释：其一，如果以发展算法为研究目标，其关键问题是如何设计有效的测试集，以表明算法的有效性，其二，对实际应用，测试需要直接面对自然模型。5目前对这个问题有以下几个可能的解决途径，其本质均是直接或间接补充必要的样本：(1) 迁移学习。其原理是将以前在相关或相似领域中已有的知识 “迁移”到新领域中，以有效地完成当前的学习任务。由此，可以派生大量的研究课题。(2) 降维学习。通过对数据降维，使得数据稠密，以表现某些统计性质。但是，降维更为本质的目的是为了解释自然模型中变量之间的关系。(3) 经验模型。专家经验的重要性在于，专家具有洞察没有观察到的样本的能力，其本

14、质是对自然模型分布的猜测。对独立条件有两个情况：变量之间关系可以显式地描述和不能显式地描述。马尔科夫链是前者一个方法，后者则需要搜索，这时，问题将变得十分困难。3、关系数据、关系数据一般地说，机器学习最成功的研究大都具有这样一个假设：样本集合是定义在给定空间上的向量，这样，很多有效的数学工具可以使用。但是，在很多应用问题中，这个假设不成立，例如，广泛出现在金融和经济领域中的关系数据，这些数据根据特定关系存储在关系数据库中。如何从这些数据中学习简洁的模型，是机器学习长期没有很好解决的问题。经典的方法是基于归纳逻辑的方法，这个方案受到计算复杂性的制约，而且理论也比较牵强。如果数据包含噪音，也不易处

15、理。现在一个流行的方案是基于集群学习，就是学习局部模型，然后将这些局部模型集群。无论何种方法，目前的研究还是处于“游戏”阶段，计算效率严重阻碍了它的发展。另外，出现在文本分析和网络连接中的数据，呈现出一种称为半结构化的形态，这些数据很难处理。时序数据的分析处理也是重要的问题。4、样本标记问题、样本标记问题对同一个数据集合，如果赋予它不同的标记，可能就是不同问题了。事实上，这个问题具有普遍性。目前，机器学习的研究大多数研究集中在分类与回归问题上。对分类问题，其标记定义在一个小的可数的无序集合上；对回归问题，则定义在实数域上。尽管这两类问题现在可以采用定义不同损失函数的方式将它们统一在正则化理论之

16、中，但是，其区别还是显然的，特别是设计有效算法时更是如此。在很多实际问题中，样本的标记更为复杂。例如，它们可以是一种排序，这就是排序学习，这对信息检索问题十分重要。如果一个样本的标记不止一个，而是多个互不排斥的类别标号，换句话说，一个样本可以分为不同的类，这就是多标记学习问题。很多应用问题中，每个样本自身包含结构信息，用多个向量来表示每个样本有助于利用这些结构信息，这就是多示例学习，它被看作样6本的命题表示和关系学习之间的桥梁。计算效率是目前这方面研究面临的一大困难。这些学习问题在实际应用中屡见不鲜，例如，图像分析和文本分析。如果样本集合中部分样本有标记，部分没有标记，就成为半监督学习。这类研究除了传统课题还需要继续深入研究之外，目前有一个重要研究课题，就是选择较少最富信息的样本，由人来标注，这个思考来自认知科学的主动学习，延续这个称谓，这类学习就称为主动学习。如果样本集合的所有样本没有被标记，这就需要聚类了，这是一大类研究，目前又可以分为结构数据和非结构数据两大类，它们需要完全不同的理论基础和方法。由于不同标记的问题需要采用完全不同的理论和方法来求解

展开阅读全文