改变科学研究思路的十个知识创新点

上传人:鲁** 文档编号:509328480 上传时间:2023-02-06 格式:DOCX 页数:13 大小:52.78KB
返回 下载 相关 举报
改变科学研究思路的十个知识创新点_第1页
第1页 / 共13页
改变科学研究思路的十个知识创新点_第2页
第2页 / 共13页
改变科学研究思路的十个知识创新点_第3页
第3页 / 共13页
改变科学研究思路的十个知识创新点_第4页
第4页 / 共13页
改变科学研究思路的十个知识创新点_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《改变科学研究思路的十个知识创新点》由会员分享,可在线阅读,更多相关《改变科学研究思路的十个知识创新点(13页珍藏版)》请在金锄头文库上搜索。

1、改变科学研究思路的十个知识创新点探索汉语理论建设及中文信息处理的新路邹晓辉n 5191225 广广东珠海海井岸桥桥东恒美美花园115-22栋2001号摘要 本文文介绍字本位与中文信息处理的基础 广东省优秀科技专著出版基金会2006专家论证通过正式资助将于2007年底/2008年初出版发行。贡献的十个知识创新点,即:汉语及中文的基本原理,信息和智的本质定义及基本分类,认知心理学双语协同存储原理,形式理论的受限原理,序位逻辑原理及工具,语言和知识的通用计算方法和量具,生产式教学及协同智能训练体系,(产、学、研、教、用、算)一体化(知识信息数据)管理。其重要性不仅在于指出自然语言与机器语言的互换路径

2、,除直接形式化之外还有间接形式化道路,对汉语形式理论建设和中文信息处理及基于中文的知识处理而言,后者更便捷而高效,而且还在于改变科学研究思路的十个知识创新点具有的整体功用。关键词 汉汉语形式式理论、中文信息处理、基于中文的知识处理、融智学的十个知识创新点1引言在过去几年年,基于于语言学学和信息息学的融融智学(如如字本位位与中文文信息处理理的基础础)研究究取得了了长足进进展11义项语语汇典例例(SVVDE)的的总量控控制模型型 ( CLSSW-55论文集集)1,重构构“概念分分类体系系”的新思思路与新新方法( CLLSW-6论文文集) 2,优化化“语义信信息处理理”的新方方法与实实施例( CLL

3、SW-6论文文集) 3,字本本位与中中文信息息处理4;2理性性的标准准的协同同智能模模型(CCAAII-111录用)5,融智学的观点和方法(CAAI-11录用)6,信息学基础研究(信息科学交叉研究学术研讨会2005北京)7和Intelligence Means Information Processing(智意味着信息处理)Zou XiaoHui (VII International Ontology Congress: Real or Virtual: from Platos Cave to Internet 2006,10,Spain) 8 。然而也还有有很多重重要的问问题没有有得到满满意

4、的解解决如:3不不同的信信息观的的分歧依依然较大大,信息息本质的的理论探探讨仍在在进行9,汉语理理论的本本位问题题仍未彻彻底解决决100,中中文信息息处理现现有的三三大流派派111各自自预期都都是至少少还需要要几代人人的努力力才可望望有所突突破);4国际际范围内内语言与与知识的的计量问问题仍然然存在;5人类类智力以以及人工工智能所所涉及的的智的概概念的本本质似乎乎仍未搞搞清(hhttpp:/wwww.aaaai.orgg)AI20000 - 20007。有鉴于此,本本文系统统地介绍绍了字字本位与与中文信信息处理理的基础础提出出的十个个知识创创新点,希希望有助助于改变变汉语理理论及中中文信息息处

5、理的的研究思思路。它它们体现现的协同同智能的的观点、原原理和方方法至少少可在“强人工工智能”与“弱人工工智能”之间形形成必要要张力。人人脑与电电脑的双脑结合合及其相相应的一一整套“软件和和数据库库”系统实质上上是(kk + 1)双双文双语语协同智智能计算算系统 涉及拓广的(包容大、小字符集的)形式语言、形式文法、形式体系、形式理论和形式科学。 22正文文2.1 领领域字本位与中中文信息息处理,涉涉及语言言学与信信息学的的一系列列难题。这这些问题题中,最最基础的的是可否否判断(如如字词含含义的消消歧)与与可否计计算(如如真实文文本处理理)两类类问题。解解答前者者是人脑脑的擅长长,解答答后者是是电

6、脑的的擅长。由由于存在在不可判判断()与不不可计算算()这两两类超出出人脑与与电脑处处理范围围的问题题,因此此笔者引引入了(kk + 1)双双文双语语协同智智能计算算系统,把把问题转转化限制制在可判判断00,1与可计计算00,1+000,001,110,111+ +00000,11111范围围以内。于于是,字本位与中文信息处理的基础实际上就是融智学导论 专门研究(狭义的)协同智能的概念、原理和方法及其典型实例的新型科学理论,涉及微观语言学与信息本体学两个基础分支。融智学导论对理论融智学、工程融智学和应用融智学的研究成果只做简单介绍。2.2特殊殊性同样是研究究自然语语言,不不同学科科有不同同的视

7、角角,基础础语言学学站在人人类智能能主体立立场,采采用自然然人的视视角;计计算语言言学站在在人工智智能代理理立场,采采用计算算机的视视角;融融智学导导论站在在(k + 11)双文文双语协协同智能能计算系系统“第三智智能”立场,采采用人机机分工协协作的视视角。所谓“第三三智能”就是继继人脑智智能和电电脑智能能之后而而出现的的协同智智能,其其特征在在于:“人际、人人机、机机际、机机人”之间的的“合理分分工、优优势互补补,高度度协作、优优化互动动” 协同智能的16字方针“合理分工、优势互补,高度协作、优化互动”。2.3重要要性自然语言与与机器语语言的互互换主要要是通过过高级程程序语言言的中介介而实现

8、现的。这这条看似似唯一的的(直接接)形式式化途径径与融智智学导论论的(间间接)形形式化道道路相比比,对英英文信息息处理而而言是殊殊途同归归,但是是,对中中文信息息处理而而言,前前者就是是“崎岖小小路”而后者者才是“平坦大大道”, 因因为,现现在基于于小字符符集的形形式语言言和形式式文法,根根本没有有考虑汉汉语的情情形,更更加不是是为基于于大字符符集的中中文而构构造的,所所以有必必要为汉汉语及中中文订制制相应的的形式语语言和形形式文法法,最好好是能兼兼容大、小小字符集集的形式式语言和和形式文文法。融融智学导导论(字字本位与与中文信信息处理理的基础础)正是是从“第三智智能”的角度来来提出这这个课题

9、题的。英英文信息息处理的的事实证证明,词词的“粗分” 如:英语的十大词类代词、数词、动词、名词、形容词、副词、冠词、感叹词、介词、连词。与“细分” 如:英文信息处理的UCREL CLAWS5 Tagset,UCREL CLAWS6 Tagset 和UCREL CLAWS7 TagsetHere, UCREL means the University Centre for Computer Corpus Research on Language, and CLAWS means the Constituent Likelihood Automatic Word-tagging System.是必

10、需需的。如如果汉语语的字与与英语的的词能等等价,那那么,也也就可直直接套用用英文信信息处理理的做法法,然而而,问题题在于汉汉语的字字与英语语的词之之间,不不仅不具具备等价价关系,而而且,是是两个完完全不同同的对象象语言体体系,各各自的思思维模式式也不同同,因此此中文信信息处理理不能简简单地直直接套用用英文信信息处理理的做法法,事实实也证明明此路根根本走不不通(中中文信息息处理现现有的三三大流派派各自的的预期都都是至少少还需要要几代人人的努力力才可望望有所突突破)。而而本专著著所提出出的间接接形式化化道路顶顶多需要要十年就就可做到到全面突突破(而而且其中中每个阶阶段都可可有一个个个具体体的惊人人

11、的大突突破如在汉汉语“词”的切分分与标注注的根本本性问题题上,如如在机器器翻译上上,等等等)。2.4研究究途径从(k + 1)双双文双语语协同智智能计算算系统的的角度来来看,解解决汉语语“词”的切分分与标注注的根本本性问题题,是从从解析“字与字字组的关关系”入手的的,首先先,要给给出“字”的形式式化定义义,其次次,要实实现“字组”的数字字化划分分,最后后,要完完成“(字的的每个)义义项”的字组组化解释释。具体体做法可可概括为为:间接接形式化化、全域域数码化化和双文文双语化化,其特特征在于于子全域域和超子子域的进进阶层式式化 这是以优化的形式理论为支持的科学方法的一个关键之所在。,而而且有高高效

12、实用用的(kk + 1)双双文双语语协同智智能计算算系统为为具体实实现手段段。2.5基本本假设假设1:如如果脑与与智不是是一回事事,那么么,就没没有必要要等到彻彻底搞懂懂某一类类脑才能能理解智智。假设2:如如果智意意味着信信息处理理 笔者提交第七届国际本体学术大会(2006年10月2至6日西班牙)的科学论文题目。Intelligence Means Information Processing(智意味着信息处理)Zou Xiao Hui (in Zhu Hai, China),那么么,理解解智的关关键就在在于理解解信息(如如数字 意义)。假设3:如如果任何何符号形形式都可可转化为为数字形形式,

13、那那么,语语言形式式也可转转化为数数字形式式。假设4:所所谓理解解,其实实是在全全局中对对局部的的准确把把握或认认知,如如在参照照系中确确定序位位。2.6(根根本上具具有创新新意义的的知识)贡贡献贡献1:发发现并清清楚地论论述了汉汉语及中中文的基基本原理理字的的迭交原原理。图1是“字字的迭交交原理”(字组组的“粗分”与“细分”是其派派生原理理)示意意图。由图1可直直观“字”这个概概念的八八个基本本属性,分分别揭示示了微观观语言学学的文字字、语音音、语义义、语法法、语用用、字典典、释义义元语和和对象语语言八个个分支学学科的研研究对象象。可用解析法法把“形字”和“音字”从“迭交”的“复合字字”中分

14、离离出来 类似于“做(虚拟的)分体手术”,首先分离“形字”和“音字”,进而分离大、小字符集的“音字”。从从而明确确汉语及及中文的的“字”的形式式特点:字(对对象语言言)具有有一语双双文(大大、小字字符集兼兼容)的的特征。在传统的“实字”与“虚字”的基础础上引入入“用字”和“ 解字字”,不仅仅可形成成“字组方方阵”,而且且还可提提炼出“组字公公式”,从而而揭示出出“字与字字组的关关系”,如“意+义义=意义义”,在形形式上只只是一个个简单的的字符串串公式,在在内容上上却是一一个非常常复杂而而又十分分重要的的“组字公公式”,其中中前字限限制后字字。于是是,现在在的问题题也就集集中到了了什么是是意义这

15、这个问题题上面来来了。西方哲学“语言转转向”以来,所所有的科科学预言言和哲学学反思几几乎全都都止步于于这个被被称为人人文、社社会和哲哲学等诸诸学科共共同的核核心问题题或意义义难题,竟竟然可用用“意义=意+义义”这样的的一个十十分简单单的字符符串公式式直接地地破题。这这不能不不说是汉汉语及中中文一个个非常独独特的功功能 至少在此超级难题的解释上,英文不具备中文的这个优点。中文有自己独特的(区别于小字符集的)形式化途径。邹晓辉:重构“概念分类体系”的新思路与新方法( CLSW-6论文集) ISBM981-05-5217-3 。这些发现是是以往的的汉语研研究未曾曾注意更更未曾上上升到理理论高度度并形成成体系的的知识创创新点。其中区分“对象语语言的字字”和“释义元元语的字字(作为为构造字字组的基基本结构构单位)”甚至就是汉语“字本位”理论 本该但是没有(注意且上升到理论高度并形成体系)。也未曾注意且更未曾上升到理论高度并形成体系的知识创新点。图1(汉语语及中文文的基本本原理)“字的迭交原理”示意图贡献2:给给出了信信息的一一般科学学定义(即即“信息本本体”)及其其最基本本的分类类:(信息)= (义)+ (文)+ (意),其其中,(文)含含 (物)的的外观。(

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号