知识工程研究所科研成果综述

上传人:人*** 文档编号:570130212 上传时间:2024-08-02 格式:PPT 页数:68 大小:3.60MB
返回 下载 相关 举报
知识工程研究所科研成果综述_第1页
第1页 / 共68页
知识工程研究所科研成果综述_第2页
第2页 / 共68页
知识工程研究所科研成果综述_第3页
第3页 / 共68页
知识工程研究所科研成果综述_第4页
第4页 / 共68页
知识工程研究所科研成果综述_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《知识工程研究所科研成果综述》由会员分享,可在线阅读,更多相关《知识工程研究所科研成果综述(68页珍藏版)》请在金锄头文库上搜索。

1、知识工程研究所科研成果综述知识工程研究所科研成果综述北京科技大学信息工程学院北京科技大学信息工程学院知识工程研究所知识工程研究所http:/综述内容综述内容研究所简介研究所简介所长简介所长简介主要学术成果主要学术成果国家发明专利国家发明专利主要软件产品(主要软件产品(ICCKDSS)介绍)介绍主要应用成果介绍主要应用成果介绍一.研究所简介北京科技大学知识工程研究所成立于北京科技大学知识工程研究所成立于 20012001年年3 3月,由博士生导师杨炳月,由博士生导师杨炳儒教授任所长。儒教授任所长。本所在知识表示(语言场理论)、推理机制与知识发现、智能系统、本所在知识表示(语言场理论)、推理机制与

2、知识发现、智能系统、柔性建模、集成技术等理论与技术研究方面取得了突破性的成果,开柔性建模、集成技术等理论与技术研究方面取得了突破性的成果,开拓了基于内在机理研究的知识发现新方向。拓了基于内在机理研究的知识发现新方向。 在理论研究基础上,本所在理论研究基础上,本所建立了多个研究基地与协作基地,大力推广、应用研究所的研究成果。建立了多个研究基地与协作基地,大力推广、应用研究所的研究成果。本所培养出了本所培养出了1 1名博士后、名博士后、5252名博士、百余名硕士、名博士、百余名硕士、7 7名外国留学生。名外国留学生。现有博士生现有博士生1616人,硕士生人,硕士生3030余人。余人。研究所主要成员

3、:谢永红博士,张桃红博士研究所主要成员:谢永红博士,张桃红博士联系方式:联系方式: 北京科技大学北京科技大学 信息工程学院信息工程学院 知识工程研究所(知识工程研究所( 100083 ););手机:;手机:;E-; 研究所主页:研究所主页: http:/二二.所长简介所长简介杨炳儒教授杨炳儒教授 北京科技大学信息工程学院首席一级、资深教授、博士生导师、北京科技大学信息工程学院首席一级、资深教授、博士生导师、知识工程研究所所长。知识工程研究所所长。历任计算机系副主任,信息工程学院副院长。历任计算机系副主任,信息工程学院副院长。享受国务院特殊津贴的有突出贡献的专家;国际注册科技专家。享受国务院特殊

4、津贴的有突出贡献的专家;国际注册科技专家。兼任国家科技基础条件平台建设专家顾问组专家、教育部学位中兼任国家科技基础条件平台建设专家顾问组专家、教育部学位中心评审专家、中国教育专家委员会专家、国家心评审专家、中国教育专家委员会专家、国家863高新技术项目、高新技术项目、国家自然科学基金项目、教育部科技项目及国内外几个著名刊物国家自然科学基金项目、教育部科技项目及国内外几个著名刊物的评审专家。的评审专家。任国际一般系统学会中国模糊信息与模糊工程学会名誉理事长、任国际一般系统学会中国模糊信息与模糊工程学会名誉理事长、中国人工智能学会离散数学专委会主任与知识工程专委会副主任中国人工智能学会离散数学专委

5、会主任与知识工程专委会副主任等。等。曾任英国剑桥曾任英国剑桥CIT高级督察官,国家教委考试中心高级督察官,国家教委考试中心NIT专家组成员,香港专利事务所高级顾问。专家组成员,香港专利事务所高级顾问。受聘于多个大学任讲座教授或兼职教授。受聘于多个大学任讲座教授或兼职教授。曾十余次出国出境参加国际学术会议曾十余次出国出境参加国际学术会议(多次担任国际会多次担任国际会议程序委员会委员与分会主席议程序委员会委员与分会主席)、讲学与合作研究。、讲学与合作研究。 获两次国际重要奖励(获两次国际重要奖励(“成就奖成就奖”与与“杰出成就奖杰出成就奖”-国际上两次获奖者国际上两次获奖者12人)人)是国内较早进

6、入知识发现领域的学者,具国内外的高是国内较早进入知识发现领域的学者,具国内外的高知名度。杨教授被多家重要媒体以知名度。杨教授被多家重要媒体以“著名信息工程专著名信息工程专家家”、“中国著名计算机科学家、知识发现专家中国著名计算机科学家、知识发现专家”、“中国当代大师中国当代大师”为题作了报道。为题作了报道。 科研方面:科研方面:在国内外发表学术论文近在国内外发表学术论文近450篇;经查新被篇;经查新被SCI、EI、ISTP收收录共录共155篇,论文共被引用篇,论文共被引用411次,次,WOS引用:有引用:有21篇被引用篇被引用51次(注:该研究领域至今才有不到次(注:该研究领域至今才有不到20

7、年的发展历史)年的发展历史),相关相关论文已被论文已被“REPRODUCTION IN DOMESTIC ANIMALS”、“JOURNAL OF FOOD SAFETY”等重要国际刊物引用。等重要国际刊物引用。出版著作出版著作15部(独专著部(独专著8部部-其一为英文在美国出版,合编其一为英文在美国出版,合编著著7部)部), 其中国内第一本关于知识发现的专著其中国内第一本关于知识发现的专著知识工程与知识工程与知识发现知识发现已被引用已被引用231次。次。通过国家与省部级正式鉴定或验收的科研课题共通过国家与省部级正式鉴定或验收的科研课题共30余项,在余项,在研课题研课题5项项(均为课题负责人均

8、为课题负责人)。 独获国际重要科技奖励独获国际重要科技奖励2项项(有评价书有评价书) 、获位于第一名的国内、获位于第一名的国内省部级科学技术奖励省部级科学技术奖励8项。项。以唯一发明人获以唯一发明人获4项国家发明专利证书项国家发明专利证书(另通过实审另通过实审4项项,受理受理2项项)、1项计算机软件著作权登记证书和项计算机软件著作权登记证书和1项软件产品证书。项软件产品证书。 教学方面:教学方面:讲授讲授12门课程,全部脱书脱稿,多次观摩教学,力求教学的科学门课程,全部脱书脱稿,多次观摩教学,力求教学的科学性与艺术性,长期博得听课师生的一致赞誉。性与艺术性,长期博得听课师生的一致赞誉。提出提出

9、“知识逻辑结构核心论教学观知识逻辑结构核心论教学观”、“知识逻辑结构与思维导知识逻辑结构与思维导图融合教学法图融合教学法”。获教学研究成果奖多项;发表教学改革的论文;承担国家教改项获教学研究成果奖多项;发表教学改革的论文;承担国家教改项目;独编与主编多部教材;曾在中央电视台与天津电视台讲授价目;独编与主编多部教材;曾在中央电视台与天津电视台讲授价值工程,获奖与好评。值工程,获奖与好评。先后培养与指导青年教师先后培养与指导青年教师2名、博士后名、博士后1名、博士生名、博士生67名、硕士生名、硕士生 73名、外国留学生名、外国留学生7名。名。鉴于上述主要成就与贡献,曾被载入鉴于上述主要成就与贡献,

10、曾被载入世界数学家名录世界数学家名录、世界名世界名人录人录、世界科技咨询专家世界科技咨询专家、世界优秀人才名录世界优秀人才名录、中华当中华当代大师代大师;“科技日报科技日报”、“人民画报人民画报”、 “中国画报中国画报” 、“新华新华社社”、“中国科学院中国科学院”、“科学中国人科学中国人”等以等以“著名信息工程专家著名信息工程专家”、“著名计算机科学家、知识发现专家著名计算机科学家、知识发现专家”等为题做了报道;天津电视台等为题做了报道;天津电视台也曾用中英文向国内外做过相关报道。也曾用中英文向国内外做过相关报道。三.主要学术成果一、知识发现与智能系统方向一、知识发现与智能系统方向1、在国际

11、知识发现领域率先提出基于内在认知机理的知识发现、在国际知识发现领域率先提出基于内在认知机理的知识发现理论体系理论体系KDTICM预处理方法预处理方法预处理方法预处理方法 知识表示方法知识表示方法知识表示方法知识表示方法 知识发掘方法知识发掘方法知识发掘方法知识发掘方法知识评价与优化方法知识评价与优化方法知识评价与优化方法知识评价与优化方法 后处理方法后处理方法后处理方法后处理方法方方方方法法法法技技技技术术术术层层层层 内在机理研究内在机理研究内在机理研究内在机理研究双库协同双库协同双库协同双库协同 机机机机 制制制制双基融合双基融合双基融合双基融合 机机机机 制制制制免疫进化机制免疫进化机制

12、免疫进化机制免疫进化机制信息扩散机制信息扩散机制信息扩散机制信息扩散机制结结结结构构构构模模模模型型型型层层层层机机机机理理理理层层层层知识发现新结构模型知识发现新结构模型KDDKDK*KD(D&K)FBSMKDD*逻辑基础逻辑基础逻辑基础逻辑基础哲学基础哲学基础哲学基础哲学基础方法论基础方法论基础方法论基础方法论基础基基基基础础础础层层层层1)4个先导性的系统框架个先导性的系统框架(纵向研究纵向研究):把知识发现系统把知识发现系统(过程过程)视为认知视为认知系统系统(过程过程),用系统论与认知科学的方法来研究其复杂进程用系统论与认知科学的方法来研究其复杂进程, 相继发现相继发现了四个机制了四

13、个机制(每个机制里都含有核心定理及其技术实现方法每个机制里都含有核心定理及其技术实现方法,揭示其潜揭示其潜在本质与规律性在本质与规律性)并沿机理并沿机理-模型模型-算法线路构造了四个知识发现系统框算法线路构造了四个知识发现系统框架架: 框架一框架一:以认知心理学为基础以认知心理学为基础,发现双库协同机制发现双库协同机制(结构对应定理结构对应定理);并由此诱导出新型过程模型并由此诱导出新型过程模型KDD*;进而由机理与模型的研究派生进而由机理与模型的研究派生出了新型挖掘关联规则的出了新型挖掘关联规则的M算法算法.框架二框架二:以协同理论为基础以协同理论为基础,发现双基融合机制发现双基融合机制(过

14、程模型逻辑等价过程模型逻辑等价定理定理);并由此诱导出新型过程模型并由此诱导出新型过程模型KDK*;进而由机理与模型的研进而由机理与模型的研究派生出了新型究派生出了新型KDK相关算法相关算法.框架三框架三:以认知物理学为基础以认知物理学为基础,发现信息扩张机制发现信息扩张机制(动态动态进程参数演化定理进程参数演化定理);并由此诱导出新型复杂类型数据挖并由此诱导出新型复杂类型数据挖掘过程模型掘过程模型DFSSM;进而由机理与模型的研究派生出了进而由机理与模型的研究派生出了新型文本分类、文本聚类挖掘算法以及基于新信息熵新型文本分类、文本聚类挖掘算法以及基于新信息熵公式的公式的SID3挖掘算法等挖掘

15、算法等.框架四框架四:以认知生物学为基础以认知生物学为基础, 发现免疫进化机制发现免疫进化机制(协同协同定理定理),并由此诱导出新型基于免疫进化机制的知识发现并由此诱导出新型基于免疫进化机制的知识发现结构模型结构模型;进而由机理与模型的研究派生出了新型基于进而由机理与模型的研究派生出了新型基于免疫进化机制的时序模式发掘算法、粗糙集分类规则免疫进化机制的时序模式发掘算法、粗糙集分类规则挖掘算法以及基于免疫进化机制的聚类挖掘算法挖掘算法以及基于免疫进化机制的聚类挖掘算法.2)由系统框架到理论体系由系统框架到理论体系KDTICM的构建的构建(横向研横向研究究): 共经历了十余年时间,先对四个系统框架

16、进行整合集共经历了十余年时间,先对四个系统框架进行整合集成、交叉融合;在此过程中又形成了若干新的过程模成、交叉融合;在此过程中又形成了若干新的过程模型和算法型和算法,如如: 过程模型过程模型KD(D&K)=KDD*+KDK*;以多以多关系频繁模式发现研究、基于超图的链接挖掘方法研关系频繁模式发现研究、基于超图的链接挖掘方法研究和多关系朴素贝叶斯分类研究为主要研究内容,先究和多关系朴素贝叶斯分类研究为主要研究内容,先后构造了后构造了MRFPDA算法、算法、MLMFPD算法等。算法等。 最终建立由理论基础、最终建立由理论基础、4个机制个机制(理论支柱理论支柱)、8个个新过程模型、新过程模型、17种

17、新技术方法组成的基于内在认种新技术方法组成的基于内在认知机理的知识发现理论知机理的知识发现理论KDTICM.3) KDTICM与传统的实用智能系统交叉融与传统的实用智能系统交叉融合合,构造了构造了4类新型实用智能系统:类新型实用智能系统:基于知识发现的专家系统基于知识发现的专家系统(ESKD)基于知识发现的智能决策支持系统基于知识发现的智能决策支持系统(IDSSKD)基于知识发现的智能预测支持系统基于知识发现的智能预测支持系统(IFSSKD)基于知识发现的计算机辅助创新智能系统基于知识发现的计算机辅助创新智能系统(CAIISKD). 从根本上改善了从根本上改善了“知识获取知识获取”与与“知识贫

18、知识贫乏乏”的瓶颈问题的瓶颈问题,提高了经典实用智能系统提高了经典实用智能系统的结构、功能与智能化程度的结构、功能与智能化程度.4)KDTICM的技术实现的技术实现(载体载体)-具有自主知识产权的大型具有自主知识产权的大型集成化组合构件式知识发现软件系统集成化组合构件式知识发现软件系统ICCKDSS(1.0版版). ICCKDSS采用了采用了C/S与与B/S相结合的方式开发而成相结合的方式开发而成,并并配有相应的文档和软件说明书配有相应的文档和软件说明书.该系统已通过中国软件评测中心的正式检测该系统已通过中国软件评测中心的正式检测,获软件著获软件著作权登记证书与软件产品证书作权登记证书与软件产

19、品证书. 5)KDTICM的应用的应用: KDTICM及其衍生的新型智能及其衍生的新型智能系统成功地应用于农业、生物信息学、中医、现系统成功地应用于农业、生物信息学、中医、现代远程教育网、气象、国际商务、铝电解生产、代远程教育网、气象、国际商务、铝电解生产、税务、数字资源整合等领域。税务、数字资源整合等领域。在国内外在国内外“数据挖掘技术仅在商业的软决策上成功应数据挖掘技术仅在商业的软决策上成功应用用,而在工业等领域难获硬效益而在工业等领域难获硬效益”的现实面前,后三个的现实面前,后三个领域取得较为显著的直接经济效益领域取得较为显著的直接经济效益;已在已在6个单位具体实施推广应用个单位具体实施

20、推广应用;分别与国内外分别与国内外13个公司签定了销售与研发协议个公司签定了销售与研发协议;曾与美国曾与美国Zaptron公司与德国柏林洪堡大学合作研发公司与德国柏林洪堡大学合作研发.2、在国际知识发现领域开辟了基于知识库的知、在国际知识发现领域开辟了基于知识库的知识发现识发现(KDK)新方向新方向这是至今在国内外尚待开拓的专题这是至今在国内外尚待开拓的专题.早在早在2003年就正式提出年就正式提出KDK:即针对知识库里的事实:即针对知识库里的事实,采用归纳学习方法产生归纳假设采用归纳学习方法产生归纳假设,再用卡尔纳普的归纳再用卡尔纳普的归纳逻辑进行假设的验证与评价逻辑进行假设的验证与评价;针

21、对知识库里的规则针对知识库里的规则,采用采用广义概念格方法产生归纳假设广义概念格方法产生归纳假设,再用柯恩的归纳逻辑进再用柯恩的归纳逻辑进行假设的验证与评价;行假设的验证与评价;现得国家自然科学基金资助现得国家自然科学基金资助,开展高阶逻辑背景下的研开展高阶逻辑背景下的研究;究;已在国内外主流刊物上发表多篇有影响的论文已在国内外主流刊物上发表多篇有影响的论文,吸引了吸引了相关学者开展此项研究。相关学者开展此项研究。3、在国际知识发现领域首次总结与提出当今面临的、在国际知识发现领域首次总结与提出当今面临的5类重类重大问题大问题领域进展中的两大核心问题(领域进展中的两大核心问题(“基础理论的匮乏基

22、础理论的匮乏”和和“缺少杀手缺少杀手锏式的应用锏式的应用”)两大猜想问题两大猜想问题主流发展中富有挑战性的问题主流发展中富有挑战性的问题应用研究中的相关领域重大问题应用研究中的相关领域重大问题领域技术标准的制定问题领域技术标准的制定问题 并对这五类问题的意义或部分解决方案进行了深入探讨并对这五类问题的意义或部分解决方案进行了深入探讨.特别是为解决数据挖掘中因特别是为解决数据挖掘中因“海量数据海量数据”而造成的时空与而造成的时空与计算复杂性这一难题计算复杂性这一难题,我们提出了旨在化海量为有限量的我们提出了旨在化海量为有限量的“逆问题猜想逆问题猜想”和和“磁铁效应猜想磁铁效应猜想”,并实现了部分

23、解决方并实现了部分解决方案案.4、生物信息学领域中国际性难题、生物信息学领域中国际性难题-蛋白质二蛋白质二级结构预测研究取得突破级结构预测研究取得突破国际性难题:国际性难题:基于计算机程序的蛋白质基于计算机程序的蛋白质3维结构预测中维结构预测中二级结构预测研究已经有二级结构预测研究已经有30多年的历史,其主流发展多年的历史,其主流发展是各种不同预测方法的研究;然而长期以来,蛋白质是各种不同预测方法的研究;然而长期以来,蛋白质二级结构预测研究进展缓慢;同时当前出现了绕过二二级结构预测研究进展缓慢;同时当前出现了绕过二级,直接由一级预测三级的趋势,但精度均不理想。级,直接由一级预测三级的趋势,但精

24、度均不理想。故蛋白质二级结构预测研究已成为本世纪分子生物学故蛋白质二级结构预测研究已成为本世纪分子生物学和生物信息学领域中公认的国际性难题。和生物信息学领域中公认的国际性难题。原始创新性:原始创新性:我们没有步国际主流发展的仅研究预测我们没有步国际主流发展的仅研究预测方法的后尘方法的后尘,而是作为预测系统加以研究而是作为预测系统加以研究,它涵盖了系统它涵盖了系统模型、系统方法、系统优化等核心构件。模型、系统方法、系统优化等核心构件。预测结果:预测结果:在在ILP相应的数据库相应的数据库Q3精度达精度达93.88%(国际最高达国际最高达81%);在在RS126数据库数据库Q3精度达精度达84.1

25、%(国际最高达国际最高达81.65 %);在在CB513数据库数据库Q3精度达精度达80.49%(国际最高达国际最高达78.44%).均处均处国际领先水平国际领先水平.商业前景商业前景: 1) 利用基因技术改良天然蛋白质序列和结构,得到新的蛋白利用基因技术改良天然蛋白质序列和结构,得到新的蛋白质,以用于工业、农业、医药卫生等领域质,以用于工业、农业、医药卫生等领域;2)蛋白质立体结构是进行生物制药的先决条件蛋白质立体结构是进行生物制药的先决条件;3)可产生效益的模式有可产生效益的模式有: 建立蛋白质立体结构资料库建立蛋白质立体结构资料库;建立单核建立单核苷多态基因的特殊资料库。苷多态基因的特殊

26、资料库。展望:展望:二级继延伸二级继延伸,扩展至三级扩展至三级,参国际竞赛参国际竞赛(2010年年).进进而深入到功能预测与转化工作而深入到功能预测与转化工作. 二、柔性建模与集成技术方向二、柔性建模与集成技术方向1. 提出用于智能控制与智能管理的新模型、新技术与新方法。如:泛布提出用于智能控制与智能管理的新模型、新技术与新方法。如:泛布尔代数与多层次结构逻辑、因果关系定性推理模型与广义细胞自动机模尔代数与多层次结构逻辑、因果关系定性推理模型与广义细胞自动机模型、专家知识的归纳获取机制、基于模糊语言场的模糊集成技术、模糊型、专家知识的归纳获取机制、基于模糊语言场的模糊集成技术、模糊语言优化模型

27、等语言优化模型等;解决了先前未解或难解的四个重要问题:解决了先前未解或难解的四个重要问题:1)正交试验的正交试验的逻辑基础分析逻辑基础分析; 2)一类基于定性推理的多变量(参数)协调控制模型一类基于定性推理的多变量(参数)协调控制模型; 3)大系统功能分析的层次结构方法与模糊语言优化集成技术大系统功能分析的层次结构方法与模糊语言优化集成技术; 4)基于模糊语基于模糊语言场的生产装置危险等级评定的集成技术言场的生产装置危险等级评定的集成技术.2. 将创新性模型与技法应用于智能控制、价值工程、安全系统工程等领将创新性模型与技法应用于智能控制、价值工程、安全系统工程等领域。参与域。参与1991199

28、3年全国性的重大现代化管理项目年全国性的重大现代化管理项目-价值工程,主讲价值工程,主讲价值工程价值工程(中央与天津电视台中央与天津电视台)获奖;深入十几家大中企业进行推广应用,获奖;深入十几家大中企业进行推广应用,获显著的经济效益与社会效益获显著的经济效益与社会效益.四.国家发明专利专利专利1 一种基于双库协同机制的一种基于双库协同机制的 KDD*的方法及系统的方法及系统专利专利2 一种基于信息挖掘的智能决策支持构造方法一种基于信息挖掘的智能决策支持构造方法专利专利3 一种一种WEB挖掘系统的构造方法挖掘系统的构造方法专利专利4 组合型智能化家用空调器的控制方法与装置组合型智能化家用空调器的

29、控制方法与装置专利专利5 一种融入一种融入R型协调器的型协调器的KDK系统系统(已通过实审)已通过实审)专利专利6 一种融入一种融入R型与型与S型协调器的型协调器的KDK系统系统(已已通过通过实审)实审)专利专利7 一种基于双基融合机制的的一种基于双基融合机制的的KDK*系统系统(已通过实审)已通过实审)专利专利8 基于知识发现的专家系统构造方法基于知识发现的专家系统构造方法 (已通过实审)已通过实审)专利专利9 一种蛋白质二级结构智能预测模型(已受理)一种蛋白质二级结构智能预测模型(已受理)专利专利10 一种基于一种基于KDD*模型的蛋白质结构预测方法(模型的蛋白质结构预测方法(KAAPRO

30、)(已受理)(已受理)五.主要软件产品(ICCKDSS)介绍主要构件:主要构件:基于数据库的知识发现系统基于数据库的知识发现系统KDD*SSWeb文本挖掘文本挖掘Web用户访问模式挖掘用户访问模式挖掘 智能搜索引擎智能搜索引擎理论基础:理论基础:KDTICM专利支持:专利支持:一种基于双库协同机制的一种基于双库协同机制的 KDD*的方法及系统的方法及系统一种一种WEB挖掘系统的构造方法挖掘系统的构造方法基于数据库的知识发现系统KDD*SSKDD*软件系统软件系统知识管理知识管理 知知识识展展示示 选选择择主主题题 知知识识录录入入 知知识识删删除除数据挖掘数据挖掘 阈阈值值设设置置 选选择择主

31、主题题用用户户自自定定义义挖挖掘掘启启发发协协调调器器挖挖掘掘 中中断断协协调调器器 评评 价价 数数据据库库配配置置 知知识识库库配配置置 配配置置系系统统数据预处理数据预处理 数数据据离离散散化化生生成成挖挖掘掘库库语语言言值值定定义义语语言言变变量量定定义义 数数据据预预处处理理 数数据据选选取取 属属性性一一致致 填填补补空空缺缺数数据据集集成成 建建立立主主题题 主主题题管管理理KDD*SS界面KDD*SS界面启发型协调器聚焦获得假设规则予处理真实数据库划分数据子库根据子库形成数据子类结构,构成发掘数据库定向发掘过程将获得规则嵌入发掘知识库检查是否重复,冗余,矛盾。根据用户需求与感兴

32、趣知识中断型协调器基础知识库评价衍生知识库划分知识子库根据属性划分知识节点,形成推断弧线,构成发掘知识库搜索发掘知识库中的知识节点的关联状态,发现知识短缺,并确定优先级。(定向搜索)(定向发掘)图图 KDD* KDD* 系统总体结构图系统总体结构图KDD*SS特征KDD*SS有机地沟通与融合了有机地沟通与融合了KDD*SS新发现的知识与基础知识库中新发现的知识与基础知识库中固有的知识,使它们成为一个有机的整体;即实现了固有的知识,使它们成为一个有机的整体;即实现了“用户的先验知用户的先验知识与先前发现的知识可以耦合到发现过程中识与先前发现的知识可以耦合到发现过程中”,在结构与功能上形成,在结构

33、与功能上形成了相对于了相对于KDDSS而言的一个开放的、优化的扩体。而言的一个开放的、优化的扩体。 在知识发现过程中,在知识发现过程中,KDD*SS对于冗余性的、重复性的、不相容的对于冗余性的、重复性的、不相容的信息作出了实时处理,有效地减少了由于过程积累而造成的问题的复信息作出了实时处理,有效地减少了由于过程积累而造成的问题的复杂性,同时为新旧知识的融合与合成提供了先决条件;实现了杂性,同时为新旧知识的融合与合成提供了先决条件;实现了“知识知识与数据库同步进化与数据库同步进化”。KDD*SS改变与优化了知识发现的过程与运行机制,实现了改变与优化了知识发现的过程与运行机制,实现了“多源头多源头

34、”聚焦与减少评价量。聚焦与减少评价量。从认知科学的角度看,从认知科学的角度看,KDD*SS强化并提供了知识发现的智能化程度,强化并提供了知识发现的智能化程度,提高了认知自主性(这将是今后相当长的一阶段内保持的研究基调)提高了认知自主性(这将是今后相当长的一阶段内保持的研究基调),较有效地克服领域专家的自身局限性,实现了较有效地克服领域专家的自身局限性,实现了“采用领域知识辅助初采用领域知识辅助初始发现的聚焦始发现的聚焦”。作为作为KDD*SS的核心技术的核心技术双库协同机制的研究,揭示了在一定的建双库协同机制的研究,揭示了在一定的建库原则下,知识子库与数据子类结构之间的对应关系,为实现库原则下

35、,知识子库与数据子类结构之间的对应关系,为实现“限制限制性的搜索性的搜索”而减小搜索空间、提高发掘效率提供了有效的技术方法。而减小搜索空间、提高发掘效率提供了有效的技术方法。KDD*SS采用了全新的离散化方法采用了全新的离散化方法基于语言场理论的连续属性离基于语言场理论的连续属性离散化算法散化算法DCL 。KDD*SS实现了一种优于实现了一种优于Apriori算法的基于双库协同机制的关联规算法的基于双库协同机制的关联规则挖掘算法则挖掘算法Maradbcm算法。算法。 KDD*SS采用了一类新型的知识自动评价系统采用了一类新型的知识自动评价系统 。 KDD*SS的的知识库知识库是是SQL Ser

36、ver。原数据库和知识库的连接全部是动态连。原数据库和知识库的连接全部是动态连接,用户可以根据需要连接不同的数据源接,用户可以根据需要连接不同的数据源; KDD*SS支持多种数据库支持多种数据库,因此,因此待挖掘的原数据库可以是不同的数据库,如:待挖掘的原数据库可以是不同的数据库,如:Oracle,DB2,SQL Server,Access和其他和其他ODBC兼容的关系数据库等;兼容的关系数据库等;在在KDD*SS中我们注意中我们注意知识的展示知识的展示功能,以比较直观的方式把挖掘出来的知功能,以比较直观的方式把挖掘出来的知识展示给用户,并用多种方法来表示知识,如:用圆和线来表示各种属性之识展

37、示给用户,并用多种方法来表示知识,如:用圆和线来表示各种属性之间的关系,用饼图的形式化的图形来表示知识的可信度,用户可以根据挖掘间的关系,用饼图的形式化的图形来表示知识的可信度,用户可以根据挖掘出的知识进行各种决策工作;出的知识进行各种决策工作;KDD*SS使用比较方便使用比较方便,用户大部分工作都是使用鼠标来完成的,用户大部分工作都是使用鼠标来完成的;同时界面非同时界面非常友好,由于大部分用户是常友好,由于大部分用户是Windows用户,我们的现实风格基本和用户,我们的现实风格基本和Windows的风格一致;的风格一致;KDD*SS的最大的特点是具有良好的的最大的特点是具有良好的通用性与可扩

38、展性,通用性与可扩展性,应用范围广应用范围广;与用户与用户数据数据接口简单接口简单,不需建立数据仓库。,不需建立数据仓库。同类对比(与目前市场上流行的数据挖掘软件(与目前市场上流行的数据挖掘软件Clementine在关联规则挖掘对比)在关联规则挖掘对比)在执行速度上,在执行速度上,Clementine存在一定优势,但其优势是以牺牲被发现规则的数量为代存在一定优势,但其优势是以牺牲被发现规则的数量为代价。价。KDD*的离散化过程更加直观,简单;的离散化过程更加直观,简单;KDD*具有知识库维护功能,使得对被挖掘知识的后期管理、维护更加方便;具有知识库维护功能,使得对被挖掘知识的后期管理、维护更加

39、方便;KDD*一次挖掘的规则数量更多,获得知识更加丰富。一次挖掘的规则数量更多,获得知识更加丰富。在在KDD*的支持度的定义下,的支持度的定义下,KDD*所取得的有益规则,较所取得的有益规则,较Clementine取得的有益规则,取得的有益规则,存在更多支持度小,可信度高的规则,即意外规则。这些规则往往对预测结果起到重存在更多支持度小,可信度高的规则,即意外规则。这些规则往往对预测结果起到重要作用。要作用。KDD*的支持度定义,使得规则适用度较高,更好地防止了的支持度定义,使得规则适用度较高,更好地防止了“过渡学习过渡学习”,预测模型的,预测模型的鲁棒性较强。鲁棒性较强。KDD*具有更好的扩展

40、性,实验室的活跃思想,可以使其功能更加完善。具有更好的扩展性,实验室的活跃思想,可以使其功能更加完善。Web文本挖掘特征的特征的建立建立特征集特征集的缩减的缩减学习与知识学习与知识模式的提取模式的提取知识模式知识模式模型质量模型质量的评价的评价文档集文档集Web文本挖掘系统流程图文本挖掘系统流程图Web文本挖掘界面Web文本挖掘结果展示Web用户访问模式挖掘 系统的输入数据有:系统的输入数据有:服务器日志(访问日志、引用日志和服务器日志(访问日志、引用日志和代理日志)、代理日志)、Web站点的结构文件、以及可选的与具体站点的结构文件、以及可选的与具体站点相关的数据,如:用户注册信息库、电子商务

41、或银行站点相关的数据,如:用户注册信息库、电子商务或银行数据等。数据等。系统的输出为:系统的输出为:经过模式分析得到的感兴趣的规则和模式,经过模式分析得到的感兴趣的规则和模式,并以友好、直观、形象的界面展示给用户。并以友好、直观、形象的界面展示给用户。 模式评价模式库用户登录选择分析起始时间及分析周期引用日志服务器日志注册信息站点结构代理日志日志信息库日志信息库ASP Log / Spider数据净化用户识别会话识别路径补充格式化用户会话库(DMDB)预处理模块预处理模块特定变换数值化网络机器人可视化模块挖掘模块挖掘模块最大前向引用路径频繁访问路径基础模式库中断型协调器启发型协调器人机对话界面

42、Web服务器评价模块评价模块频繁访问页面统计频繁访问路径智能搜索引擎搜索概要结构界面搜索详细结果界面六.主要应用成果介绍用多年时间组织实施了上述用多年时间组织实施了上述KDDKDD创新性理论及技术方法在农业、铝电解生产、创新性理论及技术方法在农业、铝电解生产、数字资源整合、税务、现代远程教育网、气象、国际商务、中医、生物信息数字资源整合、税务、现代远程教育网、气象、国际商务、中医、生物信息学等领域的应用学等领域的应用. . 在此重点介绍:在此重点介绍:远程教育远程教育农业农业气象气象铝电解生产铝电解生产税务税务国际商务国际商务数据资源整合数据资源整合中医中医蛋白质二级结构预测蛋白质二级结构预测

43、( (从略从略) )远程教育项目背景:项目背景:教育部重点科技项目教育部重点科技项目:“远程教育网关键技术远程教育网关键技术信息挖掘和智能搜信息挖掘和智能搜索工具的研究索工具的研究”(教技司教技司2000175)2001年年1月开始月开始,经过两年的努力经过两年的努力,将将KDTICM、ICCKDSS成功地成功地应用到远程教育网关键技术应用到远程教育网关键技术信息挖掘和智能搜索工具中信息挖掘和智能搜索工具中.分别于分别于2002年年4月和月和2002年年10月在北京龙腾创想科技有限公司月在北京龙腾创想科技有限公司(该该公司主要进行远程教育网络集成和开发公司主要进行远程教育网络集成和开发,具有完

44、善的远程教育平台具有完善的远程教育平台)和兰州大学网络通信中心和兰州大学网络通信中心(该中心已在甘肃省建立了该中心已在甘肃省建立了2个多媒体授个多媒体授课中心、课中心、13个多媒体听课中心、和异步局域网教室个多媒体听课中心、和异步局域网教室,为实施现代远为实施现代远程教育提供了必要条件程教育提供了必要条件)通过了相关软件工具的测试和实际运行通过了相关软件工具的测试和实际运行. 评价:评价:兰州大学网络教育学院的教师们反映兰州大学网络教育学院的教师们反映:有了有了Web日志挖掘系统日志挖掘系统,教师可以教师可以了解和分析学生们的兴趣之所在了解和分析学生们的兴趣之所在,并有针对性的制定教学策略并有

45、针对性的制定教学策略,作到因材施作到因材施教教.学员们也认为学员们也认为,他们通过智能搜索引擎找出了大量与自己感兴趣的问题他们通过智能搜索引擎找出了大量与自己感兴趣的问题相关的网页相关的网页;通过使用通过使用Web文本挖掘系统针对某一十分感兴趣的主题进行文本挖掘系统针对某一十分感兴趣的主题进行更为详细的分类和聚类更为详细的分类和聚类,学习的积极性极大地提高了学习的积极性极大地提高了.用户测试运行分析结论为用户测试运行分析结论为:”ICCKDSS与同类软件产品相比与同类软件产品相比:在理论上在理论上,具具有很大的创新性有很大的创新性;在应用上在应用上,具有很好的验证理论的价值与实用价值具有很好的

46、验证理论的价值与实用价值;在测在测试效果上试效果上,具有良好的标准化的测试指标具有良好的标准化的测试指标.通过比较分析后认为该软件系统通过比较分析后认为该软件系统和好地解决了现代远程教育网所面临的信息转换、提炼等重大问题和好地解决了现代远程教育网所面临的信息转换、提炼等重大问题,是基是基于原创性理论的具有自主知识产权的软件系统于原创性理论的具有自主知识产权的软件系统,系统整体上已达到了国内系统整体上已达到了国内领先、国际先进的水平领先、国际先进的水平,并具有广泛的应用前景并具有广泛的应用前景.” 农业应用项目背景:项目背景:国家自然科学基金重点项目国家自然科学基金重点项目 “基于数据库与知识库

47、的知识发现及基于数据库与知识库的知识发现及其农业应用系统的研究其农业应用系统的研究”(项目编号项目编号:69835001)从从1999年年1月开始至月开始至2002年年12月月,经过四年的努力经过四年的努力,我们以安徽省我们以安徽省合肥农业示范区为基地合肥农业示范区为基地,开发出了面向施肥的农业知识发现专家系开发出了面向施肥的农业知识发现专家系统统(KDIST-SF)和面向植保的农业知识发现专家系统和面向植保的农业知识发现专家系统(KDIST-ZB),将将KDTICM与与ICCKDSS成功地应用于施肥、植保及防治病虫害等成功地应用于施肥、植保及防治病虫害等农业具体领域农业具体领域. 农业应用解

48、决的典型问题解决的典型问题 :通过使用通过使用ICCKDSS对合肥市相关的农业数据进行挖掘对合肥市相关的农业数据进行挖掘,我们发现我们发现:水稻干水稻干物质累积和对硒的累积不同步物质累积和对硒的累积不同步,前者高峰在生长中期前者高峰在生长中期,后者以生长后期为主后者以生长后期为主;另外水稻对硒有一定的生物富集作用另外水稻对硒有一定的生物富集作用.将这些规则存于知识库后将这些规则存于知识库后,根据这些规则根据这些规则,在农艺措施上应在稻灌浆充实前在农艺措施上应在稻灌浆充实前增施一次硒肥增施一次硒肥,而在缺硒和低硒地区施用硒肥而在缺硒和低硒地区施用硒肥,能显著提高水稻含硒量能显著提高水稻含硒量,改

49、改善其营养品质善其营养品质,提高其市场竞争力提高其市场竞争力.这样一方面可以指导人们合理地施加肥这样一方面可以指导人们合理地施加肥料料,另一方面也可以指导肥料生产厂家在不同阶段添加不同的微量元素另一方面也可以指导肥料生产厂家在不同阶段添加不同的微量元素,以以适应农业生产的需要适应农业生产的需要.根据我国某地区二十年来的小麦苗情资料和气象信息根据我国某地区二十年来的小麦苗情资料和气象信息,我们发现了节气、我们发现了节气、降水、日照、苗高、苗数等之间的关系降水、日照、苗高、苗数等之间的关系,从而有助于对农作物田间管理、从而有助于对农作物田间管理、施肥、施药等进行有针对性的科学指导施肥、施药等进行有

50、针对性的科学指导. 农业应用气象 项目背景:项目背景:国家气象局国家气象局”大城市环境气象信息系统研究大城市环境气象信息系统研究”课题的课题的子课题子课题“气象数据挖掘与知识发现软件系统气象数据挖掘与知识发现软件系统”2000年年1月开始至月开始至2002年年12月月,将将ICCKDSS应用于气应用于气象短期预报与服务领域象短期预报与服务领域.评价:评价:通过在北京气象科学研究所进行实际运行后通过在北京气象科学研究所进行实际运行后,认为认为:该软该软件性能良好件性能良好,使用方便使用方便,人机界面友好人机界面友好,通过在气象各个通过在气象各个部门中的推广应用部门中的推广应用,可产生很大的经济效

51、益和社会价值可产生很大的经济效益和社会价值,是一个具有很高技术含量的软件系统是一个具有很高技术含量的软件系统. 解决的典型问题解决的典型问题 :在气象云图处理上在气象云图处理上,过去采用经验的方法或传统处理方过去采用经验的方法或传统处理方法法,而我们采用相似模式的挖掘方法来分析气象云图而我们采用相似模式的挖掘方法来分析气象云图,并并给出基于信息挖掘的短期预测模型给出基于信息挖掘的短期预测模型.项目进展:项目进展:ICCKDSS已作为关键部分应用于北京市气象局的已作为关键部分应用于北京市气象局的“大大城市气象预报服务信息系统平台城市气象预报服务信息系统平台”.ICCKDSS的应用的应用,不不仅有

52、效地起到了辅助短期气象预报的功能仅有效地起到了辅助短期气象预报的功能,而且可实现而且可实现在不同的天气生成不同的产品和服务在不同的天气生成不同的产品和服务,并将有用的存入并将有用的存入知识库知识库,极大地丰富了北京市气象局的服务范围和功能极大地丰富了北京市气象局的服务范围和功能. 铝电解生产项目背景:项目背景:本项目是针对我国铝电解企业在生产过程中对电解槽的控制上主要采用本项目是针对我国铝电解企业在生产过程中对电解槽的控制上主要采用是人工经验的方法,而非智能化控制。在实际生产过程中往往是通过有是人工经验的方法,而非智能化控制。在实际生产过程中往往是通过有经验的工人来确定经验的工人来确定电解铝生

53、产的各项运行指标,这样的人工经验方法不电解铝生产的各项运行指标,这样的人工经验方法不可避免造成电解铝行业的能源损耗以及生产效率低下。可避免造成电解铝行业的能源损耗以及生产效率低下。青铜峡铝业集团有限公司建成投产的青铜峡铝业集团有限公司建成投产的350kA大型预焙铝电解槽生产系列大型预焙铝电解槽生产系列,是我国目前为止电流最大的铝电解生产线是我国目前为止电流最大的铝电解生产线;2004年初投产后年初投产后,由于系统的由于系统的复杂性复杂性,难于找到最佳的工艺技术参数难于找到最佳的工艺技术参数,生产不稳定生产不稳定,无法按期达产、达标无法按期达产、达标.该项目获北京市科技发明三等奖该项目获北京市科

54、技发明三等奖 相关专利:相关专利:相关专利:相关专利:基于知识发现的专家系统构造方法基于知识发现的专家系统构造方法 铝电解生产研究成果研究成果新的数据挖掘新的数据挖掘(知识发现知识发现)技术的融入,在固有模糊控制与模糊专技术的融入,在固有模糊控制与模糊专家系统基础上引入数据挖掘技术。家系统基础上引入数据挖掘技术。通过对青铜峡铝业集团公司电解通过对青铜峡铝业集团公司电解350系列的生产数据进行分析,系列的生产数据进行分析,发现了潜在的人所未知的电解工艺规律;发现了潜在的人所未知的电解工艺规律;通过调整工艺参数,提高了电流效率,降低了能耗。通过调整工艺参数,提高了电流效率,降低了能耗。以青铜峡铝业

55、集团有限公司以青铜峡铝业集团有限公司350kA预焙铝电解槽(共预焙铝电解槽(共290台)一台)一年年28万产能计算,提高电流效率万产能计算,提高电流效率0.8%,降低直流电耗,降低直流电耗120kWh/t-Al,每年带来的直接经济效益达每年带来的直接经济效益达1050万元。万元。2005年中国电解铝的产能为年中国电解铝的产能为800万吨,若全面推广应用此项技术,万吨,若全面推广应用此项技术,其直接年经济效益为其直接年经济效益为800/28*1050=30000万元(万元(3个亿)。个亿)。铝电解生产铝电解生产税务 项目背景:项目背景:目前目前,税务局的税务局的IT现有架构已具备了较为成功的业务

56、处理层和初步的信息现有架构已具备了较为成功的业务处理层和初步的信息管理层管理层,信息的搜集和积累已经相当成熟信息的搜集和积累已经相当成熟,但决策支持层还有所欠缺但决策支持层还有所欠缺,这种这种状况急待改变状况急待改变.应考虑尽快建立一个以数据挖掘为主线的系统应考虑尽快建立一个以数据挖掘为主线的系统,且该系统应且该系统应具备下述特征具备下述特征:1)有助于税务局宏观掌控辖区内税收变化动态及趋势有助于税务局宏观掌控辖区内税收变化动态及趋势,提高决策的洞察力和政提高决策的洞察力和政策制定时的针对性策制定时的针对性;2)有助于税务局各业务处室有助于税务局各业务处室,如征管如征管,稽查稽查,计会制定部门

57、策略计会制定部门策略,提高监管力度提高监管力度,增增强监管效果强监管效果;3)有较好的先进性、前瞻性和扩展能力有较好的先进性、前瞻性和扩展能力,为税务局带来显著的持续的竞争优势为税务局带来显著的持续的竞争优势.与北京市西城区地税局合作与北京市西城区地税局合作,建立了一套以以上数据挖掘创新模型与技法建立了一套以以上数据挖掘创新模型与技法为核心的系统为核心的系统,较好的解决了若干重要问题较好的解决了若干重要问题. 研究成果研究成果最初在北京市西城区地税局应用最初在北京市西城区地税局应用,通过与地税工作人员的长期合作通过与地税工作人员的长期合作交流交流,尽量把这套系统与实际业务向结合尽量把这套系统与

58、实际业务向结合,做到实实在在地为实际做到实实在在地为实际工作服务工作服务,其间对这套分析体系也进行逐渐完善其间对这套分析体系也进行逐渐完善.该项目在西城地该项目在西城地税取得了令人满意的成果税取得了令人满意的成果,得到了客户方的认可得到了客户方的认可,并已在实际中应并已在实际中应用用,而这正是我们所追求的结果而这正是我们所追求的结果.已有北京市地税局已有北京市地税局(亦庄开发区地税局、西城区地税局亦庄开发区地税局、西城区地税局),北京市财北京市财政局使用了我们的软件系统政局使用了我们的软件系统,累计销售额为累计销售额为360万万.同时同时,以西城区以西城区税务局为代表税务局为代表,通过该系统的

59、使用通过该系统的使用,筛选出的重点企业一一整治排筛选出的重点企业一一整治排查查,直接为国家增加税收直接为国家增加税收300多万多万;其中房地产行业增加其中房地产行业增加115万万,金融金融行业增加行业增加190万万.该应用现正在税务系统全面实施中该应用现正在税务系统全面实施中,可达直接经济可达直接经济效益效益5000多万多万. 国际商务项目背景:项目背景:在与国家商务部国际电子商务中心的合作中在与国家商务部国际电子商务中心的合作中在与国家商务部国际电子商务中心的合作中在与国家商务部国际电子商务中心的合作中, ,构造了基于我们专利技术的构造了基于我们专利技术的构造了基于我们专利技术的构造了基于我

60、们专利技术的” ”面向加工贸易基于竞争情报的智能决策支持系统面向加工贸易基于竞争情报的智能决策支持系统面向加工贸易基于竞争情报的智能决策支持系统面向加工贸易基于竞争情报的智能决策支持系统” ”. .针对外贸加工中国针对外贸加工中国针对外贸加工中国针对外贸加工中国内采购与供应链系统进行深入分析内采购与供应链系统进行深入分析内采购与供应链系统进行深入分析内采购与供应链系统进行深入分析; ;通过数据挖掘、通过数据挖掘、通过数据挖掘、通过数据挖掘、WEBWEB挖掘、案例推挖掘、案例推挖掘、案例推挖掘、案例推理与理与理与理与OLAPOLAP等技术等技术等技术等技术, ,发现规律发现规律发现规律发现规律,

61、 ,辅助决策辅助决策辅助决策辅助决策. . 此项目研发的新型智能决策支持系统是集理论、软件与应用于一体的创此项目研发的新型智能决策支持系统是集理论、软件与应用于一体的创此项目研发的新型智能决策支持系统是集理论、软件与应用于一体的创此项目研发的新型智能决策支持系统是集理论、软件与应用于一体的创新性研究成果新性研究成果新性研究成果新性研究成果; ;深刻地体现了知识发现创新技术与前沿智能技术的融合深刻地体现了知识发现创新技术与前沿智能技术的融合深刻地体现了知识发现创新技术与前沿智能技术的融合深刻地体现了知识发现创新技术与前沿智能技术的融合, ,在在在在解决国家对外商务领域辅助决策等重大工程应用问题中

62、的极其重要的作解决国家对外商务领域辅助决策等重大工程应用问题中的极其重要的作解决国家对外商务领域辅助决策等重大工程应用问题中的极其重要的作解决国家对外商务领域辅助决策等重大工程应用问题中的极其重要的作用用用用. .系统整体上达到国际先进水平系统整体上达到国际先进水平系统整体上达到国际先进水平系统整体上达到国际先进水平. . 相关专利:相关专利:相关专利:相关专利:一种基于信息挖掘的智能决策支持构造方法一种基于信息挖掘的智能决策支持构造方法规则举例规则举例进口国是日本,加工费小于进口国是日本,加工费小于5元元提供设备价款小于提供设备价款小于10000、可供辅料价款小于、可供辅料价款小于10000

63、0那么申请合同类型为进料那么申请合同类型为进料合同。合同。进口料件原值进口料件原值1百万以内、加工给小于百万以内、加工给小于100000,那么进口料件总值,那么进口料件总值1百万以内百万以内加工贸易方式为加工贸易方式为0、可供辅料价款小于、可供辅料价款小于100000,那么加工费小于,那么加工费小于100000。 意义:意义:为加工企业提供有偿数据服务为加工企业提供有偿数据服务为决策提供服务为决策提供服务建立加贸决策支持系统建立加贸决策支持系统为企业、领导提供决策为企业、领导提供决策提供经济形势预报提供经济形势预报国际商务国际商务数字资源整合项目背景:项目背景:无论是数字图书馆中的图书文献资源

64、无论是数字图书馆中的图书文献资源,还是互联网上的信息还是互联网上的信息,其最大的特点其最大的特点是一个可以提供资源服务的平台是一个可以提供资源服务的平台,但由于有别于传统的数值型的资源形式但由于有别于传统的数值型的资源形式,因此对它们的整合、利用呈现出新特点因此对它们的整合、利用呈现出新特点:1)资源形式以半资源形式以半(非非)结构化的形式为主结构化的形式为主;2)信息的存储形式没有规范信息的存储形式没有规范,导致很难对信息进行整合和加工导致很难对信息进行整合和加工;3)对信息的利用主要是以检索为手段对信息的利用主要是以检索为手段,定位用户感兴趣的信息定位用户感兴趣的信息,其时间复杂度和其时间

65、复杂度和效率很低效率很低;4)面对海量的这种半结构化和非结构化的信息面对海量的这种半结构化和非结构化的信息,传统的处理手段无法满足需要传统的处理手段无法满足需要等等.对这些新的问题对这些新的问题,传统的以关系数据库为主要存储机制和在这个基础上的数传统的以关系数据库为主要存储机制和在这个基础上的数据整合技术显得无能为力据整合技术显得无能为力.为解决这些问题为解决这些问题,我们将数据挖掘创新模型与算法应用到工程实践中我们将数据挖掘创新模型与算法应用到工程实践中,完成完成了了“基于数据挖掘的数字资源整合、服务平台及监管系统建设基于数据挖掘的数字资源整合、服务平台及监管系统建设”这一大这一大型项目型项

66、目,在实践中取得了可观的经济效益在实践中取得了可观的经济效益. 项目成果:项目成果:“瑞采系列瑞采系列”产品实现对互联网信息的定向搜索产品实现对互联网信息的定向搜索,用户可以根据自用户可以根据自身的特点建立信息分类体系身的特点建立信息分类体系,并对采集到的信息进行自动的加工并对采集到的信息进行自动的加工,用户可以从客户端定制自己感兴趣的内容用户可以从客户端定制自己感兴趣的内容,系统则可以为用户提供系统则可以为用户提供信息的互动推送服务信息的互动推送服务.既可以适合个人用户既可以适合个人用户,也可以用在行业领域也可以用在行业领域中的个人网站、电子商务网站和企业网站等门户中使用中的个人网站、电子商

67、务网站和企业网站等门户中使用,自产品问自产品问世以来世以来,销售业绩逐年上升销售业绩逐年上升,销售额达销售额达400多万元多万元.构造了中国工程科学技术图书馆的数字平台构造了中国工程科学技术图书馆的数字平台NSTL,陕西、江苏、陕西、江苏、浙江、云南、江苏等省的科技情报研究所的文献服务平台浙江、云南、江苏等省的科技情报研究所的文献服务平台,平台建平台建立后这些单位的文献服务数量每年递增了立后这些单位的文献服务数量每年递增了20%以上以上,几个服务平台几个服务平台原来每年提供文献服务量约为原来每年提供文献服务量约为500万篇万篇,按平均每篇的价格为按平均每篇的价格为2元元,每年递增每年递增20%

68、的绝对数量为的绝对数量为100万左右万左右,使用户效益每年增加使用户效益每年增加300万元以上万元以上.通过帮助政府监管部门建立对互联网信息的网络监管系统通过帮助政府监管部门建立对互联网信息的网络监管系统,仅人力仅人力和设备每年就为国家节省资金和设备每年就为国家节省资金200多万元多万元. 中医应用项目背景:项目背景:与中国中医研究院合作,对路志正教授调理脾胃法治与中国中医研究院合作,对路志正教授调理脾胃法治疗胸痹及其相关疾病个体诊疗临床病历疗胸痹及其相关疾病个体诊疗临床病历目标:运用小量采集系统里结构化的精华病历数据,目标:运用小量采集系统里结构化的精华病历数据,初步探索寻找出路老调理脾胃治

69、疗胸痹思想的规律,初步探索寻找出路老调理脾胃治疗胸痹思想的规律,并以此为基础,着重研究冠心病治疗方案并以此为基础,着重研究冠心病治疗方案路志正n男,汉族,男,汉族, 1921年年12月出生,祖籍河北省藁城市月出生,祖籍河北省藁城市n中国中医科学院广安门医院主任医师,研究生导师。中国中医科学院广安门医院主任医师,研究生导师。n第一批国家级老中医药专家学术经验指导老师,首批国务第一批国家级老中医药专家学术经验指导老师,首批国务院政府特殊津贴获得者。院政府特殊津贴获得者。 n由于医德高尚、医术精湛,由于医德高尚、医术精湛,2005年被国家中医药管理局年被国家中医药管理局授予授予“国医大师国医大师”称

70、号。称号。数据范围:数据范围:路老治疗胸痹及其相关疾病的路老治疗胸痹及其相关疾病的67例病例(例病例(168例次),包括冠心病(例次),包括冠心病(32例)、心例)、心律失常、心脏神经官能症、风心病等相关疾病。律失常、心脏神经官能症、风心病等相关疾病。分析方法:分析方法:对症状、证候、药物的数据研究相应的预处理方法对症状、证候、药物的数据研究相应的预处理方法通过通过KDD*软件进行关联分析软件进行关联分析症状之间症状之间症状与证候之间症状与证候之间证候与药物之间证候与药物之间意义:意义:揭示症状之间的关联性揭示症状之间的关联性揭示症状与证侯之间的关联性,进而对老中医的诊病规律进行总结揭示症状与

71、证侯之间的关联性,进而对老中医的诊病规律进行总结揭示证侯与药物之间的关联性,总结老中医诊治规律揭示证侯与药物之间的关联性,总结老中医诊治规律进一步建立基于老中医医疗经验的辨证论治知识库系统进一步建立基于老中医医疗经验的辨证论治知识库系统症状关联部分结果条件条件结论结论支持度支持度可信度可信度相关度相关度舌质暗舌质暗1 1白苔白苔1 10.350.350.580.581.361.36白苔白苔1 1舌质暗舌质暗1 10.350.350.810.811.361.36黄苔黄苔1 1胸闷胸闷1 10.220.220.670.671.171.17胸痛胸痛1 1胸闷胸闷1 10.220.220.670.67

72、1.171.17心悸心悸1 1失眠失眠1 10.20.20.570.571.141.14心悸心悸1 1胸闷胸闷1 10.220.220.630.631.11.1乏力乏力1 1舌质暗舌质暗1 10.20.20.710.711.191.19腻苔腻苔1 1舌质暗舌质暗1 10.270.270.710.711.181.18胸痛胸痛1 1舌质暗舌质暗1 10.220.220.670.671.111.11症状与证候部分结果条件条件结论结论支持度支持度可信度可信度相关度相关度湿热内蕴湿热内蕴1 1湿阻湿阻1 10.10.11 13.73.7血虚证血虚证1 1气虚气虚1 10.10.10.710.713.25

73、3.25舌质暗舌质暗1 1 湿阻湿阻1 1腻苔腻苔1 10.110.110.790.792.182.18湿阻湿阻1 1腻苔腻苔1 10.180.180.670.671.851.85腻苔腻苔1 1湿阻湿阻1 10.180.180.50.51.851.85胸阳不振胸阳不振1 1胸痛胸痛1 10.110.110.610.611.81.8血虚证血虚证1 1白苔白苔1 10.110.110.790.791.671.67气虚气虚1 1薄苔薄苔1 10.130.130.590.591.481.48气虚气虚1 1胸痛胸痛1 10.110.110.50.51.471.47气虚气虚1 1心悸心悸1 10.110.

74、110.50.51.351.35胸阳不振胸阳不振1 1胸闷胸闷1 10.120.120.670.671.311.31痰浊内阻痰浊内阻1 1胸闷胸闷1 10.120.120.670.671.311.31证候与药物部分结果条件条件结论结论支持度支持度可信度可信度相关度相关度湿阻湿阻1 1利水渗湿药利水渗湿药1 10.260.261 11.161.16湿阻湿阻1 1 化痰药化痰药1 1利水渗湿药利水渗湿药1 10.230.231 11.161.16血虚证血虚证1 1 补虚药补虚药1 1气虚气虚1 10.10.10.710.713.253.25湿阻湿阻1 1 理气药理气药1 1收涩药收涩药1 10.1

75、10.110.790.792.072.07湿阻湿阻1 1 补虚药补虚药1 1 清热药清热药1 1收涩药收涩药1 10.110.110.730.731.931.93湿阻湿阻1 1 活血化瘀药活血化瘀药1 1收涩药收涩药1 10.120.120.710.711.861.86湿阻湿阻1 1 活血化瘀药活血化瘀药1 1 利水渗湿药利水渗湿药1 1收涩药收涩药1 10.120.120.710.711.861.86化湿药化湿药1 1 利水渗湿药利水渗湿药1 1 收涩药收涩药1 1湿阻湿阻1 10.110.110.610.612.352.35气虚气虚1 1 消食药消食药1 1安神药安神药1 10.110.110.730.731.631.63气虚气虚1 1 补虚药补虚药1 1 消食药消食药1 1安神药安神药1 10.110.110.730.731.631.63湿阻湿阻1 1 利水渗湿药利水渗湿药1 1收涩药收涩药1 10.160.160.620.621.621.62补虚药补虚药1 1 利水渗湿药利水渗湿药1 1 清热药清热药1 1 收涩药收涩药1 1湿阻湿阻1 10.110.110.550.552.122.12谢谢各位!谢谢各位!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号