信息检索语言与技术

资源描述

《信息检索语言与技术》由会员分享，可在线阅读，更多相关《信息检索语言与技术（97页珍藏版）》请在金锄头文库上搜索。

1、信息检索语言与技术信息检索语言与技术文燕平11 信息检索语言信息检索语言检索语言，是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。21 .1 什么是信息检索语言什么是信息检索语言v语言词汇语法信息检索语言的词汇信息检索语言的词汇：分类号、检索词、代码信息检索语言的语法信息检索语言的语法：如何正确描述记录和有效地检索记录的一整套规则规则。3检索语言的类型检索语言的类型检索语言检索语言的类型的类型描述内容描述内容特征语言特征语言描述外表描述外表特征语言特征语言主题语言分类语言题名语言著者语言号码

2、语言关键词语言标题词语言叙词语言41.1.1 文献信息分类语言文献信息分类语言v分类语言是用分类号来表达文献主题概念，分类语言是用分类号来表达文献主题概念，并将文献按学科性质分门别类地系统组织并将文献按学科性质分门别类地系统组织起来的一种检索语言。起来的一种检索语言。v利用分类语言编制的分类表主要有利用分类语言编制的分类表主要有中国中国图书馆分类法图书馆分类法（简称中图法）、（简称中图法）、美美国国会图书馆分类法国国会图书馆分类法、美国的、美国的十进制十进制图书分类法图书分类法、国际专利分类表国际专利分类表以以及印度的及印度的冒号分类法冒号分类法。5中国图书馆图书分类法6中图法中图法结构示

3、意图结构示意图A 马克思主义、列宁主义毛泽东思想、邓小平理论B 哲学、宗教C 社会科学总论D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字I 文学J 艺术K 历史、地理N 自然科学总论O 数理科学和化学P 天文学、地球科学Q 生物科学R 医药、卫生S 农业科学T 工业技术U 交通运输V 航空、航天X 环境科学、安全科学Z 综合性图书U1 综合运输U2 铁路运输U4 公路运输U6 水路运输U8 航空运输U41 道路工程U44 桥涵工程U45 隧道工程U46 汽车工程U48 其他道路运输工具U49 交通工程与公路运输技术管理U441 结构原理、结构力学U442 勘测、

4、设计与计算U443 桥梁构造U444 桥梁建筑材料U445 桥梁施工U446 桥梁试验观测与检定U447 桥梁安全与事故U448 各种桥型U449 涵洞工程基本大类基本大类简表简表详表详表7中国科学院图书馆图书分类法简表（第三版）中国科学院图书馆图书分类法简表（第三版）00 00 马克思列宁主义毛泽马克思列宁主义毛泽马克思列宁主义毛泽马克思列宁主义毛泽东思想东思想东思想东思想 10 10 哲学哲学哲学哲学20 20 社会科学（总论）社会科学（总论）社会科学（总论）社会科学（总论）21 历史、历史学27 经济、经济学31 政治、社会生活34 法律、法学36 军事、军事学37 文化、科学、教育

5、、体育41 语言、文字学42 文学48 艺术49 无神论、宗教学50 50 自然科学（总论）自然科学（总论）自然科学（总论）自然科学（总论）51 数学52 力学53 物理学54 化学55 天文学56 地球科学（地学）58 生物科学61 医药、卫生65 农业科学66 农作物67 园艺68 林业、林业科学71 工程技术72 能源学、动力工程73 电技术、电子技术74 矿业工程75 金属学（物理冶金）76 冶金学77 金属工艺、金属加工78 机械工程、机器制造81 化学83 食品工业85 轻工业、手工业及生活供应技术86 土木建筑工程87 运输工程90 90 综合性图书综合性图书综合性图书综合性图书

6、8人大法简表人大法简表1.马克思主义、列宁主义、马克思主义、列宁主义、毛泽东思想毛泽东思想2.哲学哲学3.社会科学、政治社会科学、政治4.经济5.军事6.法律7.文化、教育、科学、体育8.艺术9.语言、文字10.文学11.历史12.地理13.自然科学自然科学14.医药卫生15.工程技术16.农业科学技术17.综合参考综合参考9中国图书分类法中国图书分类法(台湾台湾)000 总论 100 哲学 200 宗教 300 自然科学 400 应用科学 600 历史、地理 700 历史、地理800 语文900 美术310 数学320 天文330 物理340 化学350 地质360 生物、博物370 植物3

7、80 动物390 人类学410 医学420 家政430 农业440 工程450 矿冶460 化学工业470 制造480 商业490 商学441 土木工程442 道路工程443 水利工程444 船舶工程445 市政工程446 机械工程447 陆空交通448 电气工程449 核子工程10杜威十进分类法杜威十进分类法(DDC)000 总论100 哲学 200 宗教 300 社会科学 400 语言 500 自然科学600 应用科学 700 艺术 800 文学 900 历史、地理510 数学 520 天文学530 物理学540 化学550 地球科学560 古生物学570 生命科学 580 植物学 590

8、动物学621 应用物理学 622 采矿 623 军事及航海工程 624 土木工程 625 道路工程 627 水力工程 628 卫生及市政工程 629 其它工程 610 医学 620 工程与应用科学 630 农业 640 家政650 管理科学660 化学工业670 制造业680 特种制造业690 建筑 11美国国会图书馆分类法美国国会图书馆分类法 (LCC)A 综合性类目 B 哲学、宗教 C 历史辅助科学 D 历史与地方志(美洲以外)EF 美洲历史与地方志 G 地理学、人类学H 社会科学J 政治学K 法律 L 教育 M 音乐 N 艺术 P 语言、文字学 Q 自然科学 R 医学S 农业、矿业T

9、工业技术U 军事科学V 海军Z 目录学、图书馆学QA 数学 QB 天文学 QC物理学 QD 化学 QE 地质学 TA 工程总论 TC 水力工程 TD 卫生工程和市政工程 TF 铁道工程和运输 TG 桥梁工程 TH 建筑工程 12 国际专利分类法（IPC）各部的内容各部的内容pA-生活需要生活需要 pB-作业；运输作业；运输pC-化学；冶金化学；冶金pD-纺织；造纸纺织；造纸pE-固定建筑物固定建筑物pF-机械工程；照明；加热；武器；爆破机械工程；照明；加热；武器；爆破pG-物理物理pH-电学电学13 国际专利分类法（IPC）类目采用字母类目采用字母数字数字-字母字母-数字混数字混合标记法：部

10、合标记法：部用字母表示，大类用字母表示，大类-用用数字表示，小类又是字母，组用数字表示，数字表示，小类又是字母，组用数字表示，主组和分组间用主组和分组间用/ /分开。分开。vF部部v02大类大类vF小类小类v1/00主组主组v1/24分组分组14 国际专利分类法（IPC）有些分组与分组之间有从属级别关系，一有些分组与分组之间有从属级别关系，一般用圆点和缩位的办法继续细分。其分组般用圆点和缩位的办法继续细分。其分组的等级分类法为：的等级分类法为： 1 1、其等级完全由类名前的圆点数决定，而、其等级完全由类名前的圆点数决定，而不是根据分组的编号来决定不是根据分组的编号来决定2 2、为了避免重复，

11、圆点也用来替代那些等、为了避免重复，圆点也用来替代那些等级直接比它更高一级的组的类名。级直接比它更高一级的组的类名。15 国际专利分类法（IPC）举例分类号分类号F02F1/32F02F1/32的内容是指燃气发动机上的的内容是指燃气发动机上的一种具有冷却装置、用于空冷、形状是散热一种具有冷却装置、用于空冷、形状是散热片式的一种顶阀式的汽缸盖。片式的一种顶阀式的汽缸盖。16国际专利分类法（IPC）举例B 作业、运输分部：交通运输 B64 飞行器、航空、宇宙飞船 B64C 飞行、直升飞机 B64C25/00 起落装置 25/02 起落架 25/08 非固定的,如:可抛弃的 25/10 可快放的,

12、可折叠的或其他的 25/18 操作机构 25/26 操纵或锁定系统 25/30 应急动作的部大类小类主组一点分组二点分组三点分组如果检索的主题涉及飞机的可如果检索的主题涉及飞机的可抛弃的起落架，那么确定的分抛弃的起落架，那么确定的分类号应该是：类号应该是：B64C25/08B64C25/0817分类语言的优缺点分类语言的优缺点p优点优点以学科和专业集中文以学科和专业集中文献的，有较好的族性献的，有较好的族性检索效果检索效果将概念逐级划分，便将概念逐级划分，便于扩大和缩小检索范于扩大和缩小检索范围围p缺点缺点对新兴学科、边缘学对新兴学科、边缘学科或交叉学科而产生科或交叉学科而产生的类目不能及时体

13、现。的类目不能及时体现。必须了解科学分类体必须了解科学分类体系，否则不容易找到系，否则不容易找到准确的类目。准确的类目。181.1.2 网络信息分类网络信息分类Internet是一个巨大的信息量丰富的知识库，需要采取有效的信息组织方式和检索方式才能更加有效地利用它获取知识。网络信息的“爆炸性”增长挑战了等级结构和分面分类的极限，传统分类法因受到其昂贵的维护费用和学习成本、漫长的更新周期和复杂的使用局限，不能很好地满足互联网知识组织的需求，使得非专业用户开始寻求新的分类方式来组织网络信息资源。19二.公众分类法的产生与发展 -1何谓何谓FolksonomyFolksonomy？ Folkson

14、omy，是一种新的网络信息分类方法。 Folksonomy是一个创造词，是由社会性书签服务中最具特色的自定义标签（Tag）功能衍生而来。 Folksonomy Folks + Taxonomy，Folks在英文中是表示一群人，一伙人的意思。Taxonomy则是指分类法。而Folksonomy是指“公众”自发定义的标签分类，我们将它称为“公众分类”，也有人称之为大众分类、通俗分类、分众分类、社群分类等。 20二.公众分类法的产生与发展 -2FolksonomyFolksonomy内涵内涵：简单理解这个概念就是Tags(标签)。Folksonomy就是由网络信息用户自发为某类信息定义一组标签进

15、行描述，并最终根据标签被使用的频次选用高频标签作为该类信息类名的一种为网络信息分类的方法。在大部分的web2.0网站中，资源都是由用户来自己去标注，可以说并没有专家去对资源进行分类。21二.公众分类法的产生与发展 -3FolksonomyFolksonomy示例示例1 1：22二.公众分类法的产生与发展 -4FolksonomyFolksonomy示例示例2 2：23二.公众分类法的产生与发展 -5FolksonomyFolksonomy与元数据比较：与元数据比较：方面元数据Folksonomy定义关于数据的数据(data about data) 关于数据的标签(tag about data)

16、目的组织信息以方便用户使用组织信息以方便用户使用制作人专业人士公众（网络用户）制作成本高低维护费用大小（几近于零）更新周期长即时规范性分类架构事先制定、严谨、准确、标准、规范、权威分类架构未事先制定、标签因人而异、自由标注，品质参差不齐便利性复杂、麻烦简单、方便时效性滞后适时直观性差及时反映大众兴趣热点与发展趋势覆盖面小越来越广24二.公众分类法的产生与发展 -6FolksonomyFolksonomy应用应用: :宽公众分类法（宽公众分类法（Broad Broad FolksonomyFolksonomy）特点特点: :面向大众，拥有大量异质用户。这里的异质是指用户在认知能力、知

17、识结构和兴趣领域上具有一定差异，每个用户都可能用自己的语言对社区中现有或尚未添加的内容提供与众不同的标签，每一个内容都存在相当多的标签来描述。它所构建的是一个大众分类体系平台。其原理如右图所示。 25二.公众分类法的产生与发展 -7FolksonomyFolksonomy应用应用: :宽公众分类法（宽公众分类法（Broad Broad FolksonomyFolksonomy）如右图的曲线所示：对于一个网络资源对象，可能存在5 种标签来描述它，其中使用最多的是tag2，说明这是被最广泛接受的词汇，而曲线的尾端可能会出现很多通用性较差、较不常用的tags，形成长尾（long-tail）。宽公众

18、分类提供了一种工具,能够了解用户的用词习惯,抽取准确的受控词。26二.公众分类法的产生与发展 -8FolksonomyFolksonomy应用应用: :窄公众分类法（窄公众分类法（Narrow Narrow FolksonomyFolksonomy）特点：用户特质因为用户在知识结构和兴趣领域上具有很大的同质性。所以窄公众分类的可以用于为某一领域或专业的信息或知识提供共享平台。27二.公众分类法的产生与发展 -9FolksonomyFolksonomy发展趋势：v公众分类法自2005年初被提出以来受到广泛的关注，并在快速演化和升级，随着大众持续的需求和新的技术手段的加盟，它推陈出新的速度要快于

19、目前元数据，成为目前海量网络资源组织的热点研究方向。vTag正在开始Web环境下对信息“分类”的一种革命性的改变。这是一种广大民众参与信息分类的规模化作业。在用户充分参与的前提下，公众分类法可提高知识组织效率，成为网络资源组织和信息检索的重要辅助手段。 28三.公众分类法的特点 -1 FolksonomyFolksonomy优点：优点：与传统分类法相比，这种分类法的特点在于它并没有采用预先制定的信息分类法和词表，而是用户根据个人的使用习惯，以自定义的自由词为数字资源对象进行标注和分类。所以公众分类法比传统的等级分类和分面分类法更接近用户大众并易于被他们接受，自由灵活是其突出的优点。用户可以

20、对其感兴趣的内容进行标识，提供一个或者多个标签，或什么也不作，仅浏览他人的标签。人们不必了解DCMI修饰符，也不必查询杜威十进制分类法（DDC）。29三.公众分类法的特点 -2 FolksonomyFolksonomy优点：优点：用户对内容进行标注后，他人可立刻看到这些标签，如果认为标签不合适，还可以自行增加新的标签，因此共建共享是其另一重要特色。常用的标签按字顺排列，形成图1所示的标签云图(TagCloud)。这种TagCloud不同于传统的、针对文字本身的关键字检索，而是一种模糊化、智能化的分类。30三.公众分类法的特点 -3 FolksonomyFolksonomy优点：优点：动态

21、更新是其有别于传统分类法的又一个重要特色。动态更新是随着人们使用不同标签标识内容信息，被使用最多的标签就最能说明这条信息的特点。一些使用频率低的标签逐渐“淡出”人们的视野，而那些使用频率高的标签会在标签云图以字号变大的形式反映出来，这种更新可让人随时发现当前人们关注的“热点”和“走势”。31三.公众分类法的特点 -4FolksonomyFolksonomy缺点：缺点：缺乏层次性（缺乏层次性（lack of hierarchylack of hierarchy）公众分类法与传统分类法的一个显著不同是：它是一种平面的分类方式，系统在整体信息的组织上，是一个用词构成的平面结构，因而很难使用它来揭示

22、复杂的关系。32三.公众分类法的特点 -5FolksonomyFolksonomy缺点：缺点：表达概念的模糊性表达概念的模糊性基于公众分类法的数字资源采用的是根据用户自定义的词, 进行描述、分类和检索，这就造成了标签的模糊性，主要表现在以下四个方面：缺乏语义精确性（lack of semantic precision）由于用户认知程度不同，对标签词义的理解各异，导致对同一事物的揭示存在很大的差异。比如在同一标签下，可能会发现彼此完全没有关系的内容。缺乏同义词控制（lack of synonym control）由于用户用词习惯的不同,会出现大量的同义词，例如不同的词表达同一的概念：土

23、豆/马铃薯，又如一个词的不同写法：web2/web20/web2.0，还有同一个词在英语中用户可能会使用单数或复数形式，等等。词的多义性问题。比如“china”这个标签，到底指中国，还是指瓷器。用户标签五花八门，可能会产生大量“噪音”，加重系统负担，降低分类的准确性。这些都会造成查找的困难。33四.几点建议 -1对于公众分类法在目前的应用中存在的精确性和缺乏层次等问题，如果能与目录分类法（Taxonomy）相结合，然后再对能够用作标签的词汇进行控制，（controlled vocabulary）那将是很好的解决途径。 34四.几点建议 -2对Tag进行排序除了按照字顺和权重排序之外，还有

24、多种形式，包括动态形式，如结合相关反馈、合作过滤、点击次数等。35四.几点建议 -3对Tags进行聚类为了达到更好地揭示资源之间的相互关系，对Tags进行聚类能够帮助用户通过一个tag更快地发现与之相关的内容。以宾夕法尼亚大学（UniversityofPennsylvania）图书馆的“PennTag”项目6为例，图6是用户点击“film”这个标签之后，出现的按照字顺排列的与film相关的（relatedtofilm）内容。36四.几点建议 -4对Tag进行层级化现在的标签是平面结构，不能很好地反映他们之间的层次关系。如果可以与叙词表结合使用，利用已有的叙词表中的层级关系，希望将来可以实现从平

25、面的标签到网状的概念地图（ConceptMaps）。37四.几点建议 -5对Tag进行规范化由于标签完全由用户自行创建，这种自由导致了标签的表示法不规范，例如：拼写错误，单复数形式混用，另外，由于目前大多数应用系统只支持单个词，用户为了更清楚地表达自己的意思，往往会使用符号来形成复合词，例如：目前一些del.icio.us（即“美味书签”，当前网络上最大的书签类站点）的用户使用如下的Tag来表示编程语言：Programming/C+,Programming/Java和Programming/XHTML等。38四.几点建议 -6右图5是随机抽取的一定数量的带有连接符号的复合词，显示了用户使用符号

26、的多样性。通过图5我们可以发现，最经常被使用到的是连接符“-”，其次是下划线“_”。针对标签写法不规范的问题，应该制定通用的标准表示方法，并提示用户遵循这些标准对网络资源进行添加标签的活动。例如，采用拼写检查机制，当用户输入错误的或不存在的词时，系统会出现提示和输入建议；而对于复合词，应当规定规范的表示方法。39四.几点建议 -7另外，通过使用同义词环方法当用户在添加了tag和数据源之后，系统管理员可以对这些数据，根据统计得到的势曲线进行分析，挑选出相关的同义词，构成同义词环，帮助提高准确性。同时同义词环的方法也可以用于处理同一词的单复数形式，同一词的不同语言表示。不强行要求环中的某一个词被当

27、作“正式词”，而是每一个词都可以作为正式词；同义词环可以一组一组逐步建立，随着检索环境的变化和网站内容的变化而随时增加新的同义词环。401.2 主题语言主题语言主题语言是以主题词来表达信息主题概念主题语言是以主题词来表达信息主题概念的语言。它按事物对文献信息进行浓缩、描的语言。它按事物对文献信息进行浓缩、描述和整序，借用自然语言的词语，作为信息述和整序，借用自然语言的词语，作为信息检索的内容标识检索的内容标识,又可分为关键词语言、叙词又可分为关键词语言、叙词语言、标题词语言及单元词语言等。语言、标题词语言及单元词语言等。411.2.1 标题词语言标题词语言v标题词：从自然语言中选取并经过规范化

28、处理的、表示事物概念的的词、词组或短语。v代表：EI中工程主题词表（简称SHE）电脑-见（see）-计算机局域网-参见（seealso）-计算机网络421.2.2 关键词语言关键词语言v所谓关键词是指那些出现在文献的标题（篇名、章节名）以至摘要、正文中，对表达文献主题内容主题内容主题内容主题内容具有实质意义的语词，亦即对揭示和描述文献主题内容来说是重要的、带关键性的（可作为检索“入口”的）那些词语。v关键词基本上不作规范化处理。例如，“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的，可以作为检索词。v概括地说，关键词法就是将文献原来所用的，能描述其主题概念的那

29、些具有关键性的词抽出，不加规范或只作极少量的规范化处理，按字顺排列，以提供检索途径的方法。431.2.3 叙词（主题）词语言叙词（主题）词语言v叙词是指一些以概念为基础的，经过规范化的，具有组配功能并可以显示词间关系和动态性的词或词组。v如：汉语主题词表、机械工程主题词表vhttp:/ 用YUSEUse代项同义词(非正式主题词) 代DUFUsed For分项狭义词分FNTNarrower Term属项广义词属SBTBroader Term族项族首词族ZTTTop Term参项相关词参CRTRelated Term45正式主题词款目正式主题词款目 Zo shng gn ro 噪声干扰 5

30、6MB Noise jamming D 杂波干扰 F 瞄准式干扰扫频干扰阻塞式干扰 S 通信干扰有源干扰 Z 电子对抗* C 连续波干扰脉冲干扰调制干扰汉语拼音范畴分类号英译名参照符号关系词正式主题词46非正式主题词款目非正式主题词款目 Z b gn ro 杂波干扰 56MB Noise jamming Y 噪声干扰非正式款目主题词汉语拼音范畴分类号英译名关系词参照符号47词族索引款目词族索引款目 Din z du kng 电子对抗电子对抗* 通信对抗通信干扰脉冲干扰欺骗性干扰载波干扰噪声干扰扫频干扰阻塞式干扰通信抗干扰48v概念组配是叙词语言的基本原理。v

31、概念组配与字面组配在形式上有时相同，有时不同；而从性质上来看两者区别是很大的。字面组配是词的分析与组合（拆词拆词拆词拆词）；概念组配是概念的分析与综合（拆义拆义拆义拆义）。例如：49小结小结NO7分类语言分类语言主题语言主题语言以学科和专业集中文献能将不同不同学科的信息集中到一起适宜族性检索适宜特性检索不利于新兴学科、交叉学科和边缘学科的检索不利于新兴学科检索查全率不高查准率不高50v信息检索模型（InformationRetrievalModel）是指如何对查询和文档进行表示，然后对它们进行相似度计算的框架和方法。v本质上是对相关度建模。v信息检索模型是IR中的核心内容之一。原始文档相关度计

32、算文档表示原始查询查询表示2 信息检索模型51信息检索模型信息检索模型用形式特征可以将信息检索模型表示为一个四元组的模型框架：IR=。D是文档表示Q是查询表示R(q，d)是一个排序函数52相关概念相关概念v标引词(Index Term)标引词是能代表文档内容的特征，可以是字、词、短语或者某种语义单元，关键词(key words) 可以看成标引词的一种。文档表示成多个标引词的集合v标引词的权重(Weight) 不同标引词作用是不同的通过权重加以区分53信息检索模型的分类信息检索模型的分类从所使用的数学方法上分：v基于集合论的IR模型(Set Theoretic models) 布尔模型基于模糊

33、集的模型扩展布尔模型v基于代数论的IR模型(Algebraic models)向量空间模型潜性语义索引模型神经网络模型v基于概率统计的IR模型(Probabilistic models)回归模型概率模型语言模型建模IR模型推理网络模型信任度网络模型542.1 布尔模型v布尔模型：查询和文档均表示为标引词(“是否存在”)的布尔表达式，通常表示成D(t1，t2，ti)的形式。v布尔操作(关系):与(AND) 或(OR) 非(NOT) v相似度计算：查询布尔表达式和所有文档的布尔表达式进行匹配，匹配成功的文档的得分为1，否则为0。v类似于传统数据库检索，是精确匹配55布尔检索示例56真值表（trut

34、h table）PQ NOT P P ANDQ P OR Q00TRUEFALSEFALSE01TRUEFALSETRUE10FALSEFALSETRUE11FALSETRUETRUE57布尔检索的优缺点优点缺点1）简单、速度快1）不够精确，不能反映不同“项目”对一个文档的重要程度的差异2）查询表达式易于掌握2）检索结果地位平等，无法排序“飞碟”AND“小说”：只能检索出D4，无法显现D1,D2,D3的差异“飞碟”OR“小说”：可以检出D1,D2,D4，但无法显现它们的差异582.2 向量空间模型v文档D和查询Q（不妨统称为文本）都可用向量表示v检索过程就是计算文档向量与查询向量之间的相似度v

35、可以根据相似度值的不同，对检索结果进行排序v可以根据检索结果，进一步做相关检索（relevancefeedback）59向量表示向量表示v文档Dj的向量可以表示为Dj(w1j，w2j，wnj)，其中n是系统中的标引词数目，wij代表了标引词i在文档Dj中的权重。v查询Q的向量可以表示为Q(w1q，w2q，wnq)，wiq代表了标引词i在查询Q中的权重60文档文档-标引词矩阵标引词矩阵(Doc-Term Matrix)n篇文档，m个标引词构成的矩阵Am*n，每列可以看成每篇文档的向量表示，同时，每行也可以可以看成标引词的向量表示61从文本到向量空间（vector space）62文档的向量表示示

36、例v假定有三个项目：“葡萄”，“美酒”，“夜光杯”v假定以项目在文本中的出现次数为项目的权值葡萄T1美酒T2夜光杯T3d1235d2372q00263计算向量之间的相似程度v向量间相似程度的不同度量方法InnerproductDicecoefficientCosinecoefficientJaccardcoefficient在上面的例子中，如何度量q跟d1相似还是跟d2相似？64夹角余弦：相似程度的度量方法之一65夹角余弦计算示例66索引项权值的计算（term weight）权值的直观含义：一个项目对于一个文本的重要程度即一个项目在多大程度上可以将这个文档与其他文档区别开v计算权值的两种简单方

37、式：（1）项目出现/不出现：1或0（2）项目出现的次数：0，1，2，需要更好的加权方法（3）tf.idf加权法（termfrequencyinversedocumentfrequency）项频率逆向文档频率67tf.idf 加权Termfrequency：termi 在文档dj中的出现次数，记做tfi,j tfi,j 越高，意味着termi 对于文档dj 就越重要比如：一篇谈论乔丹的文章，可以预期“乔丹”、“飞人”的tf值会比较高Documentfrequency：含有termi 的文档的数量，记做dfidfi 越高，意味着termi 在衡量文档之间相似性方面作用越低，比如“的”的df值肯定非

38、常高，因此不具有区别性，这类词称为“非焦点词”Inversedocumentfrequency：跟dfi 形成“反比关系”，idfi 值越高，意味着termi对于文档的区别意义越大N为全部文档的数量。如果一个项目仅出现在一个文档中，idf=logN，如果一个项目出现在所有文档中，idf=log1=068tf.idf 加权（续）索引项加权：给那些经常出现在一个文档中，而不常出现在其他文档中的项目以更高的权重，即让“特别的词”从“一般的词”中凸现出来。在这个基本精神指导下，有许多不同的加权公式69tf.idf 加权示例70tf.idf 加权示例（续）71停用词表（stop list）v表达实际文档

39、所需的term 很多，空间开销很大v有些“词”在query 时很少出现，即不大作为用户的查询目标，比如“常常”，“of”，v有些“词”在每个文档中都会出现，比如“的”，这些词的idf值通常为0v一般把“的”，“of”这类词收集起来，构成一个停用词表v因此，在为文档建索引的时候，可以不考虑停用词表中的词。这样可以节省资源，同时也不至于太影响检索效果72文档索引（inverted index）732.3 概率模型检索问题即求条件概率问题IfProb(R|di,q)Prob(NR|di,q)thendi是检索结果，否则不是检索结果74概率模型概率模型v基本假设前提和理论a相关性独立原则。文献对一个检

40、索式的相关性与文献集合中的其他文献是独立的。b词的独立性。标引词和检索式中词与词之间是相互独立。c文献相关性是二值的，即只有相关和不相关两种。d概率排序原则。该原则认为，检索系统应将文档按照与查询的概率相关性的大小排序，那么排在最前面的是最有可能被获取的文档e贝叶斯(Bayes)定理，用公式表示为：P(RId)=(dIR)P(R)/P(d)75概率模型概率模型v概率检索模型是通过概率的方法将查询和文档联系起来v将查询Q和文档D根据有没有标引词表示为二值向量，Q=q1,q2,，D=d1,d2,，di=0或1表示文献中没有或有第i个标引词.用R表示文献相关，表示文献不相关.76概率模型概率模型v条

41、件概率P(R|dj)表示文档dj与查询qi相关的概率，条件概率P(|dj)表示文档dj与查询qi不相关的概率，利用它们的比值计算文档与查询的相似度。v若P(RId)P(Id)，即比值大于1，则文献相关程度大于不相关程度，认为文献d是相关的，否则认为文献d不相关。在两者相等时，人为地认为它是不相关的。77概率模型优缺点概率模型优缺点v优点a.采用严格的数学理论为依据，为人们提供了一种数学理论基础来进行检索决策；PubMed的relatedarticles。b.采用相关反馈原理c.在其中没有使用用户难以运用的布尔逻辑方法；d.在操作过程中使用了词的依赖性和相互关系。v缺点：a.计算复杂度大,不适合

42、大型网络b.参数估计难度较大c.条件概率值难估计d.系统的检索性能提高不明显，需与其他检索模型结合783 计算机信息检索技术计算机信息检索技术v信息检索系统=硬件+软件+数据库v计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程，需要人机协同作用来完成。793.1 计算机信息检索的类型计算机信息检索的类型计计计计算算算算机机机机信信信信息息息息检检检检索系统的类型索系统的类型索系统的类型索系统的类型检索系统存储的内容文献信息检索系统事实信息检索系统数值信息检索系统图像信息检索系统多媒体信息检索系统检索系统工作方式脱机信息检索系统（20

43、世纪5060年代）联机信息检索系统（20世纪70年代光盘信息检索系统（20世纪80年代网络信息检索系统（20世纪90年代803.2 计算机信息检索技术计算机信息检索技术v计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。v由于信息检索提问式是用户需求与信息集合之间匹配的依据，所以信息检索技术的实质是信息检索提问式的构造技所以信息检索技术的实质是信息检索提问式的构造技术。术。v目前，计算机信息检索技术已经从基本的布尔逻辑检索布尔逻辑检索、截词检索截词检索、邻近检索邻近检索、限制检索限制检索、短语检索短语检索、字段检索字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和

44、相关检索等多种技术并存。813.2.1 布尔逻辑检索布尔逻辑检索v布尔逻辑组配是现行计算机检索的基本技术，主要通过“与(and,*)”、“或(or,+)”、“非(not,-)”将检索词联络起来。AND*&AND*&空格空格 AandB逻辑与。A和B都为真时，结果才为真，即：A*B，逻辑含义用图表示是：82vvOR+|OR+|AorB逻辑或。A或B中只要有一个为真时，结果就为真，即：A+BvvNOT-!NOT-!AnotB逻辑非。A为真、B为假时，结果才为真，即：A-B83布尔逻辑运算符的运算次序布尔逻辑运算符的运算次序v括号优先与计算机编程中一样(AORB)ANDCNOTDv不同的系统次序有差

45、别，但总的来说一般次序为：NOTANDORv例A:查找有关信息检索的非英文文献信息information检索retrieval英文english(信息and检索)not英文(informationandretriever)notenglish84分析实例：分析实例：上海零售业的现状与发展趋势上海零售业的现状与发展趋势上海上海零售业零售业现状现状发展趋势发展趋势上海上海 and 零售业零售业 and (现状现状 or 发展趋势发展趋势)853.2.2 截词检索截词检索v截词包括后截、中截、前截等。用？作为截词截词包括后截、中截、前截等。用？作为截词符符(有些系统用有些系统用*)，主要包括下

46、列情形：，主要包括下列情形：vv截词符截词符?中截一字符，后截断中截一字符，后截断n n个字符个字符v如wom?n可以检索出：woman,womenv如 coumput?可以检索出Compute,Computer,Computing,computable86vv? 后、中截二字符后、中截二字符如：transplant?可以检索出：transplant、transplanted、transplantervv?后、中截三字符后、中截三字符如： comput?可以检索出：compute；computer；computing87通配符，无限截断 % ?*vv后方一致（前截断）后方一致（前截断）:“%国

47、庆”将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。vv前方一致（后截断）前方一致（后截断） :如：“热电材料%”将检索出热电材料梯度化、热电材料及其梯度化等的记录。883.2.3 邻近检索邻近检索v位置算符位置算符(W)with，(nW)nwith表示检索算符两侧的词不可以不可以颠倒顺序，n表示两个词中间可以插入=n个的词（如：aninbyofthe）如：control(1w)system可以检索出“controlsystem”“controlinsystem”等的信息。89vv位置算符位置算符(N)near，(nN)nnear表示检索算符两侧的词可以可以颠倒顺序，n表示两个词中间可以插入

48、=n个的词（如：aninbyofthe）如：controlsystem可以检索出“controlsystem”“systemcontrol”等的信息。90vv字段算符字段算符(F)(L)(F)-inthesamefield表示检索算符两侧的词必须同时出现在记录的同一字段内。(L)-link表示检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系,可以用来链接主标题词和副标题词。91vv句子位置算符句子位置算符(S)-inthesame subfield orsameparagraph表示检索算符两侧的词只要在同一个子字段(文摘中的句子)或全文数据库的一个段落中出现就是匹配。vv

49、这些算符可以一起使用这些算符可以一起使用，顺序为顺序为(W) (S)(F) 。vv实践上这些算符都是扩大检索范围。实践上这些算符都是扩大检索范围。923.2.4 限制检索限制检索v针对特定年代、特定类别、特定检索点等作限制，包括前缀限制符和后缀限制符。前缀限制符例如：前缀限制符例如：AU= 限查特定作者限查特定作者JN= 限查特定刊名限查特定刊名 LA= 限查特定语种限查特定语种PN= 限查特定专利号限查特定专利号PY= 限查特定年代限查特定年代93v如在谷歌和百度搜索引擎中的检索特定的文献类型:“报告filetype:pdf”检索指定网址内的信息:“报告site:”以后会看到一些数据库通常都

50、有年代/类型等的选择943.2.5 网络检索网络检索v短语检索(半角双引号)v自动纠错检索(如:李熬,你是不是要检索李敖)v自动转换检索(如:汉语拼音转换成文字)v自然语言检索v概念检索(同义词/近义词/狭义词,如搜索引擎Excite)v相关检索953.2.6 其它检索的表述其它检索的表述v二次检索/在结果内检索v精确检索v模糊检索v跨库检索/一站式检索v扩展检索(类似搜索引擎的概念检索)v一般检索/高级检索/专家检索/命令检索v还有什么检索?96小结小结NO8v计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。vv布尔逻辑检索布尔逻辑检索、截词检索截词检索、邻近检索邻近检索、短语检短语检索索、字段检索字段检索vv网络信息检索网络信息检索v几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。97

展开阅读全文

信息检索语言与技术

最新文档