网络信息资源检索技术

上传人:飞****9 文档编号:131940166 上传时间:2020-05-11 格式:PPT 页数:26 大小:217.50KB
返回 下载 相关 举报
网络信息资源检索技术_第1页
第1页 / 共26页
网络信息资源检索技术_第2页
第2页 / 共26页
网络信息资源检索技术_第3页
第3页 / 共26页
网络信息资源检索技术_第4页
第4页 / 共26页
网络信息资源检索技术_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《网络信息资源检索技术》由会员分享,可在线阅读,更多相关《网络信息资源检索技术(26页珍藏版)》请在金锄头文库上搜索。

1、第二章网络资源检索技术 第一节检索词技术一 关键词技术虽然布尔操作符和其他的检索辅助符号 如双引号 filetype等 也非常重要 但对于检索来说 最根本 也是最困难的 是使用什么样的关键词来构造检索提问 只有关键词的检索提问能够检索到很多结果 而没有关键词的检索提问即使包括再多的布尔和其他操作符也检索不到任何结果 从这个意思上说关键词是检索的灵魂丝毫不为过 虽然近年来自然语言检索和智能检索代理等领域的研究进展很快 但目前最成熟应用也最广泛的仍然是基于关键词的检索技术 所以要想真正提高自己的检索水准 必须从关键词开始 一次检索就是寻找一个特定主题的信息的过程 下面的步骤将引导读者如何把检索需求

2、转换成具体的 确切的关键词或词组一正是通过它们才能检索到我们需要的信息 1 足够多的关键词是快速定位目标信息的关键构建检索时的5W1H 第一个检索技巧 1 What 要找的信息和主题是什么 可以从什么角度或是立场来切入 把相关的关键词或是词组都列出来 2 Who 是否涉及特定的群体或是个人 有特定的人名的话 应该把人名也列出来 并留意这个人名有没有不同的写法 译法 或是拼法 3 Where 是否限于特定的国家或地区 中国内地 港澳台地区 美国 很多搜索引擎都可以按地区或国家限定查询范围 4 When 是否从特定的时间剖面来探讨 或特定时间点以后才有有事件或情况 5 Why 这个主题有什么意义或

3、影响 为什么会有这种现象发生 6 How 是不是有特定的方法 有的话 也将其列为关键词 有时查询结果太多时 可以增加关键词来限定再查询 2 检索时应当避免停用词和单独使用过于常用词 第二个检索技巧问题 能不能直接将上面分5个方面列出的信息直接作为检索提问呢 答案是否定的 一个最明显的问题是常用词 英文词 如and about the of a in as if not why never before it etc 汉语词 如 了 这 那 很 的 等等 检索工具忽略这些词 因为这类词过于常用了 信息价值很低 检索这些关键词不仅无助于缩小查询范围 而且会大大降低搜索速度 除了停用词 stopli

4、sts 之外 还有一些所谓的vulgarwords 意思是过于普通的词 虽然它们不属于停用词 但使用得实在过于广泛 以至于出现 在百万上千万的网页中 使得它们事实上不能被用来帮助找到什么有用的信息 除非和别的关键词一起使用 比如说 气温 有无数个网站提供跟 气温 相关的信息 从地方天气预报到学术论文到气象学科普等等 所以使用更多的关键词或更明确的关键词来检索要比单纯检索 气温 好得多 例如设计一个类似 北京冬季气温零下 这类特殊的搜索关键词 3 在检索提问时避免使用行为关键词 谨慎使用修饰词 第3个检索技巧 经过分析以后 Jan初步确定了下面的关键词 bird building city Sp

5、ring daylight而很明显检索的主题在于bird 4 截词检索和通配符 检索的第四个技巧一般来说 截词检索对于中文检索意义不大 西文检索时使用较多 bird与birds 可以使用bird 来进行检索 并不是所有的检索工具都支持截词检索 Google就不支持这种形式 5 选定合适的关键词级别 检索时的第5个技巧上位词 指概念上外延更广的关键词 或者可以说每一个关键词所覆盖的信息范围都是它的上位词所覆盖信息范围的子集 下位词 下位词则是指概念上内涵更窄的关键词 6 使用一定数量的同义词参加检索 以覆盖目标信息的范围 第六个检索技巧 7 尽量使用词组检索 第七个检索技巧关键词是检索的灵魂 对

6、象词是关键词的重点和核心 而检索时最强有力的关键词则是词组 词组检索强制检索结果必须与词组的形式完全一致 顺序和间隔都不变 这样对检索结果限制得更严 检准率也更高 8 使用英文专业术语检索 第八个检索技巧尽量使用英文专业术语检索 这是提高搜索结果质量的重要途径 一项对6 5亿个Internet网页语言属性的调查表明 发现其中英文信息内容占了71 而日文是6 82 德文是5 08 法文是1 75 中文则为1 52 其实上面 Jan在列检索词时罗列了太多的无用词 例如building daylight似乎没有必要 我们可以更改一下 第一 该鸟应为食肉类动物 可以定检索词为 猛禽 英文为raptor

7、 birdofprey 我们利用中文来进行检索 第二 该鸟的体形 类似于乌鸦 鸦类在鸟类中体形较大 大致在50 70厘米之间 可以利用50厘米来进行检索 第三 该鸟的毛色 灰白相间 第四 该鸟的喙 黄黑相间 利用Google检索 找到 泡泡社区 逛 中国濒危珍稀动物 鸟类 网址为 泡泡社区的图文 游隼多在水上捕食别名花梨鹰 鸭虎学名Falcoperegrinus英文名peregrinefalcon隼科Falconidae分布为新疆西部繁殖鸟 迁徙及越冬时遍及各地国家二级保护动物中型猛禽 全长约40 48厘米 上体深蓝灰色 具黑褐色横斑 羽端白色 羽干纹黑色 头 颈部黑色 带蓝色光泽 飞羽黑褐色

8、 尾羽蓝灰色 具黑色横斑 下体污白色 带淡棕色 具黑色羽干纹 至腹部以后渐转为长三角形横斑 嘴铅黑色 脚黄色 栖息于开阔的农田 草地 河谷或山丘地区 单独生活 飞行迅捷 以鸭雁等为主要食物 也吃小型兽类 筑巢于悬岩峭壁的缝隙中 偶尔利用鸦 鹰等的旧巢 3月下旬开始产卵 每窝3 4枚 黄白色具红褐色及黄褐色斑 雌雄共同孵卵 孵卵期28 29天 育雏期35 40天 野生动物论坛图文 隼科 游隼Falcoperegrinus游隼学名 Falcoperegrinus物种命名人及年代 Tunstall 1771英文名 PeregrineFalcon中文别名 花梨鹰 青燕 鸭鹘 黑背花梨鹞分类位置 隼形目

9、Falconiformes隼科Falconidae隼属Falco濒危信息 CITES 附录IIIUCN 未列入中国濒危动物红皮书等级 稀有国家重点保护等级 2级物种特征 游隼属于中型猛禽 在隼类中体形较大 体长为38一51厘米 体重647 907克 翼展可达91 112厘米 翅长而尖 眼周为黄色 颊部有一条粗著的垂直向下的黑色髭纹 与其他隼类不同 头部至后颈为灰黑色 其余上体为蓝灰色 尾羽上具有数条黑色的横带 下体为白色 上胸部有黑色细斑点 下胸部至尾下覆羽密被黑色横斑虹膜暗褐色 眼睑和蜡膜黄色 嘴铅蓝灰色 基部黄色 嘴尖黑色 脚和趾橙黄色 爪黑色 军队由于扼杀自由和抢劫 已经沦为一把双刃剑

10、对谁都没有安全感 关键词拟定 军队army扼杀自由liberticide双刃剑 double edgedsword抢劫由于同义词 近义词太多 所以建议舍弃 由以上三个词已经可以构成 检索式 army liberticide double edgedsword在Google上检索 发现只有4个结果 没有一个是需要的 armyliberticidedouble edgedsword在Google上检索 发现只有24个结果 其中 应该可以确定就是这一篇 打开页面以后发现 这是雪莱的一首十四行诗 如果对英国文学较熟悉的话应该知道P B Shelley就是雪莱 如果不熟的话 可以利用 Englandin

11、1819 译文在Google上进行检索 可以得到24个检索结果 其中 我第一次还打开了正方翻译论坛上面查良铮的译文 后来就再也打不开了 所以只有换一下检索词 Englandin1819 翻译 可以得到92个检索结果 在 Englandin18191819年的英国Anold mad blind despised anddyingking 一个老而疯 昏庸 可鄙 快死的王Princes thedregsoftheirdullrace whoflow 王侯们 那庸碌一族的渣滓 受着公众的轻蔑Throughpublicscorn mudfromamuddyspring 是污水捞出的泥浆Rulerswh

12、oneithersee norfeel norknow 是既不见 也无惑 又无知的统治者 Butleech liketotheirfaintingcountrycling 只知吸住垂危的国家 和水蛭一样 Tilltheydrop blindinblood withoutablow 直到他们为血冲昏 不打便跌落 Apeoplestarvedandstabbedintheuntilledfield 人民在荒废的田中挨饿 被钉戮 Anarmy whichliberticideandprey 军队由于扼杀自由和抢劫 已经Makesasatwo edgedswordtoallwhowield 成为两面锋

13、刃的剑 对谁都不保护 Goldenandsanguinelawswhichtemptandslay 漂亮而残忍的法律 是害人的陷井 ReligionChristless Godlessabooksealed 宗教而无基督一本闭紧的书 ASenate Time sworststatuteunrepealed 议会 把时间最坏的法令还不废除Aregraves fromwhichagloriousPhantommay 呵 就从这一片坟墓里 光辉的幻影Burst toillumineourtempestuousday 或许跌出 把我们的风雨之日照明 第二节网络资源基本检索技术 一 布尔逻辑检索布尔逻辑

14、检索是信息检索技术中最成熟 最常用 最基本的一种 布尔逻辑运算有三种 逻辑与 逻辑或 逻辑非1 逻辑与用AND 或and 或 表示 是一种用于交叉概念和限定关系的组配 其作用是缩小检索范围 提高查准率 AandB A B 表示被检索的文献记录必须同时包含A和B才算命中 2 逻辑或用OR 或or 或 表示 是一种并列关系的组配 其作用是扩大检索范围 防止漏检 提高查全率 AorB A B 表示一篇文献记录中只要包含A和B任何一个即算命中 也有些检索系统用 A空格B 的形式来表示逻辑或 3 逻辑非用NOT 或not 或 表示 是一种排斥关系的组配 用于从原来的检索范围中排除掉不需要的或影响检索结果

15、的概念 其作用是缩小主题内容 减少文献量 提高查准率 AnotB A B 表示含有A的文献中去掉也含有B的记录 逻辑运算符的优先顺序是 NOT AND OR A B A B A B 二 截词检索是针对近义词 同一词根 单复数等词汇变化 为防止漏检现象 提高查全率的一种常用检索技术 其检索表达式中使用截词符号来表示检索词的某一部分允许有一定的词形变化 即检索词不变的部分加上截词符号所代表的任何变化形式所构成的词汇都是合法检索词 检索结果中只要包括其中任何一个都能满足检索要求 如comput 可以表示computer computer computing 截词检索可以分为前端截词 中间截词和后端截

16、词三种 较常用是的后端截词 绝大多数检索系统都支持截词功能 但截词检索没有统一的标准 较常用的有 代表任意字符串 代表任意字符 一个 表示零个或任意个字母 用于词首 检索出与该词根具有同样语义的词 例如 manage可以检索出managers management等 多用于网页技术 表示 以前的部分可以访问 以后的部分不能访问 例如 http 202 114 181 3 bgjj tsggki asp中 运行后出现的页面是http 202 114 181 3的页面 三 限制检索对检索范围 如时间 国别 语种 文献类型以及特定检索点等 进行约束或压缩的一种检索限定 限定字符的输入格式为 检索词within字段代码 EICompendexWeb高级检索模式的可检索字段 字段代码和使用实例见下表 四 位置检索通过位置算符来确定原文当中词与词之间的特定的位置关系的一种检索技术 它的作用是弥补检索表达式难以用布尔逻辑运算符来准确表达提问要求的缺陷 避免误检 提高查准率 多用于联机检索系统 下面以Dialog系统为例 见右边的表

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号