成电求实专技网2019年度公需科目信息检索答案

资源描述

《成电求实专技网2019年度公需科目信息检索答案》由会员分享，可在线阅读，更多相关《成电求实专技网2019年度公需科目信息检索答案（4页珍藏版）》请在金锄头文库上搜索。

1、信息检索（马洪祥 80 分） 1、(单选，4 分) 所有检索策略都包含三个要素，以下选项中不属于三要素的一项是（） A、查询表示 B、排序函数 C、匹配函数 D、文档表示 2、(单选，4 分) 下列各项中为工业界更关注的评测指标的是（） A、惊喜度 B、新颖性 C、准确率 D、点击率 3、(单选，4 分) 下列关于推荐系统评测中在线实验的说法，错误的是（） A、周期较长，需要进行长期的实验才能得到可靠的结果 B、可以获得商业上关注的指标，如转化率、点击率等 C、可以公平获得不同算法实际在线时的性能指标 D、成本较低，容易部署 4、(单选，4 分) 以下选项中描述不正确的是（） A、爬虫的作用是

2、为搜索引擎抓取大量的数据，抓取的对象是整个互联网上的网页 B、暗网是一些垂直领域网站，它们通常是网站提供组合查询界面，用户按照需求输入查询之后，才能获取相关数据 C、倒排列表是指记载出现过某个单词的所有文档的文档列表、以及单词在该文档中出现的位置信息 D、根据具体应用的不同，可以将爬虫分为两种类型，即增量型爬虫和垂直型爬虫 5、(单选，4 分) 下列选项中是显性反馈数据的是（） A、用户对某个视频的评分 B、用户观看了某个视频 C、用户在某个视频的停留时长 D、用户观看视频的日志 6、(单选，4 分) 以下关于推荐系统和搜索引擎的说法中，错误的是（） A、搜索引擎需要用户提供明确的需求 B

3、、推荐系统是由用户主导的 C、搜索引擎注重结果之间的排序 D、推荐系统和搜索引擎都是为了解决信息过载的问题 7、(单选，4 分) 关于 HITS 算法描述正确的是（C） A、HITS 是与查询相关的算法，计算效率较高 B、如果在原有的扩展网页集合内添加删除个别网页或者改变少数链接关系，HITS 算法的排名结果不会有非常大的改变 C、HITS 算法核心思想是对网页两个方面的权威程度进行评价，一个是内容权威度，另一个是链接权威度，两者具有相互增强的关系 D、算法最后输出的是按照内容权威度排序的结果列表 8、(单选，4 分) 网页重定向属于下列哪种作弊方式（C） A、隐藏作弊 B、内容作弊 C、

4、Web2.0 作弊 D、链接作弊 9、(单选，4 分) 在实际的搜索引擎系统中，通过存储（）来存储文档信息 A、文档编号差值 B、文档简化序号 C、文档地址 D、文档编号 10、(单选，4 分) 下列选项中不是冷启动问题解决方案的是（） A、雇佣少量用户试用新商品并给出评分 B、请专家对商品进行标注 C、推荐热门商品给新用户 D、推荐冷门物品给用户 11、(单选，4 分) 下列关于基于用户的协同过滤算法的说法中，错误的是（） A、随着网站的用户数目越来越大，计算用户兴趣相似度矩阵将越来越困难 B、新用户刚加入系统时，基于用户的协同过滤算法没有办法马上对该用户进行个性化推荐 C、基于用户的协同

5、过滤算法可以使用余弦相似度来评测两个用户之间的联系 D、基于用户的协同过滤算法相对于基于物品的协同过滤算法来说更个性化，反映了用户自己的兴趣传承 12、(单选，4 分) 以下关于网络爬虫的描述中，错误的一项是（） A、对于商业搜索引擎来说，分布式爬虫是必须采用的技术 B、在爬虫开始的时候，需要给爬虫输送一个 URL 列表，作为爬虫的起始位置 C、根据某种抓取策略爬行新发现的 URL，如此重复下去 D、爬虫程序会抓取所有网页，以保证搜索正确性 13、(单选，4 分) T1、 T2、 T3表示特征项， D1、 D2、 D3、 D4为文档向量， Q为查询向量，其中， D1=4T1+2T2+3T3

6、， D2=T1+4T2+2T3，D3=5T1+2T3，D4= T2+3T3，Q=T1+0T2+2T3 。以上文档中和 Q 最大可能相关的是（） A、D4 B、D1 C、D3 D、D2 14、(单选，4 分) 以下选项中属于概率模型的优点的是（） A、模型具有内在的相关反馈机制，将文档根据相关概率按递减顺序排列 B、模型假设标引词相互独立 C、模型中所有的权值都是二值的 D、模型最初将文档分成相关的集合和不相关的集合 15、(单选，4 分) 以下不是搜索引擎的主要功能模块的一项是（） A、搜索排序 B、网络爬虫 C、搜索引擎索引 D、PageRank 16、(单选，4 分) 对网页进行两次抓取

7、，第一次是正常的搜索引擎爬虫抓取，第二次以模拟人工访问页面的方式抓取，如果两次抓取到的内容差异较大，则认为是作弊页面，这属于（） A、链接反作弊 B、识别网页重定向 C、识别页面隐藏 D、反内容作弊 17、(单选，4 分) 信息检索模型中，神经网络模型属于（） A、布尔模型 B、向量模型 C、概率模型 D、结构化模型 18、(单选，4 分) 下列关于推荐算法的说法中，错误的是（） A、使用基于内容的推荐算法进行个性化推荐时，由于非结构化特征难以利用，我们通常直接将其舍弃 B、隐语义模型很难实现实时推荐 C、基于物品的协同过滤算法着重于维护用户的历史兴趣 D、基于用户的协同过滤算法更社会

8、化，着重于反映和用户兴趣相似的小群体的热点 19、(单选，4 分) 从商家角度看，推荐系统受欢迎的原因有（） A、拓宽了用户获取知识的方式 B、可以帮助用户发现喜欢的新事物 C、可以增加用户信任度和粘性，增加营收 D、可以增强用户体验 20、(单选，4 分) 下面方法中，不是建立索引的方法的是（） A、排序法 B、两边文档遍历法 C、HITS D、归并法 21、(单选，4 分) 以下选项中描述正确的是（） A、中文分词技术采用了基于符号的方法来识别 B、查准率是衡量系统在实施某一作业时检出相关文献能力的一种测度指标，是对检索遗漏程度的度量。 C、机器学习的四个步骤中，文档特征抽取是指利用抽取

9、算法抽取查询词 TF/IDF 信息、文档长度、网页 PageRank 值、网页入链/出链数量等 D、动态索引包含 2 个关键的索引结构：倒排索引、临时索引 22、(单选，4 分) 关于 PageRank 标准算法与简化算法正确的是（） A、PageRank 标准算法不考虑没有超链接网页的情况 B、PageRank 简化算法对 G 中的每一个节点 n，设定其初始值均为 1/n C、在实际运算过程中，由于节点数 n 的值巨大，因此通常采用适用于稀疏矩阵运算的 PageRank 标准算法来对运算过程进行改善 D、PageRank 简化算法可以保证迭代过程中的 PageRank 值之和为 1 23、(单选，4 分) 针对用户冷启动问题，下列选项中做法错误的是（） A、利用用户的人口统计学信息 B、引导用户勾选感兴趣的标签 C、利用用户手机中其它应用的日志文件分析用户的兴趣点 D、推荐热门商品 24、(单选，4 分) 为了覆盖用户的不同兴趣领域，我们需要提高推荐结果的（） A、准确率 B、满意度 C、多样性 D、惊喜度 25、(单选，4 分) 在向量模型中，不可以通过（）来衡量文档和查询之间的相似度。 A、向量间距离 B、向量内积 C、向量间夹角大小 D、向量间正切值

展开阅读全文