现代信息检索导论作业讲评

上传人:101****457 文档编号:92113548 上传时间:2019-07-07 格式:PPT 页数:20 大小:532KB
返回 下载 相关 举报
现代信息检索导论作业讲评_第1页
第1页 / 共20页
现代信息检索导论作业讲评_第2页
第2页 / 共20页
现代信息检索导论作业讲评_第3页
第3页 / 共20页
现代信息检索导论作业讲评_第4页
第4页 / 共20页
现代信息检索导论作业讲评_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《现代信息检索导论作业讲评》由会员分享,可在线阅读,更多相关《现代信息检索导论作业讲评(20页珍藏版)》请在金锄头文库上搜索。

1、作业讲评,现代信息检索导论,不要抄袭 有两位同学一次作业都没交,请认识他们的同学转告一下。,作业说明,第一次作业,Estimate the time and space complexity of the SPIM indexing algorithm 把空间复杂度与实际内存使用情况混淆,第一次作业,Design a MapReduce algorithm for counting the occurrence no. of a “phrase” of n ordered words W1Wn 直接使用(tid, did, pos)三元组,第二次作业 编程题,Write two C funct

2、ions to encode and decode variable-byte integers. Write two C functions to encode and decode integers. (*) Write two C functions to encode and decode integers Exercise 5.9. 基本上都做的很好 编码理解有误 精简代码,第三次作业 第一题,Compute the vector space similarity between the query “digital cameras” and the document “digita

3、l cameras and video cameras” by filling out the empty columns in Table 6.1 (p132). Assume N = 10,000,000, logarithmic term weighting (wf columns) for query and document, idf weighting for the query only and cosine normalization for the document only. Treat and as a stop word. Enter term counts in th

4、e tf columns. Give the final similarity score.,第三次作业 第一题,query “digital cameras” document “digital cameras and video cameras” N = 10,000,000,第三次作业 第二题,We suggested that the postings for static quality ordering be in decreasing order of g(d). Why do we use the decreasing rather than the increasing or

5、der? How to do linear merge of postings with g(d)? Write a C function to present your idea.,忽略了did 未保持g(d)的顺序,第三次作业 第二题,第四次作业 第二题,在10000篇文档构成的文档集中,某个查询的相关文档总数为8,下面给出了某系统针对前20个有序结果的相关(R)和不相关(N)情况: RRNNN NNNRN RNNNR NNNNR A.前20篇文档的正确率:P = 6/20 = 30% B.前20篇文档的F1值:F1 = 2PR/(R+P) 其中R = 6/8,故F1 = 0.4286,第

6、四次作业 第二题,RRNNN NNNRN RNNNR NNNNR C.在25%召回率水平上的插值正确率:100% D.在33%召回率水平上的插值正确率:36.4%,第四次作业 第二题,RRNNN NNNRN RNNNR NNNNR E.假定该系统所有返回结果的数目就是20,则MAP = (1+2/2+3/9+4/11+5/15+6/20+0+0) / 8 = 0.4163,第四次作业 第二题,RRNNN NNNRN RNNNR NNNNR F.该系统可能的最大MAP: 当第21和22篇文档都是相关文档时,MAP达到最大值。 MAP = (1+2/2+3/9+4/11+5/15+6/20+7/2

7、1+8/22) / 8 = 0.5034 G.该系统可能的最小MAP: 当第9999和10000篇文档是相关文档时,MAP达到最小值。 MAP = (1+2/2+3/9+4/11+5/15+6/20+7/9999+8/10000) / 8 = 0.4165,第四次作业 第二题,RRNNN NNNRN RNNNR NNNNR H.在一系列实验中,只有最靠前的20篇文档通过人工来判定,(E)的结果用于近似从(F)到(G)的MAP取值范围。对于上例来说,通过(E)而不是(F)和(G)来计算MAP所造成的误差有多大(采用绝对值来计算)? |MAP F - MAP G | = 0.0869,第四次作业

8、第三题,Write a C program to highlight the keywords of an input query in the text of an input document, where both the query and document text are input as a character string: const char *q = “word1 word2 word3”; const char *doc_text = “”; (Requirements: first segment the text to sentences, then select

9、them.) 要求用C语言 首先分句 Highlight整个查询出现的地方,而不是查询中某个单词 程序应该生成一个HTML文件,第五次作业 第二题,Give three reasons why relevance feedback has been little used in web search. 用户不愿意进行显示反馈(延长搜索交互时间) 相关反馈会造成长查询,降低系统效率 相关反馈主要用于提高召回率,而WEB检索中准确率能提升用户体验 很难使普通用户理解并使用,第五次作业 第三题,Why is positive feedback likely to be more useful tha

10、n negative feedback to an IR system? 正反馈返回的相关文档中相似度更高,聚类性质强,容易带来更多的相关文档 Why might only using one nonrelevant document be more effective than using several? 在实际检索中绝大部分文档都是不相关文档,相关文档的聚类不够强,容易相互抵消,第五次作业 第四题,Omar has implemented a relevance feedback web search system, where he is going to do relevance f

11、eedback based only on words in the title text returned for a page (for efficiency). The user is going to rank 3 results. The first user, Jinxing, queries for: banana slug and the top three titles returned are: banana slug Ariolimax columbianus Santa Cruz mountains banana slug Santa Cruz Campus Masco

12、t Jinxing judges the first two documents relevant, and the third nonrelevant. Assume that Omars search engine uses term frequency but no length normalization nor IDF. Assume that he is using the Rocchio relevance feedback mechanism, with = = = 1. Showthe final revised query that would be run. (Pleas

13、e list the vector elements in alphabetical order.),第五次作业 第四题,Query: banana slug Documents: (R) banana slug Ariolimax columbianus (R) Santa Cruz mountains banana slug (N) Santa Cruz Campus Mascot,第五次作业 第四题,把文档写成向量 Q = (0, 1, 0, 0, 0, 0, 0, 0, 1) D1 = (1, 1, 0, 1, 0, 0, 0, 0, 1) D2 = (0, 1, 0, 0, 1, 0, 1, 1, 1) D3 = (0, 0, 1, 0, 1, 1, 0, 1, 0) 由公式,其中 = = = 1 得Qm = (0.5, 2, -1, 0.5, -0.5, -1, 0.5, -0.5, 2) 负的weight变为0 Qm = (0.5, 2, 0, 0.5, 0, 0, 0.5, 0, 2),

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号