资讯检索系统测试集之比较.ppt

上传人:小** 文档编号:85066865 上传时间:2019-03-07 格式:PPT 页数:39 大小:236KB
返回 下载 相关 举报
资讯检索系统测试集之比较.ppt_第1页
第1页 / 共39页
资讯检索系统测试集之比较.ppt_第2页
第2页 / 共39页
资讯检索系统测试集之比较.ppt_第3页
第3页 / 共39页
资讯检索系统测试集之比较.ppt_第4页
第4页 / 共39页
资讯检索系统测试集之比较.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《资讯检索系统测试集之比较.ppt》由会员分享,可在线阅读,更多相关《资讯检索系统测试集之比较.ppt(39页珍藏版)》请在金锄头文库上搜索。

1、資訊檢索系統測試集之比較,圖書與資訊學刊第29期(1999年5月) by 江玉婷,陳光華 台大圖資所碩士論文,IR System Evaluation - 2,測試集 (Test Collections),組成要素 文件集 (Document Set; Document Collection) 查詢問題 (Query; Topic) 相關判斷 (Relevant Judgement) 用途 設計與發展: 系統測試 評估: 系統效能(Effectiveness)之測量 比較: 不同系統與不同技術間之比較 評比 根據不同的目的而有不同的評比項目 量化的測量準則,如Precision與Recall,

2、IR System Evaluation - 3,測試集(Test Collections) (續),小型測試集 早期: Cranfield 英文: SMART, OHSUMED, Cystic Fibrosis, LISA. 日文: BMIR-J2 大型評比環境: 提供測試集及研討的論壇 美國: TREC 日本: NTCIR, IREX, 歐洲: AMARYLLIS,IR System Evaluation - 5,Cranfield II,比較33種不同索引方式之檢索效益 蒐集1400篇有關太空動力學的文件(摘要形式) 請每位作者根據這些文件與其當時研究的主題提出問題,經篩選後產生200餘

3、個查詢問題,IR System Evaluation - 6,Cranfield II (Continued),Cranfield II測試集中相關判斷建立四個步驟 首先請提出查詢問題的建構者對文件後所附之引用及參考文獻進行相關判斷 接著請五位該領域的研究生將查詢問題與每篇文件逐一檢視,共花了1500小時進行了50萬次以上的相關判斷,希望能找出所有的相關文件。 為了避免前述過程仍有遺漏,又利用文獻耦合的概念計算文件間之相關性,發掘更多的可能相關文件。若有兩篇以上的文獻共同引用了一篇或多篇論文,則稱這些文獻間具有耦合關係。 最後,將以上找出的所有文件,再一併送回給原作者進行判斷。,IR Syst

4、em Evaluation - 7,TREC簡介,TREC: Text REtrieval Conference 主辦: NIST及DARPA,為 TIPSTER文件計劃之子計劃之一 文件集 5GB以上 數百萬篇文件,IR System Evaluation - 8,TREC 文件集,IR System Evaluation - 9,TREC之文件標示,IR System Evaluation - 10,TREC-1 and TREC-2查詢主題,IR System Evaluation - 11,TREC-3查詢主題,IR System Evaluation - 12,TREC-4查詢主題,

5、IR System Evaluation - 13,TREC查詢主題,主題結構與長度 主題建構 主題篩選 pre-search 判斷相關文件的數量,IR System Evaluation - 14,TREC-6之主題篩選程序,IR System Evaluation - 15,TREC相關判斷,判斷方法 Pooling Method 人工判斷 判斷基準: 二元式, 相關與不相關 相關判斷品質 完整性 一致性,IR System Evaluation - 16,Pooling法,針對每個查詢主題,從參與評比的各系統所送回之測試結果中抽取出前n篇文件,合併形成一個Pool 視為該查詢主題可能的相

6、關文件候選集合,將集合中重覆的文件去除後,再送回給該查詢主題的原始建構者進行相關判斷。 利用此法的精神是希望能透過多個不同的系統與不同的檢索技術,盡量網羅可能的相關文件,藉此減少人工判斷的負荷。,IR System Evaluation - 17,TREC 候選集合與實際相關文件之對照表,IR System Evaluation - 18,TREC評比,IR System Evaluation - 19,TREC質疑與負面評價,測試集方面 查詢主題 並非真實的使用者需求, 過於人工化 缺乏需求情境的描述 相關判斷 二元式的相關判斷不實際 pooling method會遺失相關文件, 導致回收率

7、不準確 品質與一致性 效益測量方面 只關注量化測量 回收率的問題 適合作系統間的比較, 但不適合作評估,IR System Evaluation - 20,TREC質疑與負面評價 (續),評比程序方面 互動式檢索 缺乏使用者介入 靜態的資訊需求不切實際,IR System Evaluation - 21,BMIR-J2 簡介,第一個日文資訊檢索系統測試集 BMIR-J1: 1996 BMIR-J2: 1998.3 發展單位: IPSG-SIGDS 文件集: 主要為新聞文件 每日新聞: 5080篇 經濟與工程 查詢主題: 60個,IR System Evaluation - 22,BMIR-J2

8、 相關判斷,以布林邏輯結合關鍵詞檢索1-2個IR系統 由資料庫檢索者做進一步的相關判斷 由建構測試集的人員再次檢查,IR System Evaluation - 23,BMIR-J2 查詢主題,Q: F=oxoxo: “Utilizing solar energy” Q: N-1: Retrieve texts mentioning user of solar energy Q: N-2: Include texts concerning generating electricity and drying things with solar heat.,查詢主題的分類 目的: 標明該測試主題的

9、特性,以利系統選擇 標記: o(necessary), x(unnecessary) 類別 The basic function The numeric range function The syntactic function The semantic function The world knowledge function:,IR System Evaluation - 24,NTCIR 簡介,NTCIR: NACSIS Test Collections for IR 主辦: NACSIS(日本國家科學資訊系統中心) 發展背景 大型日文標竿測試集的需求 跨語言檢索的研究發展需要 文件集

10、來源為NACSIS Academic Conference Papers Database 主要為會議論文的摘要 超過330,000篇文件, 其中超過1/2為英日文對照之文件 有部分包含part-of-speech tags,IR System Evaluation - 25,NTCIR查詢主題,來源: 搜集真實的使用者需求, 再據其修正改寫 每個學科主題領域各有100個測試主題 組成結構 編號 標題 資訊需求之簡短描述 資訊需求之細部描述, 包括更進一步的解釋, 名詞的定義, 背景知識, 檢索的目的, 預期的相關文件數量, 希望的文件類型, 相關判斷的標準等 相關概念的關鍵詞 ,IR Sys

11、tem Evaluation - 26,NTCIR 相關判斷,判斷方法 利用pooling method先進行篩選 由各主題專家, 及查詢主題的建構者進行判斷 判斷基準 A: 相關 B: 部分相關 C: 不相關 精確率計算: 依測試項目的不同而有不同 Relevant: B與C均視為不相關 Partial Relevant : A與B均視為相關,IR System Evaluation - 27,NTCIR評比,Ad-hoc Information Retrieval Task Cross-lingual Information Retrieval Task 利用日文查詢主題檢索英文文件 共有

12、21個查詢主題, 其相關判斷包括英文文件與日文文件 系統可選擇自動或人工建立查詢問題 系統需送回前1000篇檢索結果 Automatic Term Extraction and Role Analysis Task Automatic Term Extraction: 從題名與摘要中抽取出technical terms Role Analysis Task: 抽取出主旨, 研究方法, 研究程序,IR System Evaluation - 28,IREX 簡介,IREX: Information Retrieval and Extraction Exercise 主辦: IREX Commit

13、tee 參加者: 約20隊 (或以上) 預備測試:利用BMIR-J2測試集中之查詢主題 文件集 每日新聞, 1994-1995 參加者必須購買新聞語料,IR System Evaluation - 29,IREX 查詢主題,組成結構 編號 簡短的資訊需求, 主要為名詞與其修飾語 構成的名詞詞組 詳細的資訊需求, 以自然語言敘述, 通常為2 至3個句子組 成, 亦包含名詞解釋, 同義詞 或實例. description欄位中的詞彙必須包含在narrative欄位中,IR System Evaluation - 30,IREX 相關判斷,判斷依據: 測試主題的所有欄位 判斷方法: 由學生二名進行判

14、斷 若二人之判斷結果一致, 則完成相關判斷 若二人之判斷結果不一致或不確定, 則由三人來作最後的判定 判斷基準 學生: 6個判斷層次 A: 相關 A?: 不確定是否為相關 B: 部分相關 B?: 不確定是否為部分相關 C: 不相關 C?: 不確定是否為不相關,IR System Evaluation - 31,IREX 相關判斷 (續),最終判斷者: 3個判斷層次 A: 相關 B: 部分相關 C: 不相關 相關判斷的修正,IR System Evaluation - 32,IREX 評比,評比項目 Name Entity Task (NE) 與MUC相似, 測試系統自動抽取專有名詞的能力, 如

15、組織名, 人名, 地名等. 一般領域文件抽取 v.s. 特殊領域文件抽取 Information Retrieval (IR) 與TREC相似 評比規則 送回文件:前300篇 Query的建構:一律由系統自動建構,IR System Evaluation - 33,BMIR-J2 簡介,第一個日文資訊檢索系統測試集 BMIR-J1: 1996 BMIR-J2: 1998.3 發展單位: IPSG-SIGDS 文件集: 主要為新聞文件 每日新聞: 5080篇 經濟與工程 查詢主題: 60個,IR System Evaluation - 34,BMIR-J2 相關判斷,以布林邏輯結合關鍵詞檢索1-

16、2個IR系統 由資料庫檢索者做進一步的相關判斷 由建構測試集的人員再次檢查,IR System Evaluation - 35,BMIR-J2 查詢主題,Q: F=oxoxo: “Utilizing solar energy” Q: N-1: Retrieve texts mentioning user of solar energy Q: N-2: Include texts concerning generating electricity and drying things with solar heat.,查詢主題的分類 目的: 標明該測試主題的特性,以利系統選擇 標記: o(necessary), x(unnecessary) 類別 The basic function The numeric range function The syntactic function The semantic function The world knowledge function:,IR

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号