[医学保健]潜在语意索引在生医文件分类之应用

上传人:油条 文档编号:48477993 上传时间:2018-07-16 格式:PPT 页数:29 大小:639.50KB
返回 下载 相关 举报
[医学保健]潜在语意索引在生医文件分类之应用_第1页
第1页 / 共29页
[医学保健]潜在语意索引在生医文件分类之应用_第2页
第2页 / 共29页
[医学保健]潜在语意索引在生医文件分类之应用_第3页
第3页 / 共29页
[医学保健]潜在语意索引在生医文件分类之应用_第4页
第4页 / 共29页
[医学保健]潜在语意索引在生医文件分类之应用_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《[医学保健]潜在语意索引在生医文件分类之应用》由会员分享,可在线阅读,更多相关《[医学保健]潜在语意索引在生医文件分类之应用(29页珍藏版)》请在金锄头文库上搜索。

1、精品PPT课件 浏览免费 下载后可以编辑修改。 http:/ http:/ http:/ http:/ http:/ /潛在語意索引在生醫文件 分類之應用報告大綱緒論 文獻回顧 研究架構與方法 實驗結果與分析 結論與未來展望研究動機 2000年人類基因圖譜定序後 更加速基因體學、蛋白質體學的研究熱潮 巨量、多樣性的生物醫學文件不斷的出現在各種電 子期刊上 美國國家醫學圖書館(National Library of Medicine, NLM), 國家生物技術資訊中心(National Center for Biotechnology Information, NCBI)是生醫專家搜尋生 物醫

2、學文獻的最佳管道所有科學研究由文獻探討開始2003年12,000,0002006年16,000,000研究目的PubMed文獻資料庫u自動挑出蛋白質與蛋白質交互影響 (Protein- Protein Interaction, PPI)的文獻標題及摘要 實驗重點u比較支援向量機(SVM)和貝式分類器(NB)在分 類演算法對採掘生醫文獻的效果u探討使用潛在語意索引(LSI)特徵表示法及使用資 訊獲利量(IG)關鍵字對PPI相關文件分類的影響蛋白質與蛋白質的交互作用所謂蛋白質與蛋白質的交互作用(Protein-Protein Interactions, PPI)係指細胞內的兩條蛋白質之間的交 互作

3、用,這種蛋白質與蛋白質間的交互作用,環環 相扣形成一個巨大的網狀關係(如圖2.1),深刻地影 響整個細胞生理作用的調節 圖2.1 蛋白質與蛋白質的交互關係圖PPI文獻的相關研究Marcotte et al.(2001)u從MedLine中選出有PPI相關的260篇文獻u從這些文獻中選出80個特異字u利用貝氏機率理論 Craven and Kumlien(1999) u將已審查和分類完成的文獻大約分成五類u利用類神經和貝氏機率文字探勘文字探勘(Text Mining)u從非(半)結構化文件中,擷取隱晦有用的片段、模型 或規則及未被發掘、有潛在價值的資訊或知識 技術:資訊檢索、資訊萃取、計算語言學

4、、自然語言處理、資料探勘技術、知識表示 應用:資訊搜尋、訊息過濾、知識萃取、知識管理、決策輔助 文件分類的二個步驟u特徵的選取和文件的描述u利用適當的分類器進行自動化分類潛在語意索引潛在語意索引(Latent Semantic Index, LSI)u從文件字詞中發現隱藏語意的方法u克服一詞多義(Polysemy)和一義多詞(Synonymy)問題 主要理論基礎u線性代數中的奇異矩陣分解(Singular Value Decomposition, SVD)法u使用關鍵字的組合來描述文件集中潛在的槪念 SVD使用特徵縮減的方法u從原始的大量特徵中萃取出小量但顯著的特徵組合以 降低資料雜訊Exam

5、ples of LSI假設各分量所代表的關鍵字分別是(數學, 物理, 化學, 國文, 英文, 國畫, 鋼琴, 舞蹈) 索引1: LSI1(1,1,1,0,0,0,0,0) 潛在語意=科學 索引2: LSI2(0,0,0,1,1,0,0,0)潛在語意=語文 索引3: LSI3(0,0,0,0,0,1,1,1)潛在語意=藝術 有時潛在語意很難解釋, 例如索引4: LSI4(-1,-1,-1,0,0,1,1,1)LSI相關研究Hull(1994)u結合類神經網路與潛在語意索引應用在資訊檢索 Dasigi et al.(2001)u結合LSI與類神經網路進行文件分類的研究u使用Reuters-2217

6、3文件資料集 國內部份u利用隱在語意索引進行文件分段之研究u應用在中文資訊檢索u自動化文件分類資訊獲利量資訊獲利量(Information Gain, IG)由 Quinlan 於1979 年提出,使用於 ID3決策樹演算法資訊獲利量測試前的資訊量測試後的資訊量資訊獲利量在文件分類中常被拿來衡量詞彙好不好 的指標 關鍵字資訊獲利量cdc cultur promot upstream genom bind fusion approach 0.011670.011570.009670.007090.006060.005950.005790.00576 支持向量機支持向量機(Support Vect

7、or Machine, SVM) 1995年 由貝爾實驗室的Vapnik 提出以統計學習理論為基礎, 運用於樣式分類的機器學 習演算法應用成功的領域手寫識別、語音識別、人臉偵測、文件分類、光學辨識系統、財務時間序列分析及垃圾郵件等 在高維度的空間中找出一個最佳化的分隔超平面 (Optimal Separating Hyperplane, OSH)來區分資料 ,使其與區分的兩類別資料間有最大的邊界 使用Soft Margins解決資料的雜訊支持向量機(續)貝式分類器貝式分類器(Nave Bayes, NB),以機率理論為基礎, 用於分類預測的機器學習演算法 主要是以貝式定理(Bayesian T

8、heorem)為基礎,用 以判斷未知類別的資料應該最接近哪一個類別PubMedPreBINDYeast_POINT_170504.txt Human_ POINT_170504.txt Human_ POINT_300405.txtPubMed SearcherNon_PPI DocumentPPI DocumentExtract Title and Abstract of SpeciesStemming/Stop ListVector Space (Term/Binary/TFIDF)Predict and Assess PerformanceMachine Learning (SVM/NB

9、)Feature Selection (IG/LSI)使用(PIScore0?PPI:人工 判讀)對文件分類實驗流程圖實驗設計 實驗一實驗二實驗三 實驗物種Yeast(2004 )Human(2004) Human(2005 ) 資料集PPI=600篇, Non PPI=400篇訓練&測試Train=800篇, Test =200篇特徵值選取 特徵表示LSI、IG100,200,300,400,500個關鍵字 向量模式=Term, Binary, Tfidf 驗證方式k-次交叉驗證,本實驗以5-fold來作,我們 將測試資料集分成5等份,每等份具有相同 筆數(200筆)的輸入資料,且不重複 實

10、驗環境硬體:Pentium4,CPU3.2G ,768Ram 軟體:文字前處理使用Rainbow、Proter 字根處理SVM使用libsvm, NB使用Weka、LSI部份 使用Fortran Compiler8.1及IMSL Fortran library5.0評估方法準確度、精確、召回率及調和平均數評估公式 AccuracyPrecisionRecallFMObservedPPINon-PPIPredictedPPITPFPNon-PPIFNTN混亂矩陣ROC曲線靈敏度(Sensitivity= )即是正類別的召回率,作為縱座標明確性(Specificity = )即是負類別的召回率,1

11、-Specificity是橫座標 實驗結果yeast物種使用潛在語意索引特徵表示法 SVM 和 NB 之比較 MethodLSI_SVMLSI_NB FRFSA%P%R%FM%A%P%R%FM% Term10097.396.8498.6497.7370.6063.3383.7072.1020099.599.1710099.5870.3064.0082.5872.1130099.899.6710099.8372.0064.6785.0973.4940099.999.8310099.9172.1064.6785.2773.5550010010010010072.2065.0085.1573.72T

12、FIDF10095.696.0196.6596.3372.0059.8390.2071.9420099.799.8399.6799.7573.0076.8377.8777.3530010010010010072.0076.6776.6776.6740010010010010073.3075.5079.0677.2450010010010010074.1074.6780.7277.58FR (Feature Representation):係”特徵表示”,代表各種向量模式的選擇。 FS (Feature Selection):代表”特徵選擇”,表示不同個數的關鍵字。 LSI_SVM:代表LSI編

13、碼搭配SVM LSI_NB:代表LSI編碼搭配NB實驗結果(續)yeast物種使用資訊獲利量特徵表示法SVM 和 NB之比較 MethodIG_SVMIG_NBFRFSA%P%R%FM%A%P%R%FM% Term10068.9379.0371.9775.3375.5091.5673.9381.81 20065.8399.6763.7977.7975.1090.8373.7581.40 30077.2285.6978.3981.8872.3089.0071.6879.41 40077.9287.5278.2782.6473.8089.3373.0280.36 50077.8289.3577.2

14、782.8772.8088.6772.2879.64 TFIDF10072.7398.3469.2081.2473.5877.1178.5577.82 20067.7399.3365.1778.7075.0084.3376.4480.19 30065.3310063.4077.6074.1084.3375.4179.62 40063.8499.8362.4376.8276.7087.1777.0381.79 50062.6499.8361.6676.2374.1085.3374.9679.81IG_SVM:代表IG編碼搭配SVM IG_NB:代表IG編碼搭配NBROC-Term1=LSI_SV

15、M 2=IG_SVM 3=LSI_NB 4=IG_NB 5=參考線1.LSI _SVM2.IG _SVMFSY軸X軸Y軸X軸10 00.986 40.046 20.71970.369 520 010.012 30.63790.032 330 010.005 00.78390.250 040 010.002 50.78270.228 050 0100.77270.209 23.LSI_NB4.IG _NBFSY軸X軸Y軸X軸10 00.837 00.402 90.73930.199 220 00.825 80.403 70.73750.210 730 00.850 90.389 70.71680.258 840 00.852 70.389 00.73020.240 650 00.851 50.387 50.72280.257 61=LSI_SVM 2=IG_SVM 3=LSI_NB 4=IG_NB 5=參考線1.LSI-SVM2.IG _SVMFSY軸X軸Y軸X軸1000.96650.05940.69200.06802000.99670.00250.65170.0471300100.63400400100.62430.0250500100.61660.03

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号