web文本挖掘－金锄头文库

资源描述

《web文本挖掘》由会员分享，可在线阅读，更多相关《web文本挖掘（89页珍藏版）》请在金锄头文库上搜索。

1、2020年4月1日星期三 DataMining ConceptsandTechniques 1 第九章WEB挖掘 2020年4月1日星期三 DataMining ConceptsandTechniques 2 WEB挖掘万维网是目前一个巨大的分布广泛的全球性信息服务中心它涉及新闻广告消费信息金融管理教育政府电子商务和许多其它信息服务 WEB还包了丰富和动态的超链接信息以及WEB页面的访问和使用信息这为数据挖掘提供了丰富的资源 WEB对有效的资源和知识发现还是具有极大的挑战性 2020年4月1日星期三 DataMining ConceptsandTechniques 3 T

2、heWebHasManyOtherRichStructures 2020年4月1日星期三 DataMining ConceptsandTechniques 4 WEB对有效的资源和知识发现具有挑战性对有效的数据仓库和数据挖掘而言 WEB似乎太庞大了 WEB的数据量目前以百兆兆字节计算而且仍然在迅速地增长许多机构和社团都把各自大量的可访问信息置于网上这使得几乎不可能去构造一个数据仓库来复制存储或集成WEB上的所有数据 2020年4月1日星期三 DataMining ConceptsandTechniques 5 WEB对有效的资源和知识发现具有挑战性 WEB页面的复杂性远比任何传统的文

3、本文档复杂得多Web页面缺乏同一的结构它包含了远比任何一组书籍或其它文本文档多得多的风格和内容 Web可以看作一个巨大的数字图书馆然而这一图书馆中的大量文档并不根据任何有关排列次序加以组织他没有分类索引更没有按标题作者封面页等索引对在这样的图书馆中搜索希望得到的信息是极具挑战性的 2020年4月1日星期三 DataMining ConceptsandTechniques 6 WEB对有效的资源和知识发现具有挑战性 Web是一个动态性极强的信息源 Web不仅以极快的速度增长而且其信息还在不断地发生着更新新闻股票市场公司广告和web服务中心都在不断更新着各自的页面链接信息

4、和访问记录也在频繁地更新之中 Web面对的是一个广泛的行行色色的用户群体目前因特网上连接有约五千万台工作站其用户群仍在不断地扩展中各个用户可以有不同的背景兴趣和使用目的大部分用户并不了解信息网络结构不清楚搜索的高昂代价极容易在黑暗的网络中迷失方向也极容易在跳跃式访问中翻乱不已和在等待一段信息中失去耐心 2020年4月1日星期三 DataMining ConceptsandTechniques 7 WEB对有效的资源和知识发现具有挑战性 Web上的信息只有很小的一部分是相关的或有用的据说99 的web信息对99 的用户是无用的虽然这看起来不是很明显但一个人只是关心w

5、eb上的很小很小一部分信息确是事实 web所包含的其余信息对用户来说是不感兴趣的而且会淹没所希望得到的搜索结果 2020年4月1日星期三 DataMining ConceptsandTechniques 8 FindingInformationOntheWeb 两种获得web信息的方法 Browsing Fromastartingpoint navigatethroughhyperlinkstofinddesireddocuments Yahoo scategoryhierarchyfacilitatesbrowsing Searching Submitaquerytoasearchengi

6、netofinddesireddocuments Manywell knownsearchenginesontheWeb Google MSN Yahoo AltaVista Fast Lycos etc SearchingisthesecondmostpopularactivitiesontheWebbehindemail 2020年4月1日星期三 DataMining ConceptsandTechniques 9 浏览和查找方式的比较 Categoryhierarchyisbuiltmostlymanuallywhilesearchenginedatabasescanbecreateda

7、utomatically Searchenginescanindexmuchmoredocumentsthanacategoryhierarchy Browsingismoreaccurateandmorefocused lessjunkwillbeencountered thansearching 2020年4月1日星期三 DataMining ConceptsandTechniques 10 WEB挖掘尽管传统的搜索引擎和新一代的搜索引擎Google等在一定程度上满足了人们信息检索的需要但搜索引擎的查全率查准率都不尽如人意于是人们想到了数据挖掘技术将传统的数据挖掘同web结合起

8、来进行web挖掘从web文档和web活动中抽取用户感性趣的潜在的有用模式和隐藏信息弥补了搜索引擎的不足 2020年4月1日星期三 DataMining ConceptsandTechniques 11 WEB挖掘及相关概念 Web挖掘时针对网络信息资源进行的其中涉及一些同传统的数据挖掘不同的知识和概念比如IP地址网页的HIML语言 WEB页面的URL地址和WEB服务器的日志记录等 2020年4月1日星期三 DataMining ConceptsandTechniques 12 WEB挖掘及相关概念 WEB挖掘中用到的术语和概念www组织在1999年制定了一套规范的web范围相关术语

9、IP地址域名 URL统一资源定位器超级链接hyperlink超文本标记语言htmlXml可扩展标记语言代理服务器proxyserverWeb服务日志搜索引擎网络蜘蛛 2020年4月1日星期三 DataMining ConceptsandTechniques 13 搜索引擎为什么查询很重要信息就在你的指尖Fundamental pervasive在线广告查询是一个在线广告的分布渠道 2020年4月1日星期三 DataMining ConceptsandTechniques 14 搜索引擎为什么查询很重要 2020年4月1日星期三 DataMining ConceptsandTechniq

10、ues 15 搜索引擎的发展 WebSearch1 0 TraditionalTextRetrievalWebSearch2 0 Page levelRelevanceRankingWebSearch3 0 Object levelStructuredSearch 2020年4月1日星期三 DataMining ConceptsandTechniques 16 TheTrendinWebSearch 1990 Mid1990 2004 2020年4月1日星期三 DataMining ConceptsandTechniques 17 WebSearch1 0 TraditionalTextRet

11、rieval Relevancerankingbasedontermdistribution Termfrequency TF Inversedocumentfrequency IDF Languagemodels 2020年4月1日星期三 DataMining ConceptsandTechniques 18 WebSearch1 0 TraditionalTextRetrieval 2020年4月1日星期三 DataMining ConceptsandTechniques 19 WebPageHasRicherStructureThanPlainText Differenttermtype

12、sandformats Hyperlinkstructure 2Dvisuallayoutstructure 2020年4月1日星期三 DataMining ConceptsandTechniques 20 WebSearch1 0 WebSearch2 0 ThefirstmajorimprovementinthehistoryofWebsearch Linkanalysis PageRank HITS Relevanceranking IRScore PageRank 2020年4月1日星期三 DataMining ConceptsandTechniques 21 WebSearch2 0

13、 WebSearch3 0 2020年4月1日星期三 DataMining ConceptsandTechniques 22 ObjectLevelVerticalSearch MSRALibra ObjectLevelVerticalSearch MSRALibra 2020年4月1日星期三 DataMining ConceptsandTechniques 23 WebObjectIdentification 2020年4月1日星期三 DataMining ConceptsandTechniques 24 Object levelLinkAnalysis 2020年4月1日星期三 DataM

14、ining ConceptsandTechniques 25 2020年4月1日星期三 DataMining ConceptsandTechniques 26 网络蜘蛛网络蜘蛛即WebSpider 是一个很形象的名字把互联网比喻成一个蜘蛛网那么Spider就是在网上爬来爬去的蜘蛛网络蜘蛛是通过网页的链接地址来寻找网页从网站某一个页面通常是首页开始读取网页的内容找到在网页中的其它链接地址然后通过这些链接地址寻找下一个网页这样一直循环下去直到把这个网站所有的网页都抓取完为止如果把整个互联网当成一个网站那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来 2020年

15、4月1日星期三 DataMining ConceptsandTechniques 27 ThepreviousWeb Searchusedtobe crawlandindex 2020年4月1日星期三 DataMining ConceptsandTechniques 28 网络蜘蛛 AWebcrawler alsoknownasspider robot isaprogramforfetchingwebpagesfromtheWeb Mainidea PlacesomeinitialURLsintoaURLqueue Repeatthestepsbelowuntilthequeueisempty

16、TakethenextURLfromthequeueandfetchthewebpageusingHTTP ExtractnewURLsfromthedownloadedwebpageandaddthemtothequeue AfreeWebcrawler http www cs cmu edu rcm websphinx 2020年4月1日星期三 DataMining ConceptsandTechniques 29 网络蜘蛛对于搜索引擎来说要抓取互联网上所有的网页几乎是不可能的从目前公布的数据来看容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右这其中的原因一方面是抓取技术的瓶颈无法遍历所有的网页有许多网页无法从其它网页的链接中找到 2020年4月1日星期三 DataMining ConceptsandTechniques 30 网络蜘蛛另一个原因是存储技术和处理技术的问题如果按照每个页面的平均大小为20K计算包含图片 100亿网页的容量是100 2000G字节即使能够存储下载也存在问题按照一台机器每秒下载20K计算需要340台机器不停的下载一

展开阅读全文