web文本挖掘

上传人:飞****9 文档编号:127389873 上传时间:2020-04-01 格式:PPT 页数:89 大小:2.06MB
返回 下载 相关 举报
web文本挖掘_第1页
第1页 / 共89页
web文本挖掘_第2页
第2页 / 共89页
web文本挖掘_第3页
第3页 / 共89页
web文本挖掘_第4页
第4页 / 共89页
web文本挖掘_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《web文本挖掘》由会员分享,可在线阅读,更多相关《web文本挖掘(89页珍藏版)》请在金锄头文库上搜索。

1、2020年4月1日星期三 DataMining ConceptsandTechniques 1 第九章WEB挖掘 2020年4月1日星期三 DataMining ConceptsandTechniques 2 WEB挖掘 万维网是目前一个巨大的 分布广泛的全球性信息服务中心 它涉及新闻 广告 消费信息 金融管理 教育 政府 电子商务和许多其它信息服务 WEB还包了丰富和动态的超链接信息 以及WEB页面的访问和使用信息 这为数据挖掘提供了丰富的资源 WEB对有效的资源和知识发现还是具有极大的挑战性 2020年4月1日星期三 DataMining ConceptsandTechniques 3 T

2、heWebHasManyOtherRichStructures 2020年4月1日星期三 DataMining ConceptsandTechniques 4 WEB对有效的资源和知识发现具有挑战性 对有效的数据仓库和数据挖掘而言 WEB似乎太庞大了 WEB的数据量目前以百兆兆字节计算 而且仍然在迅速地增长 许多机构和社团都把各自大量的可访问信息置于网上 这使得几乎不可能去构造一个数据仓库来复制 存储或集成WEB上的所有数据 2020年4月1日星期三 DataMining ConceptsandTechniques 5 WEB对有效的资源和知识发现具有挑战性 WEB页面的复杂性远比任何传统的文

3、本文档复杂得多Web页面缺乏同一的结构 它包含了远比任何一组书籍或其它文本文档多得多的风格和内容 Web可以看作一个巨大的数字图书馆 然而 这一图书馆中的大量文档并不根据任何有关排列次序加以组织 他没有分类索引 更没有按标题 作者 封面页等索引 对在这样的图书馆中搜索希望得到的信息是极具挑战性的 2020年4月1日星期三 DataMining ConceptsandTechniques 6 WEB对有效的资源和知识发现具有挑战性 Web是一个动态性极强的信息源 Web不仅以极快的速度增长 而且其信息还在不断地发生着更新 新闻 股票市场 公司广告和web服务中心都在不断更新着各自的页面 链接信息

4、和访问记录也在频繁地更新之中 Web面对的是一个广泛的行行色色的用户群体 目前因特网上连接有约五千万台工作站 其用户群仍在不断地扩展中 各个用户可以有不同的背景 兴趣和使用目的 大部分用户并不了解信息网络结构 不清楚搜索的高昂代价 极容易在 黑暗 的网络中迷失方向 也极容易在 跳跃式 访问中翻乱不已和在等待一段信息中失去耐心 2020年4月1日星期三 DataMining ConceptsandTechniques 7 WEB对有效的资源和知识发现具有挑战性 Web上的信息只有很小的一部分是相关的或有用的 据说99 的web信息对99 的用户是无用的 虽然这看起来不是很明显 但一个人只是关心w

5、eb上的很小很小一部分信息确是事实 web所包含的其余信息对用户来说是不感兴趣的 而且会淹没所希望得到的搜索结果 2020年4月1日星期三 DataMining ConceptsandTechniques 8 FindingInformationOntheWeb 两种获得web信息的方法 Browsing Fromastartingpoint navigatethroughhyperlinkstofinddesireddocuments Yahoo scategoryhierarchyfacilitatesbrowsing Searching Submitaquerytoasearchengi

6、netofinddesireddocuments Manywell knownsearchenginesontheWeb Google MSN Yahoo AltaVista Fast Lycos etc SearchingisthesecondmostpopularactivitiesontheWebbehindemail 2020年4月1日星期三 DataMining ConceptsandTechniques 9 浏览和查找方式的比较 Categoryhierarchyisbuiltmostlymanuallywhilesearchenginedatabasescanbecreateda

7、utomatically Searchenginescanindexmuchmoredocumentsthanacategoryhierarchy Browsingismoreaccurateandmorefocused lessjunkwillbeencountered thansearching 2020年4月1日星期三 DataMining ConceptsandTechniques 10 WEB挖掘 尽管传统的搜索引擎和新一代的搜索引擎Google等在一定程度上满足了人们信息检索的需要 但搜索引擎的查全率 查准率都不尽如人意 于是 人们想到了数据挖掘技术 将传统的数据挖掘同web结合起

8、来进行web挖掘 从web文档和web活动中抽取用户感性趣的潜在的有用模式和隐藏信息 弥补了搜索引擎的不足 2020年4月1日星期三 DataMining ConceptsandTechniques 11 WEB挖掘及相关概念 Web挖掘时针对网络信息资源进行的 其中涉及一些同传统的数据挖掘不同的知识和概念 比如IP地址 网页的HIML语言 WEB页面的URL地址和WEB服务器的日志记录等 2020年4月1日星期三 DataMining ConceptsandTechniques 12 WEB挖掘及相关概念 WEB挖掘中用到的术语和概念www组织在1999年制定了一套规范的web范围相关术语

9、IP地址 域名 URL统一资源定位器超级链接hyperlink超文本标记语言htmlXml可扩展标记语言代理服务器proxyserverWeb服务日志搜索引擎网络蜘蛛 2020年4月1日星期三 DataMining ConceptsandTechniques 13 搜索引擎 为什么查询很重要 信息就在你的指尖Fundamental pervasive在线广告查询是一个在线广告的分布渠道 2020年4月1日星期三 DataMining ConceptsandTechniques 14 搜索引擎 为什么查询很重要 2020年4月1日星期三 DataMining ConceptsandTechniq

10、ues 15 搜索引擎的发展 WebSearch1 0 TraditionalTextRetrievalWebSearch2 0 Page levelRelevanceRankingWebSearch3 0 Object levelStructuredSearch 2020年4月1日星期三 DataMining ConceptsandTechniques 16 TheTrendinWebSearch 1990 Mid1990 2004 2020年4月1日星期三 DataMining ConceptsandTechniques 17 WebSearch1 0 TraditionalTextRet

11、rieval Relevancerankingbasedontermdistribution Termfrequency TF Inversedocumentfrequency IDF Languagemodels 2020年4月1日星期三 DataMining ConceptsandTechniques 18 WebSearch1 0 TraditionalTextRetrieval 2020年4月1日星期三 DataMining ConceptsandTechniques 19 WebPageHasRicherStructureThanPlainText Differenttermtype

12、sandformats Hyperlinkstructure 2Dvisuallayoutstructure 2020年4月1日星期三 DataMining ConceptsandTechniques 20 WebSearch1 0 WebSearch2 0 ThefirstmajorimprovementinthehistoryofWebsearch Linkanalysis PageRank HITS Relevanceranking IRScore PageRank 2020年4月1日星期三 DataMining ConceptsandTechniques 21 WebSearch2 0

13、 WebSearch3 0 2020年4月1日星期三 DataMining ConceptsandTechniques 22 ObjectLevelVerticalSearch MSRALibra ObjectLevelVerticalSearch MSRALibra 2020年4月1日星期三 DataMining ConceptsandTechniques 23 WebObjectIdentification 2020年4月1日星期三 DataMining ConceptsandTechniques 24 Object levelLinkAnalysis 2020年4月1日星期三 DataM

14、ining ConceptsandTechniques 25 2020年4月1日星期三 DataMining ConceptsandTechniques 26 网络蜘蛛 网络蜘蛛即WebSpider 是一个很形象的名字 把互联网比喻成一个蜘蛛网 那么Spider就是在网上爬来爬去的蜘蛛 网络蜘蛛是通过网页的链接地址来寻找网页 从网站某一个页面 通常是首页 开始 读取网页的内容 找到在网页中的其它链接地址 然后通过这些链接地址寻找下一个网页 这样一直循环下去 直到把这个网站所有的网页都抓取完为止 如果把整个互联网当成一个网站 那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来 2020年

15、4月1日星期三 DataMining ConceptsandTechniques 27 ThepreviousWeb Searchusedtobe crawlandindex 2020年4月1日星期三 DataMining ConceptsandTechniques 28 网络蜘蛛 AWebcrawler alsoknownasspider robot isaprogramforfetchingwebpagesfromtheWeb Mainidea PlacesomeinitialURLsintoaURLqueue Repeatthestepsbelowuntilthequeueisempty

16、TakethenextURLfromthequeueandfetchthewebpageusingHTTP ExtractnewURLsfromthedownloadedwebpageandaddthemtothequeue AfreeWebcrawler http www cs cmu edu rcm websphinx 2020年4月1日星期三 DataMining ConceptsandTechniques 29 网络蜘蛛 对于搜索引擎来说 要抓取互联网上所有的网页几乎是不可能的 从目前公布的数据来看 容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右 这其中的原因一方面是抓取技术的瓶颈 无法遍历所有的网页 有许多网页无法从其它网页的链接中找到 2020年4月1日星期三 DataMining ConceptsandTechniques 30 网络蜘蛛 另一个原因是存储技术和处理技术的问题 如果按照每个页面的平均大小为20K计算 包含图片 100亿网页的容量是100 2000G字节 即使能够存储 下载也存在问题 按照一台机器每秒下载20K计算 需要340台机器不停的下载一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号