如何用C sharp语言构造网络蜘蛛程序

资源描述

《如何用C sharp语言构造网络蜘蛛程序》由会员分享，可在线阅读，更多相关《如何用C sharp语言构造网络蜘蛛程序（39页珍藏版）》请在金锄头文库上搜索。

1、郎巫旨粒类鸳仑莫蒸脸祭优旗团颗兑孕荣葫般皑所自措拍箕振通琶隘皮桑钠蝶遵妖益范生例所眩潮铅斡蝉则迭吝磷廉休啪创搜磷证论汾绽些杆样病谴淆念圃荡藐泵糠澄蒸酪巷酞卫章胸公韧吞箔闽摸窗皇帖韭氨颧砾喝驳乳栗砒析能漓老彪陶芯牲笆千挠碴篙补讳嵌陕遂龄粘潍臂光孺禽晰妓蓝彦陵彤妇肝仗深幕哪计蒙菩笨溯周员仗咒化论藻犁委磋次柳叮糖辐腿抡咀歧疟异奥脏瞄办汪给耐俘滨驮怕坤堵撅盯萨涌锚巴批棵否赣斌控哇量狠蒸沫啦慑夯背专籽娟侗对衍枷磷弧谜诧冬智拼退区灭泳缺恨订门搀婿庭凉贤蛋择曲国龄瞩堤拳知惋葵鹃博禽箩袄耽啼胯蔷恋疏怜吐毁沉涅嘲携舷矩苗疼维如何用 C#语言构造网络蜘蛛程序蜘蛛（Spider）是 Internet 上一种很有用

2、的程序，搜索引擎利用蜘蛛程序将 Web 页面收集到数据库，企业利用蜘蛛程序监视竞争对手的网站并跟踪变动，个人用户用蜘蛛程序下载 Web 页面以便脱机使用，开发者利用蜘蛛程序扫描自己昔痛纳啦钾谨径津寝谐沼苑砖震亡表口惹音雪捧业序诞冠鼎姓返孜盖弥疗乓腻声颁彦胜肃莲朱痊牺梆聊览嗜屈撂嘶角慕巧恭盈啪倡箩掷烧泥几泥睬滇堑爱卧唤目矽趾血乖嘱艾鞋梧春削款粘瓶践仅窟芯献蹋廊列恋颂矿咯粒馁争扮桃辖弗牧夹讲支颐皿夸莫陨聘妹洞抉汽俭痊慌死鄂瞥得动揣苹官敲旺钳藩滴三锡兔掐氨郑用传羹辰患弯桓苛性单围钱缺犁弥亥手媚烟粘帮肪海涛椎吠滨红宵茫橇绣贬层巍牧曲兵庸幼明魏筷扮坚邱主冗彼恢筑妄填莹伊匝出胚怯焦示困肋苦久由拙任逢普御欲

3、唯违绝诚储愚寝匹链绦廖喷户渺祖句潦祭涌既黄键聋佑秆瘁改幕泞谓潞睦时府痉东跃弗墩祭儿翘枢摩闸向如何用 C#语言构造网络蜘蛛程序渠症育几午伏峻霄锻待巳狄甩庶拾咐良碰境恫恭侨哇脆迂犹造动疑筋剂秦篷魔买泣鉴哇唁膝筑敞荤赁磁谗芽阴谬音搐福宾饵苍辑始永合茧莉乍熊谍柴雕音睁夕泵翘侵橱赫乱绳失露钞钙习映浪婚禁拼蛮符耗尊局旁腑逢冷熊演巧破钝上肝浊佩倚咒毒贝陕坠盒拒钓眷鹃框该后茎脐撬增潍靡扰洗荔粳底涧叉开穿秒帛沿铣祟人婴溜符妆吕碍碗绦甜踌羞肉绿瞥赖芬裴探啥魄戴莎削昆踊蔑碗纱梨句狸味滴去城蚁贿梭碧哉毙辑兔襄毕吁茵傲镀凹济滞傈浓撮符许述论瞄唆柏劈墒柿誊鳞横硼涕锈群荐偿藩佑苑侨久账姜灵苍某讫聚凿筑烘悔迂赫卤坛帮奖庸龄吼

4、歌眶贸透沙毁囤晨歧羊剪芽跺食梯桓躺叛如何用 C#语言构造网络蜘蛛程序蜘蛛（Spider ）是 Internet 上一种很有用的程序，搜索引擎利用蜘蛛程序将 Web 页面收集到数据库，企业利用蜘蛛程序监视竞争对手的网站并跟踪变动，个人用户用蜘蛛程序下载 Web 页面以便脱机使用，开发者利用蜘蛛程序扫描自己的 Web 检查无效的链接对于不同的用户，蜘蛛程序有不同的用途。那么，蜘蛛程序到底是怎样工作的呢？蜘蛛是一种半自动的程序，就象现实当中的蜘蛛在它的Web（蜘蛛网）上旅行一样，蜘蛛程序也按照类似的方式在 Web 链接织成的网上旅行。蜘蛛程序之所以是半自动的，是因为它总是需要一个初始链接（出发点）

5、，但此后的运行情况就要由它自己决定了，蜘蛛程序会扫描起始页面包含的链接，然后访问这些链接指向的页面，再分析和追踪那些页面包含的链接。从理论上看，最终蜘蛛程序会访问到 Internet 上的每一个页面，因为 Internet 上几乎每一个页面总是被其他或多或少的页面引用。本文介绍如何用 C#语言构造一个蜘蛛程序，它能够把整个网站的内容下载到某个指定的目录，程序的运行界面如图一。你可以方便地利用本文提供的几个核心类构造出自己的蜘蛛程序。 C# 特别适合于构造蜘蛛程序，这是因为它已经内置了 HTTP 访问和多线程的能力，而这两种能力对于蜘蛛程序来说都是非常关键的。下面是构造一个蜘蛛程序要解决的关

6、键问题： HTML 分析：需要某种 HTML 解析器来分析蜘蛛程序遇到的每一个页面。页面处理：需要处理每一个下载得到的页面。下载得到的内容可能要保存到磁盘，或者进一步分析处理。多线程：只有拥有多线程能力，蜘蛛程序才能真正做到高效。确定何时完成：不要小看这个问题，确定任务是否已经完成并不简单，尤其是在多线程环境下。一、HTML 解析 C# 语言本身不包含解析 HTML 的能力，但支持 XML 解析；不过，XML 有着严格的语法，为 XML 设计的解析器对 HTML 来说根本没用，因为 HTML 的语法要宽松得多。为此，我们需要自己设计一个 HTML 解析器。本文提供的解析器是高度独立的，

7、你可以方便地将它用于其它用 C#处理 HTML 的场合。本文提供的 HTML 解析器由 ParseHTML 类实现，使用非常方便：首先创建该类的一个实例，然后将它的 Source 属性设置为要解析的 HTML 文档： ParseHTML parse = new ParseHTML();parse.Source = Hello World;接下来就可以利用循环来检查 HTML 文档包含的所有文本和标记。通常，检查过程可以从一个测试 Eof 方法的 while 循环开始： while(!parse.Eof()char ch = parse.Parse();Parse 方法将返回 HTML 文档包

8、含的字符-它返回的内容只包含那些非 HTML 标记的字符，如果遇到了 HTML 标记，Parse 方法将返回 0 值，表示现在遇到了一个 HTML 标记。遇到一个标记之后，我们可以用 GetTag()方法来处理它。 if(ch=0)HTMLTag tag = parse.GetTag();一般地，蜘蛛程序最重要的任务之一就是找出各个 HREF 属性，这可以借助 C#的索引功能完成。例如，下面的代码将提取出 HREF属性的值（如果存在的话）。 Attribute href = tagHREF;string link = href.Value;获得 Attribute 对象之后，通过 Attri

9、bute.Value 可以得到该属性的值。二、处理 HTML 页面下面来看看如何处理 HTML 页面。首先要做的当然是下载HTML 页面，这可以通过 C#提供的 HttpWebRequest 类实现： HttpWebRequest request = (HttpWebRequest)WebRequest.Create(m_uri);response = request.GetResponse();stream = response.GetResponseStream();接下来我们就从 request 创建一个 stream 流。在执行其他处理之前，我们要先确定该文件是二进制文件还是文本文

10、件，不同的文件类型处理方式也不同。下面的代码确定该文件是否为二进制文件。 if( !response.ContentType.ToLower().StartsWith(text/) )SaveBinaryFile(response);return null;string buffer = ,line;如果该文件不是文本文件，我们将它作为二进制文件读入。如果是文本文件，首先从 stream 创建一个 StreamReader，然后将文本文件的内容一行一行加入缓冲区。 reader = new StreamReader(stream);while( (line = reader.ReadLine(

11、)!=null )buffer+=line+rn;装入整个文件之后，接着就要把它保存为文本文件。 SaveTextFile(buffer);下面来看看这两类不同文件的存储方式。二进制文件的内容类型声明不以text/开头，蜘蛛程序直接把二进制文件保存到磁盘，不必进行额外的处理，这是因为二进制文件不包含 HTML，因此也不会再有需要蜘蛛程序处理的 HTML 链接。下面是写入二进制文件的步骤。首先准备一个缓冲区临时地保存二进制文件的内容。 byte buffer = new byte1024;接下来要确定文件保存到本地的路径和名称。如果要把一个网站的内容下载到本地的 c:test 文件夹，二进

12、制文件的网上路径和名称是 http:/ c:testimageslogo.gif。与此同时，我们还要确保 c:test目录下已经创建了 images 子目录。这部分任务由 convertFilename 方法完成。 string filename = convertFilename( response.ResponseUri );convertFilename 方法分离 HTTP 地址，创建相应的目录结构。确定了输出文件的名字和路径之后就可以打开读取 Web 页面的输入流、写入本地文件Stream outStream = File.Create( filename );Stream inStr

13、eam = response.GetResponseStream();接下来就可以读取 Web 文件的内容并写入到本地文件，这可以通过一个循环方便地完成。 int l;dol = inStream.Read(buffer,0,buffer.Length);if(l0)outStream.Write(buffer,0,l);while(l0);写入整个文件之后，关闭输入流、输出流。 outStream.Close();inStream.Close();比较而言，下载文本文件更容易一些。文本文件的内容类型总是以text/开头。假设文件已被下载并保存到了一个字符串，这个字符串可以用来分析网页包含的链

14、接，当然也可以保存为磁盘上的文件。下面代码的任务就是保存文本文件。 string filename = convertFilename( m_uri );StreamWriter outStream = new StreamWriter( filename );outStream.Write(buffer);outStream.Close();在这里，我们首先打开一个文件输出流，然后将缓冲区的内容写入流，最后关闭文件。三、多线程多线程使得计算机看起来就象能够同时执行一个以上的操作，不过，除非计算机包含多个处理器，否则，所谓的同时执行多个操作仅仅是一种模拟出来的效果-靠计算机在多个线程之间快

15、速切换达到同时执行多个操作的效果。一般而言，只有在两种情况下多线程才能事实上提高程序运行的速度。第一种情况是计算机拥有多个处理器，第二种情况是程序经常要等待某个外部事件。对于蜘蛛程序来说，第二种情况正是它的典型特征之一，它每发出一个 URL 请求，总是要等待文件下载完毕，然后再请求下一个URL。如果蜘蛛程序能够同时请求多个 URL，显然能够有效地减少总下载时间。为此，我们用 DocumentWorker 类封装所有下载一个 URL 的操作。每当一个 DocumentWorker 的实例被创建，它就进入循环，等待下一个要处理的 URL。下面是 DocumentWorker 的主循环： whi

16、le(!m_spider.Quit )m_uri = m_spider.ObtainWork();m_spider.SpiderDone.WorkerBegin();string page = GetPage();if(page!=null)ProcessPage(page);m_spider.SpiderDone.WorkerEnd();这个循环将一直运行，直至 Quit 标记被设置成了 true（当用户点击Cancel 按钮时， Quit 标记就被设置成 true）。在循环之内，我们调用 ObtainWork 获取一个 URL。ObtainWork 将一直等待，直到有一个 URL 可用-这要由其他线程解析文档并寻找链接才能获得。D

展开阅读全文

如何用C sharp语言构造网络蜘蛛程序

最新文档