网络Flash爬虫搜索方法比较研究

上传人:ldj****22 文档编号:33437243 上传时间:2018-02-15 格式:DOC 页数:6 大小:27.50KB
返回 下载 相关 举报
网络Flash爬虫搜索方法比较研究_第1页
第1页 / 共6页
网络Flash爬虫搜索方法比较研究_第2页
第2页 / 共6页
网络Flash爬虫搜索方法比较研究_第3页
第3页 / 共6页
网络Flash爬虫搜索方法比较研究_第4页
第4页 / 共6页
网络Flash爬虫搜索方法比较研究_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《网络Flash爬虫搜索方法比较研究》由会员分享,可在线阅读,更多相关《网络Flash爬虫搜索方法比较研究(6页珍藏版)》请在金锄头文库上搜索。

1、网络 Flash 爬虫搜索方法比较研究Flash 资源以其生动、易于交互和制作简单等特点越来越受到人们的追捧。但是随着网络技术的快速发展,Flash资源在网络中的存在形式变得格外复杂,传统搜索引擎对网络 Flash 资源的获取不能到达令人满意的水平。作为搜索引擎的基础组成部分,网络爬虫的作用必须得到人们足够的重视,所以,改进网络爬虫的搜索方法越来越受到人们的重视。本文提出一种新的搜索方法,与传统爬虫的基本组成结构和搜索结果进行比较,验证新搜索方法的优势。 1 网络 Flash 资源的优点及存在形式 网络 Flash 资源的优点 1)Flash 动画通常比较短。因为只占有有限的网络带宽,通常是几

2、兆字节大小,Flash 动画平均时间比起传统动画会更短一些。 2)Flash 动画能够与观看者产生互动,满足观看者更多需求。观看者可以通过一定的操作来改变动画的播放进程,传统的动画并不具有这样的特性。 3)Flash 动画的制作相对传统动画更简易。Flash 动画制作爱好者能够相对比较容易地转变为制作者,他们只需要掌握一些与动画制作相关的软件就可以尝试制作 Flash动画。Flash 动画的制作需要在电脑上进行,Flash 制作软件需要的条件比较简单,对硬件要求也比较低,所以不需要较大的投入。 4)Flash 动画占用空间较小。Flash 动画可以使用矢量图形,所以使得文件所用空间较小;Fla

3、sh 动画完成后可以上传到网上,互联网用户可以欣赏和下载,能够以较快的速度在网络中传播,这样的联盟一个优点让 Flash 动画迅速在网络上风靡起来。用传统方法制作的一些动画,因为占用的空间比较大,在网络上传播起来就比较困难。 5)Flash 动画受制作者水平和技术等原因的限制。不可否认的是,互联网上的不少 Flash 动画还是比较粗糙、简单的,但是 Flash 动画的确有还在发展一些新的视觉效果,如三维效果,相信未来将有新的发展。它比起传统的动画来说更容易和智能,更符合大众口味。 6)Flash 动画大大减少人力、材料资源的消耗,存储方式更加方便,生产成本大大降低。与此同时,Flash 动画在

4、制作周期上相比传统动画也会大大减少,对于相同时长的动画,用 Flash 技术来制作所需要的时间将会大大缩短,而用传统方法制作通常花费的时间要更长一些。 网络 Flash 资源的存在形式 Flash 资源通常存放在Web 服务器中,往往以独立的文件形式存在。传统的方式包括两种。 第一种是嵌入到网页中作为网页组成的一部分。Flash 动画嵌入网页的方法很多,情况比较复杂,目前主要是利用标签、脚本、函数或对象将 Flash 资源嵌入网页,使用网页浏览器解析网页的 HTTP 标签和脚本,再用相应的形式显示、播放 Flash 动画。 第二种是通过网页中的锚文本链接。网页中用锚文本链接 Flash 动画很

5、简单,可以自由下载。然而,通过Java-Script 脚本展现的 Flash 动画资源作为一种丰富的存在形式,人们对它的研究还比较少。 网络爬虫的定义和工作原理 网络爬虫的定义 网络爬虫是搜索引擎系统结构中搜索器的俗称,又叫网络蜘蛛,是一个自动搜集网页的系统程序。它的功能是昼夜不停地在互联网中爬行,收集信息,通常从首页开始,读取网页信息,找到网页中的其他链接地址,继而找到下一个网页,再在新的网页中找到新的链接地址。这样循环往复,目的是把该网站的所有网页抓取完毕。它负责搜集新信息,更新旧信息。 网络爬虫的工作原理 当蜘蛛抓取网页,一般有两种信息收集策略。 1)以 URL 集合作为起始,沿着这些

6、URL,以宽度优先、深度优先,循环往复地在 Web 中收集信息。它沿着网页中的超链接爬行到其他网页,循环处理,并把搜集到的全部网页保存起来。这些起始 URL 通常是一些很正规且包含很多链接的站点。 2)网站空间根据域名、IP 地址等划分,每个网络蜘蛛负责一个子空间的穷举搜索。爬虫搜集多种多样的信息,包括网页文件,有的网络爬虫能够处理文档,甚至是数据库。爬虫将收集所有过滤字符格式的文档,从全文数据提取文本。每个文档都与全文文件有对应关系,包括标题、网页的 URL、大小、类型和其他属性以及文本内容。 网络爬虫面临的问题 截止 2016 年 1 月底,中国互联网上网页数量超过1500 亿个,静态网页

7、数占%,动态网页数占%,其中有大量页面是重复的,每个网页的字节数大约为 50 KB。关于网页数量和字节数的增长率,2016 年较之 2016 年增幅分别为%和%。动态网页的存在,客户端、服务器端脚本语言的使用,使得指向相同页面的 URL 数量出现爆炸式增长。 以上特征使得网络爬虫面临一定的困难:首先,海量的网页信息使得网络爬虫在有限的时间内只能爬行少量网页;其次,动态网页的一些技术原因使得网络爬虫无法爬行它们。仅在中国就存在如此之多的网页,假如考虑全世界的网页,那么,世界上是不存在能索引互联网上所有网页的搜索引擎的,即使可以抓取全部的页面,也没有充足的空间来容纳。 网络爬虫搜索方法比较 网络爬

8、虫的基本组成结构比较 基本组成结构比较如图 1、图 2 所示。网络爬虫的搜索结果比较 本实验选取的是含有 Flash 资源比较多且比较权威的 10 个网站作为种子网站,传统爬行器搜索到的 Flash 个数与带 JS 脚本文件搜索的爬行器搜索到的 Flash 个数分别在最后两列里面,如表 1 所示。 实验结果分析 本实验所用带 JS 脚本文件搜索的爬行器不但具备传统爬行器的功能,而且可以爬行网页中包含的 JS 脚本文件,将 JS 文件下载下来然后放到网页源文件的后面,再对整体进行 Flash 个数的统计。本实验分别用传统爬行器和带 JS 脚本文件搜索的爬行器对相同的 10 个网站进行爬行,爬行时

9、间为 24 小时,在爬行了 6626 个页面之后,带 JS 脚本文件搜索的爬行器搜索到的 Flash 个数比传统爬行器搜索到的 Flash 个数多了 4000 多个。这说明 JS 脚本文件里面也包含了许多 Flash 资源,能够让网络爬虫找到更多的 Flash 资源;同时,CSS 文件也可能包含 Flash 资源,假如对网页中包含的 CSS 文件进行搜索,也可以扩大搜索Flash 资源的范围。在查找别的网络资源时也可以用这种方法,如图片、视频等,本实验为找到并下载更多的 Flash 资源提供参考。 结束语 随着 Flash 制作技术的蓬勃发展,其在教育教学中的作用也日益突显,有的 Flash 资源可以直接应用于教学,有的对教学有潜在价值。网络的迅猛发展使 Flash 动画的发布与共享摆脱了时间、空间的限制,已成为获取这些资源的重要途径。另一方面,海量丰富和动态更新网络资源,使得人们越来越难找到需要的 Flash 动画资源。网络爬虫技术将被用于应对互联网上越来越多的 Flash 资源,在找到隐藏在网页中的 Flash 资源方面具有很大的应用价值,对建立数字化学习资源库有很大的价值。同时,面临的挑战也很大。本文下一步的工作是找到更多的 Flash 资源,再下载下来以供研究。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 社科论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号