网页图片过滤方法及系统的制作方法

上传人:ting****789 文档编号:310042637 上传时间:2022-06-14 格式:DOCX 页数:6 大小:21.85KB
返回 下载 相关 举报
网页图片过滤方法及系统的制作方法_第1页
第1页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《网页图片过滤方法及系统的制作方法》由会员分享,可在线阅读,更多相关《网页图片过滤方法及系统的制作方法(6页珍藏版)》请在金锄头文库上搜索。

1、网页图片过滤方法及系统的制作方法专利名称:网页图片过滤方法及系统的制作方法网页图片过滤方法及系统技术领域:本发明涉及网页解析技术,特别是涉及一种网页图片过滤方法及系统。背景技术:现有的网站大多为web网页,这此网页只能通过电脑正常访问和浏览,而在正常情况下,手机等移动终端只能访问wap(WirelessApplicationProtocol,无线通讯协议)网页。为充分利用现有的web网页资源,常常将适宜于电脑访问的web网页转换为适宜于移动终端访问的wap网页,以使得用户可通过手机等小屏幕移动终端方便地访问和浏览web网页中的主要内容。然而,在传统的web网页转换过程中,必须将web页面中的图

2、片下载下来,然后根据下载后的图片进行识别,以判断下载后的图片是垃圾图片还是主体图片,从而导致下载图片耗时过长,极大地消耗了网络带宽及处理器资源。发明内容基于此,本发明实施例提供一种网页图片过滤方法,其可解决现有技术中网络带宽消耗较大的问题。此外,还有必要提供一种可减少网络带宽消耗的网页图片过滤系统。一种网页图片过滤方法,包括以下步骤从网页上的图片中提取对应的图片特征;根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;从所述网页上下载未剔除的图片。优选地,所述图片特征包括样式信息,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是,则剔除所述垃圾图片的步骤为从所述

3、样式信息中得到所述图片的尺寸参数;判断所述图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则剔除所述垃圾图片。优选地,所述图片特征还包括图片文件名的信息摘要值,则所述根据所述图片特征判断所述图片是否为垃圾图片,若所述图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则剔除所述垃圾图片的步骤为判断所述图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若是,则按照所述图片的文件名计算信息摘要值;根据所述信息摘要值标记重复的图片;判断是否存在已标记的重复图片,若是存在已标记的重复图片,则剔除所述已标记的重复图片。优选地,所述图片特征包括图片数量,则所述根据所述

4、图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片的步骤为获取所述网页中的图片数量;判断所述图片数量是否大于数量阈值,若是大于数量阈值,则从所述网页中提取文件名结构相同且路径特征相同的图片;剔除所述文件名相同且路径特征相同的图片。优选地,所述图片特征包括图片的替换文本,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述剔除图片的步骤为以图片的替换文本为特征项计算对应的先验概率;根据所述先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体概率;将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除所述垃圾图片。优选地,所述图片特征包括

5、图片的绝对路径,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片的步骤为从所述图片的绝对路径中提取图片的文件名或路径特征;以图片的文件名或路径特征为特征项计算对应的先验概率;根据所述先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率;将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除所述垃圾图片。一种网页图片过滤系统,至少包括特征提取模块,用于逐一从网页上的图片中提取图片特征;过滤模块,用于根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;下载模块,用于从所述网页上下载未剔

6、除的图片。优选地,所述图片特征包括样式信息,所述过滤模块包括处理单元,用于从所述样式信息中得到所述图片的尺寸参数;判断单元,用于判断所述图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则通知剔除单元;剔除单元,用于剔除所述垃圾图片。优选地,所述图片特征还包括图片文件名的信息摘要值,所述判断单元进一步用于判断所述图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则按照所述图片的文件名计算信息摘要值,并根据所述信息摘要值标记重复的图片;所述判断单元还用于判断是否存在已标记的重复图片,若是存在已标记的重复图片,则通知所述剔

7、除单元;所述剔除单元进一步用于剔除所述已标记的重复图片。优选地,所述图片特征包括图片数量,所述过滤模块包括数量获取单元,用于获取所述网页中的图片数量;判断单元,用于判断所述图片数量是否大于数量阈值,若是大于数量阈值,则通知图片提取单元;图片提取单元,用于从所述网页中提取文件名结构相同且路径特征相同的图片;剔除单元,用于剔除所述文件名结构相同且路径特征相同的图片。优选地,所述图片特征包括图片的替换文本,所述过滤模块包括概率计算单元,用于以图片的替换文本为特征项计算对应的先验概率;分类单元,用于根据所述先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体图片概率;归一化单元,用于将

8、所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除单元,用于剔除所述垃圾图片。优选地,所述图片特征包括图片的绝对路径,所述过滤模块包括提取单元,用于从所述图片的绝对路径中提取图片的文件名或路径特征;概率计算单元,用于以图片的文件名或路径特征为特征项计算对应的先验概率;分类单元,用于根据所述先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率;归一化单元,用于将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除单元,用于剔除所述垃圾图片。上述网页图片过滤方法及系统中,先不进行网页中图片的下载,通过图片特征来识别网页中的图片是否是垃圾图

9、片,如果是垃圾图片就不再下载,从而有效地减少了网络带宽消耗,使得经由web网页转换过来的wap网页中不再出现垃圾图片,有效地降低了网页中的噪音。上述网页图片过滤方法及系统中,通过多种图片特征来层层过滤网页中的垃圾图片,实现了垃圾图片的精确识别,有效地提高了速度及效率。图1为一个实施例中网页图片过滤方法的流程图;图2为实施例一提供的根据图片特征判断图片是否为垃圾图片并剔除垃圾图片的方法流程图;图3为实施例二提供的根据图片特征判断图片是否为垃圾图片并剔除垃圾图片的方法流程图;图4为实施例三提供的网页图片过滤方法的流程图;图5为实施例四提供的网页图片过滤方法的流程图;图6为实施例五提供的网页图片过滤

10、方法的流程图;图7为一个实施例中网页图片过滤系统的详细模决图;图8实施例一提供的过滤模块的示意图;图9为实施例二提供的过滤模块的示意图;图10为实施例三提供的过滤模块的示意图;图11为实施例四提供的过滤模块的示意图。具体实施方式图1示出了一个实施例中网页图片过滤的方法流程,包括以下步骤在步骤SlO中,从网页上的图片中提取图片特征。本实施例中,图片特征包括了样式信息、图片数量、图片的替换文本以及图片的绝对路径中的至少一种。图片特征还可以包括图片文件名的信息摘要值。网页中的每一幅图片拥有其图片特征。在web网站转换成wap网站的过程中,需要对网页中的图片进行一一识别,该网页为web网页,对网页中的

11、图片逐一提取图片特征。在步骤S20中,根据图片特征判断图片是否为垃圾图片,若是垃圾图片,则进入步骤S30。本实施例中,网页中的图片分为主体图片和垃圾图片。主体图片指的是与网页中的正文相关的图片或者是正文中的图片。垃圾图片指的是与正文不相关或者正文外的图片。在wap网页中,识别出垃圾图片,从而将垃圾图片从wap网页中剔除,不予显示,以提高wap网页的速度和效率。在步骤S30中,剔除垃圾图片。本实施例中,将视为垃圾图片的图片剔除,使得用户所访问和浏览的wap网页中仅显示与正文相关的图片。在步骤S40中,从网页上下载未剔除的图片。本实施例中,在剔除垃圾图片后,从网页上下载未剔除的图片,以备用户访问或

12、浏览。由于已经剔除了垃圾图片,使得下载的图片大大减少,有效地降低了下载图片所消耗的时间及网络带宽。根据图片特征的不同,根据图片特征判断图片是否为垃圾图片,若是垃圾图片,则剔除图片的步骤也各不相同。图2为实施例一提供的根据图片特征判断图片是否为垃圾图片并剔除垃圾图片的方法流程,该实施例中,图片特征包括样式信息,该方法流程具体过程为在步骤S301中,从样式信息中得到图片的尺寸参数。本实施例中,样式信息为页面的CSS信息(CascadingStyleSieet,层叠样式表或级联样式表),所记录的内容有图片的宽度、高度、对齐方式、文字的大小以及文字的颜色等。从样式信息中提取出图片的尺寸参数,即图片的宽

13、度和高度。在步骤S302中,判断图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则进入步骤S303。本实施例中,通常小于垃圾阈值所记录的图片宽度及高度的图片就是垃圾图片。该垃圾图片是从众多的网页图片中统计出来的,例如,垃圾阈值可以是宽度为100mm,高度为50mm。当图片的尺寸参数小于垃圾阈值时,该图片是垃圾图片。在步骤S303中,剔除垃圾图片。图3示出了实施例二提供的根据图片特征判断图片是否为垃圾图片并剔除垃圾图片的方法流程,图片特征还包括图片文件的信息摘要值,在剔除尺寸参数小于垃圾阈值的图片之后还包括以下步骤在步骤S304中,判断图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺

14、寸参数失败,若图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则进入步骤S305。本实施例中,通常大于主体阈值所记录的图片宽度及高度的图片即为主体图片。该主体阈值也是从众多的网页图片中统计得到的,例如,主体阈值可以是宽度为200mm,高度为100mm。在步骤S305中,按照图片的文件名计算信息摘要值。信息摘要值唯一标识了图片,对于不同的图片,其信息摘要值是不同的,仅需要通过文件名计算得到对应图片的信息摘要值,可以有效地提高计算速度,减少网页过滤的时间。在优选的实施例中,信息摘要值为md5值。在步骤S306中,根据信息摘要值标记重复的图片。本实施例中,若存在着重复的图片,那么

15、对于重复的图片而言,信息摘要值是相同的,因此可以根据信息摘要值来准确地标记重复的图片。在步骤S307中,判断是否存在已标记的重复图片,若是存在已标记的重复图片,则进入步骤S307。本实施例中,如果存在着已标记的重复图片,则说明这些重复图片是垃圾图片。在步骤S308中,剔除已标记的重复图片。本实施例中,将已经标记了的重复图片剔除,在用户所访问或浏览的wap网页中不显示。图4示出了实施例三提供的网页图片过滤方法,该实施例中,图片特征包括图片数量,该方法流程具体过程如下在步骤S401中,获取网页中的图片数量。本实施例中,从网页中统计得到图片数量。在网页图片中,垃圾图片通常具有小图片、体积小的特点,因

16、此垃圾图片大都是gif图片或png图片。为提高过滤网页的速度及效率,可以仅仅统计gif(graphicsinterchangeformat,图像互换格式)图片禾口png(portablenetworkgraphicformat,、流式网络图形格式)图片的数量。图片数量指的是网页中所有图片的总量。在步骤S402中,判断图片数量是否大于数量阈值,若是大于数量阈值,则进入步骤S403。本实施例中,数量阈值是通过对众多的网页图片进行统计而得到的,例如数量阈值可以取30。如果网页中的图片数量大于数量阈值,则在这些图片中存在垃圾图片的可能性非常大。在步骤S403中,从网页中提取文件名结构相同且路径特征相同的图片。本实施例中,在网页中,每一图片都有对应的绝对路径,从绝对路径中提取出文件名及路径特征(path),从而得到文件名结构相同且路径特征相同的图片。图片的绝对路径指的是图片的URL(Uniform/UniversalResourceLocator,网页地址)。在图片的绝对路径中包含了主域、路径特征以及文件名,例如,一图片的绝对路径为http:/WWW.corp-e

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号