网页分类方法及设备的制作方法

上传人:ting****789 文档编号:310049970 上传时间:2022-06-14 格式:DOCX 页数:9 大小:25.53KB
返回 下载 相关 举报
网页分类方法及设备的制作方法_第1页
第1页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《网页分类方法及设备的制作方法》由会员分享,可在线阅读,更多相关《网页分类方法及设备的制作方法(9页珍藏版)》请在金锄头文库上搜索。

1、网页分类方法及设备的制作方法专利名称:网页分类方法及设备的制作方法技术领域:本发明涉及信息处理技术,尤其涉及一种网页分类方法及设备,属于通信技术领域。背景技术:随着互联网飞速发展,网页数据量急剧增长,人们已经步入一个信息丰富的时代。面对杂乱的网页信息资源,人们需要对海量的网页信息进行分类整理,从而可以快速搜索到期望的目标以及相关的有用信息。网页自动分类提供了处理和组织大规模网页的关键技术,是使信息资源得以合理有效组织的重要方法。现有的网页分类方法,通常是通过提取网页正文的文本信息,对文本信息进行特征词选取,将所选取的特征词与已有的特征词库进行匹配,即获知各特征词出现在各种类 型的网页中的概率,

2、并利用统计学分类算法建立网页分类器,从而计算出网页类别。在实际应用中,由于网页中通常含有大量的图片信息、视频信息、广告信息以及外链信息等,对这些信息的过滤虽然有特定的规律可循,但还是在一定程度上影响了网页去噪后提取的文本内容,降低了网页分类准确率。发明内容针对现有技术中存在的缺陷,本发明提供一种网页分类方法及设备,实现了高准确率的网页分类。一方面,本发明提供一种网页分类方法,包括获取待分类网页的网页地址;根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,所述地址信息分类库中,存储有已知网页地址的地址前缀、地址后缀和/或子路径,与网页类别的映射关系;若查询获知存在与所述待分类网页的网页

3、地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类别,确定为所述待分类网页的类别。一方面,本发明提供一种网页分类设备,包括网页地址获取模块,用于获取待分类网页的网页地址;查询模块,用于根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,所述地址信息分类库中,存储有已知网页地址的地址前缀、地址后缀和/或子路径,与网页类别的映射关系;第一分类确定模块,用于若查询获知存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类别,确定为所述待分类网页的类别。根据本发明提供的网页分类方法

4、及设备,通过获取待分类网页的网页地址,根据所述待分类网页的网页地址,从预先获取的地址信息分类库查询获取与该网页地址的地址前缀、地址后缀和/或子路径对应的网页类别,并将所获取的网页类别作为待分类网页的类别。由于网址通常是由网络服务商根据网页内容设置的,因此直接根据网址来进行网页分类具有极高的准确率,避免了现有技术中基于提取网页正文的文本内容而进行网页分类时,由于文本内容提取不准确而导致的网页分类准确率低的问题。图I为本发明一个实施例的网页分类方法的流程示意图。图2为本发明另一个实施例的网页分类方法的流程示意图。图3为本发明实施例中根据检测文本对待分类网页进行分类的流程示意图。图4为本发明一个实施

5、例的网页分类设备的结构示意图。具体实施例方式实施例一本实施例的网页分类方法例如由网页分类装置来执行,该网页分类装置可以根据需要在网络中任意设置,其既可以根据针对某个指定网页进行分类的分类请求执行网页分类,也可以自动对批量待分类网页,逐个执行网页分类,本发明中不作限制。图I为本发明一个实施例的网页分类方法的流程示意图。如图I所示,该网页分类方法包括以下流程步骤101,获取待分类网页的网页地址;步骤102,根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,所述地址信息分类库中,存储有已知网页地址的地址前缀、地址后缀和/或子路径,与网页类别的映射关系;步骤103,若查询获知存在与所述待分类

6、网页的网页地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类别,确定为所述待分类网页的类别。具体地,网页分类装置获取当前待分类网页的统一资源定位符(UniversalResource Locator,URL) JRL是用于完整描述因特网(Internet)上网页和其他资源的地址的一种标识方法。Internet上的每一个网页都具有一个唯一的名称标识,通常称之为URL地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机。更多的是Internet上的站点,简单的说,URL就是网页的网页地址(Web地址),俗称“网址”。URL可以仅包括主路径,也可

7、以是主路径和子路径的结合。以一个包括主路径和子路径的URL为例,通常包括地址前缀、地址后缀、子路径(一级路径、二级路径等)和叶子。其中,地址前缀、地址后缀和子路径的命名一般是根据网页的内容来定义的,以一个具体的URL为例进行如下说明。例如,URLwww. sports, sina. com. cn/footbalI/china/xxx. I. htm,该 URL 对应的主路径为www. sports, sina. com. cn,其中,sports为地址前缀, com为地址后缀,football为一级路径、china为二级路径,xxx. I为叶子。网页分类装置通过预先对各类样本集进行训练获得并

8、存储有地址信息分类库,或者网页分类装置可以对存储有地址信息分类库的存储装置进行访问。例如预先对一定数量的作为样本的网页(例如为500-700个网页),根据其内容进行分类,可以分为军事、娱乐、商业和论坛等,并对每个类别的网页对应的URL进行统计,建立不同的地址前缀、地址后缀和/或子路径与网页类别的对应关系,即例如生成地址前缀分类库、地址后缀分类库和子路径分类库。表I为地址前缀分类库的一个列表。如表I所示,地址前缀分类库中例如包括以下信息项表I类别地址前缀类别地址前缀 新闻news论坛bbs 体育sports游戏game 军事mil,war科技tech 财经finance汽车auto 股票stoc

9、k小说book 在线视频 video教育edu博客bokee,blog 商业mall常见的URL的地址后缀及其含义例如为 com !Commercial organizations,商业组织,公司;. net Network operations and service centers,网络服务商;. org 0ther organizations,非盈利组织;. int :International organizations,国际组织; edu !Educational institutions (U. S),(美国)教研机构(教育);. gov Governmental entities

10、 (U. S),(美国)政府部门(政府组织); mil MiIitary (U. S),(美国)军事机构(军事);. arpa Come from ARPANet,由ARPANET(美国国防部高级研究计划局建立的计算机网)沿留的名称,被用于互联网内部功能;. biz web business guide,网络商务向导,适用于商业公司(注biz是business的习惯缩用)(商业);. info :infomation,提供信息服务的企业; name :name,适用于个人注册的通用顶级域名;. pro-professional,适用于医生、律师、会计师等专业人员的通用顶级域名;. coop !

11、cooperation,适用于商业合作社的专用顶级域名;. aero :aero,适用于航空运输业的专用顶级域名。由于其中多数地址后缀具有极为广泛的含义,使用相同地址后缀的不同网页可以属于多个具体类别,因此可以仅在地址后缀分类库中存储对应于具体领域的地址后缀和类别的对应关系。例如,对于.com后缀,其仅能表示该网页的服务提供商为商业组织或公司,而无法清楚限定网页内容所涉及的类别,因此在根据地址后缀分类时,不对其进行考虑;而对于.edu后缀,其对应于教研机构,采用该地址后缀的网页所涉及的内容通常为教育相关内容,所以其能够作为有效的地址后缀存储在地址后缀分类库中,其具体存储格式可以与表I相类似,故

12、此处不再赘述。此外,子路径分类库中也可以按照与表I相类似的方式,存储子路径和类别的对应关系,故此处不再赘述。网页分类装置按照预设的地址查询规则,根据当前待分类网页的前缀地址、后缀地址和/或子路径,对预先获取的地址信息分类库进行查询。其中,预设的地址查询规则例如为首先根据当前待分类网页的前缀地址,查询地址前缀分类库,若查询到与当前待分类网页的前缀地址匹配的网页类别,则将其作为当前待分类网页的类别,并停止后续查询;若未查询到与当前待分类网页的前缀地址匹配的网页类别,则根据当前待分类网页的后缀地址,查询地址后缀分类库,若查询到与当前待分类网页的后缀地址匹配的网页类别,则将其 作为当前待分类网页的类别

13、,并停止后续查询;若未查询到与当前待分类网页的前缀地址匹配的网页类别,则根据当前待分类网页的子路径,查询子路径分类库,若查询到与当前待分类网页的子路径匹配的网页类别,则将其作为当前待分类网页的类别。以待分类网页的 URL 为 www. sports, sina. com. cn/footbal I/china/xxx. I. htm 为例,首先根据地址前缀sports查询地址前缀分类库,查询获知地址前缀分类库中具有匹配的地址前缀“sports”,则获取地址前缀分类库中与该地址前缀对应的类别,该对应的类别为“体育”,则将待分类网页的类别确定为体育,并结束流程。其中,上述地址查询规则仅用作一个示例

14、,并非用作对本发明实施例的限制,采用任意其它地址查询规则均能够用于实现本发明实施例的技术方案,例如先根据子路径查询子路径分类库,并仅当未查询到与当前待分类网页的子路径匹配的网页类别时,再根据后缀地址和/或前缀地址来确定待分类网页的类别。根据本实施例的网页分类方法,通过获取待分类网页的网页地址,根据所述待分类网页的网页地址,从预先获取的地址信息分类库查询获取与该网页地址的地址前缀、地址后缀和/或子路径对应的网页类别,并将所获取的网页类别作为待分类网页的类别。由于网址通常是由网络服务商根据网页内容设置的,因此直接根据网址来进行网页分类具有极高的准确率,避免了现有技术中基于提取网页正文的文本内容而进

15、行网页分类时,由于文本内容提取不准确而导致的网页分类准确率低的问题。实施例二图2为本发明另一个实施例的网页分类方法的流程示意图。如图2所示,该网页分类方法包括以下流程步骤201,根据待分类网页的URL,对待分类网页进行分类;若成功实现分类,则结束网页分类流程;若未成功实现分类,则执行步骤202 ;其中,根据待分类网页的URL,对待分类网页进行分类的具体流程与上述实施例一相同,故此处不再赘述。并且,通过待分类网页的地址前缀、地址后缀、子路径的任意一个或多个,从地址信息分类库中查询到对应的类别,均可判定为成功实现分类,否则,判定为未成功实现分类。步骤202,提取待分类网页的主题文本和/或内容文本,

16、根据待分类网页的主题文本和/或内容文本,对待分类网页进行分类;若实现高准确率分类,则结束网页分类流程;若未实现高准确率分类,则执行步骤203 ;具体地,提取待分类网页的主题文本和/或内容文本,对主题文本和/或内容文本进行切词处理,获得多个分词,并将所获得的分词分别与预先获取的特征词库进行匹配,将特征词库中存在的分词作为主题文本和/或内容文本的特征词。利用主题文本和/或内容文本的特征词与特征词库,对待分类网页进行分类。其中,特征词库的获取方法、存储内容及形式例如与现有技术相同,即可以采用现有技术中的特征词库,本发明中不对特征词库进行限制。而且,利用主题文本和/或内容文本的特征词与特征词库,对待分类网页进行分类的具体方式也可以采用任意方式,本实施例中不对此进行限制,例如可以采用现有技术中,基于特征词库以及从待分类网页中提取出的文本,进行网页分类的流程。在完成网页分类后,根据分类结果,即所确定的待分类网页的类型,判断是否实现 高准确率分类,例如可以通过一定方式计算待分类网页属于分类结果对应的类别的概率

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号