网络信息数据的处理方法及装置的制作方法

资源描述

《网络信息数据的处理方法及装置的制作方法》由会员分享，可在线阅读，更多相关《网络信息数据的处理方法及装置的制作方法（7页珍藏版）》请在金锄头文库上搜索。

1、网络信息数据的处理方法及装置的制作方法专利名称：网络信息数据的处理方法及装置的制作方法技术领域：本发明涉及计算机技术领域，特别涉及一种网络信息数据的处理方法和装置。背景技术：随着信息化进程不断加快，诸如微博类媒体的迅猛发展，网络用户的阅读需求越来越高，网上的信息成几何级数增长。人们迫切需要一个内容聚合平台，能让他们看到更新、更好、更有针对性的信息。例如，目前有许多电子杂志，都是对各类网络信息例如微博、RSS等进行聚合，聚合方式多种多样。例如通过API接口采集数据、将数据分类到不同的频道等。大多数电子杂志类客户端、网站在聚合和筛选两个方面都不完善。例如，在聚合阶段，根据内容的某个维度聚合(如作者

2、)，这样聚合出的内容往往不能保证内容的一致性(比如一个作者可能会同时发布不同类型的内容)。又例如，在筛选阶段，使用内容的评论数，转发数，发表日期作为评判内容质量的标准。这样做有时并不会筛选出优质的内容。另外，如果聚合阶段和筛选阶段的问题同时发生，最终的结果产生的误差可能更大。这样，有效利用有限的带宽资源使用户高效地获取其需要的信息成为业界亟需解决的问题。发明内容本发明实施例提供一种网络信息数据的处理方法和装置，以改善用户体验。其中，本发明实施例提供一种网络信息数据的处理方法，其中，被处理的每条信息数据包括关于该信息相关内容的一项或多项信息项目，该方法包括针对各预定分类采集多条初始信息数据，从初

3、始信息数据中获取分别与每个预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目，并获取对应于分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据；采集待分类信息数据；将分类项目中包含与分类项目对应的关键词的待分类信息数据归类到相应的预定分类中；按照预定分类发布信息数据。在一个实施例中，从初始信息数据中获取分类项目及关键词的步骤包括从初始信息数据中筛选符合预定分类的信息数据；针对各预定分类的初始信息数据的每个信息项目应用分词技术获取多个词组；在每个信息项目中分别统计该多个词组在初始信息数据中的出现频率；根据统计结果选取分类项目及关键词。在一个实施

4、例中，根据统计结果选取分类项目及关键词的步骤包括在每个信息项目中计算所有词组出现频率的中位数；选取预定数量的出现频率高于中位数的词组作为关键词，并选取包含出现频率高于中位数的词组的一项或多项信息项目为分类项目。在一个实施例中，根据统计结果选取分类项目获取关键词的步骤包括计算每个信息项目中多个词组中每一个词组的出现频率与该信息项目中所拆分出的全部词组的数目的比值；将多个信息项目中的全部词组按照比值排序；选取比值排序位于前预定数目的词组对应的一项或多项信息项目为分类项目，选取该一个或多个词组作为关键词。在一个实施例中，被处理的每条信息数据包括反映信息数据的发布及状态的一个或多个信息参数，网络信息数

5、据处理方法还包括根据预定分类中各项信息参数的预定权重对各预定分类中的每条信息数据进行排序。在一个实施例中，根据预定分类中各项信息参数的预定权重对各预定分类中的每条信息数据进行排序的步骤包括根据文本内容、评论、转发、图片和发布时间中的一个或多个的预定权重为各预定分类中的信息数据评分；根据评分对数据进行排序。在一个实施例中，网络信息数据处理方法还包括过滤掉排序后的数据中重复的数据的步骤，该步骤包括提取数据中的图片；将图片转换为直方图，并计算每两张直方图的相似系数；若该相似系数大于预定阈值，则删除两张直方图对应的两条信息数据中排序靠后的信息数据。本发明实施例还提供一种网络信息数据的处理装置，其中，被

6、网络信息数据处理装置处理的每条信息数据包括关于该信息相关内容的一项或多项信息项目包括该网络信息数据处理装置包括分类项目及关键词获取模块，用于针对各预定分类采集多条初始信息数据，从初始信息数据中获取分别与每个预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目，并获取对应于分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据；采集模块，用于待分类信息数据；分类模块，用于将分类项目中包含与分类项目对应的关键词的待分类信息数据归类到相应的预定分类中；发布模块，按照预定分类发布信息数据。在一个实施例中，分类项目及关键词获取模块包括初筛单元，用于从初始信息

7、数据中筛选符合预定分类的信息数据；分词单元，用于针对各预定分类的初始信息数据的每个信息项目应用分词技术获取多个词组；统计单元，用于在每个信息项目中分别统计该多个词组在初始信息数据中的出现频率；选取单元，用于根据统计结果选取分类项目及关键在一个实施例中，选取单元包括第一计算子单元，用于在每个信息项目中计算所有词组出现频率的中位数；第一分类项目及关键词选取子单元，用于选取预定数量的出现频率高于中位数的词组作为关键词，并选取包含出现频率高于中位数的词组的一项或多项信息项目为分类项目。在一个实施例中，选取单元包括第二计算子单元，用于计算每个信息项目中多个词组中每一个词组的出现频率与该信息项目中所拆分出

8、的全部词组的数目的比值；排序子单元，用于将多个信息项目中的全部词组按照比值排序；第二分类项目及关键词选取子单元，用于选取包含比值最高的词组的一项信息项目为分类项目，选取词组作为关键词。在一个实施例中，被处理的每条信息数据包括反映信息数据的发布及状态的一个或多个信息参数，网络信息数据处理装置还包括排序模块，用于根据预定分类中各项信息参数的预定权重对各预定分类中的每条信息数据进行排序。在一个实施例中，排序模块包括评分单元，用于根据文本、评论、转发、图片和发布时间中的一个或多个的预定权重为各分类中的数据评分；排序单元，用于根据评分对数据进行排序。在一个实施例中，网络信息数据处理装置还包括过滤模块，用

9、于过滤掉处理后的数据中重复的数据，过滤模块包括图片提取单元，用于提取数据中的图片；计算单元，用于将图片转换为直方图，并计算每两张直方图的相似系数；删除单元，若该相似系数大于预6定阈值，用于删除两张直方图对应的两条信息数据中排序靠后的信息数据。本发明实施例的有益效果在于，通过以上技术方案中对数据的采集、准确分类和排序，能够有效利用有限的带宽资源进而使用户高效地获取其需要的信息。此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中图I是根据本发明实施例的应用场景的示意图2是根据本发明实施例的网络信息数据处理方法的流程图3是根据本发明另一实施例的网络信息

10、数据处理方法的流程图4是根据本发明实施例的获取关键词的方法的流程图5是根据本发明实施例的对数据进行分类的示意图6是根据本发明实施例的对数据进行排序的方法的流程图7是根据本发明实施例的网络信息数据处理装置的结构示意图8是根据本发明实施例的分类项目及关键词获取模块的结构示意图9是根据本发明另一实施例的网络信息数据处理装置的结构示意图10是是根据本发明又一实施例的网络信息数据处理装置的结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例作进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。现在将参考附图进一步详细描述

11、本发明。本发明可以许多不同的形式来实现，不应该被理解为仅限于此处所阐述的实施例。这些实施例只作为示例提供，以便为本领域技术人员提供对本发明的完全理解。图I是根据本发明实施例的应用场景的示意图。在图I的场景中可以包括数据采集服务器102、数据存储服务器104、数据聚合服务器106、数据发布平台108。其中，数据采集服务器102可以用于以预定周期采集各种网络信息数据，并将采集到的数据存储于数据存储服务器104中。一条网络信息数据可包含一项或多项信息项目及一项或多项信息参数。其中，信息项目包括但不限于正文文本、评论文本、用户分组等。信息参数包括但不限于转发数、评论数、信息数据发表时间等。数据聚合服

12、务器106可以用于对采集到的数据进行聚合。例如，从初始采集的数据中获取与预定分类相对应的分类项目及关键词，将属于分类项目的信息项目中包含有关键词的信息数据归类到相应的预定分类中。在一个实施例中，可以根据该条信息数据包含的文本内容及信息参数，按照该预定分类对文本内容及各项信息参数的预定权重对各分类中的数据分别进行排序。预定分类例如笑话频道、科技频道、星座频道等。在一个实施例中，数据聚合服务器106还可以对排序后的数据进行过滤，删除重复的数据。数据发布平台 108可以用于发布经处理的数据。根据本发明的实施例，上述各服务器可以是单独的服务器也可以是包括多台服务器的群组。图2是根据本发明实施例的网络信

13、息数据处理方法200的流程图。其中，被处理的每条信息数据包括关于该信息相关内容的一项或多项信息项目，例如正文文本、评论文本、用户分组等。在步骤202中，针对各预定分类采集多条初始信息数据，从初始信息数据中获取分别与每个预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目，并获取对应于分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据。在步骤204中，采集待分类信息数据。在步骤206中，将分类项目中包含与分类项目对应的关键词的待分类信息数据归类到相应的预定分类中。在步骤208中，按照预定分类发布信息数据。图3是根据本发明另一实施例的网络信息数据处理

14、方法300的流程图。在步骤302中，从初始信息数据中获取分类项目及关键词。针对各预定分类采集多条初始信息数据，从初始信息数据中获取分别与每个预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目，并获取对应于分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据。其中，预定分类可以包括但不限于笑话、科技、星座等。在一个实施例中，获取分类项目及关键词的方法的具体步骤可以为如图4所示的各步骤。图4是根据本发明实施例的获取关键词的方法的流程图。在步骤401中，从初始信息数据中筛选符合预定分类的信息数据。在步骤402中，针对各预定分类的初始信息数据的每个信息项

15、目应用分词技术获取多个词组。可以获取预定数量的信息数据，该信息数据可以包括关于该信息相关内容的一项或多项信息项目，例如正文文本、评论文本、用户分组等。对这些信息数据中各信息项目应用分词技术，例如，对找到的数据信息中所有的正文或评论以词组为单位进行拆分。在一个实施例中，分词技术可以包括正向最大匹配算法、反向最大匹配法、最短路径分词法坐寸在步骤404中，在每个信息项目中分别统计该多个词组在初始信息数据中的出现频率。在步骤406中，根据统计结果选取分类项目及关键词。在一个实施例中，可以在每个信息项目中计算所有词组出现频率的中位数；选取预定数量的出现频率高于中位数的词组作为关键词，并选取包含出现频率高

16、于中位数的词组的一项或多项信息项目为分类项目。例如，针对笑话频道筛选的初始信息数据为100条笑话。分别针对上述100条笑话的评论、正文等信息项目对词组进行拆分，并在每个信息项目中，根据拆分出的多个词组统计各词组出现的频率。例如在信息项目评论中，统计拆分出的“好笑”、“偷笑”、“呵呵”等所有词组的出现频率。在信息项目“正文”中，统计拆分出的所有词组的出现频率。若在信息项目“评论”中，存在出现频率高于中位数的一个或多个词组，则将该信息项目选择为该预定分类的分类项目，将该一个或多个词组选取为关键词。例如，100条笑话的评论中，“好笑”和“偷笑”出现频率均为100次，大于评论中词组出现频率的中位数60次，则将评论选择为笑话类别的分类项目，将“好笑”和“偷笑”选择为关键词。如若同时，正文中“笑”的出现频率也大于本类别出现频率中位数，则正文也同时被选择为笑话类别的分类项目，“笑”被选择为该类别的分类关键词。在一个实施例中

展开阅读全文

网络信息数据的处理方法及装置的制作方法

最新文档