大数据融合研究-问题与挑战-孟小峰

资源描述

《大数据融合研究-问题与挑战-孟小峰》由会员分享，可在线阅读，更多相关《大数据融合研究-问题与挑战-孟小峰（15页珍藏版）》请在金锄头文库上搜索。

1、大数据融合研究：问题与挑战大数据融合研究：问题与挑战孟小峰杜治娟中国人民大学信息学院北京 100872 () Research on the Big Data Fusion : Issues and Challenges Meng Xiaofeng and Du Zhijuan School of Information, Renmin University of China, Beijing 100872 Abstract Data characteristics and realistic demands have changed because the large-scale

2、datas linked and crossover. The main features of the data are large scale, multi-source heterogeneous, cross domain, cross media, cross language, dynamic evolution and generalization, which is playing an important role. And the corresponding data storage, analysis and understanding are also facing a

3、 major challenge. The immediate problem to be solved is how to use the data association, cross and integration to achieve the maximization of the value of big data. Our paper believes that the key to solving this problem lies in the integration of data, so we put forward the concept of large data fu

4、sion. We use Web data, scientific data and business data fusion as a case to analyze the demand and necessity of data fusion, and proposed a new task of large data fusion, but also summarized and analyzed the existing fusion technology. Finally, we analyze the challenges that may be faced in the pro

5、cess of large data fusion and problems caused by large data fusion. Keywords big data, data integration, data fusion, knowledge fusion, data management 摘摘要要随着大规模数据的关联和交叉，数据特征和现实需求都发生了变化。以大规模、多源异构、跨领域、跨媒体、跨语言、动态演化、普适化为主要特征的数据发挥着更重要的作用，相应的数据存储、分析和理解也面临着重大挑战。当下亟待解决的问题是如何利用数据的关联、交叉和融合实现大数据的价值最大化。本文

6、认为解决这一问题的关键在于数据的融合，所以提出了大数据融合的概念。本文首先以 Web 数据、科学数据和商业数据的融合作为案例分析了大数据融合的需求和必要性，并提出了大数据融合的新任务。然后，总结分析了现有融合技术。最后针对大数据融合问题可能面临的挑战和大数据融合带来的问题进行了分析。关键词关键词大数据；数据集成；数据融合；知识融合；数据管理中图法分类号 TP391 近 20 年里，数据产生的方式不断在扩展，数据之间的关系变得千丝万缕，呈现出大规模数据关联、交叉和融合的局面1,2，数据出现了如下新的特征：（1）多元性：当下数据不仅是类型多样，更重要的是数据内容的“维度”多样

7、和知识范畴的“粒度” 多样，呈现出一种多元性。它体现了数据与知识之间的立体关系，而非单纯数据类型多样，与演化性成为当下大数据的精髓，是区别于大规模数据、海量数据、或早期 “大数据”（量大）的最显著特征。（2）演化性：是指数据随时间或解释的变化而变化的特性，体现了数据的动态性和知识的演化性。比如，实体的某些属性在不同时间点可能产生变化。这就要求合理建模演化行为，保证数据一致性。它与高速性共同构成了知识的动态演化性，更加贴切地体现出现实数据的本原性，而非单纯地强调速度。（3）真实性：主要由实体的同名异义表示和异名 - 23 - 同义表示以及关系的变化引起。这种现象普

8、遍存在，他们增加了理解的不确定性。真实性由演化性引起，反过来又为演化性提供了印证，只有知识得到印证才能使演化更新和融合更有意义。（5）普适性：是指在认知范围内可以达成共识关系的特征，比如， “老师”和“蜡烛”在神经元连接上具有普适性。这种普适性发现源于知识之间隐性关联的发现，它也比信息本身的增长更有价值。这是将大数据定位到知识层面的一个独特特征。这导致大数据集成的对象已经不单是数据，而是数据和知识的复合体，可以称之为“数据湖” （Data Lake），其内涵到底是什么呢？偶读了六十八年前费孝通乡土中国3，略有所悟。费老分析总结了中国乡土社会结构，指出中国社会呈现

9、出所谓的“差序格局” ，而西方社会呈现的是“团体格局” 。传统数据库结构关系单一，呈现状态犹如“团体格局” ，即以单个实体为本位，实体之间的关系好比一捆柴，几根成一把，几把成一扎，条理清楚，有共同的模式可循。而当下大数据来源广泛，关系复杂，远近亲疏各不同，这种关系就好比“差序格局” ，以语义主题为本位，每类实体都以自我为中心按照与其他实体的语义关系为主线结成网络，这个网络按照关系的语义紧密亲疏呈现“差序”状态，就如同湖面丢下的石子形成的水波纹依中心扩散开去。这种状态随着实体间关系的变化而动态演化，并且每个网络的大小不同，体现的语义关系也不同，蕴含的价值也不同。数据库的

10、“团体格局”本质上是先有模式后有数据，因此数据集成可以采用中介模式的方法（GAV、 LAV）以自顶向下的方式实现集成。数据湖的“差序格局”是先有数据后有模式，因此需要一种自底向上的方式以一种大数据融合的方法实现集成。大数据融合即建立数据间、信息间、知识片段间多维度、多粒度的关联关系，实现更多层面的知识交互，从而聚敛出数据湖中一个个维系我们社会的 “水波纹” （即语义关联的紧密程度）。本文首先分析了大数据融合的现实需求并提出大数据的问题，探讨了现有融合技术的发展现状，并给出大数据融合的理解，指出了大数据融合面临的挑战。 1 大数据融合的案例分析与问题大数据融合的案例分析与

11、问题大数据融合是最大程度发挥大数据价值的一种手段，它的实现可以使人类对世界的探索和认识向新的深度和广度拓展。它不同于传统的数据集成或知识库技术，需要大跨度、深层次和综合性的研究方法。下面我们通过几个不同领域的案例分析来具体探讨这一问题的本质。 1.1 公共安全领域大数据融合案例分析公共安全领域大数据融合案例分析公共安全领域的数据包括结构化数据和非结构数据。其中结构化数据包括人员信息（比如人员户籍库，重点人员库等），人员行为轨迹数据（比如飞机，火车出行数据等），车辆信息（比如车辆购买信息，违章信息等），电信数据（比如话单），等等。非结构化数据包括网页，卡口图片

12、，重点区域的视频监控录像，等等。它的主要应用场景是公安办案提供线索。这种数据比较复杂，规模也较大，如中国某省会城市一小部分数据构建成图，其顶点的个数和边的个数分别达到了十亿和百亿的规模。 1.1.1 实现原理实现原理目前采取的方案是基于超大规模复杂关联数据的管理理论建立超大规模的实体-关联图。图上的每个顶点代表自然界的一个客观对象，比如人员，物品，住所等等；图上的边表示实体之间的关系。如图 1 所示。 Type: Vehicle ID: $ plate number own Type: criminal Time: $Time of the incident own Ty

13、pe: own Start: $ Access network time own Type: travel together Time: $Time CC: $Hotels Live together Type: house ID: $ Property Certificate Numbe Type: own Start: $ Registration time Type: communicate Time: $ holding time Type: Phone ID: $ Mobile number Type: Person ID: $ ID Number Name: C Type: acc

14、ount ID: $ Card No Live together Type: Phone ID: $ Mobile number Type: Case ID: $ Case ID Fig.1 An example of data fusion in the public safety field. 图 1 公共安全领域数据融合实例这种方案总体上可以分为 4 步实现。首先是数据治理。需要把物理上相互隔离的多源异构数据通过数据治理整合到统一的数据平台，该过程是后面 3 步的前提和基础。目前在实际的工程实践中采用以人工为主的操作模式。其次是关系构建。这个过程需要自动地构建实体之间的显示关

15、系和隐式关系，并存储在图数据库。隐式关系的构建借助规则或机器学习。第三，可视化交互分析。系统提供强大的可视化交互分析工具帮助用户在超大规模图上做各种分析和关系推演和比对。最后，基于以上 3 步构建各警种的具体应用。 1.1.2 现实需求现实需求当下，在工程实际中公共安全领域数据融合系统还需要很大改观。首先，所需的数据割裂的分布在多个数据源中，且数据种类多样，需要把这些割裂的多源数据自动整合为一个统一的系统。其次，目前公共安全领域的系统绝大多数提供的服务属于事后研判 - 24 - 型，但是有些重大案件的破坏性非常大，事后再研判损失太大，急需能够做到事前预警的大数据技术和系

16、统。第三，嫌犯可能会在作案后更改姓名、手机号码、常驻地等，这样会造成数据的演化，需要识别这种演化，这对于破案记为重要。最后，所需数据规模超大，比如为了找到涉恐人员的蛛丝马迹，需要对整个互联网和电信网路进行监控和分析处理，这里需要处理的数据目前工业界所无法承受，需要控制融合的规模。 1.2 科学大数据融合案例分析科学大数据融合案例分析在科研领域，不仅需要数据本身，更需要与该数据有潜在密切关系的各种数据，并能够方便的分析这些数据。例如，在查看一个基因数据时，还能循着它去看基因组、蛋白质等相关的其他数据。为了实现这种融合，中国科学院生物学领域提出了数据融合管理与服务系统，目前包括 36 个不同的数据源的生物学数据，累计汇聚数据超过 40TB；并在此基础上选取了 8 个数据源的数据进行数据解析、转换和数据关联处理，转换得到的约 830 万个数据之间建立起了约 1.4 亿个关联关系。 1.2.1 实现原理实现原理该系统的实现原理如图 2 所示。 Full text retrieval RDF data

展开阅读全文