基于属性值和上下文的开放数据相同属性识别

资源描述

《基于属性值和上下文的开放数据相同属性识别》由会员分享，可在线阅读，更多相关《基于属性值和上下文的开放数据相同属性识别（9页珍藏版）》请在金锄头文库上搜索。

1、基于属性值和上下文的开放数据相同属性识别赵龙文黄跃萍华南理工大学经济与贸易学院摘要：目的/意义对于数据的开放共享和关联数据中的关联发现, 相同语义的属性识别能够帮助解决其面临的词汇异构和多源数据语义理解问题。方法/过程在以往单一方法的基础上, 改进和提出综合属性值和上下文的开放数据相同属性识别方法, 并针对政府开放数据进行了实验。结果/结论结果表明, 该方法能提高单一方法识别的准确率, 具有可行性。关键词：属性识别; 属性值; 上下文; 政府开放数据; 作者简介：赵龙文, 男, 博士, 副教授。作者简介：黄跃萍, 女, 硕士生。基金：国家社会科学基金项目“基于关联数据的政府数据开

2、放研究”的成果, 项目编号:14BTQ009Identification of the Same Attributes in Open Data Based on Attribute Values and ContextAbstract： Purpose/significance The identification of same attributes can help to solve the problems of vocabulary heterogeneous and multi-source data semantic understanding for open and shar

3、ing data or link discovery in web of data. Method/processThis paper proposes a method to identify same attributes of open data by integrating attribute values and context. Furthermore, an experiment is carried out with open government data. Result/conclusion Results show that the method is feasible

4、and can improve the accuracy compared with methods which consider only attribute values or context.Keyword： attribute identification; attribute values; context; open government data; 大数据时代, 数据资源在经济和社会发展中占据了非常重要的地位, 影响着各个行业的运行和发展。政府作为最大的数据资源占有者, 管理着能源、交通、医疗、农业等各个行业的数据。政府数据的开放既是民众的诉求, 也是为了促进经济和社会的发展1-

5、2。随着政府数据开放不断深入, 开放数据规模不断增大, 越来越多的研究聚焦于数据集的质量和可用性, 而属性异构就是影响开放数据质量和可用性的一个重要问题。开放数据集的属性异构是指在描述不同数据集中的相同属性时采用了不同的属性名称, 从本质上说, 这些属性名称表达的含义相似甚至相同, 但系统并未识别出有这种特征的属性, 也未对这些属性名之间建立关系映射, 导致机器和人难以正确理解数据含义。这个问题的出现主要因为管理机构不可能建立覆盖所有领域的通用属性词汇标准, 所以发布者需要自己创建一些词汇作为属性名弥补空缺, 而不同发布者的使用习惯 (词语选择、表达顺序、度量单位等) 具有差异, 因此导致属性

6、异构。它会直接影响数据的语义和机器的理解, 阻碍数据的集成和利用。要消除属性异构的问题, 应该遵循这 3 个环节: (1) 自动识别开放数据中的异构属性; (2) 对这些异构属性创建关联映射; (3) 将映射以关联数据的形式发布, 便于用户有效获取这种映射信息。第一个环节既是重点也是难点, 以人工建立规则或属性值、元数据等单一方法识别相同属性具有一定的局限性, 结合自然语言处理与统计的方法对于自动发现相同属性是比较有效的。因此, 本文在政府开放数据的背景下, 研究其中的相同属性识别方法, 为这类问题的解决提供理论与实践参考, 帮助政府开放数据的组织和管理。1 研究综述学者们在属性异构问题上主要

7、有两类解决思路, 即发现关联和关联映射。发现关联即利用自然语言处理、机器学习、关联工具开发等识别相同的属性。关联映射即通过创建属性或者词汇之间的映射规则, 例如文献3-4, 这种方法需要人工建立规则或者在属性识别的基础上进行。下面主要探讨相同属性识别的方法, 如表 1 所示。利用属性名称进行匹配的方法存在很大的噪音, 它对于不同名称而含义相同的属性无法识别, 因此准确率会受到很大的影响。基于数据表模式信息或者属性描述的元数据信息识别的方法主要缺点是难以准确量化各个元素的权重, 也很难识别属性之间抽象上的异构 (具有相同元数据描述信息的不同属性) , 另外, 如果相同属性采用不同元数据进行描述时

8、它也无法识别出来。利用属性的值以及属性域匹配相同属性容易受到噪声数据的影响, 即该方法的稳定性和容错性不好。此外, 文献13中也指出域关系的判断是很麻烦和耗费时间的。利用数据表的模式信息和属性值的统计量 (标准差、最大值和最小值等) 匹配相同属性, 在实际应用取得了一定的效果, 但是神经网络本身存在学习效率低、过拟合等问题, 因此该方法的通用性不是很好。利用属性的模式信息和具体的属性值进行相同属性识别, 一定程度上解决了具有相同模式而含义不同的属性识别错误的问题。但是, 它无法识别在属性值取值上采用不同数据类型 (例如数值型和字符串型) 的相同属性。基于上下文的识别方法可以发现各种不规范的相同

9、属性, 但是它需要一个很大的语料库才能保证结果的可信度, 而且语料库获取和处理难度大。表 1 识别相同属性的各种方法下载原表综上所述, 国内外在相同属性识别上主要从属性名称、表模式 (或描述属性的元数据) 、属性值、上下文等方面识别, 使用单一方法时容易受语料库、数据稀疏性、噪声数据等方面影响。因此, 本文借鉴和改进以往相同属性识别方法, 针对政府开放数据的异构属性特点提出一种有效的相同属性识别方法。2 相同属性识别方法根据相同属性具有内容相似性和相同上下文的特点, 提出相同属性识别的综合方法: (1) 根据各属性的属性值生成空间向量, 计算属性相似度; (2) 提取属性的上下文, 计算具

10、有相同上下文的不同属性之间的相似度。最后结合两个方面得到属性之间的综合相似度, 根据值的大小发现相同属性。2.1 基于属性值的属性相似度文献14将属性类型分为 3 种, 分别是数值、字符串和稀有性, 属性的匹配仅在相同类型的属性之间进行。而开放数据中属性类型主要有数值型和字符串型两类, 此外还有部分的日期型属性。由于开放数据无法直接获取数据集中的模式信息, 因此本文根据部分属性值的内容判断属性的类型。数值型属性之间的相似度是指对应属性值在欧式空间的接近或相邻程度15。字符串型属性之间相似度则与对应属性值中的内容相似度有关。日期型属性不参与属性值相似度的计算。因此, 不同属性类型采用的相似度计算

11、方法有差别, 如表 2 所示。数值型属性可以根据距离计算相似度。字符串型属性则需要通过分词、向量空间模型等步骤进行计算属性之间的相似度。下面主要介绍字符串型属性相似度的计算方法。表 2 政府开放数据中的两种属性类型下载原表这个方法需要收集一定量的数据集, 提取每个数据表中所有属性对应内容 (即属性值) , 各属性值可以看作为短文本, 类似文本处理过程, 必须经过数据预处理才能进行下一步的属性相似度计算。其基本步骤如图 1 所示。图 1 属性相似度计算流程下载原图1) 数据采集。采集一定的数据集作为实验数据, 读取各属性对应的属性值。这里主要处理字符串型的属性。2) 数据预处理。对于每个数

12、据集, 提取各属性的所有属性值, 将这些属性值合并, 并进行文本分词、去除停用词等处理。3) 属性相似度计算。利用 TF-IDF 计算特征词权重, 将各特征项和权重表示为空间向量, 对各个属性对计算其对应的空间向量的夹角余弦值。4) 判断属性对是否为相同属性, 检验算法的准确性。2.2 基于上下文的属性相似度文档中词汇共现是指, 如果一个词语在它的上下文或者某个固定的内容窗口中出现时经常搭配和伴随其他词语一起出现, 那么该词汇与它的搭配词汇之间很可能具有一定程度的语义关联16。这种方法的基本假设和规则是:相同或者相似词汇经常在相同上下文或同一个内容窗口中一起出现, 而这些频繁一同出现的词语很可

13、能为相同或者相关词。对于相同属性的识别也可以采用类似的思想, 根据相同属性经常出现在相同的上下文中, 本文加入上下文综合识别。上下文在文本中可以取为几个词语、若干句子、段落、文档, 等等, 对于结构化的开放数据, 属性只会出现在第一行, 因此, 本文以第一行作为上下文窗口, 它表示一个属性集合或者模式。通过对收集的部分开放数据集进行分析, 发现相同 (异构) 属性必须满足以下 3 个条件:1) p (a, b) =0。具有相同语义的属性 a 和属性 b 不会出现在同一个模式中, 因为在一个数据表里重复相同的属性是没有意义的。也就是说, 相同含义的两个属性不会出现在同一个上下文, 同一个上下文一

14、起出现的这些属性对很可能是相关属性, 而非相同属性。2) p (a) p (b) 的概率高, 属性 a 和 b 为相同属性的可能性和可信度高。在满足 p (a, b) =0 的情况下, 如果两个属性为相同属性, 则它们必须较高频率地与相同上下文属性一起出现, 因此两个属性的概率乘积也较高。3) 两个相同属性很可能出现在相同的上下文, 且出现频率相对接近。对于属性a, b, 上下文属性 C 和 Z, 其中 C 为算法输入, 而 Z 为与 a 或 b 一同出现在相同数据表中的其他属性, Z 和 C 为不同属性, 则它们满足以下条件:p (z|a, C) 与 p (z|b, C) 近似相等。基于以上

15、 3 个条件, 属性之间的语义相似度可以表示为:根据公式 (1) , a 和 b 的语义相似度随着分子的提高而提高, 即在 p (a, b) =0 的情况下, p (a) p (b) 越大, syn (a, b) 越大。同样, 当 a 和 b 都频繁地出现在相同上下文中会使分母变小, 从而 syn (a, b) 较大。从理论上说, 在大规模数据集中, 根据相同属性经常一起出现在相同上下文这一原理, 能较准确地识别出来一些相同属性对, 即便它们的内容存在较少的相似度, 或者属性值采用了不同的数据类型。算法如下所示。2.3 相同属性识别的综合方法开放数据集中, 其属性同一性识别不仅要考虑属性内容,

16、还要根据属性的上下文判断。用两者的综合方法可以减少识别错误, 提高相同属性识别的准确性。属性综合相似度计算流程为:步骤 1:获取开放数据集作为相同属性识别的语料库。步骤 2:数据预处理 (数据格式、属性值) , 统计不重复属性个数 N。步骤 3:基于属性值计算 N 个属性中两两之间相似度 sim (D1, D2) , 将相似度阈值高于 0.02 的属性对存储到一个文件中 (file1) 。步骤 4:将这 N 个属性出现频率1 的属性作为上下文属性集合, 遍历该集合中的每个元素作为上下文属性 C 输入, 阈值设为 0.001, 筛选与 C 共同出现过的所有属性组成集合为 A。步骤 5:对于 A 中的属性, 根据前述算法计算两两属性之间的语义相似度 syn (a, b) 。选取这两个属性在不同上下文属性中的最大相似度, 并将高于一定阈值的属性对存入文件 (file2) 。步骤 6:采用最大最小值法将 sim (D1, D2) 和 syn (a, b) 归一化。因为0sim (

展开阅读全文