元数据分级索引算法饮水安全工程优秀论文.doc

资源描述

《元数据分级索引算法饮水安全工程优秀论文.doc》由会员分享，可在线阅读，更多相关《元数据分级索引算法饮水安全工程优秀论文.doc（12页珍藏版）》请在金锄头文库上搜索。

1、元数据分级索引算法饮水平安工程优秀论文元数据分级索引算法饮水平安工程优秀论文引言年张继红发表的海量交通平安数据的元数据管理研究等。现有的水利行业的元数据研究主要集中于水利元数据的应用，并没有涉及到饮水平安工程元数据。如年孟令奎等人发表的面向水文数据共享的水文核心元数据模型研究及应用，该文着重描绘水利元数据在水利共享平台中的应用；年冯钧等人发表的水利信息资元数据管理方法研究主要研究水利元数据的管理。本文利用水利行业现行的元数据标准作为参考，提出饮水平安工程核心元数据的概念，标准饮水平安工程元数据的定义，利用元数据分级索引算法来查找饮水平安工程数据，着重解决饮水平安工程数据种类多、数据标准化程度低

2、、关联复杂、数据量大的问题，进步农村饮水平安工程信息的规整性，加快检索速度。饮水平安工程数据的特点与一般的科学数据相比，饮水平安工程数据具备以下两个特点：地理分布性。作为根本数据，国家农村饮水平安工程数据库包括了国内各省直辖市、市州、县市、区、乡镇内供水水厂的集中式工程数据，包括工程建立信息、实时监测信息，遍布全国，因此饮水平安工程数据具备地理空间的分布特性。数据要素多。饮水平安工程数据包括了地图数据，供水工程专题数据，省、市州、县区、乡镇专题根底信息，水质、管压平安监测信息，政务信息等。而且每类数据又包括多种要素的数据，如供水工程专题数据包括专题地理信息和专题建立信息，监测数据包括余氯、浊度

3、、水压、流量等测量数据。整体来说，饮水平安工程数据是描绘饮水平安工程的数据，数据量大，且与日俱增，专业性强，具有时间维上的有效性，且数据区域性强，不同市县统计的数据不穿插，数据存储形式多样，以小文件居多。饮水平安工程核心元数据.元数据定义首先，介绍几个关于元数据的定义。元数据：关于数据的数据。元数据元素：元数据的根本单元，元数据元素在元数据实体中是唯一的。元数据实体：一组说明数据一样特性的元数据元素，元数据实体可以包含一个或一个以上的元数据实体。元数据子集：元数据的子集合，由相关的元数据实体和元素组成。数据集：可以标识的数据集合。通常在物理上可以是更大数据集较小的局部。从理论上讲，数据集可以小

4、到更大数据集内的单个要素或要素属性，一张硬拷贝地图或图表均可以被认为是一个数据集。饮水平安工程核心元数据指的是标识饮水平安工程信息所需要的最小元数据元素和元数据实体，为元数据元素集的子集。其次，本文采用类图方法描绘饮水平安工程信息元数据。在元数据构造上采用水利信息核心元数据的构造作为本标准的根本构造，在内容上对元数据的特征，包括子集实体名、元素名、英文名、英文缩写、定义、约束条件、出现次数、类型和值域进展详细描绘。.饮水平安工程核心元数据构造饮水平安工程元数据分为元数据元素、元数据实体和元数据子集三层。饮水平安工程核心元数据由一个元数据实体和四个元数据子集构成。其中，标识信息、数据质量为必选子

5、集，内容信息、参照系信息为可选子集。每个子集由假设干个实体类和元素类属性构成。.饮水平安核心元数据内容.饮水平安核心元数据信息饮水平安工程元数据信息实体描绘饮水平安工程信息的全部元数据信息，用必选实体元数据表示，由以下元数据实体和元数据元素构成：元数据实体：标识、数据质量、参照系、分发、内容描绘；元数据元素：元数据创立日期、联络单位、元数据名称、字符集、元数据使用的语言、元数据标准名称、元数据标准版本。.标识信息标识信息包含唯一标识数据的信息，用标识实体表示，是必选实体。标识是以下实体的聚集：【关键词】：p 、数据集限制、时间范围信息、联络单位或联络人、维护信息。标识实体本身包含如下元素：名称

6、、行政区编码、字符集、【摘要】：p 、日期、状况、数据表示方式。.数据质量信息数据质量信息包含对数据资质量的总体评价，用数据质量实体表示。应包括与数据消费有关的数据志信息的一般说明。数据质量实体包括两个条件必选的实体，数据质量说明和数据志。数据质量说明是数据集的总体质量信息。数据志是从数据到数据集当前状态的演变过程说明。包括数据信息实体和处理过程信息实体。.内容信息内容信息包含提供数据内容特征的描绘信息，用内容描绘实体表示。.空间参照系信息参照系信息包含对数据集使用的空间参照系的说明，是条件必选子集，用参照系实体表示。是关于地理空间数据集的坐标参考框架的描绘信息，它反映了现实世界的空间框架模型

7、化的过程和相关的描绘参数。参照系由三个条件必选的实体构成：基于地理标识的空间参照系、基于坐标的空间参照系、垂向坐标参照系。元数据分级索引算法本文根据饮水平安工程数据的区域性特点，选取分布式模型，改良目录子树分区算法和哈希算法，利用原理设计符合饮水平安工程信息的元数据分级索引算法。.概念与公式行政区划恳求量：表示该行政区划所需的农村饮水平安工程元数据的恳求量，用表示。由于恳求量的详细数值难以确定，工程元数据的恳求量与工程的数量有直接关系，而饮水工程的数量与行政区划的人口密度存在一定的换算关系。每个工程所涉及的文件包括招标文件、合同、工程规划、预算、管网图、厂区布置图、每年的运营报表等多种文件。因

8、此，第个行政区划的恳求量为：其中，代表第个行政区划的人口密度，表示饮水平安工程数量与人口密度的转换因子，代表每个工程文件的平均值。.根本思想元数据分级索引算法包括三局部：一局部是元数据恳求被分配到哪个普通节点上，第二局部是分配到节点的哪个目录，最后根据节点中的目录信息查找元数据文件在中的详细位置。本文采用与的存储位置对应表，来确定元数据文件在中的存储位置。的根本思想是使用一个比特的数组保存信息，初始状态时，整个数组的元素全部为，采用个独立的函数，将每个元数据文件对应到，的位置，当有饮水平安元数据文件存储恳求时，个独立的函数将以元数据标识信息中的元数据文件名为变量，得到个哈希值，然后将比特数组中

9、的相应位置更改为，即：其中，是元数据文件名。数组中的某一位置被置为后，只有第一次有效，以后再置为将不起作用。所示，假设，先通过哈希函数，将数组中的三个位置置为，在通过哈希函数得到的数组位置，将是的位置置为，已经是的位置那么不重复置。判断某元素是否属于这个集合，需对应用次哈希函数，假如所有的位置都是，那么就认为是集合中的元素，否那么就认为不是集合中的元素。如图所示，可能是集合中的元素，那么不属于这个集合。能高效地判断某个元素是否属于一个集合，但这种高效是有代价的，是存在一定的错误率，因为它有可能会把不属于这个集合的元素断定为属于此集合。为简化计算，假设并且各哈希函数完全随机。当某个目录中的所有元

10、数据文件全部存储，即所有元素都被哈希函数映射到比特数组中去，这个数组中某一位置是代表次哈希操作都没有被置为，因此概率为：其中第二次近似计算是因为：令代表比特数组中的比例，那么的数学期望，那么，因此：.元数据分级索引算法元数据分级索引算法包括三个步骤：一是选节点，二是选目录，三是分配存储位置。.选取节点分布式模型有一个主节点，一个主和个普通节点。其中，主是主的快照，防止单点失效。算法的根本思想如下：计算行政区划恳求数。在本文中所涉及的饮水平安工程指的是湖北省的农村饮水平安工程，因此在普通节点上分布的是以市级为单位的元数据信息。在这一步中，根据公式给每个市级行政区划的恳求赋值，用表示。分配节点。假

11、设为奇数，那么将其中一个节点作为备用节点，；假设为偶数，那么不变。分配节点，得出市级行政区划与节点映射表。第二次分组。将偶数个两两分成组，互为节点，分组的原那么为恳求量较大的节点与恳求量较小的节点一组。.选择目录分配完节点后，须设定每个节点的目录，根据市级行政区划与节点映射表设定一级目录。然后根据一级目录的编码，设定二级目录，二级目录为对应市及所管辖县级行政区划的目录。在饮水平安工程工程中，所涉及的数据类型分为图片类型、视频类型、文本类型等，所以将三级目录按文件类型进展划分，即每个二级目录下对应的三级目录为、等。.分配存储位置当用户要查找某个饮水平安元数据时，系统首先根据待查找元数据的行政区划

12、编码，从市级行政区划与节点映射表中找到其对应的节点；然后，主节点将用户恳求转发给此节点，收到转发的用户恳求的节点同样将行政区编码进展处理，转化为市级编码，找到其一级目录；然后在一级目录下，根据编码找到二级目录，再根据用户恳求的元数据类型，定位到三级目录，在三级目录下根据哈希表，找到对应存储位置并提交给主节点，由主节点返回给用户。饮水平安元数据检索结果分为两种情况，第一种是查找成功，第二种是查找失败。一次饮水平安元数据成功检索过程的检索时间包括主节点并发处理延迟、主节点找到对应的节点的时间、转发用户恳求与普通节点的通信时间、普通节点执行查找目录的时间、查找表读取元数据的时间和返回查找结果给主的时

13、间。一次失败的检索包含两种情况，一是定位到目录后，通过过滤后，断定要查找饮水平安工程元数据哈希表不属于该目录；二是通过过滤后，断定其属于该目录，但是通过查询表，发现匹配错误，即上文提到的自身的错误率。第一种情况，根据的原理，可知经过次独立的哈希函数后，假如得到的位置不是全为，那么返回查找失败，要查找的元数据恳求不在此目录中，时间复杂度为。第二种情况是自身的缺陷，但是由于有对应的表，即使经过次哈希操作得到的位置在比特数组中全为，通过查找对应的键值，假如发现元数据名称不能与之匹配，那么返回检索不成功，时间复杂度也为，在用户可以承受的范围内。实验结果本文通过实验仿真验证饮水平安工程元数据模型的元数据分级索引算法在元数据检索上的性计算机工程与科学，能，并与目录子树分区算法和哈希算法在检索成功时间和检索失败时

展开阅读全文

元数据分级索引算法饮水安全工程优秀论文.doc

最新文档