大数据背景下工程造价数据挖掘问题探究

资源描述

《大数据背景下工程造价数据挖掘问题探究》由会员分享，可在线阅读，更多相关《大数据背景下工程造价数据挖掘问题探究（4页珍藏版）》请在金锄头文库上搜索。

1、大数据背景下工程造价数据挖掘问题探究摘要：在互联网信息技术快速发展的今天，大数据的时代已经来临，大数据渗透到了各行各业，对于特定的行业，也有了更多的研究。但是在工程造价领域，这一领域却是一片空白。本文从工程造价选择与评估的视角，对面向工程造价数据特征的数据挖掘流程进行了归纳，并结合聚类算法对工程造价数据进行了分析和处理，为大规模工程造价数据挖掘的研究提供了有益的思路。关键词：工程造价；数据挖掘；聚类法.、八、-前言近年来，随着互联网技术的迅猛发展，大数据的出现和深入，在特定的行业中开展了大量的数据的分析。但在工程造价中，这一点还处于一片空白之中，通过网络和各种工程造价系统，大量的工

2、程造价数据被收集起来，但由于缺乏一套精确的技术手段，导致这些数据被浪费。因此，工程造价的收集和传输依然依赖于常规的手段，在时间和精度上都不能适应当前的工程项目。而要有效地对大量的工程造价进行分析、发掘，并为项目的实施提供科学的指导，单凭人力资源的运用是不行的，只有不断地将数据挖掘运用到最大限度地发挥其巨大的作用，才能推动整个产业的快速的发展。一、大数据背景下工程造价数据的分析（一）工程造价数据工程造价是指一个特定的工程项目在施工期间所使用的有关的单位成本资料，包括人力、材料、机械等。这些资料对于实施项目的造价管理，特别是费用的控制具有重要意义。在工程造价的实践中，通常获得工程造价

3、的具体资料，从中选出具有一定的可信性。成本低，数据来源也更可信，所以被很多公司和研究机构所采纳。在本研究中，采用的是以数据采集为主的方式，采用这种方式获得工程造价的方式，会因为不同的数据源、采集方式和参照准则不同而产生不同的价格而且采用这种方式采集的资料经常发生变动，而且数据的更新时间也会越来越短 1。（二）数据本身的特征由于工程造价的适用范围和用途的差异，具有与一般的大数据相异的特征，具体而言，它包括各种数据的种类。工程造价的统计资料包含了各种动态性的资料，例如:材料、人工等，还有一些静态的资料，其中有政府和地方有关工程造价的政策文件、法规、规范等，这些资料的变化都比较大，而且

4、往往会持续很久多种表达方式，由于数据的来源和数据平台的差异，导致了工程造价数据的表达形式也各不相同，表达形式主要包括文字、图表、数据等，同一形式由于展示平台和服务供应商的差异而产生的形式也各不相同。在应用时，必须要进行转换和集成。动力的可变性，由于受市场环境的影响，工程造价的资料总是在发生着变化，由于样本与更新的周期不同，工程造价的数据也会发生动态的改变。多维度的复杂度，由于工程造价资料的来源、形式、表现方式等各方面的差异，再加上工程造价的频繁变动，其组成的程序也有一些复杂，这些都是造成工程造价资料具有多重维度的复杂原因。（三）工程造价数据挖掘的流程在此基础上，数据采集与数据的

5、记录是数据挖掘的基本环节，而数据采集的可靠性则是影响数据挖掘的各个环节和最终精确度的重要因素。数据提取与清理收集到的数据并不能用于分析和发掘，必须从数据中提取数据并进行清理。当资料解析完毕，使用者就只剩下一个步骤了，那就是资料解析。工程造价数据挖掘是基于数据挖掘与数据加工的目标，将模型的结果显示与解析，并利用可视技术等从使用者的角度显示出其预测效果，从而方便使用者运用这些分析来引导实际操作。二、工程造价数据获取及清洗（一）工程造价数据获取在大数据下，实现工程造价数据挖掘的获取主要有两种方法。一是建立一个统一的工程造价数据收集系统，通过建立一个统一的工程造价数据收集系统，通过定制

6、化的标准，将工程造价的数据进行实时的转化和存贮。二是在有关成本管理平台上建立相应的标准域，收集同一领域的资料，并将其保存到当地的资料库在平台外进行数据的收集，其工作原理和方法是利用相应的平台界面建立一个统一的数据交换形式，使各平台内外的业务能够进行信息交流2。（二）工程造价数据清洗及预处理由于资料的不足，一般采用人工填写等方法，人工填写的工作量较大，无法进行数据的统计和处理。噪点资料的处理，通常有两种噪点资料的处理。一是采用分箱法，根据噪点周围的资料，对其进行一次修正。二是采用回归的方式，通常用于在连续的状态下，在属性发生连续的改变时，有轨迹可寻。针对工程造价资料的收集和价格变动

7、的规律，通常采取分箱法进行分析，在进行数据分析前，应先解决噪点的问题，因为成本资料的变动是随着市场经济整体的变动而发生的从时间顺序上讲，是一个连续的过程，并且受到整体经济发展的极大的制约，通常不会有太大的变动。资料不一致的解决办法，一般采用统一的资料收集模板，根据一般的资料范本进行收集，以确保资料的统一。三、基于MapReduce平台的工程造价数据分析（一）Hadoop 技术和 MapReduce 平台Hadoop是Apache开发的当今大数据时代的主要数据处理技术，具有高可靠性和良好的容错性。Hadoop的中心是HDFS和MapReduce。HDFS采用分布式的方法，在Hadoo

8、p集群上进行了大规模的数据存储，扩展能力和高的错误率。 MapReduce的工作是对大量的数据进行线的加工。在Hadoop的特定的运行进程中，HDFS会读取和写入文档，然后MapReduce使用HDFS中的存储文档和资料来完成对应的分布运算。通过对MapReduce系统的大量实验，发现MapReduce 在数据量很少的时候，其运行效率要比单个串行系统要低，但是随着系统的数据量不断增加，系统中的单个串行操作很可能会导致系统的内存溢出，而 MapReduce的MapReduce在大容量的数据中有很好的应用前景3。（二）基于 MapReduce 的 K-means 算法聚类算法是一种没有监管的

9、算法，相对于需要预先给出的简单贝叶斯和回归算法，该算法无需预先定义类别标记。K- means是一种广泛使用于聚类的方法，其特点是简单、易于实现，尤其是对大量的资料进行了分析。在MapReduce的基础上，利用K-means方法分析了系统的复杂性、节点数量和数据的大小，并分析了这些因素对系统的影响，从而进一步提升了系统的工作效率。根据 MapReduce 的K-means算法的操作流程可以分为如下几个阶段:第一次选择M个随机抽样的样本，每个采样数据都是一个中心，也就是起点的中心数M,然后将中心点存储在一个文件里，然后当作一个整体变量，然后通过Hadoop的HDFS进行读取和写入。然

10、后对主要的功能进行求解，得到最好的结果。Map功能的计算：Map的处理可以用 key, valued表达，并将其用作MapReduce的原始格式。在这里, key表示目前采样资料到原始资料的间距，而值表示目前取样资料的座标，一般用一个字串的方式来表达。该方法是通过分析所获得的样本量，计算出相应结点的多维乘积，并将其与样本数的商相乘，以求出新的座标值。四、结语在大数据时代，由于应用对象的差异，需要对工程造价数据进行分析和挖掘。从在工程造价选择与评估这一视角入手，对工程造价数据挖掘的流程进行了归纳，并结合聚类技术对工程造价进行了分析与处理，为大规模工程造价数据挖掘的深入研究奠定了基础。参考文献1 刘祖清大数据下工程造价管理要点J.房地产世界，2021(13):72-74.2 魏向阳大数据在工程造价中应用存在的问题及对策J.工程经济，2021, 31(05):15-17.3 高榕.面向工程造价大数据的关键算法研究及应用D.电子科技大学, 2018.

展开阅读全文