部队装备新旧状态的大数据分析范文

上传人:博****1 文档编号:512316820 上传时间:2024-02-06 格式:DOC 页数:8 大小:427KB
返回 下载 相关 举报
部队装备新旧状态的大数据分析范文_第1页
第1页 / 共8页
部队装备新旧状态的大数据分析范文_第2页
第2页 / 共8页
部队装备新旧状态的大数据分析范文_第3页
第3页 / 共8页
部队装备新旧状态的大数据分析范文_第4页
第4页 / 共8页
部队装备新旧状态的大数据分析范文_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《部队装备新旧状态的大数据分析范文》由会员分享,可在线阅读,更多相关《部队装备新旧状态的大数据分析范文(8页珍藏版)》请在金锄头文库上搜索。

1、 .wd.部队装备新旧状态的大数据分析王玉琢,张建军(海军工程大学 理学院应用数学系, 武汉 430033)摘要:对已获得的模拟大数据进展了清洗和关联的预处理工作。以高程、经度、纬度、装备类型、部队种类5个方面作为影响因素,建设了3种方差分析模型,分别讨论了每种因素对装备新、堪、待、废4种状态的影响情况,以及各种因素联合起来产生的联合效应。通过计算相关系数,将每种因素与装备状态的关联程度进展量化对比。所得结论和提出的建议对部队的装备保障优化具有一定的意义。关键词:数据预处理;单因素方差分析;无交互作用双因素方差分析;有交互作用双因素方差分析近年来,随着互联网技术的飞速开展,军队信息化也得到加快

2、,各种军事资源数据的采集、储存与利用,为部队的现代化建设和科学化管理提供了有力的支持与理论依据。但是面对海量信息,若何结合部队实际,真实高效地利用这些数据资源做好部队的装备保障与维护工作,是当前亟待分析解决的一个重要问题1。装备的磨损消耗情况,是保障维护工作中常关心的问题,它除了与装备本身的耐用性、维护保养情况、使用频率这些因素直接相关外,还受到如气候条件这类因素的间接影响2。然而,出于保密等原因有些数据无法获得,即使这些数据是重要影响因子样本。为了便于研究,本研究基于已获得的模拟数据进展讨论,这些数据或许不是重要影响因子样本,但所用方法具有可复制性,结论具有参考性,可供有关管理部门借鉴。1

3、数据采集通过添加随机扰动项对原始数据实现模糊处理,本文获取了局部部队的地理位置及装备状态的模拟大数据。在大数据背景下,文中所用的检验统计量依大数定律仍可以反映出总体特征。局部数据如表1、表2所示。表1中包含9439支部队的经度、纬度、高程3种地理位置信息。其中部队层次码采用多层变长的数字构造,两位一个层次,前12位为大单位名称编码,第34位为下一级单位名称编码,用来表达单位之间的上下级关系。如400009与400101属于同一级大单位,65020904与6502090203同属一个大单位,前者比后者高一级别。表2中共有163178条装备状态数据,包含装备当前的新旧状况、购置日期、现有数量3类信

4、息。其中装备层次码3位为一个层次,用来反映装备的类属关系和层次关系。如001001可能表示电脑配件大类中的液晶显示屏,001001001001可能表示该大类下的鼠标。装备新旧状况被划分为新、堪、待、废4种,分别对应内码01、02、03、04,用表3解释。表1 部队地理位置信息序号部队层次码经度/()纬度/()高程/m140000999.1528.1607.2240010197.3229.36672307865020904121.136.2650.436797103000003119.0549.41177.6943999050102107.2835.161452表2 部队装备状态信息表序号装备层

5、次码部队层次码装备状况内码购置日期数量/个100100100100140010522010/9/30243200100100100140010542011/9/30192472500020030035704010432014/10/1831631770010050000000000009905020012013/9/3091631780010050000000000009905020022014/9/3010表3 装备内码新旧状况装备状态内码说明新品01装备第一年为新品堪用02新品从第二年转为堪用待修03等待维修待报废04等待报废2 数据预处理基于该数据,初步判断影响装备新旧状况的可能因素有5

6、种:部队所在的经度、纬度、高程、部队类型、装备类型。2.1 数据清洗1) 去除空间上无用的数据。考虑到我国军事单位大局部位于国境范围内,所以可将境外的部队地理信息视为无效数据进展剔除。中国国境范围为最北端漠河5333N,最南端曾母暗沙0358N,最东端黑瞎子岛13505E,最西端帕米尔高原7349E3以此作为筛选依据,从表1中去掉324条数据,剩下9115条部队地理位置信息。2) 去除时间上无用的数据。表2中5年前数据量占比为0.15%,时间长远比重低,参考性不大。剔除掉此类数据247条后剩下162931条装备状态信息。3) 去除信息不完整的数据。通过对比发现,表2中有些部队层次码在表1中没有

7、出现,即有些部队缺少地理位置信息,表1中有些部队层次码在表2中没出现,即有些部队缺少装备状态信息,这些数据对后续分析是无效的,需要删除。运用MATLAB软件进展两层循环遍历后,删除的不完整信息接近30%,缩减了后续数据分析的工作量。2.2 数据关联用EXCEL中的VLOOKUP函数,将处理后的两个表以“部队层次码为桥梁整合到一个表中,最终该表包含87741条信息7个标题栏:部队层次码、装备层次码、装备状态内码、现有数量、经度、纬度、高程。3 统计描述3.1 装备状态的分类统计装备的新旧状态为一个分类型变量,经统计4种新旧状态的可用装备总数比重依次为3.88%、94.73%、0.8%、0.52%

8、,可见九成以上的装备均为堪用品,废品的比重最低。3.2 各影响因素与装备状态之间的关联分析3.2.1 地理位置与装备状态的关联分析地理位置为一个三维连续型变量,首先对高程根据我国地貌特征划分为0200 m、2002 000 m和2 0005 800 m 3类3,代表平原、丘陵、高原3种地貌。然后在每个海拔段上对经度、纬度采用K均值法聚类4,实现方位分区。综合考虑分区后各区拥有的单位数量,最终将低海拔、中海拔、高海拔再细分为7个区、4个区、3个区,总共聚为14类。图1 低海拔7区划分图2 中海拔4区划分图3 高海拔3区划分统计14个区域上各新旧状态的装备数量,可以通过折线图依次观察不同区域上的新

9、品率、堪用率、待修率、报废率的波动情况。为了节省篇幅,这里通过一张百分比堆积柱形图(图4)反映变量间的比重关系,可见不同地理位置上的新品率、堪用率波动不大,待修率、报废率差异明显。图4 不同区域下新旧装备数量比重3.2.2 装备类型与装备状态的关联分析经EXCEL分类汇总,表2中共有275种装备,分为001与002两大类别,且98%为001型。由于装备类型众多,选择数量最多的前5种装备为代表进展研究,这5种装备型号为001001001001,001001001002,001001001004,001001001006,001001004001,简记为AE型。统计这5种装备各新旧状态可用数量,绘

10、制百分比堆积柱形图(图5),发现5种装备堪用率 基本相当,其他几种差异都对比大,其中B、E型装备的废品率比其他几种要高许多。因此装备类型对装备状态存在影响。图5 6类部队各新旧装备数量的比重关系3.2.3 部队类型与装备状态的关联分析部队层次码的首位数从49一共6个整数,代表着部队隶属的最高类别,可按首位数字将部队类型划分为6类。统计6类部队下各种新旧状态的装备数量,绘制百分比堆积柱形图(图6)发现,6类部队的堪用率 基本均衡,4字头部队装备的待修率和废品率比其他部队高出许多。因此部队类型对装备状态存在影响。3.3 小结本节对研究对象(装备新旧状态)和影响因素进展了初步的描述性统计,一定程度上

11、反映了总体内在的规律和关联,为后续工作提供了思路。但要给出更具有统计学意义的结论,那么需要利用模型和统计量做进一步的统计推断。图6 A-E型装备中新旧装备数量的比重关系4 建设模型及数据分析4.1 高程因子对装备状态的影响分析由于高程因子与其他因素之间相对独立,因此采用单因素方差分析判别法。此时将“高程作为检验对象,不考虑其余因素产生的影响。4.1.1 单因素方差分析判别模型5在单因素试验中,首先假定每个总体都服从正态分布,方差一样,观测值相互独立。A表示影响因素,具有k个水平A1,A2,Ak,是因素A的具体表现。每个xij(i=1,2,k;j=1,2,r)表示第i个水平下的第j个观测值,来自

12、正态总体)。1) 提出原假设与备择假设H0:1=2=i=k,自变量对因变量没有显著影响;H1:i(i=1,2,k)不完全相等,自变量对因变量有显著影响。2) 构造检验统计量定义总误差平方和)2,水平项误差平方和,误差项平方和,其中SST=SSE+SSA。组间均方,组内均方,那么统计量。3) 进展F检验对给定的显著水平计算统计量F,判定FF(k-1,n-k)是否成立,假设成立拒绝H0,即认为各水平均值间有显著差异,否那么承受H0。4.1.2 建模与求解通常情况下,新品与废品之间人们往往更关心废品快速报废的原因,因此本文列出以废品数为样本的分析过程,以新品数、堪用品数、待修品数为样本的分析只列出结

13、果供对比。1) 划分因素水平。根据上节对高程的聚类,将高程划分为3个海拔段,代表A1、A2、A3三种水平。2) 统计每个水平下的样本值。以废品为样本,经筛选低海拔下有40种报废装备,中海拔下有72种,高海拔下有21种,每种装备的当前数量如表4所示。表4 各海拔下报废品数量统计1220xx2223394041427172低海拔(A1)42449322中海拔(A2)10643322651623618高海拔(A3)1218433) 计算F统计量,做显著性检验。经计算F=4.492 663F=3.065 839,故拒绝原假设,说明不同海拔下的废品数量之间有显著差异。4.1.3 关系强度的度量在单因素方

14、差分析中,称为相关系数,用来测量两个变量之间的关系强度5-6。定义高程因子与4种装备新旧状态的相关系数为,由公式即可得到结果。4.1.4 结果分析以新品数、堪用品数、待修品数为样本做方差分析的结果如表5所示。表5 高程对装备状态的影响情况统计高程装备状态新(01)堪(02)待(03)废(04)有无显著影响没有没有没有有相关系数RGC0.05850.01610.06990.254165可以看到,只有废品数受到高程的显著影响,其他3种受高程的影响并不显著;相关系数显示,且远大于后三者,说明高程与装备的报废之间有着较强关系。出现这样的结果主要是因为高海拔地区气象的特殊性。高海拔地区大气气压低,空气密

15、度小,会导致设备的散热能力下降;高原地区昼夜温差大,使设备的密封构造容易破裂,外壳容易变形皲裂;此外,海拔到达5 000 m以上时,太阳的辐射强度比低海拔时高1.25倍,热辐射会对设备起加热作用,降低有机绝缘材料的性能等等,这些原因都会加快设备报废7。建议相关部门查找出设备快速报废的原因,有针对性的改良设备的设计,提高高海拔地区设备的使用寿命8。4.2 经度、纬度因子对装备状态的影响分析由于经度、纬度两者联合起来能描述部队的方位,两因素又相互独立,因此采用无交互作用的双因素方差分析法进展数据挖掘更有价值。4.2.1 无交互作用的双因素方差分析法判定模型5在该模型中,一个因素在行位置,有k个水平;另一个在列位置,有r个水平,行列因素的每一个水平都搭配成一组。假设每个组合下对应着一个观察值xij(i=1,2,k;j=1,2,r),那么xij看作是从行因素和列因素组合成的kr个总体中抽取的样本容量为1的独立随机样本,其中这kr个总体每一个都服从正态分布,且有一样的方差。1) 提出原假设及备择假设对行因素的假设H0

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号