电子档案大数据的可视化组织和分析

上传人:小** 文档编号:34134383 上传时间:2018-02-21 格式:DOC 页数:6 大小:115KB
返回 下载 相关 举报
电子档案大数据的可视化组织和分析_第1页
第1页 / 共6页
电子档案大数据的可视化组织和分析_第2页
第2页 / 共6页
电子档案大数据的可视化组织和分析_第3页
第3页 / 共6页
电子档案大数据的可视化组织和分析_第4页
第4页 / 共6页
电子档案大数据的可视化组织和分析_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《电子档案大数据的可视化组织和分析》由会员分享,可在线阅读,更多相关《电子档案大数据的可视化组织和分析(6页珍藏版)》请在金锄头文库上搜索。

1、电子档案大数据的可视化组织和分析 陆辉 首都经济贸易大学 城市群系统演化与可持续发展的决策模拟研究北京市重点实验室 摘 要: 提出将电子档案大数据进行可视化组织与分析, 构建高效档案信息服务体系。按照电子档案数据特征划分组类, 求解各组数据样本子集核矩阵, 使该矩阵进入以半正定规划为基础的支持向量机模型中, 通过向量机学习方式获得电子档案数据特征空间权值, 利用权值得到特征贡献程度和特征支持度, 将其作为数据特征选取、分类准确度及对不同形式样本分类的分类能力标准, 根据分类准确度及最少特征数量获取电子档案数据分类结果。实验证明, 通过可视化步组织与分析可提高电子档案利用效率及服务质量。关键词:

2、 电子档案; 大数据; 可视化; 组织分析; 作者简介:陆辉 (1980-) , 男, 湖南常宁人, 硕士, 工程师, 主任, 研究方向:信息组织、信息可视化、城市管理、应急管理。收稿日期:2017-01-26基金:首都经济贸易大学特大城市经济社会发展研究协同创新中心资助项目 (TDJD201516) Visualization, Organization and Analysis of Large Data in Electronic ArchivesLu Hui Capital University of Economics and Business; Abstract: The pape

3、r presents the electronic archives data visualization and analysis of organization, construction of information service system, file. According to the characteristics of the division of electronic archives data set of classes for each data sample subset of nuclear matrix, the matrix into the support

4、 vector machine model based on semidefinite programming based, through vector machine learning way to obtain the feature space of electronic archives data weights, using the right to feature contribution and feature support, as the data feature selection, classification accuracy and the different ty

5、pes of sample classification ability standard, according to the classification accuracy and the least number of features access to electronic archives data classification results. Experiments show that the efficiency and service quality of electronic archives can be improved through visualization, o

6、rganization and analysis.Keyword: electronic archives; big data; visualization; organization analysis; Received: 2017-01-26大数据发展不仅为各领域学科带来先进技术同时也存在挑战, 同样对于档案管理也是机遇与挑战同在。大数据不仅能够对数据流进行实时处理, 还可以对数据进行系统地详细分析, 该技术优势能够弥补电子档案管理体系缺陷。电子档案信息管理系统需要对两方面进行管理。主观上, 档案资源需要满足用户远程获取需求;客观上, 计算机网络数据、电子文件及数字档案不断增加, 因此电子

7、档案数据问题成为亟待解决问题1-5。文献6提到电子档案信息资源方面, 部分学者指出“要建立能满足大数据采集、存储、处理的数据库”, 通过大数据处理后将电子档案信息资源呈现给客户。文献7中提出对于档案信息管理的新服务理念, 指出“应具备服务网络化、信息化、技术性和共享性四种思维方式”。通过上述理论分析, 大数据已经在推动电子档案信息服务系统前进, 但未能使大数据技术融入整体之中, 需将各部分系统地有机结合8,9。基于上述理论研究, 文中提出对电子档案大数据进行可视化组织及分析, 有效提升档案信息服务质量。依据电子档案数据特征进行组类分化, 计算每组数据样本子集核矩阵参数, 将矩阵结合到半正定规划

8、的 SVM 模型中, 经过学习获得档案数据特征权重值, 引入特征贡献程度及特征支持度, 将其作为数据分类能力度量参数, 同时获取电子档案数据分类结果。以分类结果为基础, 建立电子档案数据信息服务管理体系, 通过该体系对数据实现可视化组织与分析。1 基于半正定规划的支持向量机档案数据分类某样本集特征空间为 表示, 单变量建立特征子空间为 j, j=1, 2, , n, 描述二者关系为:假定某一核函数 k () , 分别在 n 个子空间中求解核矩阵, 对各个特征子空间的矩阵赋权值 j, 则总特征空间 中核组合 K 为:不同特征形成子空间矩阵进入到模型中, 获得半正定 SVM 特征选择模型:式中:预

9、选给定常数由 c 表示;e、y 为核函数中的参数;T 表示整数;拉格朗日算子范围由 C 表示;引入变量由 t 表示。通过上式可获得核组合参数和最佳分类面。已知电子档案数据训练样本, 设定 , 它代表 j 个特征的贡献程度, 对贡献程度进行大小排序, 选取大的特征。给定累积特征贡献度 con tr i, k次训练后统计特征子集中含有的各个特征数目 Numj。给定特征支持度 sup p, 它是数据特征选取特征子集的上边界, 范围是0.5, 1, 在 Num_ratejsup p时, 特征被选择集合中实现样本分类过程18-20。通过运用贡献程度和支持度进行交叉筛选后, 对电子档案大数据特征实现了有效

10、分类, 为数据可视化组织与分析提供支持。2 电子档案大数据的可视化实现过程建立电子档案大数据可视化服务体系是满足用户需求, 也是提高电子档案信息服务体系使用效率的途径之一。电子档案服务体系由前台和后台两部构成。具体电子档案服务体系示意图如图 1 所示。图 1 电子档案数据信息服务系统示意图 Fig.1 Sketch map of electronic archives data information service system 下载原图电子档案数据信息服务系统主要为两部分, 其中后台体系为核心部分, 后台体系具体由电子档案数据库及档案管理流程体系构成。数据库是电子档案数据存储中心;管理流程

11、则是包括对数据的收集、分析、存储、挖掘, 最后实现可视化展示。具体可视化展示流程见图 2。图 2 电子档案大数据可视化展示图 Fig.2 Electronic archives large data visualization display 下载原图3 实验结果与分析在数据库中选择 5 个数据集, 分别为实际数据集 Lung cancer、Telephone number、A 城市和 B 城市信用统计数据;人工波形数据集 (waveform) 。其中Lung cancer 数据集为某医院统计罹患肺癌的不同影响因素数据;Telephone number 为某移动公司提供电话号码数据集, 为便于

12、分类, 以识别尾号为 3 和 9作为分类数据;A 城市信用样本数据集有 2000 样本, 1600 个为信用客户, 400个无信用客户;B 城市信用样本数据集有 800 个样本, 650 个为信用客户, 150个为无信用客户。具体特征变量和样本数据集信息如表 1。表 1 各数据集信息数据统计值 Table 1 Statistical values of data sets for each set of data 下载原表 (1) 实验 1。以上述实验数据为基础, 通过运用以下几项检验结果对分类方法效果进行评定, 首先是数据特异度, 具体描述如下所示:式中:因变量由 y 表示。以不同数据集为研

13、究对象, 运用顺序前进法 (SFS) 、顺序后退法 (SBS) 及文中半正定规划的支持向量分类方法对数据集分类后的特异度数据如表 2 所示。表 2 不同分类方法对数据集分类的特异度数据 Table 2 Specific data for classification of data sets by different classification methods 下载原表 以上述实验数据为基础, 运用数据敏感度检验结果对分类方法效果进行评定, 描述数据敏感度为:具体不同方法对电子档案数据敏感度数据如表 3 所示:表 3 不同分类方法对数据集分类的敏感度数据 Table 3 Sensitivit

14、y data for classifying data sets by different classification methods 下载原表 运用文中方法、SFS 和 SBS 法分别对不同数据集进行分类后, 获取数据特异度及敏感度差异数据, 从以上两个角度看利用 SFS、SBS 分类法得到数据特异度及敏感度差异较大, 表明以上两种方法在进行特征选择时泛化能力差, 特征选取规则对数据特征选择不准确, 造成敏感度和特异度差距大。而利用文中方法对数据进行分类后数据特异度和敏感度差距较小, 表明文中方法泛化能力强, 可以实现数据特征最优选取过程。(2) 实验 2。将给定数据集数据作为实验基础,

15、利用数据分类总正确率检验结果对分类方法效果进行评定, 描述数据总分类正确率为:不同分类方法对电子档案数据集分类总正确率数据如表 4 所示。表 4 不同方法对不同数据分类总正确率统计 Table 4 Statistics of total accuracy of different data categories by different methods 下载原表 通过图 1 数据分类总正确率曲线比较顺序前进法 (SFS) 、顺序后退法 (SBS) 及文中半正定规划的支持向量分类方法差异, 具体如图 3。根据表 44 数据及图 33 曲线显示, 可看出不同方法对不同数据进行分类时, 总分类正确率

16、存在一定差距, 数据及曲线趋势显示文中方法较其他两种方法在数据分类正确率方面具有明显优势, 分类正确率基本为 90%以上, 表明文中方法分类能力较高。图 3 不同方法总分类正确率 Fig.3 Total classification accuracy of different methods 下载原图参考文献1陈寒露.基于 SPSS 的高校学生电子档案信息管理与优化J.软件导刊教育技术, 2016, 15 (12) :46-47. 2马世仙.档案信息系统建设若干问题探讨J.中国管理信息化, 2017, 20 (3) :179-180. 3吴松.计算机网络数据库安全技术的优化研究J.中国新通信, 2016, 18 (10) :90-90. 4程开固, 马小雨.基于二元组四维权重约束的个体诚信评估体系数据结构分析J.科技通报, 2016, 32 (5) :152-156. 5李颖, 史辉.我国移动数字档案

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号