学科发展报告

上传人:bin****86 文档编号:59973088 上传时间:2018-11-13 格式:DOCX 页数:19 大小:27.42KB
返回 下载 相关 举报
学科发展报告_第1页
第1页 / 共19页
学科发展报告_第2页
第2页 / 共19页
学科发展报告_第3页
第3页 / 共19页
学科发展报告_第4页
第4页 / 共19页
学科发展报告_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《学科发展报告》由会员分享,可在线阅读,更多相关《学科发展报告(19页珍藏版)》请在金锄头文库上搜索。

1、为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划学科发展报告数据挖掘学科发展报告时间:XX-10-1714:59:00【摘要】近年,随着各行业对大规模数据处理和深度分析需求的快速增长,数据挖掘引起了研究界和工业界的广泛关注。1引言数据挖掘是知识发现过程中的一个关键步骤,一般是指从大量数据中自动发现隐含的的数据关系,并将其转化为计算机可处理的结构化表示。数据挖掘是计算机学科中的一个交叉研究领域,其研究方法与多个其他科学紧密相连,如:统计、机2器学习、专家系统、信息检索、社会网络、自然语言处理和模式识别等等。近年,随着各行业对大规模数

2、据处理和深度分析需求的快速增长,数据挖掘引起了研究界和工业界的广泛关注。自1995年以来,学术界和工业界共同成立了ACM的数据挖掘及知识发现专委会,并组织了国际数据挖掘与知识发现大会,后者发展成为数据挖掘领域的顶级国际会议。至今KDD大会已经连续举办了19届,论文的投稿量和参会人数呈现出逐年增加的趋势。图1给出了自XX年以来SIGKDD每届接收的论文投稿数和最终录用的论文数的对比。近几年,以社会网络和信息网络为中心的大数据分析成为数据挖掘研究的热点。本报告围绕数据挖掘领域近年最主要的几个研究方向,以数据挖掘顶级国际会议KDD和国际期刊IEEETKDE、ACMTKDD上发表的论文为基础介绍近几年

3、国内学者在数据挖掘领域的主要研究进展,分析和比较国际国内学科发展趋势,并展望未来发展机遇。图1.数据挖掘国际会议KDD历年投稿和论文接收情况(左);KDDXX研究热点(右)2研究现状和主要成果数据挖掘基础理论最早的数据挖掘理论基础主要源于统计,机器学习和数据库系统。经过近20年的发展,数据挖掘领域逐渐形成了一套自己的基础理论,主要包括规则和模式挖掘,分类、聚类、话题学习等。近年,随着网络数据的规模和复杂性的快速增长,时间序列和空间数据挖掘、以及基于大规模网络的稀疏学习也得到越来越多的重视。以下我们简要介绍国内学者在数据挖掘基础理论上的最新成果。在分类学习方面,清华大学的张长水团队研究了多任务的

4、特征学习方法,提出了名为rMTFL的学习方法。该方法首先将多任务和不同特征的关系用矩阵表示,并基于GroupLasso的思想抽取出相关任务的特征空间,并因此找出孤立任务6。清华大学的靳晓明等人针对跨域的文本分类,提出跨域的主动学习方法17。该方法有效地结合了不同数据源的特征,自动从多数据源中抽取同质特征并区分异构特征,从而有效的选取样本进行主动学习。南京大学的周志华带领的课题组提出分类算法中应使用代价区间而不是精确的代价值,因为实际应用中,用户常常只能判断各类错误的相对严重性而无法给出精确描述。他们提出的CISVM算法将costinterval应用于SVM,比使用任何单一代价的标准SVM减少了

5、60%的风险21。他们还进一步提出名为MAHR的分类算法。该算法可以自动发现分类结果之间的关联关系,从而提高分类精度13。在多类标的学习中,由于每个样例可以和多个类标关联,可能的类标集非常多,导致多类标分类和预测常常比较困难。东南大学的张敏灵等人使用贝叶斯网络刻画类标之间的依赖关系,将多类标学习问题分解为一系列的单类标分类问题,从而在多个数据集上超越了现有方法的效果44。流数据分类是分类学习中的一个重要分支,集成学习是对流式数据进行分类的常用方法,但线性扫描每个分类器会带来很大的时间开销。中科院的张鹏等人提出了一种新颖的Ensemble-tree(E-tree)方法,利用类似R-tree的高度

6、平衡的结构将流数据分类中集成学习的复杂度由线性降低到次线性41。概率图模型是数据挖掘中的重要基础工具,北京大学的宋国杰等人提出基于重叠分解的概率图模型8,其基本思路是将原始的概率图分解为若干小的概率图进行求解。其论文给出理论证明,求解出这样的近似分解和对原始概率图模型进行一步正则化处理是等价的。中国科技大学的俞能海等人还将概率图模型应用于个人简介的自动抽取,基本思路是用马尔可夫逻辑网络实现信息抽取并自动生成类似维基百科的页面20。无监督的聚类和话题学习是数据挖掘领域研究的另一个核心问题。清华大学的张长水等人提出了从多重相关、随时间变化的语料库中挖掘文本簇演变的方法。他们通过加入相邻时间片的依赖

7、,将层次化irichlet过程扩展为evolutionaryHDP。这种方法可以发现文本簇的产生、消失,以及语料库内部和多语料库之间的演变42。浙江大学的蔡登等人研究了非监督学习中特征选择问题1。针对传统方法忽略了特征之间的联系,他们提出融合流型学习和一阶正则化方法,选择能使原始数据的簇结构保留得最好的特征,并提出了一个高效的聚类方法Multi-ClusterFeatureSelection。浙江大学的张仲非等人还将半监督的学习方法应用于图片标注,他们提出的半监督的层次化Dirichlet过程方法(SSC-HDP),在图片标注的4实验中比现有的MoM-HDP和Corr-LDA模型取得更好的效果

8、28。无监督的数据补齐是一个很有挑战的问题,浙江大学的何晓飞和亚利桑那州立大学的叶杰平一起对矩阵补齐问题进行了深入研究,提出解决该问题的一个高效算法AcceleratedSingularValueThresholding(ASVT)。该方法将原来SVT的收敛速度从O(1/N)加速到O)11。北京大学的张铭等人提出利用话题模型对社交网络中的用户生成内容进行建模的方法。他们通过构建不同的上下文来增强话题模型的效果,避免社交网络中的数据稀疏问题。北京大学的王厚峰和微软的周明等人将话题模型应用于Twitter数据以生成面向实体的用户观点摘要25。其基本思路是利用AffinityPropagation算

9、法对Twitter内容中的Hashtag进行聚类,然后再对实体相关的情感进行分类。西安电子科技大学的研究团队也研究了多信息源的半监督学习问题29。从海量数据中挖掘出潜在规则和模式是数据挖掘中的基础问题。清华大学的王建勇研究了不确定性数据上判别模式的挖掘问题,提出了uHARMONY算法,从数据库中直接找出判别模式,无需进行耗时的特征选择,使用uHARMONY的SVM相比经典不确定分类算法有4%10%的性能提升5。哈尔滨工业大学的李建中等人研究非确定图中的频繁子图挖掘问题,引入?-频繁概率来衡量一个子图的频繁程度。他们提出了一种近似算法,估计并证明了找到解的概率47。社交网络分析和图挖掘研究社交网

10、络分析是指利用统计方法图论等技术对社交网络服务中产生的数据进行定量分析。社交网络分析和图挖掘无疑是近年数据挖掘领域最热的话题,仅今年数据挖掘国际大会KDDXX上面相关的大会报告分会场就有7个,其他相关的Poster论文还有30余篇。从总的趋势来看,数据分析和挖掘的任务变得更加细化。从社交网络分析情况来看,其中三个最热的话题是:网络结构分析、群体行为和影响力建模以及网络信息传播的分析;从图挖掘方面来看,其中最热的研究问题是:图模式挖掘和基于图的学习算法研究;此外也有很多关于社交网络和图挖掘的应用,例如社交推荐、社交搜索等。下面分别从这几个方面总结一下研究进展。在网络结构分析方面,从宏观的网络聚类

11、系数估计、到中观的网络社区发现、再到更微观的网络关系挖掘都有不少的研究工作发表。西电的黄健斌等人研究了网络社区发现问题,提出基于网络密度聚类的算法,该算法不仅可以发现任意大小和形状的网络社区,还可以自控制科学与工程学科发展现状及趋势一、国内外现状概述:经典控制理论的研究对象一般为单输入、单输出的自动控制系统,特别是线性定常系统。经典控制理论的特点是以输入输出特性为系统的数学模型,采用频率响应法和根轨迹法这些图解分析方法,分析系统性能和设计控制装置。经典控制理论的数学基础是拉普拉斯变换,占主导地位的分析和综合方法是频域方法。经典控制理论主要研究系统运动的稳定性、时域和频域中系统的运动特性、控制系

12、统的设计原理和校正方法。其局限性主要表现在一般仅适用于单变量和定常系统。现代控制理论以线性代数和微分方程为主要的数学工具,以状态空间法为基础,分析与设计控制系统。状态空间法本质上是一种时域的方法,它不仅描述了系统的外部特性,而且描述和揭示了系统内部状态和性能。较之经典控制理论,现代控制理论的研究对象要广泛得多,原则上将,它既可以是单变量、线性、定常、连续的,也可以是多变量、非线性、时变、离散的。智能控制可以概括为自动控制和运筹学、计算智能、人工智能等学科的结合,其结构是:识别、推理、决策、执行。在低层次的控制中用常规控制器,而在高层次的控制中则应用具有在线学习、修正、组织、决策和规划能力的控制

13、器,模拟人的某些智能和经验来引导求解过程。智能控制理论是以专家系统、模糊控制、神经网络等智能计算方法为基础的智能控制。智能控制的发展还不完善,甚至可以说才刚刚开始,但是可以预见智能控制的发展与完善将引起控制科学与工程学科的全面革命。集散控制系统就是在生产过程自动化的巨大需求的背景下发展起来的一种自动化技术。它把控制技术、计算机技术、图像显示技术以及通信技术结合起来,实现对生产过程的监视、控制和管理。它既打破了常规控制仪表功能的局限,又较好地解决了早期计算机系统对于信息、管理和控制作用过于集中带来的危险。当前DCS发展的一个新趋势是基于无线工业网络的集散控制系统,采用DCS不是简单地取代传统的控

14、制设备,而是一种高新技术的发展。进入21世纪后,由于新学科和交叉学科的发展,新时期的控制理论与工程应用面临新的机遇与问题,一下所列几个问题可以帮助我们理解面临的挑战:具有符号和连续动力学系统的控制。下一代的系统将把逻辑运算和连续量结合起来。目前的理论不能有效地处理这样的系统,特别是描述大系统的时候。分布、异步和网络环境中的控制。为了保证系统的稳定性、性能和鲁棒性,分布在多个通过数据包通信而相互连接的计算单元之中的控制必须采用新的形式。对于那些控制时无法忽略计算与通信上的约束的应用威严,这一点尤为突出。高层次的协调与自主。反馈越来越多地应用于企业的决策系统中,包括供应链的管理和物流、空间管理和空

15、中交通控制以及C4ISR系统。为了使系统在实际环境中能可靠地运行,需要将近二三十年鲁棒控制系统在分析和设计方面所取得的成就扩展到这些更高层次的决策系统里。控制算法的自动综合,且具有集成的验证和确认。未来的工程系统需要能够快速进行设计、再设计和实现控制的软件。研究人员需要开发功能更强大的设计工具,使得从建模到环路中含有硬件的仿真的整个控制系统设计过程能自动完成,这包括系统级软件验证和确认。利用不可靠的部件建立可靠的系统。对于大部分的大工程系统,即使个别元件不能工作时,整个系统必须能够连续运行。进一步地,这要求系统的设计允许系统可以自动重构,以便它的功能逐渐下降而不是突然地停止。至今,以上所列五个

16、问题仍事当今自动化研究与发展所面临的最主要问题和研究热点。目前,复杂系统的分析与控制仍然是国际主流的研究方向,尤其是网络化控制系统为代表体现了复杂系统研究的热潮。与之相关,对各类智能合作控制策略与技术的研究,从群体智能到基于代理的智能控制方法,也已成为受到广泛关注的热点课题。机器人与智能机器是最典型的自动化应用;智能交通技术与交通堵塞、能源短缺和环境污染紧密相关,在欧洲、美国和日本有较严格的汽车尾气排放标准;自动化在航空航天领域有重要的应用,航空航天技术是一个国家自动化水平的综合体现;传感网络已成为国内外近期的主要研发热点,尽管由于技术等方面的制约,无线传感器网络的大规模商业应用还有待时日,但其发展远景广阔。目前,无线传感器网络的应

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号