网络大数据现状与展望

上传人:工**** 文档编号:499383537 上传时间:2023-05-08 格式:DOCX 页数:13 大小:20.35KB
返回 下载 相关 举报
网络大数据现状与展望_第1页
第1页 / 共13页
网络大数据现状与展望_第2页
第2页 / 共13页
网络大数据现状与展望_第3页
第3页 / 共13页
网络大数据现状与展望_第4页
第4页 / 共13页
网络大数据现状与展望_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《网络大数据现状与展望》由会员分享,可在线阅读,更多相关《网络大数据现状与展望(13页珍藏版)》请在金锄头文库上搜索。

1、网络大数据:现状与展望1引言.研究与发呈现状近年来,随着互联网、物联网、云计算、三网融合等IT与通信技术的迅猛发展,数据的迅速增长成了许多行业共同而对的严峻挑战和珍贵机遇,因而信息社会己经进入了大数据(h at)时代.大数据的涌现不仅变化着人们的生活与工作方式、公司的运作模式,甚至还引起科学研究模式的主线性变化.一般意义上,大数据是指无法在一定期间内用常规机器和软硬件工具对其进行感知、获取、管理、解决和服务的数据集合川.网络大数据是指“人、机、物”三元世界在网络空间(Cyberspce)中彼此交互与融合所产生并在互联网上可获得的大数据,简称网络数据. 目前,网络大数据在规模与复杂度上的迅速增长

2、对既有IT架构的解决和计算能力提出了挑战.据出名征询公司IC发布的研究报告,网络大数据总量为1. ,估计到,总量将达到 5 ZBB将大数据的特点总结为3个V,即大量化(Vlue)、多样化(iety)和迅速化(Vecity).一方面,网络空间中数据的体量不断扩大,数据集合的规模己经从UT到了,而网络大数据甚至以E和ZB(10z)等单位来计数.IDC的研究报告称,将来十年全球大数据将增长0倍,管理数据仓库的服务器的数量将增长10倍以迎合0倍的大数据增长另一方面,网络大数据类型繁多,涉及构造化数据、半构造化数据和非构造化数据.在现代互联网应用中,呈现出非构造化数据大幅增长的特点,至末非构造化数据占有

3、比例达到互联网整个数据量的75以上.这些非构造化数据的产生往往随着着社交网络、移动计算和传感器等新技术的不断涌现和应用再次,网络大数据往往呈现出突发涌现等非线h状态演变现象,因此难以对其变化进行有效评估和预测另一方而,网络大数据常常以数据流的形式动态、迅速地产生,具有很强的时效性,顾客只有把握好对数据流的掌控才干充足运用这些数据. 近几年,网络大数据越来越显示出巨大的影响作用,正在变化着人们的工作与生活1月时代杂志撰文指出奥巴马总统连任成功背后的秘密,其中的核心是对过去两年来有关网络数据的收集、分析和挖掘目前,By的分析平台每天解决的数据量高达10P,超过了纳斯达克交易所每天的数据解决量为了精

4、确分析顾客的购物行为,Bay定义了超过500种类型的数据,对顾客的行为进行跟踪分析. 的双十一,中国互联网再次发生了最大规模的商业活动:淘宝系网站的销售总额达到91亿元人民币淘宝之因此能应对如此巨大的交易量和超高并发性的分析需求,得益于其对往年的状况,特别是顾客的消费习惯、搜索习惯以及浏览习惯等数据所进行的综合分析. 网络大数据给学术界也同样带来了巨大的挑战和机遇.网络数据科学与技术作为信息科学、社会科学、网络科学和系统科学等有关领域交叉的新兴学科方向正逐渐成为学术研究的新热点.近年,Nate和Sciene等刊物相继出版专刊来探讨对大数据的研究. Natur出版的专刊“igata,从互联网技术

5、、网络经济学、超级计算、环境科学和生物医药等多种方而简介了海量数据带来的眺战叫.Sienc推出有关数据解决的专刊Dealing wth Data,讨论了数据洪流(Data eluge)所带来的机遇川.特别指出,倘若可以更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用. 网络大数据研究的意义 总体而言,网络大数据研究的重要性体目前如下几种方而: (1)网络大数据的研究对捍卫国家网络空间的数字主权,维护社会稳定,推动社会与经济可持续发展有着独特的作用.信息化时代,国家层而的竞争力将部分体现为一国拥有网络大数据的规模、活性以及对数据的解释与运用的能力.国家在网络空

6、间的数字主权也将是继海、陆、空、天四空间之后另一种大国博弈的空间.在网络大数据领域的落后,意味着失守产业战略制高点,意味着国家安全将在网络空间浮现漏洞.为此,今年3月,美国政府整合个部门投资2亿美元启动“大数据研究和发展筹划”在该筹划中,美国国家科学基金会提出要“形成一种涉及数学、记录基本和计算机算法的独特学科”该筹划还强调,大数据技术事关美国的国家安全,影响科学研究的步伐,还将引起教育和学习的变革.这意味着网络大数据的主权己上升为国家意志,直接影响国家和社会的稳定,事关国家的战略安全. ()网络大数据是国民经济核心产业信息化升级的重要推动力量.“人、机、物”三元世界的融合产生了大规模的数据,

7、如何感知、测量、运用这些网络大数据成为国民经济中许多行业而临的共同难题,成为这些行业数字化、信息化的障碍和藩篱.如何使不同行业都能突破这一障碍,核心在于对网络大数据基本共性问题的解决.譬如,对于非构造化数据的统一表达与分析,目前缺少有效的措施和工具.因此,通过对网络大数据共性问题的分析和研究,使公司可以掌握网络大数据的解决能力或者可以承受网络大数据解决的成本与代价,进而使整个行业迈入数字化与信息化的新阶段.在这个意义上,对网络大数据基本共性问题的解决将是新一代信息技术融合应用的新焦点,是信息产业持续高速增长的新引擎,也是行业顾客提高竞争能力的新动力. (3)网络大数据在科学和技术上的突破,将也

8、许诞生出数据服务、数据材料、数据制药等战略性新兴产业网络数据科学与技术的突破意味着人们可以理清数据交互连接产生的复杂性,掌握数据冗余与缺失双重特性引起的不拟定性,驾驭数据的高速增长与交叉互连引起的涌现性(Ergene),进而可以根据实际需求从网络数据中挖掘出其所蕴含的信息、知识甚至是智慧,最后达到充足运用网络数据价值的目的涌现性是指由低层次的多种元素构成高层次的系统时展示出的每个单一元素所不具有的性质.网络数据不再是产业环节上产生的副产品,相反地,网络数据己成为联系各个环节的核心纽带.通过对网络数据纽带的分析与掌握,可以减少行业成本、增进行业效率、提高行业生产力因此,可以预见,在网络数据的驱动

9、下,行业模式的革新将也许催生出数据材料、数据制造、数据能源、数据制药等一系列战略性的新兴产业. ()大数据引起了学术界对科学研究措施论的重新审视,正在引起科学研究思维与措施的一场革命.科学研究最初只有实验科学,随后浮现了理论科学,研究多种定律和定理.由于在许多问题上,理论分析措施变得太过复杂以至于难以解决难题,人们开始谋求模拟的措施,这又产生了计算科学.而大数据的浮现催生了一种新的科研模式,即而对大数据,科研人员只需从数据中直接查找、分析或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象.,己故的图灵奖得主吉姆格雷(imUry)在她最后一次演讲中描绘了数据密集型科学研究的“第四范式”

10、(The urth Paradigm),把数据密集型科学从计算科学中单独辨别开来.格雷觉得,要解决我们而临的某些最棘手的全球性挑战,“第四范式”也许是唯一具有系统性的措施 网络大数据的深挖掘、大规模运用是新兴产业界的立足点.即便针对大数据的研究目前还没有建立一套完整的理论体系,也缺少高效迅速的解决、分析与挖掘的算法与范式,但大数据的应用前景毋庸置疑,由于大数据从主线上来说就是来源于应用的问题.出名出版公司()ily的创始人mO Reily断言,大数据就是下一种Intensde,将来属于那些能把数据转换为产品的公司和人群.MI的研究报告也宣称,大数据是下一代革新、竞争力和生产力的先导,网络大数据

11、可为世界经济发明巨大价值,提高公司和公共部门的生产率和竞争力,并为消费者发明巨大的经济利益Uartner公司则更具体地预测,到,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手0.本文梳理了网络大数据所带来的挑战以及有关的研究体系,从网络空间感知与数据表达、网络大数据存储与管理体系、网络数据挖掘和社会计算以及网络数据平台系统与应用4个方而回忆了有关领域的新近发展,探讨了网络大数据研究方向和所而临的挑战,并展望了将来的重要研究方向.2网络大数据带来的挑战 如上所述,网络大数据而临着来自诸多方而的挑战.但从研究的角度来说,主线挑战在于其复杂h、不拟定性和涌现性.对这3个基本

12、特性的研究决定着网络大数据的发展趋势、研究进展和应用前景2. 网络大数据的复杂性 复杂性导致网络大数据存储、分析、挖掘等多种环节的困难.网络大数据的复杂性重要涉及数据类型的复杂性、数据构造的复杂性和数据内在模式的复杂性. (1)数据类型复杂性.信息技术的发展使得数据产生的途径不断增长,数据类型持续增多.相应地,则需要开发新的数据采集、存储与解决技术.例如社交网络的兴起,使得微博、NS个人状态信息等短文本数据逐渐成为互联网上的重要信息传播媒介.与老式的长文本不同,短文本由于长度短,上下文信息和记录信息很少,给老式的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难有关的研究涉及运用外部

13、数据源(如Wikipedia搜索成果川等)扩大文档,或者运用内部相似文档信息来扩大短文本的体现川.然而,无论是运用外部数据,还是运用内部数据,都也许引入更多的噪声.另一方而,不同数据类型的有机融合给老式的数据解决措施带来了新的挑战.例如在社交媒体的研究当中地区信息与内容的融合叫、时空信息与内容信息的结合等等. (2)数据构造的复杂性.老式上解决的数据对象都是有构造的,可以存储到关系数据库中.但随着数据生成方式的多样化,如社交网络、移动计算和传感器等技术,非构造化数据成为大数据的主流形式.非构造化数据具有许多格式,涉及文本、文档、图形、视频等等.非构造化数据当中蕴含着丰富的知识,但其异构和可变的

14、性质也给数据分析与挖掘工作带来了更大的挑战.与构造化的数据相比,非构造化数据相对组织凌乱,涉及更多的无用信息,给数据的存储与分析带来很大的困难.目前有关的研究热点,涉及开发非关系型数据库(如Uooe的BgTable,开源的HBse等)来存储非构造化数据.Uogle提出了Maedue计算框架,Yao!ebook等公司在此基本上实现了Hadoop Hive之类的分布式架构,对非构造化数据做基本的分析工作.国内各大公司和科研单位也启动了用于支撑非构造化解决的基本设施研发,如百度的云计算平台、中国科学院计算技术研究所的凌云(LigClou)系统等 ()数据模式的复杂性.随着数据规模的增大,描述和刻画数

15、据的特性必然随之增大,而由其构成的数据内在模式将会以指数形式增长.一方面,数据类型的多样化决定了数据模式的多样化.不仅需要熟悉多种类型的数据模式,同步也要善于把握它们之间的互相作用.这种而向多模式学习的研究需要综合运用各个方而的知识(如文本挖掘、图像解决、信息网络、甚至社会学等等).为此,Sun提出用网络来描述异质数据间的关系,同步提出了“元途径(Meta-Path)”的概率来刻画目的数据模式.这样,通过定义合适的元途径,便可在数据网络中挖掘有价值的模式.另一方面,非构造化的数据一般比构造化数据蕴含更多的无用信息和噪声,网络数据需要高效鲁棒的措施来实现去粗存精,去冗存真.搜索引擎就是从无构造化数据中检索出有用信息的一种工具.尽管搜索技术在工业上己经获得极大的成功,但仍然存在诸多局限性(如对某些长尾词的查询,对二义性查询词的理解等),均有待进一步提高.此外,网络大数据一般是高维的,往往会带来数据高度稀疏与维度劫难等问题.在这种状况下,由于数据模式记录明显性较弱,以往的记录学习措施多针对高频数据挖掘模式,因此难以产生令人满意的效果.近年来,受实际应用驱动,高维稀疏问题成为了记录学习领域的热点问题Cz7.有关理论研究发现,基于稀疏体现的学习措施(如Lf55)等),在获得较好学习效果的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 活动策划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号