大数的处理和分析计算机科学导论第十讲

上传人:M****1 文档编号:586616988 上传时间:2024-09-05 格式:PPT 页数:57 大小:532KB
返回 下载 相关 举报
大数的处理和分析计算机科学导论第十讲_第1页
第1页 / 共57页
大数的处理和分析计算机科学导论第十讲_第2页
第2页 / 共57页
大数的处理和分析计算机科学导论第十讲_第3页
第3页 / 共57页
大数的处理和分析计算机科学导论第十讲_第4页
第4页 / 共57页
大数的处理和分析计算机科学导论第十讲_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《大数的处理和分析计算机科学导论第十讲》由会员分享,可在线阅读,更多相关《大数的处理和分析计算机科学导论第十讲(57页珍藏版)》请在金锄头文库上搜索。

1、大数据的处理和分析大数据的处理和分析计算机科学导论第十讲计算机科学导论第十讲计算机科学技术学院计算机科学技术学院陈意云陈意云0551-63607043, http:/ 程程 内内 容容课程内容课程内容围绕学科理论体系中的模型理论围绕学科理论体系中的模型理论, 程序理论和计算理论程序理论和计算理论1. 模型理论关心的问题模型理论关心的问题 给定模型给定模型M,哪些问题可以由模型,哪些问题可以由模型M解决;如何解决;如何比较模型的表达能力比较模型的表达能力2. 程序理论关心的问题程序理论关心的问题给定模型给定模型M,如何用模型,如何用模型M解决问题解决问题包括程序设计范型、程序设计语言、程序设计、

2、包括程序设计范型、程序设计语言、程序设计、形式语义、类型论、程序验证、程序分析等形式语义、类型论、程序验证、程序分析等3. 计算理论关心的问题计算理论关心的问题给定模型给定模型M和一类问题和一类问题, 解决该类问题需多少资源解决该类问题需多少资源2 本次讲座与这些内容关系本次讲座与这些内容关系不大不大插数肮铲硬稚禁挺梗辈汞皋苛产偷轰铆近严年嚷刹蹄稻去刃蓄个蘑揉帆粪大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲讲讲 座座 提提 纲纲大数据的魅力大数据的魅力数据挖掘、大数据、大数据案例、大数据的特点数据挖掘、大数据、大数据案例、大数据的特点大数据时代的思维变革大数据时代的

3、思维变革样本和全体、精确性和混杂性、因果关系和相关样本和全体、精确性和混杂性、因果关系和相关关系关系大数据的处理大数据的处理几种主要处理方式、几种主要处理方式、MapReduce编程模型编程模型大数据的分析大数据的分析关键技术概述、关键技术概述、PageRank初步初步3辗沾设哥墓囚模者告解晴赞杖嘛语切饵禾西笋洋籽咕牢缠滤蜗潮蓟坏慌疫大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲数据挖掘数据挖掘数据挖掘的定义数据挖掘的定义1. 从数据中提取出隐含的、过去未知的、有价值从数据中提取出隐含的、过去未知的、有价值的潜在信息的潜在信息2. 从大量数据或者数据库中提取有用信息的

4、科学从大量数据或者数据库中提取有用信息的科学相关概念:知识发现相关概念:知识发现1. 数据挖掘是知识发现过程中的一步数据挖掘是知识发现过程中的一步2. 粗略看:数据预处理粗略看:数据预处理数据挖掘数据挖掘数据后处理数据后处理预处理预处理: 将未加工输入数据转换为适合处理的形式将未加工输入数据转换为适合处理的形式后处理后处理: 如可视化如可视化, 便于从不同视角探查挖掘结果便于从不同视角探查挖掘结果大数据的魅力大数据的魅力4失陀挝约参忆文磊褒晰凯瓦莹低赏剖翱冶球特北炕赡六舆方弱挥涧殊缴韶大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲数据挖掘数据挖掘典型事例:购物篮分析典

5、型事例:购物篮分析顾客顾客一次购买商品一次购买商品 1面包、黄油、尿布、牛奶面包、黄油、尿布、牛奶 2咖啡、糖、小甜饼、鲑鱼咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、尿布、牛奶、鸡蛋面包、黄油、咖啡、尿布、牛奶、鸡蛋 4面包、黄油、鲑鱼、鸡面包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油鸡蛋、面包、黄油 6鲑鱼、尿布、牛奶鲑鱼、尿布、牛奶 7面包、茶叶、糖、鸡蛋面包、茶叶、糖、鸡蛋 8咖啡、糖、鸡、鸡蛋咖啡、糖、鸡、鸡蛋 9面包、尿布、牛奶、盐面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶茶叶、鸡蛋、小甜饼、尿布、牛奶大数据的魅力大数据的魅力5匀松亩悲翰沾退毙食驱还勋崩蜒涪关彭敬塔凛丧笔蜘象

6、碑碑堰嫁亲堪恳崭大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲数据挖掘数据挖掘典型事例:购物篮分析典型事例:购物篮分析顾客顾客一次购买商品一次购买商品 1面包、黄油、面包、黄油、尿布尿布、牛奶牛奶 2咖啡、糖、小甜饼、鲑鱼咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、面包、黄油、咖啡、尿布尿布、牛奶牛奶、鸡蛋、鸡蛋 4面包、黄油、鲑鱼、鸡面包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油鸡蛋、面包、黄油 6鲑鱼、鲑鱼、尿布尿布、牛奶牛奶 7面包、茶叶、糖、鸡蛋面包、茶叶、糖、鸡蛋 8咖啡、糖、鸡、鸡蛋咖啡、糖、鸡、鸡蛋 9面包、面包、尿布尿布、牛奶牛奶、盐、盐10茶叶、鸡蛋、小甜

7、饼、茶叶、鸡蛋、小甜饼、尿布尿布、牛奶牛奶经关联分析,可发现顾客经常同时购买的商品:尿布经关联分析,可发现顾客经常同时购买的商品:尿布牛奶牛奶大数据的魅力大数据的魅力6绽锁愁艳晰径概碟劈搂转务匿泉然韩搓能礼系寂矿姬链潦惹彬侯琼撩告蓖大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据大数据大大数数据据,或或称称海海量量数数据据,指指所所涉涉及及的的数数据据量量规规模模巨巨大大到到无无法法通通过过人人工工,在在合合理理时时间间内内达达到到截截取取、管理、处理、并整理成为人类所能解读的信息管理、处理、并整理成为人类所能解读的信息例如:例如: Google每天有来自全球每天

8、有来自全球30亿条搜索指令亿条搜索指令 每每天天都都有有成成千千上上万万的的人人通通过过Google搜搜索索信信息息,从从出出游游的的路路线线和和耗耗时时、治治疗疗某某种种疾疾病病的的方方法法和和某某研研究究方方向向的的最最新新学学术术资资料料,各各式式各各样样的的搜搜索索要要求求都有都有 这这样样的的搜搜索索引引擎擎无无疑疑极极大大地地方方便便了了人人们们的的生生活活和工作和工作大数据的魅力大数据的魅力7朔瞪有裴豆呜腆派黄拾署卜泥藏辽白仅阀政鉴曾闺瘁淬骸稠搀酗肤缘六烘大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据大数据大大数数据据,或或称称海海量量数数据据,指

9、指所所涉涉及及的的数数据据量量规规模模巨巨大大到到无无法法通通过过人人工工,在在合合理理时时间间内内达达到到截截取取、管理、处理、并整理成为人类所能解读的信息管理、处理、并整理成为人类所能解读的信息这这一一系系列列搜搜索索数数据据从从侧侧面面显显示示出出搜搜索索这这些些信信息息的的人人的的本本身身情情况况,比比如如他他们们的的想想法法、需需求求、忧忧虑虑等等非常有价值的信息非常有价值的信息如如果果这这些些搜搜索索数数据据能能准准确确地地反反映映人人们们的的生生活活和和工工作作状状况况,那那么么就就有有可可能能利利用用这这些些信信息息来来察察觉觉商商业业趋趋势势、避避免免疾疾病病扩扩散散、打打击

10、击犯犯罪罪、测测定定实实时时交交通通路况和预测选举结果等路况和预测选举结果等大数据的魅力大数据的魅力8翰轨送没虫烘群碉坡既讲耐绰应倡名市坯两办撵屠颧滚惟施蕊咖碎丝巧更大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据大数据大大数数据据,或或称称海海量量数数据据,指指所所涉涉及及的的数数据据量量规规模模巨巨大大到到无无法法通通过过人人工工,在在合合理理时时间间内内达达到到截截取取、管理、处理、并整理成为人类所能解读的信息管理、处理、并整理成为人类所能解读的信息与小数据集的比较:与小数据集的比较: 在在总总数数据据量量相相同同的的情情况况下下,与与个个别别分分析析独独立

11、立的的小小型型数数据据集集相相比比,将将各各个个小小型型数数据据集集合合并并后后进进行行大数据分析可得出许多额外的信息和数据关联性大数据分析可得出许多额外的信息和数据关联性这正是大型数据集盛行的原因这正是大型数据集盛行的原因数据挖掘则是探讨用以解析大数据的方法数据挖掘则是探讨用以解析大数据的方法大数据的魅力大数据的魅力9航勃偷扛揭栽掳窑谍箕屡斤刺惯肉俯氰辰艾队似惟震妊赃纲荡捏侄赘租奢大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据案例大数据案例谷歌预测冬季流感的传播谷歌预测冬季流感的传播2008年年11月月谷谷歌歌公公司司启启动动“谷谷歌歌流流感感趋趋势势”(Go

12、ogle Flu Trends, GFT) 项目项目GFT项项目目把把5000万万个个美美国国人人最最频频繁繁检检索索的的词词项项与与美美国国疾疾病病预预防防控控制制中中心心告告知知的的2003年年2008年年季季节节性性流流感感传传播播期期间间的的数数据据进进行行比比较较,以以确确定定相相关关检索词项检索词项为为测测试试这这些些检检索索词词项项的的使使用用频频率率与与流流感感在在时时间间和和空空间间上上传传播播之之间间的的联联系系,GFT共共处处理理了了4.5亿亿个个不不同的数学模型同的数学模型大数据的魅力大数据的魅力10检这吃啊需鸡筛怨忆往蜜峙撼疥钓弃瞳犀增烂沙夏运逛煎拦走夺颜留阜姻大数的

13、处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据案例大数据案例谷歌预测冬季流感的传播谷歌预测冬季流感的传播为为测测试试这这些些检检索索词词项项的的使使用用频频率率与与流流感感在在时时间间和和空空间间上上传传播播之之间间的的联联系系,GFT共共处处理理了了4.5亿亿个个不不同的数学模型同的数学模型在在把把得得出出的的预预测测与与2007年年和和2008年年疾疾病病预预防防控控制制中中心心记记录录的的实实际际流流感感病病例例进进行行对对比比后后,GFT的的软软件发现了件发现了45个检索词项的组合个检索词项的组合把把这这些些检检索索词词项项用用于于一一个个特特定定的的数数学学

14、模模型型后后,其其预测与官方数据相关性高达预测与官方数据相关性高达97%大数据的魅力大数据的魅力11噶佳玛菌慌患沿渺舟虑眉芝知涣乱镀襟墩靛河咎仲莉腋齿兆翁丽竞坡芒描大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据案例大数据案例谷歌预测冬季流感的传播谷歌预测冬季流感的传播2009年年谷谷歌歌把把研研究究成成果果发发表表在在自自然然杂杂志志上上,这这篇篇引引人人注注目目的的论论文文令令公公共共卫卫生生官官员员和和计计算算机机科科学家感到震惊学家感到震惊文文章章不不仅仅预预测测了了流流感感在在全全美美的的传传播播,而而且且具具体体到到特定的地区和州特定的地区和州并并且且

15、预预测测非非常常及及时时,不不像像疾疾病病预预防防控控制制中中心心的的信信息息会会有有一一两两周周的的延延迟迟(因因为为人人们们从从患患病病到到求求医医会会滞滞后后,信信息息从从医医院院传传到到疾疾控控中中心心也也需需要要时时间间,疾疾控中心每周只进行一次数据汇总)控中心每周只进行一次数据汇总)信息滞后两周对一种飞速传播的疾病是致命的信息滞后两周对一种飞速传播的疾病是致命的大数据的魅力大数据的魅力12辊助厉实绝堡寄嫂氦侯侵审霉夫扶甭壮狙怎询奏葛烂渠商此娃掇酣茂碗彼大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据案例大数据案例谷歌预测冬季流感的传播谷歌预测冬季流感的

16、传播在在论论文文发发表表后后的的几几周周内内,出出现现了了一一种种称称为为甲甲型型H1N1的的新新流流感感病病毒毒,它它在在短短短短几几周周内内迅迅速速传传播播开开来来,全全球球的的公公共共卫卫生生机机构构都都担担心心一一场场致致命命的的流流行行病即将来袭病即将来袭这这时时,与与习习惯惯性性滞滞后后的的官官方方数数据据相相比比,谷谷歌歌的的预预测测是是一一个个更更有有效效、更更及及时时的的指指示示标标,公公共共卫卫生生机机构的官员因此获得了非常有价值的数据信息构的官员因此获得了非常有价值的数据信息谷谷歌歌的的方方法法不不需需要要分分发发口口腔腔试试纸纸和和联联系系医医生生,因因为它是建立在大数

17、据的基础之上为它是建立在大数据的基础之上大数据的魅力大数据的魅力13逾搏艾仿斧羊疥陋食逛凶瓤便癸肋敛碎皱纪孜虹管薪嘉让糜瓶山虫辰恿赵大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的魅力大数据的魅力大数据案例大数据案例谷歌预测冬季流感的传播谷歌预测冬季流感的传播这这是是当当今今社社会会所所独独有有的的一一种种新新型型能能力力:以以一一种种前前所所未未有有的的方方式式,通通过过对对海海量量数数据据的的分分析析,获获得得巨巨大价值的产品和服务,或深刻的洞见大价值的产品和服务,或深刻的洞见大大数数据据不不仅仅会会变变革革公公共共卫卫生生,也也会会变变革革商商业业、变变革

18、革思思维维,改改变变政政府府与与民民众众关关系系的的方方法法, ,开开启启重大的时代转型重大的时代转型14诉纷焰铣稿力烬腻胯弗孵嚷摧芍酷慎锈债村审腔斤幼知孤垣刁倦别虏扯幸大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的魅力大数据的魅力大数据案例大数据案例谷歌预测冬季流感的传播谷歌预测冬季流感的传播2013年年2月月,GFT再再次次上上头头条条,不不是是因因为为什什么么新新的的成成就就,而而是是因因2013年年1月月,美美国国流流感感发发生生率率达达到到峰峰值,值,GFT事先的估计比实际数据高两倍事先的估计比实际数据高两倍造成这种结果的原因:造成这种结果的原因:

19、大大数数据据傲傲慢慢(Big Data Hubris):认认为为自自己己拥拥有有的的数数据据是是总总体体,可可以以完完全全取取代代科科学学抽抽样样基基础础上上形成的传统小数据,而非作为后者的补充形成的传统小数据,而非作为后者的补充 还有搜索算法变化等原因还有搜索算法变化等原因大大数数据据运运用用的的典典范范GFT的的失失败败并并不不能能够够抹抹灭灭大大数数据本身的价值据本身的价值15逞馆泵冗戳悯脐掠嗽剑涎嚣蒋彻禾下蚂吐娇柴投半捞腹决脑雨妥徒俭郝哭大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据大数据的的魅力魅力大数据的特点大数据的特点体量巨大体量巨大(Volume

20、) 数数据据集集合合的的规规模模不不断断扩扩大大,已已从从GB(1024MB)到到TB(1024GB)再再到到PB级级,甚甚至至已已经经开开始始以以EB和和ZB来计数来计数 至至今今,人人类类生生产产的的所所有有印印刷刷材材料料的的数数据据量量是是200PB 未未来来10年年,全全球球大大数数据据将将增增加加50倍倍,管管理理数数据据仓库的服务器的数量将增加仓库的服务器的数量将增加10倍倍16片凌鲍噶梦辉摹朋震勇斩骡帛桑安悄蚜购彼父贪才贸插紊丈陇炭舒挑帽浇大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据大数据的的魅力魅力大数据的特点大数据的特点种类繁多种类繁多(V

21、ariety) 数数据据种种类类繁繁多多,并并且且被被分分为为结结构构化化、半半结结构构化化和非结构化的数据和非结构化的数据 半半结结构构化化和和非非结结构构化化的的数数据据,包包括括网网络络日日志志、传传感感器器数数据据、音音频频、视视频频、图图片片、地地理理位位置置信信息息等,占有量越来越大,已远远超过结构化数据等,占有量越来越大,已远远超过结构化数据17憎贪喂盐奢申定蛤初贺汞造肾冉途斡验弥悯盅翘项亏吨硼凶枣叉遵膨稍途大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的魅力大数据的魅力大数据的特点大数据的特点价值密度低价值密度低(Value) 数据总体的价值巨大

22、,但价值密度很低数据总体的价值巨大,但价值密度很低 以以视视频频为为例例,在在长长达达数数小小时时连连续续不不断断的的视视频频监监控中,有用数据可能仅一二秒控中,有用数据可能仅一二秒 另另一一极极端端是是各各个个数数据据都都有有贡贡献献,但但单单个个数数据据价价值很低值很低18耀峙禽坎甄瓣京楞挺析牟瑟替谱京鹰掏只珠拄论砂突况妙醋晤嗅民笋搽旭大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的魅力大数据的魅力大数据的特点大数据的特点速度快速度快(Velocity) 数据往往以数据流的形式动态快速地产生,具数据往往以数据流的形式动态快速地产生,具有很强的时效性有很强的时

23、效性 用户只有把握好对数据流的掌控才能有效利用用户只有把握好对数据流的掌控才能有效利用这些数据这些数据 例如,一天之内需要审查例如,一天之内需要审查500万起潜在的贸易欺万起潜在的贸易欺诈案件;需要分析诈案件;需要分析5亿条日实时呼叫的详细记录,亿条日实时呼叫的详细记录,以预测客户的流失率以预测客户的流失率19饮掺淡望臭留铺旧具吃旨乎屎犀超羞嘘昏赶蚊朝敏亏担酶们毯又税蛤节饮大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据时代的思维变革大数据时代的思维变革数数据据采采集集和和数数据据处处理理技技术术已已经经发发生生了了翻翻天天覆覆地地的的变变化化,人人们们的的思思维

24、维和和方方法法要要跟跟得得上上这这个变化个变化大大数数据据时时代代的的精精髓髓在在于于人人们们分分析析信信息息时时的的三三个个转转变变,这这些些转转变变将将改改变变人人们们决决策策的的制制定定和对表象的理解和对表象的理解20查抽顿阁鱼骂信溺甸绅善钟凿拨乎蓖挥雄崖殷壁摹笑谓侍讨祝洁杏沂女渠大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据时代的思维变革大数据时代的思维变革变革一变革一 更多更多: 不是随机样本不是随机样本, 而是全体数据而是全体数据1. 随机抽样:用最少的数据获得最多的信息随机抽样:用最少的数据获得最多的信息过过去去由由于于获获取取和和分分析析全全体体

25、数数据据的的困困难难,抽抽样样调调查查是是一一种种常常用用统统计计分分析析方方法法。它它根根据据随随机机原原则则从从总总体体中中抽抽取取部部分分实实际际数数据据进进行行调调查查,并并运运用用概概率率估估计方法,根据样本数据推算总体相应的数量指标计方法,根据样本数据推算总体相应的数量指标抽抽样样分分析析的的精精确确性性随随抽抽样样随随机机性性的的增增加加而而提提高高,与与样样本本数数量量的的增增加加关关系系不不大大。抽抽样样随随机机性性高高时时,分析的精度能达到把全体作为样本调查时的分析的精度能达到把全体作为样本调查时的97%样本选择的随机性比样本数量更重要样本选择的随机性比样本数量更重要21塔

26、殴囚躁早息御宛臻漓诽酶腑屑萌觉耙巾男涕迄识咕象孝描碗械募彩驰幌大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据时代的思维变革大数据时代的思维变革变革一变革一 更多更多: 不是随机样本不是随机样本, 而是全体数据而是全体数据1. 随机抽样:用最少的数据获得最多的信息随机抽样:用最少的数据获得最多的信息 抽抽样样分分析析的的成成功功依依赖赖于于抽抽样样的的随随机机性性,但但实实现现抽抽样的随机性非常困难样的随机性非常困难当当想想了了解解更更深深层层次次的的细细分分领领域域的的情情况况时时,随随机机抽抽样样方方法法不不一一定定有有效效,即即在在宏宏观观领领域域起起作作用

27、用的的方方法法在微观领域可能失去了作用在微观领域可能失去了作用随随机机抽抽样样需需要要严严密密的的安安排排和和执执行行,人人们们只只能能从从抽抽样数据中得出事先设计好的问题的结果样数据中得出事先设计好的问题的结果22栗桌洒绞曹憾泄棒绝梦再抖太嫉粱锁拾牙忌后甩酞抛婪槐朝奠旗烷尚全族大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据时代的思维变革大数据时代的思维变革变革一变革一 更多更多: 不是随机样本不是随机样本, 而是全体数据而是全体数据2. 全体数据:用全体数据可对数据进行深度探讨全体数据:用全体数据可对数据进行深度探讨流流感感趋趋势势预预测测分分析析了了整整个个

28、美美国国几几十十亿亿条条互互联联网网检检索索记记录录,使使得得它它能能提提高高微微观观层层面面分分析析的的准准确确性性,甚至能够推测某个特定城市的流感状况甚至能够推测某个特定城市的流感状况信信用用卡卡诈诈骗骗需需通通过过观观察察异异常常情情况况来来识识别别,这这只只有有在掌握所有的数据时才能做到在掌握所有的数据时才能做到社社会会科科学学是是被被“样样本本=全全体体”撼撼动动得得最最厉厉害害的的一一门门学学科科。这这门门学学科科过过去去非非常常依依赖赖于于样样本本分分析析、研研究究和和调调查查问问卷卷。当当记记录录下下人人们们的的平平常常状状态态,就就不不用用担担心在做研究和调查问卷时存在的偏见

29、了心在做研究和调查问卷时存在的偏见了23挚戚拎趋授序应谁抬蘸芬像牵窃湘褐缠荡拌汹前醚奏葬逞性朵巧配睬长跌大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据时代的思维变革大数据时代的思维变革变革二变革二 更杂:不是精确性,更杂:不是精确性, 而是混杂性而是混杂性 对对小小数数据据而而言言,最最基基本本和和最最重重要要的的要要求求就就是是减减少少错错误误,保保证证质质量量。因因为为收收集集的的数数据据较较少少,应应确确保保每个数据尽量精确,以保证分析结果的准确性每个数据尽量精确,以保证分析结果的准确性允许不精确数据是大数据的一个亮点允许不精确数据是大数据的一个亮点, 而

30、非缺点。而非缺点。因为放松了容错的标准,就可以掌握更多数据;因为放松了容错的标准,就可以掌握更多数据;而掌握大量新型数据时,精确性就不那么重要了而掌握大量新型数据时,精确性就不那么重要了例如,与服务器处理投诉时的数据进行比较,用例如,与服务器处理投诉时的数据进行比较,用语音识别系统识别呼叫中心接到的投诉会产生不语音识别系统识别呼叫中心接到的投诉会产生不太准确的结果太准确的结果, 但它有助于把握事情的大致情况但它有助于把握事情的大致情况不精确的大量新型数据能帮助掌握事情发展趋势不精确的大量新型数据能帮助掌握事情发展趋势24蕉消韵殆嚎刷被殷傣鹿珍苛戒始伺耪罢堕赠呜狂火敝扛也及启棕阉瘸酗贵大数的处理

31、和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据时代的思维变革大数据时代的思维变革变革二变革二 更杂:不是精确性,更杂:不是精确性, 而是混杂性而是混杂性执迷于精确性是信息缺乏时代的产物,大数据时执迷于精确性是信息缺乏时代的产物,大数据时代要求重新审视精确性的优劣,如果将传统的思代要求重新审视精确性的优劣,如果将传统的思维模式运用于数字化、网络化的维模式运用于数字化、网络化的21世纪,就会错世纪,就会错过重要信息,失去做更多事情,创造出更好结果过重要信息,失去做更多事情,创造出更好结果的机会的机会另一方面,需要与数据增加引起的各种混乱(数另一方面,需要与数据增加引起的各种混

32、乱(数据格式不一致,数据错误率增加等)做斗争。错据格式不一致,数据错误率增加等)做斗争。错误并不是大数据的固有特性,但可能是长期存在误并不是大数据的固有特性,但可能是长期存在并需要去处理的现实问题并需要去处理的现实问题25汐滋穿职刁舀猎婚忌裂趁篆圃账甲沃惹缠契佃腑贬宾坊娥遗垮仙打灾缎阎大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据时代的思维变革大数据时代的思维变革变革三变革三 更好更好: 不是因果关系不是因果关系, 而是相关关系而是相关关系1. 因果关系与相关关系因果关系与相关关系因果关系是指一个事件是另一个事件的结果因果关系是指一个事件是另一个事件的结果相关关

33、系是指两个事件的发生存在某个规律相关关系是指两个事件的发生存在某个规律与与通通过过逻逻辑辑推推理理研研究究因因果果关关系系不不同同,大大数数据据研研究究通通过过对对巨巨量量数数据据做做统统计计性性的的搜搜索索、比比较较、聚聚类类、分析和归纳,寻找事件(或数据)之间的相关性分析和归纳,寻找事件(或数据)之间的相关性一般来说,统计学无法检验逻辑上的因果关系一般来说,统计学无法检验逻辑上的因果关系也也许许正正因因为为统统计计方方法法不不致致力力于于寻寻找找真真正正的的原原因因, 才才促进数据挖掘和大数据技术在商业领域广泛应用促进数据挖掘和大数据技术在商业领域广泛应用26醇拢拿溉贿机骄崔睫煌棠遏邵锈子

34、茹惶擎涟详伤冲溜踌魏感改义醋矿菩龄大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据时代的思维变革大数据时代的思维变革变革三变革三 更好更好: 不是因果关系不是因果关系, 而是相关关系而是相关关系2. 相关关系帮助捕捉现在和预测未来相关关系帮助捕捉现在和预测未来如如果果A和和B经经常常一一起起发发生生,则则只只需需注注意意到到B发发生生了了, 就可以预测就可以预测A也发生了也发生了故故障障经经常常是是慢慢慢慢出出现现的的,通通过过收收集集所所有有数数据据,可可预预先先捕捕捉捉到到事事物物要要出出故故障障的的信信号号。如如把把发发动动机机的的嗡嗡嗡嗡声声、引引擎擎过过

35、热热等等异异常常情情况况与与正正常常情情况况对对比比,就能知道什么地方将出毛病,及时更换或修复就能知道什么地方将出毛病,及时更换或修复过过去去需需先先有有想想法法,然然后后收收集集数数据据来来测测试试想想法法的的可可行行性性,现现在在可可以以对对大大数数据据进进行行相相关关关关系系分分析析知知道道机票是否会飞涨、哪些词项最能显示流感的传播机票是否会飞涨、哪些词项最能显示流感的传播27藏鼠湍覆倚迅皇码拧浙惊悯丘闰熙弓澳署兜衬菠摄炮拎促菊奇钧宠霍卫傈大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据时代的思维变革大数据时代的思维变革变革三变革三 更好更好: 不是因果关系

36、不是因果关系, 而是相关关系而是相关关系3. 大数据改变人类探索世界的方法大数据改变人类探索世界的方法越越来来越越多多的的事事物物不不断断地地数数据据化化,将将拓拓展展人人类类的的视视野野,使使得得人人们们可可从从大大量量的的数数据据中中,发发现现隐隐藏藏在在其其中的自然规律、社会规律和经济规律中的自然规律、社会规律和经济规律当当网网页页变变成成数数据据,谷谷歌歌具具备备了了令令人人大大跌跌眼眼球球的的全全文文搜搜索索能能力力,在在几几个个毫毫秒秒之之内内,就就能能让让人人们们检检索索世界上几乎所有的网页世界上几乎所有的网页当当方方位位变变成成数数据据,每每个个人人都都能能借借助助GPS 快快

37、速速到到达达目的地目的地28烩辊馅删罩删码君砾桶培坪扳推粘孺冗鲤驹有芝绳偿慕澜妙歉临迭莹曳挎大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据时代的思维变革大数据时代的思维变革变革三变革三 更好更好: 不是因果关系不是因果关系, 而是相关关系而是相关关系3. 大数据改变人类探索世界的方法大数据改变人类探索世界的方法当当情情绪绪变变成成数数据据,人人们们甚甚至至根根据据大大家家快快乐乐与与否否判判断股市的涨跌断股市的涨跌上上述述这这些些不不同同的的数数据据可可归归结结为为几几类类相相似似的的数数学学模模型型,从从而而使使得得“数数据据科科学学”(应应用用数数据据学学习

38、习知知识识的的学科)成为一门具备普遍适用的学科学科)成为一门具备普遍适用的学科生生物物信信息息学学、计计算算社社会会学学、天天体体信信息息学学、电电子子工工程程、金金融融学学、经经济济学学等等学学科科,都都依依赖赖数数据据科科学学的的发展发展29挣穗拘锐狈废沧伏肥踪天赌鬼唐暑慑属背姐睁塑狭缠普硝由虹隘慰圃隙返大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的处理大数据的处理大数据处理的几种主要方式大数据处理的几种主要方式 海量数据的处理对于当前的技术来说是一种极大海量数据的处理对于当前的技术来说是一种极大的挑战,目前大数据的主要处理形式如下:的挑战,目前大数据的主

39、要处理形式如下:静态数据的批量处理静态数据的批量处理 数据体量巨大、精度高、价值密度低数据体量巨大、精度高、价值密度低 利利用用批批量量数数据据,挖挖掘掘合合适适的的模模式式(数数据据的的结结构构、属属性性、联联系系和和约约束束的的描描述述)、得得出出具具体体的的含含义义、制制定定明明智智的的决决策策、做做出出有有效效的的应应对对措措施施、实实现现业业务务目标目标 用于社交网络、电子商务、搜索引擎等用于社交网络、电子商务、搜索引擎等30忍询琵晌抹吱绊冀喊乳盏明音粒杜此抡唾雌绊黄员嚣爹肮慧惹慌遵惠刨浆大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的处理大数据的处理

40、大数据处理的几种主要方式大数据处理的几种主要方式 海量数据的处理对于当前的技术来说是一种极大海量数据的处理对于当前的技术来说是一种极大的挑战,目前大数据的主要处理形式如下:的挑战,目前大数据的主要处理形式如下:在线数据的实时流式处理在线数据的实时流式处理 日志数据、传感器数据、日志数据、传感器数据、Web数据等数据等 数数据据连连续续不不断断、来来源源众众多多、格格式式复复杂杂、物物理理顺顺序不一、价值密度低序不一、价值密度低 流式挖掘、实时分析、流式挖掘、实时分析、 应应用用于于智智能能交交通通、环环境境监监控控、灾灾难难预预警警、金融银行等金融银行等还有在线数据的交互处理、图数据处理还有在

41、线数据的交互处理、图数据处理31窒商蹭夫惦糜唤调涡磅聪绚毫瘸茨亨察附监壹踩蔑早赤厦婴巧巴守峰楚伍大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的处理大数据的处理MapReduce编程模型编程模型是是批批量量数数据据处处理理的的一一种种常常用用编编程程模模型型,源源于于函函数数式编程语言的两个高阶函数:式编程语言的两个高阶函数:map和和reducemap(f1, x1, , xn) = f1(x1), , f1(xn)f1作用于作用于n个变元的计算可以并行个变元的计算可以并行reduce(f2, y1, , yn) = f2( f2(f2(y1, y2), y3

42、), , yn)若若二二元元函函数数f2是是有有交交换换律律和和结结合合率率的的运运算算,则则f2作作用于用于n个变元的计算也可以适当并行个变元的计算也可以适当并行两者的复合:两者的复合: reduce(f2, map(f1, x1, , xn) MapReduce源于此,但更加一般源于此,但更加一般32捻挛愁醛射厌啊匆葫厘枚齿湘射卯抚输极悔曲坞框抢逻眠炉牵杭皖搪肤刃大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲MapReduce编程模型编程模型MapReduce是是一一种种比比较较专专用用的的并并行行编编程程模模型型,面面向大数据集上的可并行化的问题向大数据集上的可

43、并行化的问题Map完完成成过过滤滤或或分分类类,例例如如,它它把把数数据据集集中中所所有有的的人人按按姓姓氏氏分分成成若若干干队队列列,每每个个姓姓氏氏一一个个队队列列; Reduce完完成成概概括括总总结结操操作作,例例如如,计计算算各各姓姓氏氏队队列中的人数,产生按姓氏的人口比例列中的人数,产生按姓氏的人口比例MapReduce可可以以在在并并行行计计算算机机、计计算算机机集集群群和和计计算机网格上实现算机网格上实现大数据的处理大数据的处理33蔫奔恕馆咎肘讯彼狐鬼圣蜜立刻远误孵斤急治令鞋沧滦胃车呻淹呵燕乳同大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲MapRed

44、uce编程模型编程模型计算过程如图所示计算过程如图所示程序员只需编程序员只需编写写Map和和Reduce函数函数1. Map任务任务执行执行Map函数的函数的多个任务并行执行多个任务并行执行每个每个Map任务把文任务把文件块转换成件块转换成“键键-值值”(key-value)对序列对序列大数据的处理大数据的处理Map任务任务Reduce任务任务按键分组按键分组输输出出文文件件输入输入文件块文件块键键-值对值对 (k, v)键及所有值键及所有值(k, v, w, )34拴涅拥旦拌筐鼓乞朋宿翟蛊豺契郊肄赤聋惨日础隔例辊妖电畅篆耀尧史武大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导

45、论第十讲MapReduce编程模型编程模型2. 按键组合按键组合其处理方式与其处理方式与两个函数无关两个函数无关把把“键键-值值”对序对序列组成列组成“键键-值表值表”对对序列序列把各把各“键键-值表值表”对对分发给分发给Reduce任务任务按键组合由主控按键组合由主控程序完成程序完成大数据的处理大数据的处理Map任务任务Reduce任务任务按键分组按键分组输输出出文文件件输入输入文件块文件块键键-值对值对 (k, v)键及所有值键及所有值(k, v, w, )35枣沃肇息涵女搅专蛇擦东掐思贷授则瓜总高指帆铭硼弦措峻非齐蛾肄蔑据大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论

46、第十讲MapReduce编程模型编程模型3. Reduce任务任务执行执行Reduce函函数的多个任务并数的多个任务并行执行行执行每个每个Reduce任务任务把把“键键-值表值表”对中对中的值以某种方式组的值以某种方式组合,转换成合,转换成“键键-值值”对输出对输出大数据的处理大数据的处理Map任务任务Reduce任务任务按键分组按键分组输输出出文文件件输入输入文件块文件块键键-值对值对 (k, v)键及所有值键及所有值(k, v, w, )36贯羽究尹添顶熔埋米疡滚孙粘蒙霞温婉恬怔峨掌荒剐吩迹饿淄揽唉辕焉非大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲当矩阵很大时,

47、可用当矩阵很大时,可用MapReduce实现矩阵运算。对于分块乘:实现矩阵运算。对于分块乘:1. Map任务计算两块的乘,用结任务计算两块的乘,用结果在果在Z中的位置作为键中的位置作为键2. Reduce任务按键值来分别累加任务按键值来分别累加Map任务的结果任务的结果bn大数据的处理大数据的处理X:Y:Z:37岔艰淤栽捆震山鞘苞磋碉痉缕阳雹窒蛤忌溉慑蹿镍普算绿刁忌坏力恍廷闷大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲当矩阵很大时,可用当矩阵很大时,可用MapReduce实现矩阵运算。对于分块乘:实现矩阵运算。对于分块乘:1. Map任务计算两块的乘,用结任务计算两

48、块的乘,用结果在果在Z中的位置作为键中的位置作为键2. Reduce任务按键值来分别累加任务按键值来分别累加Map任务的结果任务的结果bn大数据的处理大数据的处理X:Y:Z:38呈设庄官慌裳缴缩坍霖莹蛾仟桩串砖传熏狰碳褂蛆翔英科腺泅蘑厚扼法茂大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲bn大数据的处理大数据的处理X:Y:Z:当矩阵很大时,可用当矩阵很大时,可用MapReduce实现矩阵运算。对于分块乘:实现矩阵运算。对于分块乘:1. Map任务计算两块的乘,用结任务计算两块的乘,用结果在果在Z中的位置作为键中的位置作为键2. Reduce任务按键值来分别累加任务按键

49、值来分别累加Map任务的结果任务的结果39涝蓝窃珠镰玖枚帮果武灸拇穷学勿串采哦巨令粒诽票膜依蚀肩悉辈砷条白大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲bn大数据的处理大数据的处理X:Y:Z:当矩阵很大时,可用当矩阵很大时,可用MapReduce实现矩阵运算。对于分块乘:实现矩阵运算。对于分块乘:1. Map任务计算两块的乘,用结任务计算两块的乘,用结果在果在Z中的位置作为键中的位置作为键2. Reduce任务按键值来分别累加任务按键值来分别累加Map任务的结果任务的结果40按户涕弥霹豢伐嗜检干扶呀上钒稗匆柏亮铀建舀拭峦妖糯迈酥开奎链蔷鹏大数的处理和分析计算机科学导论

50、第十讲大数的处理和分析计算机科学导论第十讲当矩阵很大时,可用当矩阵很大时,可用MapReduce实现矩阵运算。对于分块乘:实现矩阵运算。对于分块乘:1. Map任务计算两块的乘,用结任务计算两块的乘,用结果在果在Z中的位置作为键中的位置作为键2. Reduce任务按键值来分别累加任务按键值来分别累加Map任务的结果任务的结果bn大数据的处理大数据的处理X:Y:Z:41需假染硼颅谦固寻食身范阉咐嘱碍糜抨沏斗慷僳猎坠姻岛婆随特则拦桔牙大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲bn大数据的处理大数据的处理X:Y:Z:当矩阵很大时,可用当矩阵很大时,可用MapReduce

51、实现矩阵运算。对于分块乘:实现矩阵运算。对于分块乘:1. Map任务计算两块的乘,用结任务计算两块的乘,用结果在果在Z中的位置作为键中的位置作为键2. Reduce任务按键值来分别累加任务按键值来分别累加Map任务的结果任务的结果42丧撬原叭衅抵屑瞒娄捂谦译雏霞熏缨烯赠巳啊涵苹犬宪劳匣雪我冯岿俱氢大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲bn大数据的处理大数据的处理X:Y:Z:当矩阵很大时,可用当矩阵很大时,可用MapReduce实现矩阵运算。对于分块乘:实现矩阵运算。对于分块乘:1. Map任务计算两块的乘,用结任务计算两块的乘,用结果在果在Z中的位置作为键中的

52、位置作为键2. Reduce任务按键值来分别累加任务按键值来分别累加Map任务的结果任务的结果43摩香垦攻查率胖幅动勇假羔脚亡宝烧乞卧鲸后规恭煽棕仁纬卸决雪傀慰剥大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据分析的关键技术大数据分析的关键技术要挖掘大数据的大价值,必须对大数据进行内容要挖掘大数据的大价值,必须对大数据进行内容上的分析与计算上的分析与计算深度学习和知识计算是大数据分析的基础深度学习和知识计算是大数据分析的基础深度学习深度学习 大大数数据据的的出出现现提提供供了了使使用用复复杂杂(而而不不是是简简单单或或浅层)的模型来有效地表征和解释数据的机会浅层)

53、的模型来有效地表征和解释数据的机会 深深度度学学习习就就是是利利用用层层次次化化的的架架构构学学习习出出对对象象在在不同层次上的表达不同层次上的表达 (例(例:降低语音识别错误率)降低语音识别错误率) 近近几几年年,深深度度学学习习在在语语音音、图图像像和和自自然然语语言言理理解等应用领域取得重大进展解等应用领域取得重大进展大数据的分析大数据的分析44钓余熊仟寓醋警病楷假凰涂灭坦斯戴头珍辆悬亦混措裴泵禽扒锑墩符站垒大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据分析的关键技术大数据分析的关键技术要挖掘大数据的大价值,必须对大数据进行内容要挖掘大数据的大价值,必须对

54、大数据进行内容上的分析与计算上的分析与计算深度学习和知识计算是大数据分析的基础深度学习和知识计算是大数据分析的基础知识计算知识计算 要要对对大大数数据据进进行行高高端端分分析析,就就需需要要从从大大数数据据中中抽取出有价值的知识抽取出有价值的知识 并并将将其其构构建建成成可可支支持持查查询询、分分析析和和计计算算的的知知识识库库 涉涉及及知知识识库库的的构构建建、多多源源知知识识的的融融合合和和知知识识库库的更新、知识的复用的更新、知识的复用大数据的分析大数据的分析45圆循噶签祭挖爹搞饥箍侍钥殴乞雕痹恨憎掌冕闲结湿哦就肾敞质灰腮香仗大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学

55、导论第十讲大数据的分析大数据的分析大数据分析的关键技术大数据分析的关键技术要挖掘大数据的大价值,必须对大数据进行内容要挖掘大数据的大价值,必须对大数据进行内容上的分析与计算上的分析与计算社会计算社会计算 是现代计算技术与社会科学之间的交叉学科是现代计算技术与社会科学之间的交叉学科 它它是是指指面面向向社社会会活活动动、社社会会过过程程、社社会会结结构构、社会组织和社会功能的计算理论和方法社会组织和社会功能的计算理论和方法 在在线线社社会会计计算算包包括括在在线线社社会会网网络络的的结结构构分分析析、信信息息传传播播模模型型以以及及信信息息内内容容的的分分析析、建建模模与与挖挖掘掘等等46怀轿奔

56、析旁虐档噬涂倪腑虏颂扇嫌莹企刻韦乏替疽旗姬也柑坊函童现柿逮大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的分析大数据的分析大数据分析的关键技术大数据分析的关键技术要挖掘大数据的大价值,必须对大数据进行内容要挖掘大数据的大价值,必须对大数据进行内容上的分析与计算上的分析与计算可视化可视化 可可视视化化不不仅仅可可对对数数据据分分析析的的结结果果进进行行更更有有效效的的展示,而且在大数据的分析过程中发挥重要作用展示,而且在大数据的分析过程中发挥重要作用 不不同同于于传传统统的的信信息息可可视视化化,大大数数据据可可视视化化的的最最大挑战源自其数据规模大挑战源自其数据

57、规模 如如何何提提出出新新的的可可视视化化方方法法,它它能能够够帮帮助助人人们们分分析析大大规规模模、高高维维度度、多多来来源源、动动态态演演化化的的信信息息,并辅助作出实时的决策并辅助作出实时的决策47适裙谐殊邓滞矽婶嫡期缴雍确唾冠烂饶要乏哼难芥疥离啮俩闲识评勺搂卵大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的分析大数据的分析PageRank初步初步PageRank(网网页页排排名名)通通过过对对网网络络浩浩瀚瀚的的超超链链接接关系的分析来确定一个页面的等级关系的分析来确定一个页面的等级Google把把从从A页页面面到到B页页面面的的链链接接解解释释为为A页

58、页面面给给B页页面面投投票票,B页页面面从从A页页面面的的投投票票能能得得多多少少分分还还与与A页面的等级有关页面的等级有关一一个个页页面面的的PageRank,由由所所有有给给它它投投票票的的页页面面的的数量和重要性,经过迭代计算得到数量和重要性,经过迭代计算得到这这项项技技术术使使得得Google成成为为第第一一个个能能够够战战胜胜作作弊弊者者的的搜搜索索引引擎擎。当当然然,与与作作弊弊者者之之间间的的斗斗争争永永远远不不会停止会停止48弊涯惨拴剪稠疮诊养晨肪谦梯膨类肥察绥眨听估硝鲤雌快陀撰藉版噬组受大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的分析大数据

59、的分析PageRank初步初步1. 早期搜索引擎与词项作弊早期搜索引擎与词项作弊搜搜索索引引擎擎:词词项项出出现现在在网网页页头头部部比比在在普普通通正正文文的的得分高、词项在网页中出现的次数越多得分越高得分高、词项在网页中出现的次数越多得分越高作作弊弊者者:在在自自己己的的网网页页上上增增加加热热门门词词项项, 如如movie, 并并重重复复很很多多次次,以以提提高高与与movie的的相相关关性性。词词项项movie在在该该网网页页上上的的颜颜色色与与背背景景色色一一样样,以以掩掩盖盖作作弊者的不道德行为弊者的不道德行为49诉徒麓皂釜答培蓑漠蜜者六蔓统炯扒石哥愁毡峪紧拔房彪燥渐蹋胳研骡瞒大数

60、的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的分析大数据的分析PageRank初步初步2. Google的对策的对策使使用用PageRank技技术术来来模模拟拟Web漫漫游游者者的的行行为为:他他们们从从随随机机页页面面出出发发,每每次次从从当当前前网网页页随随机机地地选选择择出出链链前前行行,该该过过程程可可以以迭迭代代多多次次。最最终终,较较多多漫漫游游者者访访问问的的网网页页则则重重要要性性较较高高。在在决决定定查查询询应应答答顺序时,顺序时,Google把重要页面放在前面把重要页面放在前面在在判判断断网网页页内内容容时时, 不不仅仅考考虑虑网网页页上上出出

61、现现的的词词项项,还考虑有链接指向该网页的网页中所使用的词项还考虑有链接指向该网页的网页中所使用的词项50斥放满吴附獭秸政稳吨堪曹敛偶浊坛们暇柬药暗桑尖宿绎亭朋砒稍栈劳碎大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的分析大数据的分析PageRank初步初步3. 最简单的最简单的PageRank举例举例PageRank:网页集:网页集实数,值越大则网页越重要实数,值越大则网页越重要定定义义网网页页的的Web迁迁移移矩矩阵阵M来来描描述述随随机机漫漫游游者者的的下一步访问行为下一步访问行为例:从例:从A出发,以出发,以1/3的概率的概率访问访问B、C和和D,访问,

62、访问A的的概率为概率为0 0 1/2 1 01/3 0 0 1/21/3 0 0 1/21/3 1/2 0 0A B C DM =ABCD51且砒乌塌屁漂扭肩敏腊肃寿荫髓易视篷岭堕庸峨锰寂孔共弦惨初银馋憎除大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的分析大数据的分析PageRank初步初步3. 最简单的最简单的PageRank举例举例随随机机漫漫游游者者位位置置的的概概率率分分布布可可通通过过一一个个n维维向向量量v来描述,每个分量表示处于相应网页的概率来描述,每个分量表示处于相应网页的概率例例(续续):假定处于各网页的初始概率相等:假定处于各网页的初始概率

63、相等Mkv是随机漫游者是随机漫游者k步后的概率分步后的概率分布向量布向量ABCD 0 1/2 1 01/3 0 0 1/21/3 0 0 1/21/3 1/2 0 0A B C DM =1/41/41/41/4v52愧舍茄卿鞍磅复惶陋裴袭摸嫌辗他蕉滔步毋奏迁孽谋踢授另颗腹跑驭橇饱大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的分析大数据的分析PageRank初步初步3. 最简单的最简单的PageRank举例举例在在Web网网页页链链接接图图满满足足一一定定的的条条件件下下,概概率率分分布布向量将逼近一个极限分布,它满足向量将逼近一个极限分布,它满足v = Mv并

64、并且且,若若分分布布向向量量各各分分量量之之和和为为1时时,方方程程v = Mv有唯一解有唯一解在常规情况下,可用高斯消去法解方程在常规情况下,可用高斯消去法解方程v = Mv在在实实际际情情况况下下,图图由由几几百百亿亿甚甚至至几几千千亿亿个个节节点点组组成成,高高斯斯消消去去法法不不可可行行,原原因因在在于于其其时时间间复复杂杂度度是方程个数的三次方是方程个数的三次方若迭代求解,每轮迭代的时间复杂度是平方级若迭代求解,每轮迭代的时间复杂度是平方级53嘘枫迭髓错炽茸觅押签难丫浑萎续蹈蓖叉座尼脏讨恍生督妇矽慕阵缆刚植大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据

65、的分析大数据的分析PageRank初步初步3. 最简单的最简单的PageRank举例举例例例(续续):对矩阵:对矩阵M进行进行迭代计算:相当把求解迭代计算:相当把求解方程方程v = Mv转化为找函数转化为找函数 v.Mv最小不动点的迭代过程最小不动点的迭代过程ABCD9/245/245/245/24Mv15/4811/4811/4811/48M2v11/327/327/327/32M3v3/92/92/92/9极限极限 0 1/2 1 01/3 0 0 1/21/3 0 0 1/21/3 1/2 0 0A B C DM =1/41/41/41/4v54损十腻瑞熙佛泻瓣淀淄添毛珠蝎钳昧萄邮严寥四

66、岂梧眠臆概扑麦驹锋孕黑大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲大数据的分析大数据的分析PageRank初步初步3. 最简单的最简单的PageRank举例举例需要基于需要基于MapReduce进进行行PageRank的迭代计算的迭代计算ABCD3/92/92/92/99/245/245/245/2415/4811/4811/4811/4811/327/327/327/32MvM2vM3v极限极限 0 1/2 1 01/3 0 0 1/21/3 0 0 1/21/3 1/2 0 0A B C DM =1/41/41/41/4v55李唇孔辙局辛痕净化胡诈虾雹辰笺帽代柳

67、撇汉苏啊涩孺孵麻壕士拆耗密竭大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲小小 结结本讲座小结本讲座小结概概要要介介绍绍了了大大数数据据的的基基本本概概念念和和特特点点、大大数数据据时时代的思维变革,大数据的处理和分析技术代的思维变革,大数据的处理和分析技术面临的挑战面临的挑战数据复杂:数据的种类复杂、结构复杂和模式复数据复杂:数据的种类复杂、结构复杂和模式复杂,使得数据感知、表达、理解和计算都面临挑战杂,使得数据感知、表达、理解和计算都面临挑战计算复杂:数据多源异构、规模巨大、快速多变计算复杂:数据多源异构、规模巨大、快速多变, 使传统的机器学习、信息检索和数据挖掘

68、都显不足使传统的机器学习、信息检索和数据挖掘都显不足系统复杂:对处理系统的系统架构、计算框架、系统复杂:对处理系统的系统架构、计算框架、处理方法、运行效率和单位能耗等都有挑战处理方法、运行效率和单位能耗等都有挑战56曹咕啡酮育耗抽洒坷辞逛针猾鱼挣桅噶闸咏崎堵雍不够估庄涅懒淌报牛饵大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲小小 结结参考文献参考文献维维克克托托尔尔耶耶舍舍恩恩伯伯格格等等,大大数数据据时时代代:生生活活、工工作与思维的大变革,浙江人民出版社,作与思维的大变革,浙江人民出版社,2012Anand Rajaraman等等, 大大数数据据:互互联联网网大大规规模模数数据据挖掘与分布式处理,人民邮电出版社,挖掘与分布式处理,人民邮电出版社,2012程程学学旗旗等等,大大数数据据系系统统和和分分析析技技术术综综述述,软软件件学学报,报,25(9):1889-1908, 2014相关课程相关课程机器学习与知识发现(研)、机器学习与数据挖机器学习与知识发现(研)、机器学习与数据挖掘前沿(研)掘前沿(研)57赋舵掩暴狭刽修威邑秘在藕载妓煌府拂豺葱论剪颈桃磨踏跟浦藏术蟹贾芯大数的处理和分析计算机科学导论第十讲大数的处理和分析计算机科学导论第十讲

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号