数据科学导论-中国科学技术大学

上传人:suns****4568 文档编号:88920573 上传时间:2019-05-13 格式:PDF 页数:71 大小:8.76MB
返回 下载 相关 举报
数据科学导论-中国科学技术大学_第1页
第1页 / 共71页
数据科学导论-中国科学技术大学_第2页
第2页 / 共71页
数据科学导论-中国科学技术大学_第3页
第3页 / 共71页
数据科学导论-中国科学技术大学_第4页
第4页 / 共71页
数据科学导论-中国科学技术大学_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《数据科学导论-中国科学技术大学》由会员分享,可在线阅读,更多相关《数据科学导论-中国科学技术大学(71页珍藏版)》请在金锄头文库上搜索。

1、数据科学导论数据科学导论 Introduction to Data Science 第一章 数据科学基础第一章 数据科学基础 9/3/2018 1 An Introduction to Data Science 陈恩红、刘 淇陈恩红、刘 淇 Email: Email: 课程主页:课程主页: http:/ 课程目标 全面了解数据科学的基础知识 包括数据分析的常用技术、发展前沿和应用案例 了解数据的“能”与“不能” 树立数据科学的基本思路 初步掌握使用数据分析手段解决实际应用问题的能力 9/3/2018 2 数据科学基础 数据 从计算机科学的角度,所有能够输入到计算机并被计算机程序 处理的符号的

2、总称 “人-机-物”三元融合,世界已经成为数据化的世界 3 当文字成为数据当方位成为数据当沟通成为数据 一切事物的数据化 数据科学基础 我们生活在数据中,所有人都在制造和分享数据 4 数据科学基础 案例:从最不可能的地方获得数据 当一个人坐着的时候,他的身形、姿势和重量分布都可以量化 和数据化。 5 数据科学基础 6 背景:铺天盖地的“大数据”字眼 大数据新闻1亿篇 大数据“完全占领”了互联网和IT领域之后,开始进入各行各业,形成 了政府大数据、教育大数据、医疗大数据、交通大数据、金融大数据、 保险大数据、公安大数据、法院大数据、旅游大数据、 数据科学基础 7 李德毅院士:大数据本身,既不是科

3、学也不是技术,它反映的是网络时 代的一种客观存在 大数据到底是噱头+忽悠,还是真金白银啊? 你们说的大数据到底是啥?大数据的输入和输出是? 我没看清楚大数据的价值,但很清楚大数据的大成本,真能赚回来吗? 未来真的不会大数据就不能赢了吗? 我不认为数据等同于价值,哪些数据才有价值? 所谓的大数据牛的公司,到底牛在哪? 我用SQL Server用的好好的,一定要现在就转大数据吗? 大数据就是数据,没什么可神秘的。它是一种原材料,数据库、数据挖掘、云 计算、高性能计算、机器学习等都可以看作是对这种原材料进行存储烹饪加工 等的手段和技术,目的就是做出各种美食(例如让AlphaGo打败李世石) 数据科学

4、基础 8 大数据有多大? 数据量已到ZB等级 KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB PB以上级别的数据,最有效的传输方式是空运,而不是网络 而大数据不仅仅只是量大! 60秒,我们能产生多少数据? PB是大数据层次的临界点是大数据层次的临界点 数据科学基础 客观存在的大数据 9 数据种类多样 (Variety) 高实时性 (Velocity) 流式处理Streams 实时处理Real Time 批处理Batch 结构化Structured 非结构化Unstructured 半结构化Semi-structured TB (230KB) PB (240KB) ZB (260KB

5、) Value 数据价值巨大 数据量大 (Volume) 数据科学基础 客观存在的大数据-Volume(数据量巨大) 10 阿里所保有的、经过清洗的历史数据已超过100PB。 阿里数据仓库负责人七公(汪海) 百度现在的数据规模已经到了EB级,每天处理的数据量 到了上百PB。 百度大数据部总监薛正华 全球数据总量在2010年达到1.2ZB,预计2020年达到 44ZB,每两年增长一倍。 IDG数字宇宙报告2014 1 ZB = 地球上沙粒的总量,1 EB = 4000个美国国会图书馆的藏书 1 ZB = 210EB = 220PB = 230TB = 240GB 数据科学基础 客观存在的大数据-

6、 Variety(数据类型多) 11 数据形式的多样: 结构化数据,半结构化数据,非结构化数据 图像数据,语音数据,文本数据,数字化数据 数据来源的多样性: 不同的IT应用系统 各种设备(物联网) 互联网 其它 文本数据文本数据 视频数据视频数据 图像数据图像数据 音频数据音频数据 时空数据时空数据 事务数据事务数据 数据科学基础 客观存在的大数据- Velocity(高实时性) 12 1秒定律:对于大数据应用而言,必须要在1秒钟内形成答案,否则这些 结果可能就是过时的、没有意义的 在百度输入关键字:在百度输入关键字: “汽车维修汽车维修”、”、“挖掘机 学习” 某在线电影网站 某IT业界资讯

7、网站 例如用户在合肥某台PC上,打开百度输入关键字片刻之后,再打开其它网站,就 会看到相关的广告,并且所推荐的是地理位置信息相关的(合肥、安徽) 数据科学基础 客观存在的大数据- Value(价值巨大但价值密度低) 13 挖掘大数据中的价值类似沙里淘金,需要从海量数据中挖掘稀 疏但珍贵的信息 所有产业都可以应用大数据产生价值 图:麦肯锡对各个行业从大数据中 获得价值难易程度的分析 (2011年) 潜在价值高低 价 值 获 取 难 度 各产业GDP占比 (以美国经济为例) 数据科学基础 14 大数据已成为国家基础性战略资源,日益对全球经济运 行机制、社会生活方式和国家治理能力产生重要影响 党中央

8、、国务院高度重视大数据发展及其创新应用 党中央、国务院高度重视大数据发展及其创新应用 2014.11关于促进电子政务协调发展的指导意见 2015.08促进大数据发展行动纲要 2015.10 十八届五中全会明确提出实施国家大数据战略 数据科学基础 15 目前,全国已有众多省份成立了大数据分析相关的省级重点实验室 北京市大数据管理与分析方法研究重点实验室 上海市上海市数据科学重点实验室 广东省广东省大数据分析与处理重点实验室 江苏省江苏省大数据分析技术重点实验室 浙江省浙江省大数据智能计算重点实验室 湖南省大数据研究与应用湖南省重点实验室 安徽省大数据分析与应用安徽省重点实验室 http:/ 数据

9、科学基础 国外的著名高校大部分设立了大数据科学相关专业和机 构 斯坦福大学、麻省理工学院、加州大学伯克利分校等 2015年,复旦大学成立了大数据学院和大数据研究院 2016年,北京大学、对外经济贸易大学及中南大学分别 成功申请了数据科学与大数据技术专业 2017年3月,教育部公布了第二批32所高校新增数据科学 与大数据技术专业 2018年3月,教育部公布了第三批248所学校新增数据科 学与大数据技术专业 2018年,中国科学技术大学成立大数据学院年,中国科学技术大学成立大数据学院 http:/ 16 数据科学基础 17 数联寻英大数据人才报告 当前全国的大数据人才仅46万,3-5年内大数据人才

10、的缺口将高达150万 中国商业联合会数据分析专业委员会 未来中国基础性数据分析人才缺口将达到1400万 在BAT企业招聘的职位里,60%以上都在招大数据人才 数据科学基础 18 改变这个世界的四种力量 世界著名未来学家托夫勒 第三次浪潮作者 暴力知识 金钱大数据 数据科学基础 数据蕴含着巨大的价值 健康医疗方面 病人数据资料推动个性化药物治疗 19 第三次药物革命的代表将是靶向的、个性化 的药物。这些药物可以针对每个人的基因进 行定向治疗,使治疗能够更加精准、有效且 副作用更少。现在看似同样的疾病、同样的 治疗,对不同的患者可能会产生完全不同的 治疗结果,这就是因为每个个体都是有差异 的,年龄

11、、性别、体重、饮食结构等都不同 ,更不用说基因遗传的不同了。 数据科学基础 数据蕴含着巨大的价值 教育方面:“因材施教” 20 学 生 的 学 习 行 为 数 据 大数据 分析 学生认知水 平画像 个性化学习 推荐 试题难度等 特征的预测 试题-知识点 20 易 数据科学基础 数据蕴含着巨大的价值 社会科学方面 社交媒体比问卷调查提供了更有代表性的结果 智能引导社会成员的行为 21 15万名奥巴马支持者在15万名奥巴马支持者在 Facebook安装了“奥巴Facebook安装了“奥巴 马2012”应用,而通过马2012”应用,而通过 这个程序,总统竞选团这个程序,总统竞选团 队可以间接得到这些

12、支队可以间接得到这些支 持者数百万的Facebook持者数百万的Facebook 好友信息。好友信息。 有一种说法称,特朗普有一种说法称,特朗普 的团队聘用数据分析公的团队聘用数据分析公 司,做了精准的广告投司,做了精准的广告投 放,影响了那些徘徊不放,影响了那些徘徊不 定的选民,拿下了决定定的选民,拿下了决定 性的关键州选举人票性的关键州选举人票 数据科学基础 数据蕴含着巨大的价值 社会科学:自动写稿、评论 22 数据科学基础 数据蕴含着巨大的价值 影视娱乐:纸牌屋效应 23 数据科学基础 数据蕴含着巨大的价值 影视娱乐:纸牌屋效应 24 数据科学基础 数据蕴含着巨大的价值 电子商务方面:计

13、算广告 25 后台取出该IMEI号 对应的用户画像标签 媒体端告诉 后台,该机主 的IMEI号和场 景信息 出现一次曝光机会! 媒体端 广告物料库 物料标签 物料ID1,APP,理财, 物料ID2,商品,食品,蟹、 物料ID3,汽车,本田 物料ID4,工具,学习,词典, 后台取出当前激活 的各个物料及其标签 DMBP 点击率预 测模型 0.82% 0.68% 0.52% 0.60% 预测结果 进行点击率预测,并 展现概率最高的物料 后台 DMP 媒体端 IMEI号和当 前场景信息 点击率预测 用户画像标签 :男、青年、已婚、无子、白领、 喜欢汽车、无车、IT、喜欢理财、 数据科学基础 数据蕴含

14、着巨大的价值 电子商务方面:精准搜索、个性化消费推荐 26 数据科学基础 数据蕴含着巨大的价值 城市交通方面 27 提示:黄山路堵车,请绕 行 数据科学基础 数据蕴含着巨大的价值 司法管理方面:智慧司法 28 案件:涉案当事人王某被法院判定赔偿人民币案件:涉案当事人王某被法院判定赔偿人民币20万万 元,王某宣称无力支付。元,王某宣称无力支付。 从前:法院查询王某名下财产,包括银行存款、房从前:法院查询王某名下财产,包括银行存款、房 产、现金等,发现其的确没有执行能力,但怀疑其产、现金等,发现其的确没有执行能力,但怀疑其 有故意转移财产的嫌疑。王某社会关系复杂,这让有故意转移财产的嫌疑。王某社会

15、关系复杂,这让 执行法官无从下手,可能需要求助公安机关。执行法官无从下手,可能需要求助公安机关。 现在:创建涉案当事人画像系统后,打破了各部门现在:创建涉案当事人画像系统后,打破了各部门 之间数据壁垒,使得数据可以互通互联。执行法官之间数据壁垒,使得数据可以互通互联。执行法官 通过系统获知王某的社交关系信息、房产交易信息通过系统获知王某的社交关系信息、房产交易信息 等,最终查明王某通过给好处费的方法蓄意将变卖等,最终查明王某通过给好处费的方法蓄意将变卖 房产后的现金存放在友人处。王某故意隐匿财产,房产后的现金存放在友人处。王某故意隐匿财产, 法院对其强制执行。法院对其强制执行。 数据科学基础 数据蕴含着巨大的价值 公司管理方面:大数据智能化人力资源管理 29 大数据 智能化招聘 管理工具 外部招聘是互联网公司 完善人才梯队、提升业 务竞争力的重要手段。 在传统招聘中,主要依 赖招聘人员的知识储备 与经验判断。因此,熊 辉老师团队开发了智能 化招聘的一系列管理工 具,基于内外部大数据 精准HR更有效、高效地 获取高科技人才。 智能招聘效率提升 招聘状态转移 动态招聘广告 人才圈子发现 人才流动预测 面试官评估与人才特征 该工具

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号