听课笔记 大数据概论

上传人:飞****9 文档编号:130648028 上传时间:2020-04-29 格式:DOC 页数:9 大小:240.47KB
返回 下载 相关 举报
听课笔记 大数据概论_第1页
第1页 / 共9页
听课笔记 大数据概论_第2页
第2页 / 共9页
听课笔记 大数据概论_第3页
第3页 / 共9页
听课笔记 大数据概论_第4页
第4页 / 共9页
听课笔记 大数据概论_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《听课笔记 大数据概论》由会员分享,可在线阅读,更多相关《听课笔记 大数据概论(9页珍藏版)》请在金锄头文库上搜索。

1、大数据与社会科学概论刘涛雄大纲1. 大数据概论2. 大数据的主要技术手段3. 数据分析技术:机器学习概论4. “大数据社会科学”何为大数据?(Big Data)特点:大。超过常用软件工具的收集、管理和处理数据的能力范围的数据集。但是,也不是简单地以规模论大,而是相对的复杂程度。如果以现在计算机的能力:针对简单查询(如关键词查询),数据量为TB或PB是即可称为大数据。针对复杂查询(如数据挖掘),数据量为GB至TB时即可称为大数据。大数据特性:4Vl Volume:体量巨大l Velocity:速度极快l Variety:模态多样l Veracity:真伪难辨无所不在的数据生成源:1. 全社会(发

2、言、网状结构)、2. 网络用户(浏览行为、搜索行为)、3. 管理者(发票、医院记录、交通检测)、4. 商业机构(手机记录、信用卡记录、保险记录、商场购物记录)、5. 健康数据(电子医疗设备记录、医疗检测)、6. 卫星信息系统(物联网)我们都有哪些数据?l 文本信息n 中文分词l 多媒体l 时间序列(高频数据)l 空间数据l 网页数据l 社会网络大数据与社会科学第一层次:基于数据的知识发现(Knowledge Discover in Database, KDD)有理论假设的好处:可以节省信息量,缩小搜寻范围。当数据获取和处理能力足够强,KDD也能体现其优势。例子:Hedonometrics an

3、d TwitterHow Obamas Data Crunchers helped him win活跃领域:l 数据挖掘(data mining)n 政治学、经济学、社会学、心理学、管理学n 如:price indexl 预测(forcasting)和现测(nowcasting)n 如:对google trends的利用l 社会计算(Computational Social Sciences)n Computation about(of) the people:如社会情感n Computation for the people:如信任计算、风险计算n Computation by the pe

4、ople:如主体参与、群体智能大数据的主要技术手段关键技术Hadoop:分布式管理平台来自Google的设计思想:l 一个分布式文件系统和并行执行环境(HDFS和MapReduce)l 方便用户处理海量数据云计算机器学习计算机针对特定任务(Tasks)和效果评价指标(Performance Measurement),基于已有经验(Experiences),自动地不断改进算法,并随着E的扩大不断提高对T的执行效果(P)T:任务P:效果评价E:经验集(训练集)训练和预测最佳预测:Bias-Variance平衡一般来说,模型越复杂,变量越多,Bias2越低,但var(f(x)越大所以对于模型选择,一

5、个很重要的准则是降维。大数据对社会科学的机遇与挑战机遇l 数据来源极大拓展l 获取信息速度大大加快l 计算能力极大增强l 核心:技术、数据+人挑战l 数据太多 维数灾难?l 数据太乱 结构化与非结构化l 生成机制难掌握(DGP, Data Generating Process)n 谁是总体?谁在创造数据?n 总体创造数据的动机和行为机制是什么?l 官方统计还有存在必要吗?n 结构化数据与非结构化数据社会科学:因果与相关社会科学的核心:因果解释自然科学与社会科学:相关易于因果,相关重于因果?大数据对研究还有意义吗?大数据同样会促进“因果解释”社会科学的研究范式:假设检验(演绎法)大数据:寻找相关

6、(归纳法)l 信息增加与避免错误因果政策:预测与因果我们是不是过于重视“因果”?l 关键:数据生成机制是否稳定?两类政策问题:“降雨术问题”与“雨伞”问题l 降雨术:因果(干预问题)l 雨伞:预测(对策问题)但任何一个政策措施,其影响可能是十分复杂的,有能被解释的部分也有不能被解释的部分。互联网金融简介对中国的贡献征信财富管理P2P大数据要和先进的方法一起使用一、传统金融业务传统方式(支付、个人理财)放在互联网上支付二、互联网和金融的化学反应、支付体系互联网征信P2P贷款众筹网络虚拟支付功能0.5%费率资源分配投融资渠道不畅,超过30%中国征信市场的现状人民银行的征信系统有8亿数据(活跃的有3

7、亿)25%的人有征信数据美国有70%的人电商有个人消费数据(大概有3亿)征信与消费的结合租车4W+1H5P5C+1S支付数据财务关系消费数据消费习惯金融数据信用记录社交数据个人特征行为数据P2P点对点线上获取信息和资金流程:获取借贷列表和信用审核信贷审核:实地审核线上项目审核系统确定借款利率固定利率按融资期限长短和信:小众大额非公开宣传持有人不能超过200人针对高端人群众包把复杂的任务以自由自愿的形式外包给非特定的大众网络的做法模式利用空闲时间靠大众力量之Rm (“A“)清除Ls()显示出Vector 一位 cMatrix 二位Array m* n*q*p 一种类型储存List Vector

8、Matrix 二位Array8月25日社会网络分析郑路1、概要网络是指物体节点和物体之间的连线所组成的集合。节点:行动者:个人、作为单元互动结构的网络网络研究看成是一切互动形式的研究信息传递网站链接信息交换贸易信用与资金流动友谊信任网络分析的隐含前提比起节点自身的属性,节点之间的关系对行为的影响更甚。买东西的决定受周围人际关系的影响朋友的朋友对你的心里趋向有影响某一节点的行为不仅与直接相联的连带有关,也会受到整个网络结构连结模式的影响。从关注:“个体特征”到关注“关系”现在营销分析关注社交网络,微信的股价是600亿,2015年赚了18亿美元,小群体分析:社会思潮分析:美国选民的政治空间两极化。

9、网络与政治观点的关系?国际贸易与国际关系城市兴起莫斯科为什么成为首都热丽亚为什么成为政治、经济、文化中心与地理位置有关,陆陆与水陆,水陆更重要新潮事物的扩散传染病的传播黑色节点 临床确定人 生物性与社会性的传播?被动与主动社会没有时空限制、生物传播很少出现病原体变异,但是社会性会变异八卦谣言。也可以由于某一因素突然变得活跃传播,北京折叠。社会网络与健康孤独感Facebook 2、网络概念化与测量距离:连结两个节点的最短路径的长度。连带强度:结构洞:小世界现象:联系在观测的一个月,两个用户至少发生过一次对话。三度影响力原则我们被影响并影响着相距“三度”的人?你朋友的朋友的朋友如何影响你的感受、思

10、考和行为传染:什么可以在连结中传递?(病菌、金钱、暴力、时尚、捐献器官、感受快乐、发胖)是人以群分行为,使自己和朋友们更像。人行道实验连带强度:强关系:家庭成员与亲密朋友弱关系:熟人和“泛泛之交”的朋友结构洞:两个网络群体的节点间无直接关系或关系间断的现象,从网络整体来看,晋升、加薪的机会文本数据挖掘与分析一、社会科学中的文本分析文本不是主流文本资料难获取花时间难推广:文革与现在难管理:文本难以管理、储存?难分析:coding 文本分析繁荣的条件逐步具备:大规模文本数据采集储存和管理能力增强文本分析方法蓬勃发展:可推广、系统化和廉价化文本资料指数级增长通过文本表达的社会意义更广泛文本分析师收集数据的方法论:研究者采集他人理解世界的信息的途径。人工coding 机器coding自然语言过程机器学习(MC)统计技术引入文本分析软硬件易得非结构化海量潜在维度:所有语言的各种可能词语和短语等文本中词语之间复杂且微妙的关系词语模糊性和情景敏感性二、获取文本数据三、文本数据分析:基本应用四、文本数据分析:高级应用五、文本分析与因果推论六、文本数据分析举例

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号