关于大数据的观察和思考

上传人:jiups****uk12 文档编号:40028109 上传时间:2018-05-22 格式:PDF 页数:41 大小:2.85MB
返回 下载 相关 举报
关于大数据的观察和思考_第1页
第1页 / 共41页
关于大数据的观察和思考_第2页
第2页 / 共41页
关于大数据的观察和思考_第3页
第3页 / 共41页
关于大数据的观察和思考_第4页
第4页 / 共41页
关于大数据的观察和思考_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《关于大数据的观察和思考》由会员分享,可在线阅读,更多相关《关于大数据的观察和思考(41页珍藏版)》请在金锄头文库上搜索。

1、关于大数据的观察和思考 张宏江 智谷发明 董事长兼CEO 金山软件集团 CEO 我想说的 一个出发点 CBIR 两个观察 大数据 机器学习 三个趋势:Research 2.0 四点关于研究的随机思考 一个出发点:从CBIR说起 一个典型的图像搜索系统 Query Formation Results Presentation Ranking Indexing Data Index Query User Intention Gap Semantic Gap Intention/ Semantic Gap The Problem Semantic gap: How to build automati

2、c concept classifiers and image annotation models? - Label collection: Annotation 跨越语义鸿沟 Query Results IBM QBIC (Flickner et al 95) CBIR 又遇语义陷阱 Feature Vectors Lets view the feature groups as words! Word 1 word 2 word 3 word n Models What kinds of image features should be used? How to map them to wo

3、rds (semantics)? 问题和解决方案 Problem: Never sufficient data 互联网如何改变了CBIR ? 无穷的数据 上亿的用户 几十亿的交互 Flicker Fotki 美图秀秀 . Facebook Twitter 微信. Photo sharing Social network Dropbox 金山快盘. Cloud 中秋节四天,金山云每天上传 的照片超过两千万 “Flicker: Currently 8 billion photos are stored. ”(Mar., 2013) http:/ media.html “ Tencents Qzon

4、e now hosts over 150B photos” (Aug., 2012) http:/ internet-giant-tencents-qzone-social-network-now-hosts-over-150- billion-photos/ Cloud storage “Facebook has 220 billion of your photos to put on ice.” (Oct., 2012) http:/ photos-to-put-on-ice/ IMAGE ANNOTATION BY SEARCH + MINGING Data Driven, Model

5、Less Two basic stages: Searching similar images: For an uncaptioned image Iq, we first find a set of visually similar images s from a large-scale image database. Mining representative keywords: Given the image set s, we further cluster the descriptive texts of s (i.e., image title, surrounding text,

6、 etc.) to find the most representative keywords as the annotations to Iq. Search Mining MSRA IMAGE ANNOTATION BY SEARCH + MINGING Query Image + One Keyword Search In A Large Image Database (80 millions) Semantically swarovski crystal Logo; mercedes benz; mercedes van; mercedes logo chocolate, Red, F

7、avorites Las vegas Vegas; las vegas sacre coeur; Paris; location vacances paris hilton; hollywood gossip; barack obama; presidential candidate bill gates frida kahlo; hope,tree,art; masters painter van gogh; oil painting; drinkers, vangogh van gogh; night caf; oil paintings Happy birthday dog balloo

8、ns; Glitter Simpsons movie travel inn; premier inn; city centre; basildon hotel pearl harbor josh hartnett timber wolf Monkey MSRA 互联网如何改变了CBIR ? The Problem Semantic gap: How to build automatic concept classifiers and text annotation models ? Data driven, model less Inter play between text data and

9、 visual features Annotation: Label collection Billions of user tags Crowd Sourcing Big Data + Machine Learning + Crowd Sourcing CROWD SHOUCING: 表哥事件 观察 一: 互联网催生大数据 什么是大数据 大数据是现代社会在掌握海量数据收集、存储和处 理技术基础上所产生的一种以群体智慧进行判断和 预测的能力。 内在含义 经验主义理性主义 数据 模型 相关关系 因果关系 数据 平台 模型 文继荣 大数据的三大挑战性 Variety Volume 模态多样 Ver

10、acity Volume 真伪难辨 Velocity Volume 变化极快 文本 视频 图片 音频 分享的内容条目超过 25亿个/天,增加数 据超过500TB/天 数据的变化 实时性:时间维度的增 加 数据收集的实时性:极 大地增加了数据量 数据分析的实时性:极 大地增加了处理量 数据的异构性 提升覆盖率:从多个异 构的数据源融合数据 增加数据的随机性:多 个数据源交互印证 数据的质量 什么是“低质” 随机噪音 大而低质 小而高质? 多大的数据是大数据 当数据多到能对几乎整个样本空间进行充分覆盖, 从而减弱对理论和模型的依赖时,这样的数据就足 够“大”了 对预测掷硬币这种问题,样本空间为0,

11、1,1000个样 本就足以得到置信度很高的预测 对于机器翻译,样本空间的数量级就大很多:所有可 能的句子? 对于图像识别:one picture is worth of a thousand words? 大数据应用开发的典型流程 1. 找到一个重要的应用,确定问题的数据类型和样 本空间 2. 收集到尽可能多(或足够多)的相关数据来覆盖 样本空间 不要特别在意数据质量和格式 3. 选择(或搭建)一个合适的大数据处理平台 4. 针对应用对数据进行预处理 格式转换、数据抽取、数据集成、数据质量控制 5. 处理数据 6. 结果解读和应用 观察 二: 大数据改变机器学习 传统方法 vs. 大数据方法

12、Yes/No 传统方法 Yes/No 大数据方法 新样本 特征表示 模型 结果 训练样本(小数据) 新样本 已知样本(大数据) 结果 文继荣 从量变到质变 大数据时代 大量新技术使得数据的收集和分享变得非常容易 传感器 互联网 数据越多,就越不需要模型 覆盖度:对所有或大部分事件,我们有样本来覆盖 精度:对高频事件,我们有足够多样本来提升精度 经验主义的复活 从特殊到特殊 大数据改变机器学习 处理器: 16,000个 神经网络:1B 个连接 训练数据:10M 图像 方法:深度学习 多层神经网络 (NN) 无人监管的数据 原始数据,而非特征量 How Many Computers to Iden

13、tify a Cat? 16,000 New York Time 大数据,强计算,新方法 http:/ big-network-of-computers-evidence-of-machine- learning.html?_r=0 模型真的没有用吗? 数据总是不够 样本空间太大 机器翻译例子中所有可能的句子 样本空间变化 查询结果排序例子中,新的查询和新的网页在不停出现 模型需要和数据结合,提供适当的泛化能力 数据 、平台、模型 传统方法:少的数据+复杂的模型性能已经很 难提升 大数据方法:多的数据+简单的模型更好的结 果 多的数据+复杂的模型更好的结果? 多的数据好的平台 Big Data

14、 Machine Learning Crowd Sourcing Systems & Infrastructure Sparseness - abundance of data provides sufficient signals for ML Data-driven businesses and data economics Sciences & Algorithms Text & Data Mining Natural Language Processing Information retrieval Analytics Human computation Social sharing Human tasking o Incentives o Network effect Virtuous cycle & Reinforcement Wei-Ying Ma, MSRA 小结 三个趋势:Research 2.0 以互联网为平台 WEB AS A RESEARCH PLATFORM 有史以来最大的数据库,还在不断的增长 连接上了“数据” 最大的计算平台 连接上了“智能” 最大的社交网络 连接上了“人” 每个研究领域都需要以网络为落脚点

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号