什么是数据科学.doc

上传人:m**** 文档编号:543595888 上传时间:2023-12-27 格式:DOC 页数:11 大小:281.27KB
返回 下载 相关 举报
什么是数据科学.doc_第1页
第1页 / 共11页
什么是数据科学.doc_第2页
第2页 / 共11页
什么是数据科学.doc_第3页
第3页 / 共11页
什么是数据科学.doc_第4页
第4页 / 共11页
什么是数据科学.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《什么是数据科学.doc》由会员分享,可在线阅读,更多相关《什么是数据科学.doc(11页珍藏版)》请在金锄头文库上搜索。

1、什么是数据科学?(1)Posted On 星期二, 18 一 2011 By admin. UnderKnowledgeTags:Data Science, Google, Translation原文链接:http:/ Varian的说法,统计学就是下一代给力的工作(statistics is the next sexy job)。5年前,在什么是Web 2.0(What is Web 2.0)的讨论中,Tim OReilly说“数据就是下一个intel inside”。但这到底什么意思?为什么我们突然酒开始关注统计学和数据了?文中,我会提到数据科学的方方面面技术,公司,以及独一无二的技能集。

2、什么是数据科学?网络上充满各种“数据驱动类应用(data-driven apps)”。几乎任何电子商务应用都是数据驱动类的应用程序。在web界面的后面是个数据库,二者之间有与数据和数据服务(如信用卡处理公司、银行等)交互的中间件。但只是“用数据”并不能被称作“数据科学”。一个数据应用程序从数据本身获得数值,并创造出更多的数据作为结果。这并不仅仅是用数据的应用程序,它是一个数据产品。而数据科学就是使得创建数据产品变成可能的学科。网络中早期的数据产品是CDDB database(译者注:Compact Disc Database,一种支持通过网络访问音频信息的数据库)。 CDDB的开发者认识到任何

3、CD都有一个唯一的签名,(举例来说)这基于每个音轨的长度。Gracenote(译者注:CDDB的开发公司)建立了一个关于音轨长度的数据库,并将它与专辑元数据信息(音轨名,表演者,专辑名等)数据库结合。如果你用过iTunes烧录CD,你就应用到这个数据库了。在做任何其他事情之前,iTunes读取每个音轨的长度,发送给CDDB,并获得音轨的标题信息,如果你有个CD不在数据库中(包括你自制的CD),你可以为这个未知专辑创建新条目。尽管这听起来很简单,但它是革命性的:CDDB把音乐视为数据,而非音频文件,并通过创建数值来做到这一点。他们的业务与贩卖音乐、共享音乐或分析音乐的品味(尽管这些也是“数据产品

4、”)有着本质不同。CDDB将音乐问题完全视为数据问题。Google是创建数据产品的专家。有一些例子: Google的突破在于意识到搜索引擎可以不仅仅是通过页面输入文字(来进行搜索)。Google的PageRank算法会首先使用页面本身以外的数据,特别是指向页面的连接数量。追踪连接使得Google搜索更加有用,而PageRank已经是公司成功的关键部分。 拼写检查并不是非常困难的问题,但通过纠错建议来纠正那些误写的搜索,并观察用户对相应的点击,Google使之更为精确。他们已经构造了一个字典,包含了通用拼写错误,它们的正确拼写,以及发生的上下文。 语言识别一直是个难题,现在依然如此。但Googl

5、e通过使用他们搜集的音频数据,已取得重大进展,如今他们已经将语音搜索(voice search)整合到核心搜索引擎中了。 在2009年的猪流感疫情中,Google能够通过跟踪针对流感相关主题的搜索(by following searches for flu-related topics),来追踪疫情进展。Flu trendsGoogle可以通过分析不同区域人们的搜索,比疾病控制中心提前两周绘制出猪流感疫情大概的趋向。Google并不是唯一一个知道如何应用数据的。Facebook和LinkedIn使用好友关系规律来提示你那些你可能认识的人,有时候精确的难以置信。Amazon干脆省省去你的搜索,将

6、你搜的和其他用户搜的相结合,来做出令人惊讶的合适推荐。这些推荐就是“数据产品”,推动了Amazon的传统零售业务。这一切都源于Amazon明白书不仅是书,客户不仅是客户; 客户会留下数据线索,通过对其挖掘并付诸使用把照相机当作能与客户行为(每次用户访问网站都会留下的数据)相关联的数据。将所有这些应用绑在一起的是从用户提供的数值中搜集来的数据。无论这种数据是被搜索的术语,音频样本,还是对某产品的一次查阅,用户一直在为他们所使用的产品贡献着数据,而他们也会在这种循环中获益。这就是数据科学的起点。在过去几年,可用数据爆发式增长。无论是我们说的网络服务器日志,tweet流,在线交易记录,还是来自政府的

7、“公民科学”数据,抑或其他数据源的数据,问题的关键不是找到数据,而是如何用数据。而且,公司不仅仅用到他们自己的数据,还有用户贡献的数据。从好多源头中混搭数据已经越来越稀松平常。“Data Mashups in R”分析了费城的丧失抵押品赎回权(mortgage foreclosures)的情况:通过警长办公室发布的一份报告,抽取其中的地址,用Yahoo将地址转变为经纬度,然后用地理数据在地图(或其他数据源)标注foreclosures,并将它们通过邻里关系,估价,人均收入和其他社会经济因素进行分组。每个已有的公司,每个新起步的公司,每个非营利机构,每个希望吸引社群的项目,它们面临着同样的问题就

8、是如何更有效的使用数据不仅仅是它们自身的数据,也有可用的、相关的全部数据。有效的使用数据所要求的东西和传统的统计不一样,后者是业务单元中的统计人员执行的计算,而这些计算实际上都是预先定义好的了。数据科学与统计学的不同之处在于,数据科学是一个整体方法(holistic approach)。我们会发现越来越多的“野生”数据,而数据科学会被涉及到数据采集,将其转化为易于理解的形式,使它能说明问题,并将这说明呈现出来。(Were increasingly finding data in the wild, and data scientists are involved with gathering

9、data, massaging it into a tractable form, making it tell its story, and presenting that story to others.)要明白需要何种技能,让我们先看看数据的生命周期:何从,何用,何去。(where it comes from, how you use it, and where it goes)什么是数据科学?(2):数据之源Posted On 星期三, 19 一 2011 By admin. UnderKnowledgeTags:Data Science, Google, Translation原文链

10、接:http:/ 第一部分:什么是数据科学?(1)数据之源数据无处不在:你的政府机构,网络服务器,商业合作伙伴,甚至你的身体(your body)。虽然我们不会在数据的海洋中淹没,但我们发现几乎世上万物都能(或者已经是)可被度量。在OReilly,我们经常将来自Nielsen BookScan的出版行业的数据与我们自身销售数据、Amazon公开的数据,甚至工作方面的数据进行比较,来看看出版业的行情如何。像Infochimps 和Factual 这样的网站提供了对许多大型数据集的存取,包括气象数据,MySpace活动数据流,体育运动的比赛日志。Factual征集用户来更新和改进数据集,这些数据涵

11、盖了从内分泌到徒步旅行等各种各样的主题。1956年的磁盘世界上最早的商用磁盘之一来自IBM。它有5MB容量并且被放在跟现在的豪华冰箱差不多大小的容器中。现在,一个32GB的microSD卡只有大约5/8 x 3/8英寸、0.5克重。Photo: Mike Loukides. Disk drive on display atIBM Almaden Research我们目前用到的大多数数据都是直接源自Web 2.0,而摩尔定律也适用于数据。网络让人们花费更多的时间在线上,无论他们访问哪里都会留下数据线索。移动应用更甚,因为它们大都会注释地理位置,或者涉及视频、音频,所有这些都可以被发掘。点销售设备

12、(Point-of-sale devices)和频繁使用的购物卡(frequent-shoppers cards)使得获取你全部的购买事件成为可能,这不仅仅是你在线的事件。如果我们不去存储,那这些数据毫无用处,(因为存储,所以)这时候摩尔定律就起作用了。从上世纪80年代早期,处理器的速度从10MHz增长到3.6GHz提升了360倍(没把字长和核数算在内)。但我们已经看到在数据存储的方方面面更强的增长。RAM从$1,000/MB 变成$25/GB降价达到40000倍,这还没提到存储介质大小的降低以及速度的提升。日立在1982年造了第一个G级磁盘,搭盖250磅重;现在T级磁盘设备都已经是消费型的了

13、,而32GB的microSD卡仅仅0.5克。无论你是按照bits/gram,bits/dollar来算,还是单按容量来算,数据存储方面的爆增远超过CPU速度的增加。摩尔定律应用到数据领域的重要性并不仅仅是为了炫。数据充满了你的存储空间。有越来越多的空间,就有越来越多的数据。无论你何时上网,在Facebook加个好友,或者在你当地的超市买个东西,你都会留下数据,这些数据会被收集和分析。增长的存储需求增加了分析与应用数据的复杂性。这是数据科学的基础。那我们怎么让数据有用?数据分析项目的第一步是“数据调节(Data Conditioning)”,或者说是将数据转化为有用的状态。我们看到越来越多的数据

14、是在易于使用的格式:Atom data feeds,web服务,微格式,和其他新技术让数据的格式变得直接可用(in formats thats directly machine-consumable)。但老式的screen scraping 还健在,也不会轻易废弃。许多“野生数据”的源头都是一团乱麻。它们没有XML文件那样良好的元数据结构。在“Data Mashups in R”中用到的赎回权数据通过费城警局发布到公共网络。这数据可能是自动用电子表格生成的HTML文件。如果你曾看过Excel生成的HTML,你就知道处理它会有多有趣了。数据调节涉及到使用像Beautiful Soup这样的工具来

15、清理混乱的HTML,将自然语言转化为英语或其他语言,甚至需要人为做这些破事。你很可能会要去处理一组数据源,这些数据是完全不同的形式。如果有个标准化工具来做就太好了,但没有。要做数据调节,你要做好充足的准备,并愿意用任何手段,从古老的Unix awk工具,到XML解析器和库。脚本语言,如Perl和Python,是绝对必要的。一旦你解析好了数据,你可以想想数据质量问题。数据总是被丢失或不一致。如果数据丢失,你是否只是忽略那些丢失的项?这不总是可行的。如果数据不一致,你是否就决定是数据问题导致了一些错误,或者说那些不一致的数据自身说明了一些问题,这些很可能更有趣?据报道称,发现臭氧层消耗逐渐减小,是由于自动化数据收集工具由于数值太低不在读取数据(automated data collection tools discarded readings that were too low 1)。在数据科学中,你所拥有的经常是你会得到的全部。通常很难再获得“更好的”数据了,要用这些手头上的数据进行工作,你别无选择。如果问题还牵涉了人类语言,理解数据就增加了额外的难度。Roger Magoulas,在OReilly主管数据分析小组,他最近在做一个搜索,来找出Apple公司的需要地理位置技能的招工列表。这听起来是个很容易的任务,但难点

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号