什么是数据科学.doc－金锄头文库

资源描述

《什么是数据科学.doc》由会员分享，可在线阅读，更多相关《什么是数据科学.doc（11页珍藏版）》请在金锄头文库上搜索。

1、什么是数据科学？（1）Posted On 星期二, 18 一 2011 By admin. UnderKnowledgeTags:Data Science, Google, Translation原文链接：http:/ Varian的说法，统计学就是下一代给力的工作（statistics is the next sexy job）。5年前，在什么是Web 2.0（What is Web 2.0）的讨论中，Tim OReilly说“数据就是下一个intel inside”。但这到底什么意思？为什么我们突然酒开始关注统计学和数据了？文中，我会提到数据科学的方方面面技术，公司，以及独一无二的技能集。

2、什么是数据科学？网络上充满各种“数据驱动类应用（data-driven apps）”。几乎任何电子商务应用都是数据驱动类的应用程序。在web界面的后面是个数据库，二者之间有与数据和数据服务（如信用卡处理公司、银行等）交互的中间件。但只是“用数据”并不能被称作“数据科学”。一个数据应用程序从数据本身获得数值，并创造出更多的数据作为结果。这并不仅仅是用数据的应用程序，它是一个数据产品。而数据科学就是使得创建数据产品变成可能的学科。网络中早期的数据产品是CDDB database（译者注：Compact Disc Database，一种支持通过网络访问音频信息的数据库）。 CDDB的开发者认识到任何

3、CD都有一个唯一的签名，（举例来说）这基于每个音轨的长度。Gracenote（译者注：CDDB的开发公司）建立了一个关于音轨长度的数据库，并将它与专辑元数据信息（音轨名，表演者，专辑名等）数据库结合。如果你用过iTunes烧录CD，你就应用到这个数据库了。在做任何其他事情之前，iTunes读取每个音轨的长度，发送给CDDB，并获得音轨的标题信息，如果你有个CD不在数据库中（包括你自制的CD），你可以为这个未知专辑创建新条目。尽管这听起来很简单，但它是革命性的：CDDB把音乐视为数据，而非音频文件，并通过创建数值来做到这一点。他们的业务与贩卖音乐、共享音乐或分析音乐的品味（尽管这些也是“数据产品

4、”）有着本质不同。CDDB将音乐问题完全视为数据问题。Google是创建数据产品的专家。有一些例子： Google的突破在于意识到搜索引擎可以不仅仅是通过页面输入文字（来进行搜索）。Google的PageRank算法会首先使用页面本身以外的数据，特别是指向页面的连接数量。追踪连接使得Google搜索更加有用，而PageRank已经是公司成功的关键部分。拼写检查并不是非常困难的问题，但通过纠错建议来纠正那些误写的搜索，并观察用户对相应的点击，Google使之更为精确。他们已经构造了一个字典，包含了通用拼写错误，它们的正确拼写，以及发生的上下文。语言识别一直是个难题，现在依然如此。但Googl

5、e通过使用他们搜集的音频数据，已取得重大进展，如今他们已经将语音搜索（voice search）整合到核心搜索引擎中了。在2009年的猪流感疫情中，Google能够通过跟踪针对流感相关主题的搜索（by following searches for flu-related topics），来追踪疫情进展。Flu trendsGoogle可以通过分析不同区域人们的搜索，比疾病控制中心提前两周绘制出猪流感疫情大概的趋向。Google并不是唯一一个知道如何应用数据的。Facebook和LinkedIn使用好友关系规律来提示你那些你可能认识的人，有时候精确的难以置信。Amazon干脆省省去你的搜索，将

6、你搜的和其他用户搜的相结合，来做出令人惊讶的合适推荐。这些推荐就是“数据产品”，推动了Amazon的传统零售业务。这一切都源于Amazon明白书不仅是书，客户不仅是客户；客户会留下数据线索，通过对其挖掘并付诸使用把照相机当作能与客户行为（每次用户访问网站都会留下的数据）相关联的数据。将所有这些应用绑在一起的是从用户提供的数值中搜集来的数据。无论这种数据是被搜索的术语，音频样本，还是对某产品的一次查阅，用户一直在为他们所使用的产品贡献着数据，而他们也会在这种循环中获益。这就是数据科学的起点。在过去几年，可用数据爆发式增长。无论是我们说的网络服务器日志，tweet流，在线交易记录，还是来自政府的

7、“公民科学”数据，抑或其他数据源的数据，问题的关键不是找到数据，而是如何用数据。而且，公司不仅仅用到他们自己的数据，还有用户贡献的数据。从好多源头中混搭数据已经越来越稀松平常。“Data Mashups in R”分析了费城的丧失抵押品赎回权（mortgage foreclosures）的情况：通过警长办公室发布的一份报告，抽取其中的地址，用Yahoo将地址转变为经纬度，然后用地理数据在地图（或其他数据源）标注foreclosures，并将它们通过邻里关系，估价，人均收入和其他社会经济因素进行分组。每个已有的公司，每个新起步的公司，每个非营利机构，每个希望吸引社群的项目，它们面临着同样的问题就

8、是如何更有效的使用数据不仅仅是它们自身的数据，也有可用的、相关的全部数据。有效的使用数据所要求的东西和传统的统计不一样，后者是业务单元中的统计人员执行的计算，而这些计算实际上都是预先定义好的了。数据科学与统计学的不同之处在于，数据科学是一个整体方法（holistic approach）。我们会发现越来越多的“野生”数据，而数据科学会被涉及到数据采集，将其转化为易于理解的形式，使它能说明问题，并将这说明呈现出来。（Were increasingly finding data in the wild, and data scientists are involved with gathering

9、data, massaging it into a tractable form, making it tell its story, and presenting that story to others.）要明白需要何种技能，让我们先看看数据的生命周期：何从，何用，何去。（where it comes from, how you use it, and where it goes）什么是数据科学？（2）：数据之源Posted On 星期三, 19 一 2011 By admin. UnderKnowledgeTags:Data Science, Google, Translation原文链

10、接：http:/ 第一部分：什么是数据科学？（1）数据之源数据无处不在：你的政府机构，网络服务器，商业合作伙伴，甚至你的身体（your body）。虽然我们不会在数据的海洋中淹没，但我们发现几乎世上万物都能（或者已经是）可被度量。在OReilly，我们经常将来自Nielsen BookScan的出版行业的数据与我们自身销售数据、Amazon公开的数据，甚至工作方面的数据进行比较，来看看出版业的行情如何。像Infochimps 和Factual 这样的网站提供了对许多大型数据集的存取，包括气象数据，MySpace活动数据流，体育运动的比赛日志。Factual征集用户来更新和改进数据集，这些数据涵

11、盖了从内分泌到徒步旅行等各种各样的主题。1956年的磁盘世界上最早的商用磁盘之一来自IBM。它有5MB容量并且被放在跟现在的豪华冰箱差不多大小的容器中。现在，一个32GB的microSD卡只有大约5/8 x 3/8英寸、0.5克重。Photo: Mike Loukides. Disk drive on display atIBM Almaden Research我们目前用到的大多数数据都是直接源自Web 2.0，而摩尔定律也适用于数据。网络让人们花费更多的时间在线上，无论他们访问哪里都会留下数据线索。移动应用更甚，因为它们大都会注释地理位置，或者涉及视频、音频，所有这些都可以被发掘。点销售设备

12、（Point-of-sale devices）和频繁使用的购物卡（frequent-shoppers cards）使得获取你全部的购买事件成为可能，这不仅仅是你在线的事件。如果我们不去存储，那这些数据毫无用处，（因为存储，所以）这时候摩尔定律就起作用了。从上世纪80年代早期，处理器的速度从10MHz增长到3.6GHz提升了360倍（没把字长和核数算在内）。但我们已经看到在数据存储的方方面面更强的增长。RAM从$1,000/MB 变成$25/GB降价达到40000倍，这还没提到存储介质大小的降低以及速度的提升。日立在1982年造了第一个G级磁盘，搭盖250磅重；现在T级磁盘设备都已经是消费型的了

13、，而32GB的microSD卡仅仅0.5克。无论你是按照bits/gram，bits/dollar来算，还是单按容量来算，数据存储方面的爆增远超过CPU速度的增加。摩尔定律应用到数据领域的重要性并不仅仅是为了炫。数据充满了你的存储空间。有越来越多的空间，就有越来越多的数据。无论你何时上网，在Facebook加个好友，或者在你当地的超市买个东西，你都会留下数据，这些数据会被收集和分析。增长的存储需求增加了分析与应用数据的复杂性。这是数据科学的基础。那我们怎么让数据有用？数据分析项目的第一步是“数据调节（Data Conditioning）”，或者说是将数据转化为有用的状态。我们看到越来越多的数据

14、是在易于使用的格式：Atom data feeds，web服务，微格式，和其他新技术让数据的格式变得直接可用（in formats thats directly machine-consumable）。但老式的screen scraping 还健在，也不会轻易废弃。许多“野生数据”的源头都是一团乱麻。它们没有XML文件那样良好的元数据结构。在“Data Mashups in R”中用到的赎回权数据通过费城警局发布到公共网络。这数据可能是自动用电子表格生成的HTML文件。如果你曾看过Excel生成的HTML，你就知道处理它会有多有趣了。数据调节涉及到使用像Beautiful Soup这样的工具来

15、清理混乱的HTML，将自然语言转化为英语或其他语言，甚至需要人为做这些破事。你很可能会要去处理一组数据源，这些数据是完全不同的形式。如果有个标准化工具来做就太好了，但没有。要做数据调节，你要做好充足的准备，并愿意用任何手段，从古老的Unix awk工具，到XML解析器和库。脚本语言，如Perl和Python，是绝对必要的。一旦你解析好了数据，你可以想想数据质量问题。数据总是被丢失或不一致。如果数据丢失，你是否只是忽略那些丢失的项？这不总是可行的。如果数据不一致，你是否就决定是数据问题导致了一些错误，或者说那些不一致的数据自身说明了一些问题，这些很可能更有趣？据报道称，发现臭氧层消耗逐渐减小，是由于自动化数据收集工具由于数值太低不在读取数据（automated data collection tools discarded readings that were too low 1）。在数据科学中，你所拥有的经常是你会得到的全部。通常很难再获得“更好的”数据了，要用这些手头上的数据进行工作，你别无选择。如果问题还牵涉了人类语言，理解数据就增加了额外的难度。Roger Magoulas，在OReilly主管数据分析小组，他最近在做一个搜索，来找出Apple公司的需要地理位置技能的招工列表。这听起来是个很容易的任务，但难点

展开阅读全文

什么是数据科学.doc

最新文档