2000万本书的奥秘－金锄头文库

资源描述

《2000万本书的奥秘》由会员分享，可在线阅读，更多相关《2000万本书的奥秘（5页珍藏版）》请在金锄头文库上搜索。

1、2000万本书的奥秘这是一个好玩到停不下来的搜索引擎。 Ngram Viewer 是 Google Labs和哈佛大学学者共同开发的成果，只要用这个工具进行搜索，就可以发现从公元1500年到现在的 500多年里，社会的热点如何不停地切换。谷歌在 2004法兰克福书展上开始启动谷歌图书馆计划，试图扫描自现代印刷术发明以来全世界所有的印刷书籍。在此基础上，通过 OCR识别，建成了世界上最大的电子书数据库。谷歌图书馆计划与 Googles Partner Program 共同组建成广为人知的 Google Books。至 2015 年 10月，这个项目已扫描超过 2500万本书，占人类历史上所有出

2、版书目总数的 19.2%。Google 对书籍的处理不仅是扫描，还进行了数字化与数据化，通过一系列算法从万亿级别的原始数据中识别出单个的词语和短语，建成了一个语料库，这样就巧妙地避开大多数国家的版权问题。庞大的数据库催生了一个新学科的成立Google Ngram Viewer就是借用这个数据库开发的新工具。Ngram Viewer支持 8种语言的检索，包括英语、法语、德语、意大利语、西班牙语、俄语、希伯来语、汉语，其中英语数据占到大约 56%，汉语约占 8%。网友可输入至多 5个不同词汇，透过 Ngram Viewer显示的趋势线，观察这些词汇在不同年代出现的频率。当你输入“莎士比亚” ，

3、搜索范围设定在 15002000 年的英语书籍里，在他过世后的第 92年，即 1708年是“热搜”莎士比亚的最高峰，之后 19301953 年，莎翁的著作又一次受到了追捧。与莎士比亚被引用热度不分伯仲的还有福尔摩斯，这位虚构的侦探人物在 19711979 年间，成了街谈巷议的热点。维多利亚时代英国最伟大的作家狄更斯在19171923 年期间，获得了空前的成功。那个年代大约万分之三的书籍里，都会提到狄更斯的名字，这时候距离作家因为脑溢血和写作疲劳去世，已经过去了约半个世纪。除了可以看到数据趋?萃迹?原始数据还可从网页免费下载，提供给语言学家、社会学家、人类学家等作进一步的资料分析和研究。纽约

4、时报将 Ngram Viewer这个全新的可视化工具，称为“通向 5000亿单词的文化视窗” 。数据可视化的意义 Ngram Viewer 如同一个普通的搜索引擎，输入一个“关键词” ，就可以查询它在书籍中出现的频率，而且可以依据年代时间线查询。在搜索栏上方的“from the corpus”里可以切换要查询哪种语言的书籍，其中支持简体中文书籍的内容统计分析。接着，可以在两个年代之间查询书籍数据，时间跨度的范围从 1500年到 2008年。用户最多可以设定五组关键词来对比，关键词之间用逗号分隔。我们可以在图表里看到不同关键词在不同年代里被书籍使用的频率，这在统计分析上可以做出很多有趣的调查

5、与申论。若是继续点击图表下方的年代链接，就可以进入Google Books服务，查询指定条件的书籍，直接找到相关图书。参与设计项目的是来自哈佛大学的计量社会学教授让-巴蒂斯塔?米歇尔（Jean-Baptiste Michel），他因为致力于人文数据的可视化研究而被誉为“数据的艺术家” 。埃雷兹?李伯曼?艾登（Erez Lieberman Aiden）是计算机科学家、生物物理学家和应用数学家，他们一直试图找到一幅展现人类文明和人文历史的“科学”画面。 “人类在漫长岁月中写了很多书，我们向他们学习的最佳方法，就是把那几百万本书全部读完。当然，这个可行性极低。人们不得不倾向于另一种做法，就是选择

6、几本书进行精读，可行性很高，但还不够好。 ”当米歇尔和谷歌的数字化工程师进行交流时，他们找到了这个“既可行又很好的”方法。自印刷机问世以来，写书的过程变得简单多了，据统计到 2010年，全世界大约出版了 1.29亿本图书，而这些书籍如果没有随着岁月遗失，就都在图书馆里存放着。谷歌已经将图书馆中的书籍进行了数字化，掌握了这些书籍的出版地、作者、出版时间等信息，最终筛选出了 5000亿个高质量的单词。 Ngram Viewer 收录的单词或短语，需要满足一项要求：这个词组或者短语在某年出版的超过 40 本书中出现过，才会有该年该词的数据点。同时，对数据进行标准化处理，可以削弱某些年份某些书印数过

7、多对结果的影响。当这些数据加上时间和引用比例，就转变成为一个具备 XY轴的搜索服务。据米歇尔透露，这 5000亿个单词的长度连起来是人类基因组的 1000倍，如果把这些单词连续写出来，长度相当于在月球和地球间来回穿梭 10次以上，而这仅仅是人类“文化基因组”的小小一段。谷歌向来是分析大数据的专家，它们企图要将所有图书数字化的努力，成就了现在的Ngram Viewer。在工作原理上，Ngram 将一个句子拆分成 N个连续相邻词组成的词组，从而用来猜测语言的可能性，谷歌将这个方法定义为“文化组学” 。 “文化组学”的方法最早出现在2010年科学杂志上一篇名为使用数百万本电子书对文化进行的计量分

8、析的文章里，现在指的是通过电子化文本的量化分析，研究人类行为、人类活动与文化趋势的计算词典学。这个由谷歌定义的新词，来源于“基因组学”把人类基因作为研究对象，是生物学上观察人类基因序列组的透镜。文化组学与其非常类似，挖掘大量数字化信息，将数字化的历史记录片段作为透镜，探寻反映在语言和文字中的社会文化现象。文化组学的优点，就如同人类基因序列， “所有人都可以用上它。 ” 英语谚语说， “一幅画面可以抵过 1000个词。 ”米歇尔表示，他们在邀请了来自哈佛大学、麻省理工大学、英国大百科全书、美国传统英语字典的编委后，得出了一个惊人的结论，Ngram Viewer 的一幅画面抵过上亿个词。从用字遣词发现社会趋势

展开阅读全文