2000万本书的奥秘

上传人:王哥 文档编号:30187019 上传时间:2018-01-27 格式:DOC 页数:5 大小:26KB
返回 下载 相关 举报
2000万本书的奥秘_第1页
第1页 / 共5页
2000万本书的奥秘_第2页
第2页 / 共5页
2000万本书的奥秘_第3页
第3页 / 共5页
2000万本书的奥秘_第4页
第4页 / 共5页
2000万本书的奥秘_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《2000万本书的奥秘》由会员分享,可在线阅读,更多相关《2000万本书的奥秘(5页珍藏版)》请在金锄头文库上搜索。

1、2000万本书的奥秘这是一个好玩到停不下来的搜索引擎。 Ngram Viewer 是 Google Labs和哈佛大学学者共同开发的成果,只要用这个工具进行搜索,就可以发现从公元1500年到现在的 500多年里,社会的热点如何不停地切换。谷歌在 2004法兰克福书展上开始启动谷歌图书馆计划,试图扫描自现代印刷术发明以来全世界所有的印刷书籍。在此基础上,通过 OCR识别,建成了世界上最大的电子书数据库。谷歌图书馆计划与 Googles Partner Program 共同组建成广为人知的 Google Books。 至 2015 年 10月,这个项目已扫描超过 2500万本书,占人类历史上所有出

2、版书目总数的 19.2%。Google 对书籍的处理不仅是扫描,还进行了数字化与数据化,通过一系列算法从万亿级别的原始数据中识别出单个的词语和短语,建成了一个语料库,这样就巧妙地避开大多数国家的版权问题。 庞大的数据库催生了一个新学科的成立Google Ngram Viewer就是借用这个数据库开发的新工具。Ngram Viewer支持 8种语言的检索,包括英语、法语、德语、意大利语、西班牙语、俄语、希伯来语、汉语,其中英语数据占到大约 56%,汉语约占 8%。 网友可输入至多 5个不同词汇,透过 Ngram Viewer显示的趋势线,观察这些词汇在不同年代出现的频率。当你输入“莎士比亚” ,

3、搜索范围设定在 15002000 年的英语书籍里,在他过世后的第 92年,即 1708年是“热搜”莎士比亚的最高峰,之后 19301953 年,莎翁的著作又一次受到了追捧。与莎士比亚被引用热度不分伯仲的还有福尔摩斯,这位虚构的侦探人物在 19711979 年间,成了街谈巷议的热点。维多利亚时代英国最伟大的作家狄更斯在19171923 年期间,获得了空前的成功。那个年代大约万分之三的书籍里,都会提到狄更斯的名字,这时候距离作家因为脑溢血和写作疲劳去世,已经过去了约半个世纪。 除了可以看到数据趋?萃迹?原始数据还可从网页免费下载,提供给语言学家、社会学家、人类学家等作进一步的资料分析和研究。 纽约

4、时报将 Ngram Viewer这个全新的可视化工具,称为“通向 5000亿单词的文化视窗” 。 数据可视化的意义 Ngram Viewer 如同一个普通的搜索引擎,输入一个“关键词” ,就可以查询它在书籍中出现的频率,而且可以依据年代时间线查询。在搜索栏上方的“from the corpus”里可以切换要查询哪种语言的书籍,其中支持简体中文书籍的内容统计分析。接着,可以在两个年代之间查询书籍数据,时间跨度的范围从 1500年到 2008年。用户最多可以设定五组关键词来对比,关键词之间用逗号分隔。 我们可以在图表里看到不同关键词在不同年代里被书籍使用的频率,这在统计分析上可以做出很多有趣的调查

5、与申论。若是继续点击图表下方的年代链接,就可以进入Google Books服务,查询指定条件的书籍,直接找到相关图书。 参与设计项目的是来自哈佛大学的计量社会学教授让-巴蒂斯塔?米歇尔(Jean-Baptiste Michel) ,他因为致力于人文数据的可视化研究而被誉为“数据的艺术家” 。埃雷兹?李伯曼?艾登(Erez Lieberman Aiden)是计算机科学家、生物物理学家和应用数学家,他们一直试图找到一幅展现人类文明和人文历史的“科学”画面。 “人类在漫长岁月中写了很多书,我们向他们学习的最佳方法,就是把那几百万本书全部读完。当然,这个可行性极低。人们不得不倾向于另一种做法,就是选择

6、几本书进行精读,可行性很高,但还不够好。 ”当米歇尔和谷歌的数字化工程师进行交流时,他们找到了这个“既可行又很好的”方法。 自印刷机问世以来,写书的过程变得简单多了,据统计到 2010年,全世界大约出版了 1.29亿本图书,而这些书籍如果没有随着岁月遗失,就都在图书馆里存放着。谷歌已经将图书馆中的书籍进行了数字化,掌握了这些书籍的出版地、作者、出版时间等信息,最终筛选出了 5000亿个高质量的单词。 Ngram Viewer 收录的单词或短语,需要满足一项要求:这个词组或者短语在某年出版的超过 40 本书中出现过,才会有该年该词的数据点。同时,对数据进行标准化处理,可以削弱某些年份某些书印数过

7、多对结果的影响。当这些数据加上时间和引用比例,就转变成为一个具备 XY轴的搜索服务。 据米歇尔透露,这 5000亿个单词的长度连起来是人类基因组的 1000倍,如果把这些单词连续写出来,长度相当于在月球和地球间来回穿梭 10次以上,而这仅仅是人类“文化基因组”的小小一段。谷歌向来是分析大数据的专家,它们企图要将所有图书数字化的努力,成就了现在的Ngram Viewer。 在工作原理上,Ngram 将一个句子拆分成 N个连续相邻词组成的词组,从而用来猜测语言的可能性,谷歌将这个方法定义为“文化组学” 。 “文化组学”的方法最早出现在2010年科学杂志上一篇名为使用数百万本电子书对文化进行的计量分

8、析的文章里,现在指的是通过电子化文本的量化分析,研究人类行为、人类活动与文化趋势的计算词典学。 这个由谷歌定义的新词,来源于“基因组学”把人类基因作为研究对象,是生物学上观察人类基因序列组的透镜。文化组学与其非常类似,挖掘大量数字化信息,将数字化的历史记录片段作为透镜,探寻反映在语言和文字中的社会文化现象。文化组学的优点,就如同人类基因序列, “所有人都可以用上它。 ” 英语谚语说, “一幅画面可以抵过 1000个词。 ”米歇尔表示,他们在邀请了来自哈佛大学、麻省理工大学、 英国大百科全书 、 美国传统英语字典的编委后,得出了一个惊人的结论,Ngram Viewer 的一幅画面抵过上亿个词。 从用字遣词发现社会趋势

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号