社会科学大数据计算——大数据时代计算社会科学的核心议题

资源描述

《社会科学大数据计算——大数据时代计算社会科学的核心议题》由会员分享，可在线阅读，更多相关《社会科学大数据计算——大数据时代计算社会科学的核心议题（17页珍藏版）》请在金锄头文库上搜索。

1、社会科学大数据计算大数据时代计算社会科学的核心议题郝龙李凤翔武汉大学社会学系摘要：大数据时代的数据累积与技术进步, 为计算社会科学的发展奠定了新的契机, 大数据计算也取代社会模拟成为计算社会科学的核心议题。社会科学大数据计算, 依托最新的大数据分析处理技术, 致力于从符合社会研究需要的数据海洋中挖掘、清洗出有价值的“知识数据”, 并在此基础上展开科学分析与知识发现。当前, 电子踪迹、社交媒体、数字文本与空间位置信息是 4 种最具代表性的社会科学大数据类型, 它们已被广泛应用于诸多社会研究领域之中, 在推动数据分析方法创新的同时, 也极大地拓展了社会科学的研究视野。尽管仍面临着数据、

2、技术、知识边界和社会伦理等方面的种种限制, 社会科学大数据计算的发展潜力无疑是巨大的。关键词：大数据; 计算社会科学; 大数据计算; 知识数据; 作者简介：郝龙, 武汉大学社会学系博士研究生。研究方向:数字社会学与计算社会学。作者简介：李凤翔, 武汉大学社会学系博士研究生。研究方向:经济社会学与数字社会学。基金：国家社科基金重大项目“大数据时代计算社会科学的产生、现状与发展前景研究” (项目编号:16ZDA086) 的研究成果之一Big Data Computing of Social Science:The Key Topics of Computational Social Scienc

3、e in Big Data EraHao Long Li Fengxian Abstract： The accumulation of data and the progress of technologies in the big data era have laid a new opportunity for the development of Computational Social Science.Based on the latest computer technology, big data computing, which has replaced social simulat

4、ion as the core issue of computational social science, aims to mine “knowledgedata” from big data which can meet the needs of social research, and then to draw academic conclusions by the scientific analysis of knowledge-data.Digital traces, social media, digital text and GPS are four typical types

5、of social science big data currently, and have been widely used in many areas of social research.These data not only promote the innovation of research methods, but also greatly expand the research field of social science.Despite many limitations and boundaries, such as data representativeness, auth

6、enticity, validity, and ethics, the development potential of big data computing in social science is undoubtedly enormous.Keyword： big data; Computational Social Science; big data computing; knowledge data; 0 引言计算社会科学 (Computational Social Science) 一词, 最早可散见于 20 世纪90 年代初期的文献之中。不过直至 21 世纪初, 它还只是以一种纯粹

7、工具化的形象进入人们的视野, 用来泛指基于仿真模拟技术的社会研究类型1。这些研究尽管已经闪烁出技术和方法创新的光芒, 却始终未能被纳入社会科学的主流话语之中。大数据时代带来的数据累积与技术进步, 为计算社会科学的发展奠定了新的契机, 大数据计算也取代社会模拟成为计算社会科学的核心议题。然而, 纵观利用大数据开展社会研究的相关成果, 大部分都由计算机专业领域人员发表, 社会科学研究者普遍受技术门槛限制, 对这一新方法的接受与应用相对滞后。作为介绍社会科学大数据计算的第一篇中文文章, 本文旨在加深中国社会科学界对大数据计算的了解。为此, 第一部分将首先对计算社会科学发展的重要文献进行简要回顾;第二

8、部分对社会科学大数据的概念及其计算过程做出说明;第三部分侧重于介绍不同大数据类型的代表性应用领域及其相关研究成果;第四部分进行总结, 讨论社会科学大数据计算的发展潜力与现实障碍。1 大数据时代的计算社会科学随着互联网在全球范围内的普及, 计算机数据 (Data) 持续加速增长。2001 年, 麦塔集团 (META Group) 的分析师道格莱尼 (Doug Laney) , 在一份研究报告中概括出当时计算机数据发展变化的 3 个主要特征, 即 Volume (大量:数据体量越来越大) 、Variety (多样:数据格式类型越来越多样化) 和 Velocity (高速:对数据即时处理的要求越来越

9、高) 2。“3Vs”模型的提出标志着人类开始进入大数据时代, 这为计算社会科学的进一步发展提供了重大机遇。不过直到 2009 年, 网络大数据计算才被真正纳入到计算社会科学的方法体系中。是年, 以大卫拉泽尔为代表的 15 位美国学者, 以“计算社会科学”为题在Science杂志上联名发文。文章指出, 当前被广泛使用的电子邮件、移动通信、信用卡、电子购物清单、网络诊疗记录、社交软件等, 已经为我们积累了大量长时间、连续性、大规模的人类行为与互动数据。只有计算社会科学才能赋予我们以前所未有的广度、深度和尺度收集与分析数据的能力, 为拓展、深化甚至革新对个体行为、群体交往、组织结构乃至整个社会运行规

10、律的认识开辟出一条新的路径3。拉泽尔等人敏锐地觉察到计算机数据, 尤其是“新数据”在前互联网时代不曾有过的数据 (如电子邮件、电子购物清单、网络诊疗记录、社交媒体信息) 对于社会科学研究的价值。这些行为互动数据在互联网上持续生成、积累, 不但规模越来越庞大, 而且其空间上的广度和时间上的长序列特征也是传统数据难以比拟的。对于以数据为支撑的社会科学实证研究而言, 网络大数据无疑具有巨大的潜在价值。然而与此同时, 拉泽尔等也清醒地意识到, 要在社会科学研究中把这些数据的价值充分发挥出来并非易事。计算社会科学的发展不仅滞后于自然科学领域, 并且还面临着传统研究理论与方法不适用、社会复杂性强、可用资源

11、匮乏、隐私保护和交叉人才培养等困难。因此, 如何推动这一潜力巨大但困难颇多的新兴领域发展, 是一个亟待解决的课题。作为对拉泽尔等人倡议的响应, 2012 年欧洲 14 位跨国学者联名发表了计算社会科学宣言 (Manifesto of Computational Social Science) 一文, 就计算社会科学的目标、机遇、现状、特征、挑战和预期影响展开细致论述4。两年之后, 美国乔治梅森大学的 C.Cioffi-Revilla 教授出版了世界上第一本计算社会科学教材计算社会科学概述:原理与应用 (Introduction to Computational Social Science:P

12、rinciples and Applications) 。该书将计算社会科学视为一种基于计算手段, 理解社会复杂性的社会研究新范式计算范式, 并详细介绍了该范式下的基本概念、研究领域、理论基础和方法体系, 尤其是如何利用计算方法对不同层面的社会复杂性进行区别和分析5。中国学界对数据时代的到来也早有知觉。2008 年, 中国科协学会学术部举办了“社会计算”学术沙龙, 相关讨论成果以社会能计算吗为名结集出版6。在此之后, 计算机科学领域围绕着“社会计算”和“计算实验” (可以理解为社会模拟) 的原理、方法和技术实现等问题, 出版了一系列研究成果。受限于计算范式的技术门槛, 国内社会科学界的反应相对

13、滞后。尽管 Lazer 等人文章的中文摘译本早在 2010 年就已刊发7, 但直到 2013 年才出现关于计算社会科学的第一篇介绍性文章8。在此之后, 中国社会科学界开始迅速跟进, 围绕着“计算社会科学”9、“计算社会学”10、“心理信息学”11、“计算传播学”12等议题发表了一系列综述性或实证性的研究成果。2 社会科学大数据计算:计算社会科学的核心以拉泽尔等人文章的发表为标志, 大数据计算正式被纳入计算社会科学的方法体系 (2) 之中, 并日渐成为其中最受瞩目的核心议题。社会科学大数据计算的兴起得益于大数据时代带来的两大重要机遇, 即空前丰富的大数据和全新的大数据分析处理技术。前者丰富了科学

14、研究的材料, 后者提供了新方法和新工具。所谓大数据, 是指体量巨大, 超出传统软硬件的处理能力, 必须依托新的技术与模式才能及时有效地处理的计算机数据。大数据技术则是指用于海量、异构、动态数据的采集、清洗、存储、分析、挖掘等处理, 并从中快速、高效提取价值信息的新一代信息化技术体系, 它主要由支撑性技术 (物联网、云计算、人工智能等) 和建立在支撑性技术之上的数据处理技术 (包括数据采集、存储、分析、挖掘及其结果的可视化呈现等) 两部分构成。需要注意的是, 大数据虽然结构多样、种类繁杂, 但并不是全部都能够应用于社会科学研究。在各类大数据中, 有些对社会科学研究没有价值或价值不大, 如天文大数

15、据、工业大数据;有些则具有重要价值, 例如通过人机交互而生成的社交媒体大数据便是以往没有的, 它背后所隐藏的社会学、经济学、心理学机理, 可以帮助我们加深对社会系统内在机制和运行规律的认识;有些必须与其他类型的数据关联整合后才能体现出在社会科学研究中的价值, 如地理遥感大数据在与经济发展、人口流动等数据关联整合之后, 就成为极富价值的时空一体数据。本文将那些直接或关联后蕴含着着丰富社会信息, 且具备社会研究价值的大数据, 统称为社会科学大数据。根据生成方式的不同, 社会科学大数据可以分为 3 种类型, 第一类是互联网/移动互联网上通过人机互动生成的大数据, 即用户生成内容 (UGC, User

16、 Generated Content, ) , 如微博发文、论坛讨论、搜索日志;第二类是通过各类传感器直接采集的物联网数据, 如射频识别 (RFID) 信息、GPS 定位信息;第三类则是通过对既有资料的数据化或传统数据的关联整合而形成的大数据, 如 Google Books、政府大数据。作为社会科学与现代信息技术、计算机科学相互融合的产物, 社会科学大数据计算致力于以大规模、复杂性数据处理为基础, 综合运用各种数字化工具与方法, 对人类行为、群体互动到社会复杂系统展开研究13。然而, 由于数据生产与科学研究相分离, 价值密度低成为了绝大部分社会科学大数据的通病。来源多种多样的大数据, 绝大部分都充满噪声, 在未经过噪声过滤、查漏补缺、去伪存真、去粗取精之前, 大数据只是杂乱无章的信息资料, 与一大堆垃圾无异。因此, 对于大数据的计算必须首先结合研究目标和数据特点, 通过数据分析来寻找其规律;然后在此基础上, 设计适合的计算机算法进行数据挖掘, 形成有助

展开阅读全文