基于互联网平台的大数据收集在社会认知研究中的应用

上传人:小** 文档编号:34134514 上传时间:2018-02-21 格式:DOC 页数:13 大小:142KB
返回 下载 相关 举报
基于互联网平台的大数据收集在社会认知研究中的应用_第1页
第1页 / 共13页
基于互联网平台的大数据收集在社会认知研究中的应用_第2页
第2页 / 共13页
基于互联网平台的大数据收集在社会认知研究中的应用_第3页
第3页 / 共13页
基于互联网平台的大数据收集在社会认知研究中的应用_第4页
第4页 / 共13页
基于互联网平台的大数据收集在社会认知研究中的应用_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《基于互联网平台的大数据收集在社会认知研究中的应用》由会员分享,可在线阅读,更多相关《基于互联网平台的大数据收集在社会认知研究中的应用(13页珍藏版)》请在金锄头文库上搜索。

1、基于互联网平台的大数据收集在社会认知研究中的应用 申学易 买晓琴 刘超 北京师范大学认知神经科学与学习国家重点实验,IDG/麦戈文脑科学研究院 北京师范大学脑与学习协同创新中心 中国人民大学心理学系 摘 要: 基于互联网的大数据收集是社会认知领域的新兴研究手段.本文主要介绍了基于以 MTurk,Micro Turk 等为代表的、具有交易功能的大型行为数据网络收集平台进行的社会认知领域的研究,从网络平台大数据采样的数据质量和大数据对社会认知领域新方向的启发两方面进行阐述,总结了网络大数据在样本范围和数量、分析方法和实验情境上相比传统实验室数据采集的优势和不足.虽然互联网平台的大数据收集还有无法完

2、全控制被试完成任务、存在难以通过大量样本平衡的变量等一系列问题,但这一研究方式的社会性生态效度佳,且在纵向研究和社会行为的网络化分析等方面表现出独有优势,在社会认知领域的研究中具有广阔的应用前景.关键词: MTurk; 大数据收集; 社会认知; 网络平台; 作者简介:买晓琴,E-mail:作者简介:刘超,收稿日期:2014-10-13基金:国家重点基础研究发展计划(2011CB711000,2013CB837300)Application of Internet-based big data in social cognitive scienceSHEN XueYi MAI XiaoQin L

3、IU Chao State Key Laboratory of Cognitive Neuroscience and Learning & IDG/Mc Govern Institute for Brain Research, Beijing Normal University; Department of Psychology, Renmin University of China; Abstract: Internet-based big data acquisition has recently been developed as a method used in psychologic

4、al research. The present work focuses on presenting social cognition research that has been implemented on the massive platforms of transactional websites such as MTurk and Micro Turk. We elaborate on the attributions of Internet-based big data from two perspectives: qualities of Web-based big data

5、and what the data has clarified in the field of social cognition. Comparisons to traditional laboratory findings are also made in terms of sample scale, analysis and research environment. Though demographic diversity of Internet-based big data is still limited and its authenticity in knowledge quiz

6、has been questioned, its prominent social ecological validity, convenience in conducting longitudinal research, and distinct networked analyzing method has solidified its strengths over traditional data acquisition methods.Keyword: MTurk; big data collection; social cognition; networked analysis; Re

7、ceived: 2014-10-13在信息化时代, 随着媒体技术的爆炸式发展, 人们在工作与生活中所产出的信息也在高速增长. “大数据 ” 这一概念 最初由 John Mashey 在矽图科 技 (Silicon Graphics)的报告中提出, 主要阐述了由大型复杂数据的挖掘所带来的新的发现1. 而这一概念也随着科学技术的发展, 尤其是互联网平台的日益宽广和其效率的突飞猛进而发生巨大的变化. 时至 2012 年, 全球平均每天约产出 25 亿吉字节, 而这一数字每隔约 40 个月将翻一番. 而互联网使用者也在其中收集人们所产出的各类信息. 例如, 沃尔玛集团每小时可以从用户的业务办理活动中搜

8、集超过 2000 万 Gb 的用户数据2. 随着信息千变万化, 怎样规模的数据足以被称为“大数据”始终在发生变化, 然而 Mcafee 等人3提出的大数据的几大属性被广泛认同而成为大数据时代的主流观点. 他认为, 大数据之“大”体现在数据的样本量大小、数据采集和分析的速度以及数据的多样性这3 个维度. 也正是因为大数据在以上 3 个方面的特征, 其分析方式和所得到的结果从本质上区别于传统数据.以互联网为平台的数据采集与分析在大数据领域中占有重要地位. 社交网络、云计算等基于互联网的网络数据交流及加工平台促使人们不断尝试将传统活动投放在网络平台上, 从而使经济学、社会学、 心理学及计算机科学等多

9、个领域的研究者越来越多地从网络平台获取人们的活动数据, “谷歌流感趋势系统”就是研究者利用网络信息跟踪、分析和预测社会信息的典型案例. Ginsberg 等谷歌公司研究者并未采用任何疾病控制与防御中心(Centers for Disease Control and Prevention, CDC)的数据, 却成功地通过网络搜索记录快速追踪到了全美国范围内的流感动态. 谷歌公司的追踪仅比当地疫情延迟约一天时间,而相同的工作需要 CDC 中心通过收集医生的诊疗记录, 花费一周或更多的时间才能完成4. 由此可见 ,网络平台中不仅仅储存了大量的既得数据, 而且通过有效的分析, 可以利用此类数据得到在传

10、统研究方式中难以获得的研究结论. 正是基于网络平台的大数据的显著优势, 越来越多的研究和经费计划集中于网络大数据的研究和数据共享5. 而其现实价值亦是吸引了众多企业加强了对网络大数据的开发和分析. Mc Afee 等人3对多达 330 个北美公司进行调查并对其主管进行了访谈. 研究发现, 较多主管认为公司决策依靠网络大数据的企业在财政和管理上表现更为出色. 而在行业内排名前 1/3 的企业中, 这种大数据导向决策的方式所引起的优势更为显著, 表现为在产量上高于同类型企业 5%, 在收益上领先 6%.网络大数据以其独特的价值和可靠性吸引着研究者、 实业家乃至政府对其应用逐步加深, 因而在生产和生

11、活中起着较之以往更为重要的作用.1 大数据与心理学研究近年来, 以网络为平台的社会行为吸引着越来越多的心理学领域研究者的关注. 以网络为平台的大数据分析主要体现在 2 类数据上, 一类为以Twitter,Facebook 等社交网站用户操作为对象的网络社交行为分析6,7; 另一类则是心理学研究者将实验程序从实验室移户到互联网平台, 身处不同地点的被试自行在网站操作完成实验, 这类研究主要依靠亚马逊的 MTurk 平台等具有交易功能的网站进行. 在社会学、经济学等众多领域, 网络收集大数据已成为众多研究者的选择. 大数据具有样本量大、样本分布广等优势. Paolacci 等人8收集了 1000

12、名使用 MTurk 平台参加实验的被试的人口变量, 发现样本在地区、年龄、 性别、教育程度方面都有较好的分布, 较之以往研究中的样本多集中于特定的在校大学生明显具有优势.然而在网络环境中完成实验, 被试能否正确地理解实验规则并且完成实验等质疑也时常存在. 随着网络平台的运营方式不断完善, 被试任务完成质量的监控也日趋精密, 数据质量也得到了较好的控制. 近年来, 各领域的研究者对网络大数据的信度进行了系统的检验. Germine 等人9在 MTurk 平台和实验室分别进行了剑桥面孔记忆(CFMT)、情绪认知 (RMIE)等一共 5 项认知加工测验, 其中网络数据采集样本大小超过 4000. 研

13、究发现, 在被试的性别、年龄和任务完成成绩上均无显著差异. Schnoebelen 和 Kuperman10则针对多项语言认知加工任务在 MTurk 平台上获得的数据进行了信度检验, 发现传统实验室方法获得的数据可以有效地预测网络数据. 更有研究者进一步用测谎问题进行被试在完成任务过程中注意程度的测试 , 发现 95%以上的被试可以通过11. 互联网平台的大数据收集的便利性和可靠性,使其逐渐成为心理学大数据领域的热点.2 基于互联网平台的大数据采样在社会认知领域应用的优势2.1 在保障社会心理学实验的数据质量方面的优势( ) 系统性的高信度 . 数据信度关乎结论质量, 在各实证研究领域中, 研

14、究者通过改进测量方法和数据采集方式不断提升数据的信度. 近年来, 在社会心理学领域研究信度的问题引起了广泛的关注,众多的社会心理学实验的信度问题引起了 Science,Perspectives on Psychological Science 等杂志的专题讨论. 在讨论中 , 检验研究结果能否被重复是解决信度问题的最为直接有效的方式. 而总结对研究信度的检验情况, Makel 等人14基于 Wo S 网站进行检索, 发现自 1950 年开始, 在影响因子排在前 100 位的心理学研究杂志中, 重复研究率虽然在 2000 年以后有明显增长, 但也维持在较低的 2%以下. 而且,在被调查的重复研究

15、中, 他人直接重复实验成功率仅 72.9%. 可见, 对以往研究所进行的信度检验, 其结果在数量和结果上都表明, 心理学研究亟需对其可重复性和结论的可靠性提出更高的要求.为进一步进行系统的检验, Klein 等人15对 13 项社会心理学行为进行了研究, 每个实验采集了相互独立的 36 个样本, 共 6344 名被试, 范围涉及巴西、荷兰、英国、美国等众多国家和地区. 这一大型重复研究发现, 13 项研究中有 9 项的平均效应量小于原始研究发现的效应量, 甚至有 3 项研究的平均效应量接近零. 研究者认为, 除实验操作的差异外, 样本的多样性是效应量差异的重要原因. 研究被试的教育程度、 所在

16、地区、年龄等众多因素都会对实验结果产生影响, 而更为广泛和大量的采样是解决假阳性结果的关键手段.由于重复实验数量较少, 且以往研究的信度还存在质疑, 为解决社会心理学研究颇受诟病的信度问题, 扩大采样的数量和范围是较为可行的办法. 依靠网络平台采集大数据, 速度快、成本低、面向人群广, 所以可以方便地解决大量收集数据的问题. Mason 和 Suri16统计了在 MTurk 平台上收集行为实验数据的速度和样本分布, 发现在短短的 10 d 以内就可以完成 500 次测查, 而样本的分布与以往传统大数据收集样本的结构相似. Casler 等人17则直接对样本的多样性进行比较, 发现 MTurk 平台的样本人种多样性显著高于传统样本. 然而近年来, 随着越来越多的研究人员采用网络平台收集数据的方式进行研究, 网络研究平台也日臻正规和完善. MTurk, Clickworker,Micro Turk 等站点通过开发各项适合实证研

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号