1、中国科学技术大学 博士学位论文 人类在线行为的实证和建模 姓名:王澎 申请学位级别:博士 专业:理论物理 指导教师:汪秉宏 2011-04-25 摘 要 摘摘 要要 几乎所有的社会和经济系统都是由人构成的,因此定量的理解人类行为的 重要性在这里是显而易见的。多亏了信息技术的发展,来自互联网的越来越多 的电子记录给予我们很好的机会来理解人类的行为模式。近年来,很多学者已 经研究了从邮件通信到短信收发的广泛的人类行为记录。这些研究的一个最主 要的结果就是有关人类行为的肥尾性:无论是在个人层次还是在集体层次,人 类行为的时间间隔都呈现幂律分布。本文中,我们研究了三套包含不同行为的 数据:博客发文,维

2、基修改,书签收藏。在所有这三种行为中,无论是在集体 还是个人层次,其时间间隔分布的幂律性都得到了证实。与之前的研究不同, 我们重点研究了不同时间尺度下的分布。并发现,即便是对同一组用户,在天 以内和天以外两个范围的时间间隔分布都有着不同的幂指数。进一步的,我们 还观察到了个人活跃性和分布指数的依赖在这两个不同的区域也存在这相异的 趋势。在博客发文行为中, 我们发现了相当强的短程相关性,这和之前的结果 是完全不同的。并且,这里的相关性系数的衰减也分为两个部分,在阶数 k10 的区域为指数。在维基修改行为中,我们发现 高强度的天内行为在某种程度上压低了天以外行为的相关性,而导致了其系数 被低估。通

3、过去掉天内行为的时间间隔,我们得到了一个强的相关性系数,并 且和在博客中发现的衰减规律保持了一致。对在线书签收藏行为的研究中,我 们发现在指数较高的区域,其和活跃性的依赖关系并不是单调的,而是在 3 附 近有峰值。我们进一步指出低活跃性用户的全局分布相比高活跃性用户会更接 近指数分布。并且通过尺度缩放,我们在天以外的区域得到了一个普遍的行为 分布。为了解释以上的观察现象,一个基于个人偏好的模型被我们提出来。在 此模型中有两个关键规则:1,在最近的某一段时间内,用户某件事情从事得越 多则越倾向于在下一步从事此事;2, 用户根据某个固定比率完全随机选择某件 事情做。不同于之前所有模型,只是关注分布

4、指数,我们的模型再现了一下所 有关键特征:幂律分布,强的短程相关性,分布指数与活跃性的依赖关系。并 且我们也讨论了两个不同相关性衰减区域的可能成因。我们认为,这些发现不 仅能进一步加深对人类行为的肥尾特性起源的理解,同时也能够在某种程度上 更好的解释人类行为中的可预测性问题。 关键词:关键词: 人类动力学 时间间隔 相关性 天以内 天以外 幂律 博客 维基 Delicious I Abstract ABSTRACT The significance of the quantitative understanding of human behavior is quite obvious sinc

5、e the dynamics of many social, technological and economic phenomena are driven by individual human actions. Thanks to the development of the information technology, more and more electronic records available from internet give us a valuable insight into the pattern of human behaviors. From surface m

6、ail to short message, a wide variety of human activities were studied in recent years. The main result, arising from all these studies, concerns the heavy-tailed nature of human activity: the interevent times follows a power-law distribution both at the level of population and individual. Here, we s

7、tudy three large data sets containing the information about web activities of humans in different contexts: Blog-posting, Wiki-revising, Bookmarking. We study in details interevent statistics. In all cases, the distributions of the interevent ime t decay powerli as ke increase at both individual and

8、 population levels. Unlike previous studies, we put emphasis on time scales and obtain heterogeneous decay exponents in the intra- and inter-day range for the same dataset. Moreover, we observe opposite trend of exponents in relation to individual activity. In blog-posting, we found significant shor

9、t-term correlation which is different from the previous results. Interestingly, when the time lag K is less than 10 the correlation coefficient decays as a power law and when K is more than 10 it decrease exponentially. In wiki-revising, investigations show that the presence of intra-day activities

10、mask the correlation between consecutive inter-day activities and lead to an underestimate of memory, which explain the contradicting results above. Removal of data in intra-day range reveals the high values of memory and leads us to convergent results between wiki-revising and blog-posting. In book

11、marking, Instead of monotonically increasing with activity, inter-day exponent peaks around 3. We further show that the global distributions of less active users are closer to exponential distribution than the ones of more active users. Moreover a universal behavior in the inter-day range is observe

12、d by considering the rescaled variable. In order to explain these observations, A simple model based on the personal preference was supposed by us. There are two main rules in this model: (1) the more the user performs an activity recently, the more likely he will do it next; (2) there exists occasi

13、ons that users choose what to do randomly with independent probability. Different from the previous studies which only focused on the exponent, our model reproduced all these three key features: the heavy-tails, the strong short-term correlation, the dependence between the exponents and Activity. We

14、 also discussed the possible causes of the two regimes in the decay curve of correlation coefficient. Our findings II Abstract may provide insight into not only the origin of heavy-tails but also the predictability in human behaviors. interevent time correlation intra-day inter-day power-law blog wi

15、ki delicious Key Words: human dynamic III 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作 了明确的说明。 作者签名:_ 签字日期:_ 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版, 允许论文被查阅和借阅, 可以

16、将学位论文编入 中 国学位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内 容相一致。 保密的学位论文在解密后也遵守此规定。 公开 保密(_年) 作者签名:_ 导师签名:_ 签字日期:_ 签字日期:_ 第 1 章 绪论 第 1 章 绪论 第 1 章 绪论 1.1 数据时代的到来 “认识你自己”, 就如同这句刻在阿波罗神殿石柱上的铭文历史悠久一 样,人类对我们自身的了解和探索从科学的起源的时候就从来没有停止过。并 且这种探索所带来的知识是随着每一次方法的进步而爆发性增长的。四百多年 前,少数学者(比如维萨里)第一次突破宗教的禁锢,开始从解剖学的角度研 究人体结构和组织。这一举动给我们带来了丰富的生理知识,比如血液循环, 呼吸的机制等等,最终据此发展起来的知识奠定了当代医学的基础,解救了无 数人的



