社会网络数据缺失的影响—M组

资源描述

《社会网络数据缺失的影响—M组》由会员分享，可在线阅读，更多相关《社会网络数据缺失的影响—M组（17页珍藏版）》请在金锄头文库上搜索。

1、个人收集整理勿做商业用途社会网络中数据缺失的影响Gueorgi Kossinets摘要：本文进行了估测数据缺失对社会网络结构特征的影响敏感度分析.社会网络被假定为由二分图产生，图中实验者通过多种交流情境或关系进行互相联结。我们讨论三种主要的数据缺失机制:网络边界规范（不包含试验者或关系），调查无应答以及顶点度删失（固定选择设计)，介绍它们对来源于洛斯阿拉莫斯实验室数据库的科学合作网络和随机二分图的影响。模拟的结果显示网络边界规范和固定选择设计能够大幅改变网络层面统计量的估计值.观察得到的聚集系数和匹配系数因关系的疏忽或固定选择其中而导致估计过高，而通过试验者无应答则是估计太低,从而造成扩大

2、了测量误差。我们也发现包括多种交流情境的社会网络因交叉团体的存在而显示一些有趣的特征.特别指出的是，与现有理论不同，度数匹配性不能提高网络鲁棒性从而随机遗漏网络代码。关键词:数据缺失；敏感度分析;图表理论;协作网络；二分图1 引导语社会网络并不是完整的，意味着一些参与者或关系会从数据集中缺失。在正常的社交场景中，大多数的不完整性是由以下原因出现的:所谓的边界问题（Laumann et al。，1983）,错误性应答(Bernard et al.， 1984; Brewer and Webster, 1999； Marsden,1990; Butts, 2003）；网络调查中的无应答(Stork

3、 and Richards， 1992; Rumsey,1993; Robins et al。， 2004）；或者可能通过研究设计而造成（Burt, 1987).数据缺失机制混合出现也可能发生。尽管实践研究中数据缺失比较常见，但只有少量文献研究联系或代码缺失可能对于整体网络中可衡量特征引起的影响。尤其是，鉴于最近的研究进步使得一系列的网络模型开始注意跨学科研究，1970-1980s之间的原始工作内容似乎是非常恰当。本文主要目标在于关注社会网络分析中数据缺失问题。一种处理方法是抓住全球统计学的趋势而不依靠个人交流开发分析技术。（Rapoport and Horvath, 1961）.另一补充性战

4、略是研发数据缺失影响最小化的补救措施（Holland and Leinhard, 1973; Robins et al。， 2004）。尽管本文并不提供最终的统计学方法，但是会进行此方面的实验性分析以及倡导进一步研究的重要性。我们使用统计量模拟方法以量化由数据缺失引起的不确定性和评估图指标的敏感性，例如平均顶点度,聚集系数（Newman et al., 2001)，度相关系数（Newman, 2002)，最大连通成分的规模和平均道路长度。本文的科学协作图来源于洛斯阿拉莫斯实验室数据库中19951999年“凝聚态物质部分所包含的作者和论文（Newman, 2001）。选用此例来进行包含多种交流情

5、境的社会网络一般情况下的统计量讨论。由于数据集规模有限，数据统计量可能置信区间较小。结果用于与随机二分图的情况进行比较。文章的组织结构如下.第二部分主要是关注社会网络研究中缺失或错误数据的来源。我们讲包含多种交流场景的社会网络中的边界规范问题形成一个二分图，在图中,试验者通过各种关系或者协作进行相互联结。我们讨论社会网络研究中无响应和无交互问题以及由问卷调查设计所引起的度截止偏差。第三部分主要描述用于调查数据缺失对网络特征影响的相关网络统计量，数据集和模拟算法.第四部分主要呈现结果，而第五部分总结研究发现。2 社会网络数据缺失的来源2。1 边界规范问题边界规范问题是指在网络研究中指定参与者或联

6、系之间包含的规则（见图1）。例如，组织内网络的研究者总是忽略导致与外部组织无数的关系，推断这些关系与组织的作业与运营不相关.一个经典的案例则是电线库室（Bank Wiring Room）的研究，主要关注的是一家电子厂中总机生产区的14名工人.研究中所得的社会计量数据已被广泛分析，但是电线库室之外的交流对于工人行为和工作绩效的影响是未知的，很难被测量。假使所处社区隔离于其它世界之外（例如Sampson的修道院），那么能够在一定程度上避免边界问题。然而，大体说来，网络封闭是人为的研究设计,例如网络边界任意定义的结果。大多数包含了在组织成员或位置规范正式定义基础上的社会网络，都被描述为在一个正式成立

7、组织中所占据的排名位置。例如,100位最著名的政客或者500家一流的企业.当研究者选择社会网络中所包含的规则时，应通过此研究所包含的所有可能网络进行非概率抽样。网络中的动态变化加剧了问题的产生.由Laumann et al。 (1983)所提倡的方法是关注可衡量的交流。网络边界因此被描述为在一个固定场景中记录的人与人之间的交流.这种方法直到最近才用于小型网络的研究，来源于邮件交流或虚拟交流的大型规模社会交流数据也被接纳采用。交流场景或情景需要操作规章，然后再包括所有在此情景下交流的参与者。文档为个人收集整理，来源于网络个人收集整理，勿做商业用途图1.边界规范问题的说明。排除试验者会导致网络统计

8、量的显著变化。在以上的例子中，排除试验者D的结果是平均网络度数z减少25%,从到.由于社会网络由参与者和参与者之间的关系所构建而成，边界规范问题包含两方面.除了描述一系列试验者的网络边界，研究者还应该考虑他们之间是何种关系。本文将采用基于试验者参与团体、事件或活动的多情景交流方法.它是联合网络，由毗邻参与者之间所有相关的关系组成,这在基于社会影响的动态过程中尤为重要.每一共同参与事件、共享的联系或交流场景都是创造、维护或操纵组织和人与人之间关系的机会。上述的例子则由二分图来阐述,第一类顶点集代表事件，第二类顶点集代表试验者.如果实验者参与一项事件，各自顶点将会由一条边连接起来。为了强调实验者顶

9、点集，我们将双模式“关系”图变为单模式网络，能抓住实验者之间的多种社会关系。单模式投射图必定包含许多重叠的集团。每一个重叠的集团都是指一个或几个关系或交流情景。在二分图中，如果实验者参与了既定的交流场景，则应该加入一个新的关系到网络中。然而，相关的场景可能会冗余,某种程度上意味着包含了社会结构中相同的信息。传统的网络分析方法为了分析易处理性将不同的关系情景分开。社会网络在教科书的定义为人与人之间形成的相互关系（Wasserman and Faust， 1994)。单模式网络近年来被广泛使用并取得重要的分析结果。然而，此系列文献研究重点关注的是网络的简单模型（例如顶点度的混合匹配），而在大多数现

10、实情况中不可能成立,因为结构性和基于属性的处理过程都很重要.因此，我们建议社会网络的多情景交流模式（由二分图产生)比简单的随机图表模式更加有利。它以合理的方式产生,有利于分析，根据定义也考虑到简单随机图表难以表达在实际社会网络中可以观察到的某些特征(例如高聚集系数）。图2(a）紧密相连投射的解释。给定的二分（或双模式）联系图中，新的网络是在一系列试验者基础上描述的，如果两个试验者在协作图中同属于一个或者更多的场景中则他们就被联系起来。在上述的例子中，共有7位试验者（AG）和3个小组(13）。观察在单模式投影中相对应于三个交流场景的三个交叉团体。通过赋予每个场景重量并计算每对联结的参与者总重量，

11、就可以区分紧密相连投射中不同层级之间的联结密度。然而，我们所关注的点在于它足以使用简单的无向图说明；也就是说，能否辨别两个试验者是否联系，忽略联系的强度。（b）联系的边界规范问题。设想在上述例子中我们没有包含交流场景2。这将对于单模式网络所观察的特质有重大的影响。例如，有可能变得没有联系等。2.2 无应答效应在网络调查研究中一个重要的问题就是调查无应答.在一个典型的情景下(譬如从大众中选派出一个代表性例子），可以利用特殊技术纠正响应率不足时的系数估计值（Little and Rubin，2002).不幸的是，尽管无应答对于社会网络特征的影响在之前的一些研究中得以描述，这种最终性方法不能适用于社

12、会网络分析。我们对于简单的无应答方案如何影响网络结构并探索性提出改善问题的方法。含无应答者的单模式网络已被证明可以应用于统计学方法，而在带有多情景交流的社会网络（被建为二分图模型）中无应答也会有许多具体的影响。在一个有联系的网络中，试验者被要求报告自己属于哪个团体。假设我们没有组织联系的任何其他信息源。如果其中有任何一个人无应答,所有他的联系都将消失，导致的数据缺失模式将等同于试验者的边界规范问题,即随机遗漏网络中部分试验者的模型。然而，如果在调查中，让参与者命名与其相交流的同伴（即忽略关系的复杂性）此时无应答效应将会由交互式提名相抵消(Stork and Richards， 1992)。假设

13、试验者C没有填写网络问卷(图3）.然而C的参与调查中的交流者（A和B）必须报告他们与C的交流。个人直觉上会期望如果无应答者相对于网络规模来说数量很小研究者并不需要所有交互式提名(作为原始的效度检查)，由无应答者引起的数据缺失量可以小到忽略不计。文档为个人收集整理,来源于网络个人收集整理，勿做商业用途图3 网络调查中的无响应。假设试验者C，D和E没有报告他们的联系。然而,由A,B，F和G的提名将在很大程度上有助于修复交流结构，伴随着平均度数减少了低于15%。比较于图1的边界规范问题,一个单独的代码缺失引起平均度数25的差异。2。3 固定选择设计社会网络数据有时会因研究设计而导致偏差。本文中我们称

14、之为所谓的“固定选择效应”.试想一下在一个朋友网络中，每个人都拥有1-10个朋友.网络研究者通常会让应答者提名固定数量的人数。他们想知道特殊方式中构建的网络是否与真实的朋友网络不同以及不同点在哪里。固定选择设计引入顶点度的右删失(Holland and Leinhard，1973）。这种数据缺失机制经常在网络调查中出现。假设试验者A属于K组并与x个其它试验者相联系（图4a）。在紧密相连的情形下，试验者被要求从其x个交流者名单中提名X个人,例如X个最好的朋友(图4b)。如果临界值大于或等于真实朋友数量（Xx),我们就认为A所有的x个交流者以及朋友都包含在数据集中.如果Xx,试验者必须消除xX个联

15、系者，但是那些被A提名的朋友仍然要求进行同样的提名。因此，原始网络中的一些关系可能被双方交流者报告（相互提名），一些则有一个同伴提名（无交互式提名），而一些则没被报告(被检查的联系）。研究人员应酌情决定是否将与交互式联系质的不同的无交互式联系包含在其中（例如好朋友与一般的熟人)。固定选择命名很容易导致非随机数据缺失模式。例如，拥有更多联系的名人被提名的可能性更大（Feld， 1991； Newman, 2003a)。此作用取决于网络是混合非匹配度数还是同型匹配(Newman， 2002; Vazquez and Moreno, 2003）:在第一种情况下，高顶点度的联结总与低顶点度相匹配，因此

16、更多被删失的联结有可能使用交互式提名来修复。这是网络结构如何与数据缺失机制相互作用的例子。文档为个人收集整理，来源于网络本文为互联网收集,请勿用作商业用途图4 固定选择设计的说明.（a）二分图情况：每个试验者从其联系中固定提名数K。提名如箭头所示。(b）单模式情况:每个试验者从其所认识人名单中提名固定人数X。上图中假设K=X=1.注意只有1个交互式的提名（在A和B之间）.3 数据以及感兴趣的统计量3.1 网络层统计量当我们想研究顶点或边出现缺失时对网络拓扑结构的影响，应该测量试验者紧密相连投射图标的以下特征：平均顶点度(平均每位试验者交流的数目），体现了网络紧密度;聚集系数C,松散地解释为任何两个有相互毗邻顶点自我联结的概率;匹配系数r，表明一条边在端点度的皮尔逊相关

展开阅读全文

社会网络数据缺失的影响—M组

最新文档