生存分析法在学术期刊评价上的应用.docx

资源描述

《生存分析法在学术期刊评价上的应用.docx》由会员分享，可在线阅读，更多相关《生存分析法在学术期刊评价上的应用.docx（15页珍藏版）》请在金锄头文库上搜索。

1、生存分析法在学术期刊评价上的应用学术期刊是由学术论文组成，论文质量决定论文价值，论文的价值大小直接影响到期刊的质量。近年来，对论文质量的衡量研究也逐渐受到研究人员的重视1-3。论文的价值可通过被引行为体现，而被引行为随时间推移有兴衰变更，即论文价值的大小变化，体现出类似生物体的生命周期现象，论文价值大小的变化表现为论文的生命周期现象，是论文老化过程的体现4。本文将在医学领域已得到广泛应用的生存分析法引入到期刊评价中，从论文层面入手映射到期刊层面，以期为期刊评价中信息老化理论的研究注入新的研究视角和思路。期刊文献老化速度或新颖性的测度指标是多样的，但对时间维度的纳入程度及方式却不尽相同。从共时与

2、历时的分析角度来看，大部分指标属于共时分析，如普莱斯指数、引用半衰期，极少有指标采用历时分析的，如被引半衰期；从统计被引信息与时间的关系来看，绝大多数指标的方式是统计某段时间内期刊的被引量，较为宏观。这些衡量期刊文献老化、指标都只是对实际情况的一种理想化、概略性的测度指标5。这就对文献老化理论的研究与发展提出了迫切的要求。相对于已有的这些老化指标，本研究从历时分析入手，微观统计在监测时间段内期刊单位时间的被引频次分布数据，尝试性引入生存分析法，初步探究生存函数在期刊评价方面的应用，探索期刊文献的生命规律，以期为期刊评价工作注入新的视角。生存分析法源于医学领域，由于其在分析时序数据等方面的优势，

3、逐渐被应用到多个行业领域，如工程学、金融业、保险业等。近年来，有学者将生存分析法应用于网络信息、专利信息等不同类型信息的老化规律研究6-9。这为生存分析在期刊评价上的应用提供了理论基础与参照。生存分析的含义生存分析是指将终点事件和出现此事件所经历的时间结合起来进行分析的一种统计分析方法，是研究生存现象和现象的相应时间数据及其规律的方法10。通俗来说，生存分析是研究一个或多个生物，在经过某一特定的时间后，将发生某种特定事件的概率，是一种动态研究某个现象或因素随时间变化的规律的统计方法11。生存分析法主要通过构建生存模型，计算出各个时间点上的危险率，即所研究的对象的生存时间及其发生状态转变的可能性

4、。生命长度及生存数据在生存分析法中，生存时间是指从某点开始到被观测对象发生终点事件所经历的时间。对于期刊论文来说，生存时间可以称为生命长度，是指论文自见刊之日起至失效所经历的时间跨度。判断信息失效是生存分析法运用到期刊评价过程中至关重要的阶段。在大多数研究中，实验的时间检测窗口是固定的，但研究对象进入检测窗口的时间是不同的，并且在检测时期内生存时间情况也不尽相同。因此，生存数据可以分为完全数据和删失数据。完全数据：实验对象的起点和终点均落在时间窗口内。在本研究中，如论文的发表时间及失效的时间点都在20XX年1月至20XX年12月，该论文就属于完全数据。删失数据：或称为结尾数据，包括左删失、右删

5、失和区间删失。左删失数据指检测窗口起点前样本中已经发生了研究事件的数据。在本研究中，是指发表时间早于20XX年1月的论文，在本研究的数据集中不涉及该类数据。右删失数据指在监测时间终点仍未发生终点事件的样本。在本研究中，是指在达到监测时间20XX年12月时，仍未失效的期刊论文。区间删失数据指只能确定事件发生在某一区间内，但无法准确得知发生的时间点。在本研究中，并不涉及该类型删失数据。生存函数在生存分析法中，生存时间的分布常用下列4个函数来描述生存过程，即累积生存函数、分布函数、密度函数、危险率函数11。这4个函数在数学上是等价的，给出其中一个函数，可以派生出其余3个函数。以下从论文角度对生存函数

6、进行介绍。双比例失效法在评价中应用生存分析法时，终点事件即期刊论文“失效”的判定颇为复杂。本研究认为，期刊论文自发表之日起便拥有了一定的价值，其价值体现在被其他文献引用的行为中，随着论文发表时间的延长，论文将经历单位时间内被引频次越来越高、在某单位时间点被引频次达到峰值、随后逐渐降低至很少被人引用甚至不再被引用的生命周期。现假定某篇论文在连续T个单位时间内没有被引用，可以认为该论文在这T个时间后被大量关注或使用的概率不高，以此来判定论文失效，其中连续零被引时长T被称为判定论文失效的有效时间间隔。因此，定义生命长度为自论文见刊之日起至判定该论文失效的有效时间间隔T的起始时刻为止所经历的时间长度。

7、可见，T值是判定论文失效与计算论文生存时间的关键。为确定T值，引入了双比例失效法，该方法有以下几个主要步骤。预设双比例阈值P1、P2。经验性通常设为80%、90%。其中，P1规定失效论文在生存时间内的累积被引频次占检测时间段内总被引频次的比例，即有效累计被引率应达到的值；P2规定达到P1值的论文量应达到的比例。递归判断。当T=i时，判别失效论文，分别计算每篇失效论文在生存时间内的有效累计被引率。判断每篇失效论文的有效被引率是否达到P1。统计满足条件的论文数量，计算该论文量占样本总量的百分比，判断符合P1的论文量是否达到阈值P2：如果该比例小于P2，则T往后取值，从第二步重新计算；如果该比例大于

8、等于P2，则将对应T值作为判断该领域论文失效的时间间隔。通常，经过双比例失效法得到的T值有多个，而在本研究中，取最小值作为判定论文失效的有效时间间隔值T。实质上，T值与双比例阈值P1、P2之间是相互影响的，由预设的P1、P2值，通过双比例失效法遍历寻找到的有效T值，并在此阈值对下确定有效T值的大小及各类型论文的比例情况，可以反向判断预设的双比例阈值是否合适，从而对阈值对进行调整。数据来源与处理评价对象为30种物理学科中文期刊，数据来源于中国科技论文与引文数据库，以20XX年为原点，向前追溯收集这些期刊集合在20XX20XX年发表的论文及在被引关系中涉及的论文信息、30种期刊所发表论文的被引用关

9、系记录及施引和被引期刊的年发文频次信息。数据清洗及数据表结构转换过程，在此不作赘述。在此需要说明的是，在确定论文出版时间时，由于CSTPCD不直接提供期刊每期出版具体时间，并且对于双月刊、季刊等类型期刊，不同的期刊选择发表的月份是不同的，考虑到研究的可行性问题，统一把出版周期内最后一个月作为出版月。由此得到可用于生存分析的论文被引时序分布表，如表1所示。其中，-1对应论文见刊前的时间，0说明论文在该时间节点未被引用，正整数为论文在该时间节点处对应的被引用频次。数据统计CSTPCD收录的母刊集在20XX年1月至20XX年12月的发文量、被引频次、施引论文数、施引期刊数量等信息如表2所示。样本数据

10、集中，物理学报发文量最高，其次为光学学报，而光谱学与光谱分析的施引期刊数量最高。数据分类及T值判定根据生存数据的分类特点及论文在监测时间段内的被引和失效情况，现将论文分为三类：第一类为无生命论文；第二类为失效论文；第三类为未失效论文。第一类论文是在发表后T+De时间间隔内均未被引，这类论文自发表后就直接失效，无生命长度；第二类论文是根据前面介绍的方法，判定在监测时间段内失效了的论文，生命长度为失效点时间减去发表点时间，属于完全数据；第三类论文是自发表后一直被引，监测时间结束生命仍在延续，规定这类论文的生存时间为监测时间终点减去发表点时间，属于右删失数据。在利用“双比例”失效法判定有效时间间隔T

11、值前，需要首先预设双比例P1、P2阈值对的值。通常学者根据“二八法则”将双比例阈值定为80%。考虑物理领域的上述学科论文被引分布特点，再根据阈值对与T值之间的制约关系，经过多次实践调整最终将双比例阈值P1和P2均设定为71%。在此阈值对P1、P2下采用穷举法，对各个T值的有效性进行判定。如图1所示，在双比例阈值对71%71%的条件下，随着横轴时间间隔T值从小到大变动，三类论文的数量也发生了明显的变动。在此过程中，无生命论文数量单调减少后变为0，失效论文量先上升后下降最后变为0，未失效论文量单调增加，最终所有样本论文都成为未失效论文。可以看出，物理学科作为基础学科，其论文右删失情况严重，这符合我

12、们对物理学科发展及其老化速度相对迟缓的认知。表3列出了部分T值下论文类别分布及失效比例情况，其中“失效P1数量”是指失效论文在有效生命长度内被引频次占观测时间内总被引频次的比例大于P1的论文数量；在考虑到物理学科论文右删失现象较为显著的情况下，将“失效P2占比”定义为失效P1论文数量和未失效论文数量占失效论文数量和未失效论文总量的比例。实质上，双比例阈值是不影响遍历T值时三类论文的变化规律的，而是用来确定“失效P1数量”与“失效P2占比”达到阈值所对应的T值。根据表3的统计数据，当T值取14时，被引频次大于P1的论文数量所占比例%首次超过P2。并且，当T=14时，失效论文中满足P1条件的论文量

13、达到最大，并在此后逐渐下降。由此可见，在双比例71%71%的判定标准下，T取14满足判定条件，并且满足P1条件的论文量达到最大。因此，本研究判定实验样本论文失效的有效时间间隔的T值为14。样本数据集的生存函数曲线分析在论文生命长度分布基础上，本研究依据论文生命表及生存时间函数，针对样本论文的生存情况进行进一步的分析。以5个月为单位区间跨度，将论文生命长度划分为19个时间段，利用生存曲线、概率密度曲线及风险曲线，对物理领域样本论文整体情况进行分析。累计生存曲线在本研究中，物理学科样本论文集的累积生存曲线如图2所示，反映了对应时间仍处于存活状态的论文数量占总体样本数量的比例。由于研究领域的单一性，

14、所以选取时间前后纵向对比分析，物理学科论文随着时间的增加，累计生存率整体呈现下降趋势，前11个时间区间下降显著，大约有80%的论文生命长度在11个时间区间内。突破11个时间区间存活下来的论文累计生存曲线变缓，失效速度减缓，生存时间较长。在检测时间为结束时，仍然有将近10%存活率，说明物理学科论文数据的右删失情况显著。概率密度曲线样本论文集的概率密度曲线，如图3所示，反映了样本论文在各个寿命区间的分布情况，即具有相同寿命的论文在总体中所占的比例。由图3可见，在前11个寿命区间的概率密度数值较大，随后曲线呈现下降趋于平稳的状态。此外，样本论文见刊后第7个时间区间出现了寿命分布最大值，说明论文见刊后

15、第7个时间区间失效的概率相比于其他时间要高。见刊第11个时间区间后的论文生命长度分布较为分散。风险曲线样本集的风险曲线如图4所示，反映了每个寿命区间内未失效论文的失效概率，曲线出现多次升落现象，但从整体来看，在前10个时间区间内，论文在单位时间内的失效风险呈现逐渐增大的趋势；在第11个时间区间失效风险达到最大；随后迅速回落，逐渐趋于平缓。在风险迅速下降的过程中，在第13、15时间区间内再次迎来失效小高峰。度过失效高峰期的样本论文失效的概率不断变小，成为该领域内长寿论文。样本期刊生存曲线对比分析在分析了数据集整体生存规律的基础上，将生存分析尝试性地应用在期刊间的对比上。在此选取低温物理学报红外与

16、毫米波学报及应用光学3种期刊，对其生存函数曲线进行对比分析。笔者统计了这3种期刊的发文量及被引分布表中的记录数，其中发文被引率是CSTPCD中收录的被引论文量占发文量的比值。从20XX年版中国科技期刊引证报告的20XX年中国科技核心期刊综合评价总分排名表中，摘录出样本期刊的评价数据情况，作为利用生存分析法对比3个样本期刊结果的评价标准。3个样本期刊的累计生存曲线对比图如图5所示。从总体来看，3种刊物的累计生存曲线下降趋势由陡到缓依次为：低温物理学报应用光学红外与毫米波学报。因此，整体上相对来说，在相同时刻，红外与毫米波学报生存率更高，低温物理学报的论文生存率最低。低温物理学报的论文生命长度集中在11个时间区间内，应用光学的最长生存时间能达到16个时间区间左右，红外与毫米波学报在监测的末期，还

展开阅读全文

生存分析法在学术期刊评价上的应用.docx

最新文档