《人事测评测评的质量评价》由会员分享,可在线阅读,更多相关《人事测评测评的质量评价(60页珍藏版)》请在金锄头文库上搜索。
1、一、误差(一)误差的含义两层含义:其一,误差是由与测量目的无关的变因引起的;其二,误差是不准确或不一致的测量结果。一种是随机误差,又叫可变误差,这是由与测量目的无关的偶然因素引起而不易控制的误差,它使多次测量产生不一致的结果。这类误差的方向和大小的变化完全是随机的,无规律可循。(二)误差的主要表现形式F另一种是系统误差,又称常定误差,这是由与另一种是系统误差,又称常定误差,这是由与测量目的无关的变因引起的一种恒定而有规律测量目的无关的变因引起的一种恒定而有规律的效应,稳定地存在于每一次测量中,此时虽的效应,稳定地存在于每一次测量中,此时虽然测值一致,但不正确。可见,系统误差只影然测值一致,但不
2、正确。可见,系统误差只影响测值的准确性,而随机误差既影响准确性又响测值的准确性,而随机误差既影响准确性又影响一致性。影响一致性。(三)人事测评的误差类型第一类是来源于人事测评工具本身的误差;第二类是来源于测评实施过程的误差;第三类是来源于测评实施者的误差;第四类是来源于应试者的误差。1、测评工具和方法的因素物理、化学测评工具越精密、测评方法越科学,则误差越小;反之则误差越大。人事测评不像物理、化学测量,人的才能、个性、品德等许多特性都是无法直接测量的,而且人事测评常常有主观的因素。因此,人事测评工具和方法造成的误差比物理化学测量要大得多。测评工具和方法造成误差的因素(1)测评工具所测评的行为和
3、特性与目标上所欲测评的行为和特性之间的不一致。比如,测评情绪稳定性的所有测评题目都应该只测评情绪稳定性,而实际上,有的题目还测了情绪稳定性以外的特性,这些特性就成了干扰因素,是测评误差的来源。(2)测评指标和测题抽样的代表性一般来说,测评指标、测题越多,则代表性越好,误差也就越少。因为经济、可行性等原因,不可能把所有与测评目的有关的所有指标都作为测评的指标,也不可能把所有相关的全部测题都选作测试题目,只能选有代表性的指标、有代表性的测题样本用来作测评之用。测题的内容和难度分布是测题代表性的重要指标。(3)测题的格式和用词、测评程序等因素有的题目格式(如是非题)具有可猜测性;有的题目格式(所有的
4、主观题)其评分具有主观性;测题的用词有歧义或用词不是很准确这些都是引起测评误差的来源。2、测评的具体实施过程中的偶然因素随着电脑等测评工具的使用,测评实施已经越来越标准化,有测评实施造成的误差也越来越少。但是,测评的具体实施过程中还是会有许多不可预期的偶然因素。不可预期的偶然因素种类(1)环境干扰。测评环境的温度、通风、噪音、照明、突然断电等因素,都可以产生误差。(2)测评纪律的控制不好。测评纪律控制不严格,出现有人作弊(如代考、抄袭、相互交流等)、泄露测评题目等,也会造成测评误差。(3)错误操作。误读指导语、对指导语错误理解、误答(如自己答的答案是A,却选了C)、记录错误、记分错误等因素。3
5、、被测评者因素被测评者因素被测评者是活生生的人,人是非常复杂的,诸多生理、心理因素都可以成为干扰人事测评目的的因素。可导致人事测评误差的被测评者因素大致有:(1)生理因素。身体健康因素、饥饿与过饱、疲劳程度、生理周期等都可以影响人格测试的结果。(2)动机水平每个被测评者都有参加测评的目的,这个目的可以导致被测评者故意掩饰自己,采取装好或装坏的倾向性回答,其结果就不能反映出被测评者的真实情况。不同的被测评者其动机水平不一样,因而掩饰程度也会有所不同。不同的动机水平可以引起被测评者不同的应激状态,动机过分强烈会引起被测评者产生测评焦虑,而动机不足则会引起被测评者对测评采取敷衍了事的态度,。在人格、
6、态度、动机等测评中,被测评者的动机水平常常会是测评被测评者因素产生误差的最重要的因素。(3)受教育程度、价值观等文化因素。被测评者受教育程度不同,其成长的文化背景不同,价值观不同,会造成被测评者对测题的理解、答题态度、答题偏好等的不同,从而造成测评误差。(4)有关经验。如果在测评之前,被测评者已经具有与测评有关的经验,比如已经经历过类似的或同一类型的测试从而掌握了有关的答题策略,就可能对测评结果产生较大的影响。有人曾做过试验,让5名熟悉、已知其智力水平的学生进行知觉和图形推理的大量练习,然后再进行瑞文图形智力测试,结果测得的结果比他们的实际智力高出不少。4、主试因素主试以貌取人、对被测评者有偏
7、见,可以造成测评误差。主试不良的言行举止对被试的心理状态干扰、暗示、误导,可以造成误差。主试评分的标准不一致,先紧后松、先松后紧、忽高忽低,或有意无意地修改评分标准,对某些人特别照顾,都可以引起误差。总结测评的误差一般可以被分为两大类:随机误差和系统误差。随机误差是由偶然因素造成的,其产生是随机的、无规律的,因此其数值大小也是随机变化、不确定的。它是引起测评不一致的变因,与测评信度有关。系统误差,又称为常定误差或偏差。它是由与测验目的无关的因子引起的一种恒定的、系统的变化,其数值大小具有一定的规律性和稳定性。它与测评的效度有关。习惯上,把随机误差称为观察误差或测评误差。从这个意义上讲,测评误差
8、这个概念所指误差只是测评分数所包含的误差(随机误差和系统误差)的一部分(即随机误差)。二、信度分析(一)信度的基本概念信度又叫可靠性程度,用于分析一种测评方法所得结果的前后一致性水平,并以这种一致性程度为指标来判断测评的可靠性。测验结果的可靠性与测验结果受误差影响的程度密切相关。在人才测评中误差是不可避免的,只能尽可能追求高的精度,把误差控制在一个有规律的范围以内,这样测量得到的结果才比较稳定可靠。信度实际上就是随机误差的一种度量。(二)信度系数及估计方法信度指标都用信度系数的形式呈现。信度系数是同一样本在两种不同时间、不同情境条件或两组不同评价材料评定结果之间的相关系数。针对不同的误差来源,
9、信度可有不同的确定方法。一般有以下几种类型:重测信度、复本信度、内部一致性信度、评分者信度。1.重测信度重测信度又称为稳定性系数,它是估计测评跨时间的一致性程度,即用同一测验,在两个不同时间里对同一群体施测两次,这两次测验分数的相关系数就是重测系数。一个测验的重测系数越高,说明测评的稳定性越好,测评受随机因素的影响越小。 在获得重测系数时,最需要注意的是必须根据测验的性质和目的来控制合理的时间间隔。时间间隔长了,被试的心理特征就会因为学习、经历、教育培训等因素而发展变化,使相关系数降低;时间间隔短了,又会使首次测评时的练习效果和记忆效果的影响增大,从而造成了假性的高相关。2.复本信度复本是指在
10、内容、数量、格式、难度、平均数、标准差等各方面与原测评一样的测评,即功能等值但题目内容不同。两个等值的测验互为复本。复本信度又称为等值性系数,它是代表测评跨形式的一致性,即在对被试进行测评以后间隔一定的时间,运用复本再测评一次所获得的复本相关系数。复本信度的高低反映了两个测验复本在内容上的等值性程度。复本信度的优点:适用于在长期追踪研究或调查某些干涉变量对测验成绩影响,同时减少了辅导或作弊的可能性。当然,复本相关系数也有局限性:一方面,在现实中,编制理想的复本常常很难,有许多测评都没有复本。另一方面,复本测评也会受练习的影响。3.内部一致性信度用重测相关系数和复本相关系数,都需测评两次,不但要
11、花较多的精力,而且受测者会受练习的影响使第二次测评失真。内部一致性系数则不同,它只需要测评一次,它通过分析同一测评内部各测评项目之间的相关系数的方法来估计信度系数。内部一致性系数反映的是跨测题的一致性,即测评内部各部分之间是否具有同质性。内部一致性信度又分为分半信度、同质性信度和系数。(1)分半信度获得分半信度系数的方法是把一个测评分成两个最为等值的两半,并分别计算每位被试在两半测验上的得分,再求出这两个分数的相关系数,从而来估计整个测评的信度。因为分半系数只是根据原测题的一半题目而来,而信度的大小又与测验的长度有关,所以分半系数常常要比原测验的信度低。为了校正这个差异,常运用斯皮尔曼-布朗公
12、式: rxx=2rhh/(1+rhh) 其中,rhh:两半测验的相关系数;rxx:估计或修正后的信度。(2)同质性信度同质性信度不需要把测评分为两半,它是指测验内部的各题目在多大程度上考察了同一内容。所谓的同质性是指所有的测验题目测量的只是单一的特质或内容,表现为所有测验题目得分的一致性。常用的计算方法是库德-理查逊估计方法 。计算公式有库德-理查逊20号公式(简称KR20)和21号公式(KR21)。KR20公式n为测验题目数,pi为通过i题的人数比例;qi为未通过该题的人数比例;pi+qi=1;piqi为所有题目答对与答错人数百分比乘积的总和。库德-理查逊信度系数的运用需要满足几个条件:所有
13、测题都采用二分法记分,即都采用0,1记分,答对记1分,答错记0分;测验的项目难度比较接近;项目间的组间相关相等。(3)系数当测验项目采用多重记分(如人格测验、态度量表),库德-理查逊信度就无法运用。克伦巴赫提出了适用于各种记分情况的系数来估计信度。具体公式如下:其中,Si为每一项目的方差;Sx为测验总分方差。4、评分者信度在人事测评中,不同的评分者其观察角度、注意力、对被试的偏见等都会使评分的结果不一致,因此,评分者的评判也是误差的来源之一。评分者信度就是指不同评分者对同样对象进行评定的一致性。具体方法是:由两名评分者对同一个被试样组进行评分,再求两个评判分数的相关系数。这种相关系数的计算可以
14、用积差相关方法,也可以采用斯皮尔曼等级相关方法。如果评分者在三人以上,而且又采用等级记分时,就要用肯德尔和谐系数来求评分者信度。公式为:其中,K为评分者人数,N为被评定的人数或答卷数; Ri为每一个对象被评等级。(三)影响信度系数的主要因素1.测验长度 :在其他条件相等的情况下,测验长度(题目的多少)越长,信度值越高。因为测验越长,题目取样或内容取样就越充分,结果就越可靠,同时也避免猜测题目的影响。2.样本团体的性质:一般而言,在其他条件不变的情况下,样本团体的分数分布范围越大,变异性越大,信度系数将越大。样本团体的异质性越大,信度系数就越高。3.测验难度:测验难度对信度也会产生影响。如果一个
15、测验的难度太低,大多数被试都可以轻而易举地答对题目,测验分数会非常集中并聚在高分端;如果测验的难度太高,多数被试都只能凭猜测答题,所有分数都集中在低分端。这样都会使测量到的分数分布太窄,导致信度降低。三、效度(一) 效度的含义人事测量的效度就是指测量的有效性,即所采用的测评工具对其所要测评的特性测量到什么程度的估计。一是效度是针对测验结果的。二是效度是针对某种特定的测评目的而存在的。三是效度是连续性的,是一个关于程度的估计。(二)效度的类型及估计方法一般把效度分为内容效度、构思效度和效标关联效度三类,这三类效度是相互联系的,一个好的测评通常可以用一种或一种以上的效度来表示。1.内容效度内容效度
16、是检查测验内容是否是所欲测量的行为领域的代表性取样的指标,即是说指标与标准是否符合该类人员的功能特征。要素的设计与标准的编制成为鉴定测评效度的内容。常见方法:(1)通过对照内容范围来估计(2)评分者信度(3)统计分析2.构思效度构思效度是指测验能够测量到理论上的构思或特质的程度。所谓的构思是指一些抽象的假设性的概念、特性或变量。如智力、创造力、言语流畅性、焦虑、动机等。构思不能直接测量,需要借助一定的测评工具来反映。构思效度的估计方法有许多,总的来说,可以分为测验内部的方法和测验间方法两大类。3、效标关联效度效标关联效度是以测评分数和效度准则之间的相关系数来表示测评效度的高低的,表现进行预测的
17、有效性程度。这里效标是指考察测验效用的外在参照标准,是一种可以直接、独立测量的行为。通常情况下,对一般职工来讲,其效标应为产量与质量;对于科技人员应以发明、创造及技术成果的数量和效益为效标;对管理人员应以工作效率、职工积极性调动程度和经济效益为效标;对领导人员应以开发人才、开创局面和社会、经济效益为效标。(三)影响效度的主要因素(1) 受测样本一个测验施测于不同的样本,由于受测者在年龄、文化程度以及经验背景上的差别,效度就会随之不同,因此,受测样本的选取是用来考察效度所依据的重要因素。样本容量的大小与效度系数的高低也有一定关系。样本容量越大,测量误差就会有相互抵消的趋势,由此会有助于提高测验和
18、效标测量的信度,同时有助于提高效度系数。(2)效标选择适当的效标是统计效度的先决条件。一个测验由于采用的效标不同,其效度可能会大相径庭。甚至,由于效标选择不当,可能导致无法衡量测验的效度。通过以上的分析,我们可以看出信度与效度的分析是直接对测评结果质量的考查,而一个测验的信度和效度在很大程度上取决于该测验的题目参数(难度和区分度),编制和筛选具有适当参数的题目是改善测验信度和效度的前提。我们根据试题结果对组成测验的各个题目进行分析,从而评价题目好坏。四、难度分析(一)难度的概念难度是指测验题目的难易程度,也是试题对被试知识和能力水平的适合程度的指标。难度是一个相对的概念,难度的高低与被试的水平
19、直接相关。我们在说测量的难易程度时,应该针对具体的被试。(二)难度的计算1、以答对百分比来估计难度如果试题为二分法反应记分项目,P值可以采用通过率公式计算。公式为:P= R /N 其中,P为试题难度;R为答对试题的人数;N为参加测验的总人数。当被试人数较多时,可以采用极端分组法求试题的难度,先按测验总分的高低进行排序,然后将被试分成三组:分数高的27%被试为高分组,分数最低的27%的被试为低分组,中间46%的被试为中间组。分别计算高分组和低分组的通过率,再求试题的难度。FP=(PH+PL)/2F其中,其中,PH和和PL分别代表高分组和低分组的通过分别代表高分组和低分组的通过率。率。(三)难度对
20、测验的影响1. 测验难度影响测验分数的分布形态 测验的难度就越大,测验分数就越是集中在低分段,其分数分布呈正偏态;相反,分数分布呈现负偏态。2.测验难度影响测验分数的离散程度 测验分数过高或过低,测验分数就会高度集中,测验分数的离散程度就变小了。3.测验难度影响测验的鉴别能力 (四)测验难度的确定确定合理的测验难度才能使试题产生区分不同程度被试的最大效果。但题目的难度水平究竟多高合适,依赖于测验的目的、性质、和题目形式。 一般来说,我们进行测验的目的是要了解被试个体间的差异,所以在选择题目时,最好使试题的平均难度接近0.50 ,而各题难度在0.500.20之间。此外,对于不同的题型应该有各自适
21、宜的难度。如是非题难度值应为0.75,而对于四择一题目,难度值约为0.63。五、区分度分析 (一)区分度的概念区分度又称鉴别度,它是指测验项目对不同水平的被试反应的鉴别能力和区分程度。若项目鉴别力高,则能力强、水平高的被试得分高,能力弱、水平低的被试得分低,否则就没有鉴别力。它是评价测题质量,筛选测题的主要指标和依据。(二)区分度的估计方法1.鉴别度指数鉴别度指数是衡量区分度的一种最常用,也是最简便的方法,它是比较得分高和得分低的两组被试在项目通过率上的差值。一般思路为,当成绩是连续变量时,可从分数分布的两端各选择27%的被试组成高、低分组,再分别计算两组每道题目上的通过率,二者之差就是各题目
22、的鉴别度指数D。公式:D=PH-PL其中,PH为高分组答对该题的人数比率;PL为低分组答对该题的人数比率。2.方差法方差表示一组数据离散程度。方差大,数据分散。被试在某一试题上的得分越分散,则该题的鉴别力越大。在进行实际的项目分析中,被试一般不能少于30人,这样使用下面公式才有效。3.内部一致性系数计算区分度一般以总分来衡量被试能力的高低,当被试总分高时,在某个项目上的得分也高;总分低时,项目上的得分也低,说明该项目和总分有一致性。在标准化和大规模的测验中,通过考察项目和总分的相关,来测验各项目所测查内容的一致性。如果项目与总分高相关,项目的鉴别力也就高。 4.项目与外部准则的相关项目效度分析项目效度分析是考察被试在项目上反应和在效标上表现的关系,即每个测题所测查的行为是否反映了被试在效标上的表现。相关系数就是项目通过率与效标成绩的相关系数。相关越高,表明项目越具有区分的能力。(三)合理区分度的确定在上面已经谈到不同的计算方法会带来不同的区分度值,也就是说区分度的值具有相对性。此外,区分度还与受测团体的同质程度有关,同质性越强,区分度就越小。所以,在确定合理的区分度时,我们既要考虑采用哪种区分度指标,以及样本大小和特性外,还要考虑测验的目的、性质和功能。