当前教学实践中存在哪些生成误区

资源描述

《当前教学实践中存在哪些生成误区》由会员分享，可在线阅读，更多相关《当前教学实践中存在哪些生成误区（35页珍藏版）》请在金锄头文库上搜索。

1、当前教学实践中存在哪些生成误区当前教学实践中存在哪些生成误区目錄前言-1第一章試題反應理論的概念與發展-2第一節試題反應理論的基本概念-2第二節試題反應理論與古典測驗理論的比較-2第三節常見的 IRT 模式-6第四節 IRT 的基本假設-13第五節當代 IRT 的發展-14第六節 IRT 的應用-15第二章 IRT 在測驗編製上的應用-19第一節測驗(量表)設計原理-19第二節選擇模式-21第三節估計受試者程度值-22第四節試題分析-25第五節測驗訊息量與測量標準誤-28第六節檢視資料的符合性-29第七節以 IRT 編製測驗的實例-32前言試題反應理論(IRT)是測驗領

2、域中較新的技術，它已經被應用在教育、心理、醫療等相關領域中，如國中基本學力測驗、托福、GRE、GMAT考試，以及國外的一些人格量表與醫學相關量表的編製。當代著名的電腦化適性測驗(CAT)也必須仰賴 IRT 的理論與技術才能運作。本次工作坊的主要內容是以介紹 IRT 的概念與實務應用為主，上午的課程是先對 IRT 做基礎概念的介紹，接著以生活品質量表與國中基本學力測驗的發展為例，介紹 IRT 的基礎應用，並有實際資料讓學員上機操作，對於有量表發展需求者而言相當實用。下午是 IRT 的進階課程，介紹 IRT 在多向度測驗及電腦化適性測驗上的應用，對於有興趣發展人格量表、多元性向測驗等多向度測驗，或

3、是想發展電腦化適性測驗的人而言是很適合的課程。第一章、試題反應理論的概念與發展第一節試題反應理論的基本概念試題反應理論(item response theory; IRT)主要是用來描述試題特性（難度、鑑別度、猜測度）與受測者的能力(潛在特質)如何影響其答題反應的一種數學模式。最簡單的 IRT 模式如下列公式(1)所示（Rasch, 1960）：EMBED Equation.3 , (1)其中(j 為考生 j 的能力，bi 是試題 i 的難度，而 Pij 是受測者答對某個題目的機率。在 IRT 的模式中，受試者在某個題目上的答對機率是同時受到受試者能力與試題難易度所影響；而受試者在測驗上的整

4、體表現就是各題目答對機率的聯合機率。藉由這個數學模式與聯合機率的概念，我們就能根據受試者在各個題目上的答題反應來估計受試者的能力以及題目的難易度，並且讓接受不同題目的受試者其能力可以互相比較。IRT 其實是許多試題反應模式的總稱，當代已經有許多 IRT 模式分別適用在許多不同的測驗情境中。常見的 IRT 模式可以根據其所包含的試題參數數目來分，分為單參數的 Rasch 模式、二參數模式與三參數模式（Birnbaum, 1968）。也可以依據計分型態來分，分成二元計分（dicotomous）與多元計分（polytomous）模式；或是依據適用的作答方式來分，分成評定量尺（rating scal

5、e）模式、部分計分（partial credit）模式、名義量尺（nominal scale）模式等。第二節試題反應理論與古典測驗理論的比較試題反應理論與傳統測驗理論(classical test theory; CTT)的比較見表 1-1 所示(Embretson Hambleton SEM)。我們可以經由 X=T+E 的概念算出測驗的信度(reliability)，再經由下列公式轉換得來：EMBED Equation.3 其中 EMBED Equation.3 為群體分數標準差，為 r 測驗信度。由於在傳統測驗理論中，接受相同測驗的受試者其信度都相同，因此測量標準誤也被視為相同。而這樣的

6、假設顯然與實際的測驗情況是不符合的，因為測驗中的題目不見得對各種不同能力的受試者而言都適用。5.應用IRT 是促進現代測驗進步的重要關鍵，尤其是電腦化適性測驗。基於 IRT 的單向度假定與受試者能力估計的不變性，接受不同題目的受試者其能力就可以比較，因此就能讓受試者都接受適合於自己能力的題目，達到適性測驗的目的。除此之外，IRT 的試題參數較不受樣本所影響，因此很適合用來發展題庫；而 IRT 的能力也較不受試題參數所影響，所以也很適合用來進行能力分數的等化。另外，IRT 也明確地建構出試題與測驗之間的關係，因此可以直接根據測驗的目的(例如希望對不同能力者的測量誤差要低於多少)來選擇測驗題目，組

7、成各種形式的測驗。而傳統測驗理論的應用就比較侷限在測驗編製或量表編製上，很難應用在上述各層面中。整體而言，IRT 是屬於理論架構較嚴謹、應用層面較廣的測驗理論，IRT 所提來的諸多測量特性都較符合實際的測驗情況；但是由於其模式較複雜不易讓人理解，計算過程也較繁瑣，因此尚未廣泛地被大眾所接受。不過隨著電腦科技的進步，進行 IRT 分析時所需要的計算已經都可以用電腦來執行，因此也已經漸漸被應用在一些著名的大型測驗中，例如國外的 TOEFL、GRE 測驗，以及國內的國中基本學力測驗等。而傳統測驗理論由於已經被使用許久，而且其理論概念較簡單，目前現有的測驗也大多以它為基礎所發展出來的，因此短期內還不太

8、容易被 IRT 所取代；然而它在測量特性上的一些問題以及應用層面的侷限性，已經讓某些領域的測驗(量表)編製者漸漸轉向以 IRT 為理論基礎來發展測驗。相信未來 IRT 在測驗評量領域的普及率應該會愈來愈廣。第三節常見的 IRT 模式由於 IRT 是許多試題反應模式的總稱，直到現在 IRT 模式還在發展中。以下僅以計分的方式來分，分別介紹常見的幾種 IRT 模式。(一)二元計分模式二元計分模式是指受試者在題目上的答題反應只有答對或答錯兩種。這類模式又可以根據模式中所考慮到的試題參數個數來分，分為單參數的 Rasch 模式(Rasch, 1986)、二參數模式與三參數模式(Birnbaum ,1

9、968; Lord , 1952)。1. Rasch 模式Rasch 模式如公式(1)所示，先前已經介紹過了。在 Rasch 模式中認為，影響受試者答對機率的試題特性主要是難易度，因此只要了解人的能力與題目的難易度，就能知道該人在某題目上的答對機率是多少。而在 Rasch 模式中，所有試題都被要求要具有高鑑別度(都是1.0)，而受試者猜對題目的機率已經被納入受試者能力中，而不是試題特性，因此猜對率為 0。該模式最大的特色是它對試題的特性與受試者的作答反應有較嚴格的要求，如果都能符合這些要求，則所估計出來的能力值就能反映出受試者的真實能力，而且是等距量尺。根據 Rasch 模式，我們可以畫出各試

10、題的特徵曲線(item characteristic curve; ICC)，如圖 1-1 所示。對同一試題而言，一個人的能力愈高其答對該題的機率應該也愈高，因此這個曲線是單調遞增(monotonically increasing)曲線。由於每個試題都被要求需要有相同的高鑑別度，因此每條曲線在中段的部分看起來都很接近平行，整份測驗的試題特徵曲線放在一起就好像是一把尺上面有許多刻度一般。其中以答對率為 0.5 向右劃一條橫線，與各試題特徵曲線的交叉點，對應到能力軸上的值，被定義為該題的難易度。由此也可以看出在 IRT 中，能力與試題難易度被視為是被放在同一個量尺上的相對概念，因為模式中兩者的數值

11、是可以直接相減的。圖 1-1 Rasch 模式中不同試題的特徵曲線圖2.二參數模式二參數模式最早是由 Lord (1952)所提出，當時所提出來的是常態肩型模式，之後再經 Birnbaum (1968)修改成較間單的對數模式，如公式(4)所示。EMBED Equation.3 , (4)其中 EMBED Equation.3 是試題 i 的鑑別度，其他的符號意義與公式(1)相同。在二參數模式中，與Rasch 最大的不同點是題目可以被允許有不同的鑑別度，而這些不同的鑑別度會對受試者答對題目的機率有不同程度的調節性影響。這種模式與實際資料的分析結果較為接近，因為命題者所設計出來的試題很難都具有相同

12、的高鑑別度，有些題目的鑑別度總是不符合預期，但是依然能發揮部份的測量功能。二參數模式所畫出來的試題反應曲線如圖 1-2 所示。在圖 1-2 中，有的曲線的中段是比較陡峭的(例如 a1)，有的則是比較平緩的(例如 a2)，這些題目雖然具有相同的難易度，但是隨著受試者能力的提升，他們答對這兩題的機率變化情形卻不相同。在 a1 中段的區域，能力只要有些微的改變其答對率就有顯著的提升；而在 a2 中，同樣的能力改變量，其答對率的提升情形明顯不如 a1。圖 1-2 二參數模式中不同試題的特徵曲線圖3.三參數模式三參數模式的概念也是源自於 Lord (1952)與 Birnbaum (1968)。這種模式

13、主要是針對那些可以經由猜測來答對試題的測驗情況，例如選擇題、是非題等。如公式(6)所示。EMBED Equation.3 ,(5)其中 EMBED Equation.3 是試題 i 的猜對率，這裡要特別注意的是此猜對率是指能力極低者猜對該題的機率，隨著能力的提高，答對該題的機率仍然會提升，但可以提升的機率範圍僅有 EMBED Equation.3 。由於在模式中，每個題目除了有難易度與鑑別度的特徵外，還有可以被猜對的可能性，因此這種模式比二參數模式更能符合實際的資料。三參數模式的試題特徵曲線如圖 1-3 所示，從圖 1-3 可以看出試題特徵曲線更具有多樣性。在圖形左方，各試題特徵曲線與縱軸的交

14、叉點即為該題的猜對率，也就是能力很低者答對該題的機率。在以選擇題為主的測驗情境中，我們經常可以發現有些試題因為誘答選項設計不佳，或是題目中有些暗示答案的線索，造成即使能力很低者也容易猜對該題(例如 c1)，此時就需要這類模式來找出那些題目。而三參數模式在估計受試者能力時也已經考慮了不同題目的猜對率對受試者答對機率的影響，因此所得到的能力值應該會比較符合其實際能力水準。圖 1-4 三參數模式中不同試題的特徵曲線圖(二)多元計分模式多元計分是指受試者在題目上的答題結果不只有一種，而是有很多種可能性，例如：在成就測驗中，經常有計算題、簡答題或申論題等開放式反應的題型，根據受試者回答題目的完整性，分別

15、給予不同的分數或等級。或是在態度量表中常見的 Likert 量表，將受試者在量表題目上的答題反應分成非常同意、大致同意、沒意見、不太同意、非常不同意等，並分別給予 15 分。關於這些多元計分題的 IRT 模式相當多，在此僅介紹兩種較常見的模式。1.部份給分模式部份計分模式(partial credit model, PCM) 是由 Masters(1982)所提出來的，由於這是他歸納各種適用於次序反應資料的模式所得，因此 PCM 的適用層面較廣。只要是題目的評分點有次序的概念，得到低分比較簡單，得到高分比較難時，就能適用於這種模式。PCM的概念如公式(6)所示：EMBED Eq

16、uation.3 , (6)其中 EMBED Equation.3 ， EMBED Equation.3 是第 i題的最高得分，而 EMBED Equation.3 是第 i 題的第 j 個得分的難度階(step difficult)。因此 EMBED Equation.3 可以解釋成在第 i 題所有可能的得分類別中，得到 x 分的機率有多高。例如，某個計算題的計分方式是 03(即 EMBED Equation.3 )分，受試者得到 1 分的機率是：EMBED Equation.3 EMBED Equation.3 而 EMBED Equation.3 、 EMBED Equation.3 、 EMBED Equation.3 就是分別從 0 分要變成 1 分、從 1 分要變成 2

展开阅读全文

当前教学实践中存在哪些生成误区

最新文档