跳到主要內容
:::

教育百科logo

::: 電腦化適性測驗 - 教育百科
國家教育研究院辭書
基本資料
英文: Computerized Adaptive Testing, CAT
作者: 洪碧霞
日期: 2000年12月
出處: 教育大辭書
辭書內容
名詞解釋:
  在第三版〔教育測量〕一書中,班德森等(C.V. Bunderson, D.I. Inouye & J.B. Olsem, 1989)提出四代電腦化教育測驗的分類結構,將電腦化適性測驗歸為第二代。CAT植基於第一代電腦化測驗之上,在題目難度與考生能力水準的配合上多了一分適性的調整,同時也是邁向更動態、個人目的導向或智慧化的第三、四代電腦化教育測驗的基礎。CAT結合適性測驗、電腦科技及項目反應理論(Item Response Theory, IRT)等應用,以達成施測時間經濟及考生能力估計準確的兩項優點。此種使用電腦來為個別受試選擇試題的測驗方式,有很多不同的名稱,如適性測驗(adaptive testing)、編序測驗(programmed testing)、分支測驗(branching tests)、反應附隨測驗(response-contingent testing)、合身測驗(tailored testing)、及電腦化適性測驗。目前國內心理測驗學者多採用「適性測驗」一詞。
  電腦化適性測驗系統,主要包含六項技術要素的考慮:(1)試題反應模式;(2)題庫;(3)起始點;(4)選題策略;(5)計分方法;(6)中止標準。每一要素都有幾種可能的選擇,可依測驗目的作適當之選擇組合,概要說明如下(施測流程,請參閱下圖)。
  
  1.試題反應模式:二元計分的試題反應模式有一、二、三參數的邏輯式(logistic)及常態肩形(normal ogive)模式。多元計分的模式則有撒瑪(Samejima, 1969)等級模式(graded model)及巴克(Bock, 1972)的名義模式(nominal model)等。每種模式各有其基本假定及適用範圍,使用者需視題目的性質來選擇適當的試題反應模式。
  2.題庫:電腦化適性測驗首要條件是一個含有IRT參數的題庫,題庫中所有試題參數都應在同一量尺上。實徵研究多以一百至二百題的題庫為討論標的。其中有以試題難度均勻分散在所欲評量群體的整個能力範圍為主。
  3.起始點:適性測驗的施測方式,是對不同能力的考生可以由不同難度的題目開始施測。即使選擇和考生能力差距較大的題目作為起始點,也不致嚴重影響評量的結果,但是較準確的起始點有助於施測題數的縮減。題庫較小時,基於試題保密的考慮,隨機起始點是較為理想的選擇。
  4.試題選擇的方式:通常試題的選擇方式與能力估計方法密切關聯,因為試題的選擇就是為了使能力的估計以經濟的題數達到最精確的水準。目前最常用的兩種試題選擇方法是最大訊息法(D.J. Weiss, 1982)及貝氏法(R.J. Owen, 1969; 1975)。兩種方法都是由題庫中尚未施測的試題中選出一題,其中最大訊息法是還能對考生目前的能力提供最豐富訊息的題目,而貝氏法則是使考生能力估計期望的事後變異數(posterior variance)為最小。如果考慮到內容上的平衡時,可以將試題選擇的方式作某些限制,以確保所選試題能包含不同的領域。內容抽樣的效度對成就測驗,尤其是標準參照的成就測驗是相當核心的考慮。
  5.計分方法:大部分採最大可能性法或者貝氏法(Bejar & Weiss, 1979)。當受試只答一題或其反應向量為全對或全錯時,最大可能性法為無解。當測驗很長時,最大可能性法是考生能力的不偏估計。貝氏法(Owen, 1969; 1975)能提供能力完整估計,即使在受試反應為全對或全錯,也能估計。但有趨向平均數迴歸的現象,尤其在較短測驗中,這種迴歸的影響頗大(Weiss & McBride, 1984)。所以如果能在適性測驗的前段採貝氏法,後段採最大可能性法,那麼能力的估計可以在較短測驗中達到不偏估計值,適度擴大先驗分配的標準差是降低迴歸效應的另一種辦法,而且可以免於考生因估計程序不盡完全相同,比較量尺不等的困擾(Hung, 1988)。
  6.終止標準:電腦適性測驗的測驗長度可因人而異,測驗可以持續到對受試能力評量的準確性達到某一事先選定的標準為止。根據測驗的目的和性質,終止標準可以有高有低,也可同時界定一個以上的中止標準。常用的終止標準有三,第一是固定題數;二是能力估計分配標準差小於界定值;三是能力估計區間不包含界定值。第一種方法在模擬研究中用得最多,研究人員使用此法對適性及傳統測驗方式所得的測驗訊息曲線做直接的比較。常用的長度都在二十題到三十題之間(Hung, 1988)。實際應用時,大多使用第二種方法。界定測驗持續到受試能力估計值達到既定準確水準為止。一般使用能力估計事後分配標準差(PSD)=0.3(約相當於傳統0.91的信度)。第三種即貝氏信賴區間法,它最常用於精熟與否的決定。考生的精熟水準預先轉換成能力(θ)度量上的點,在α值決定後,貝氏的信賴區間即可算出,只要精熟水準的θ界定值不在此信賴區內,測驗即可中止。
  單一向度CAT的應用已經步入成熟期,更動態/協助導向的多向度適性測驗,是領域中下一個努力的目標。
資料來源: 國家教育研究院_電腦化適性測驗
授權資訊: 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出