項目応答理論
項目応答理論(こうもくおうとうりろん)または項目反応理論(こうもくはんのうりろん)、略称IRT (Item Response Theory; Item Latent Theory) は、評価項目群への応答に基づいて、被験者の特性(認識能力、物理的能力、技術、知識、態度、人格特徴等)や、評価項目の難易度・識別力を測定するための試験理論である。この理論の主な特徴は、個人の能力値を測るだけでなく、項目(問題)の難易度・識別力・当て推量といった変数を、評価項目の正誤といった離散的な結果から確率論的に求める点である。
IRTでは、能力値や難易度のパラメータを推定し、データがモデルにどれくらい適合しているかを確かめ、評価項目の適切さを吟味することができる。従って、試験を開発・洗練させ、試験項目のストックを保守し、複数の試験の難易度を同等と見なす(例えば異なる時期に行われた試験の結果の比較をする)ためにIRTは有用である。また、コンピュータ適応型テスト (CAT:Computerized Adaptive Testing) もIRTによって可能になる。
より古典的テスト理論(正答率、素点方式、偏差値方式)と比べると、IRTは、試験者が評価項目の信頼性の改善に役に立つ情報を提供し得る、標本(受験者)依存性・テスト依存性にとらわれずに不変的に受験者の能力値とテスト項目の難易度を求められる、という利点がある。
概要
例として、4択問題100問、配点が1問につき10点(1000点満点)で構成されるテストを考える。この場合、以下の問題が発生しうる。
- 全問完全にランダムに回答した場合でも、25問は正解(250点は獲得)することが期待される。このように、回答の際の運による要素を多分に含んでおり、実力を正しく測れない。
- 得られた点数から計れる受験者の能力は集団やテストの内容に依存する。
- 項目(問題)の特性と受験者の能力との関係は、項目(問題)ごとの正答率・素点だけでは評価できない。
- 得られた点数や平均点等の各値は、項目(問題)の難易度などの特性に依存する。そのため、出題される項目(問題)が違うテスト間において、得られた点数や平均点などを直接比較することはできない。
このような、正答率や総得点による受験者の評価を、古典的テスト理論(Classical Test Theory)、あるいは素点方式という。
項目応答理論は、運による要素や評価の相対性といった性質をもつ古典的テスト理論の限界を解消し、より科学的な手法で受験者の実力をより正確に測ろうとする理論である。項目応答理論では、個々の項目(問題)に対して、正答率や配点では無く、後述する数学的な仮説やパラメータを用い、受験者の能力を推定する。
これにより、以下のメリットを得られる。
- 識別力が著しく低い問題の正誤は、受験者の能力を決めるのにほとんど影響を持たないため、実質的に能力の推定や集計対象から除外する事ができる。
- ある項目(問題)群が相互に関係しており、一定の能力があれば全問正解できるにもかかわらず、1問しか正解しなかった場合、その正解は当て推量であり、受験者の実力によるものではない結果であることを推定できる。
- 受験者の能力や項目(問題)の難易度を、テストの難易度や受験者の集団に依存する事なく、普遍的に推定できる。
- ある点数以上を取れば合格とする(実際の点数の多寡は関係ない)テストにおいて、その信頼性を担保できる。
- 同じ正答率・得点を得た受験者同士でも、能力値は違う結果になり、受験者の特性を評価できる。
IRTモデル
一般的なモデルでは、項目への離散的な応答(正誤など)の確率が、1つの能力値と1つ以上の項目パラメータによる関数であるという数学的な仮説に基づいている。用いられる変数は以下の通りである。
この項目は、統計学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(プロジェクト:数学/Portal:数学)。
- 項目応答理論のページへのリンク