Анализ тестовых материалов

Одной из основных и наиболее применимых моделей Item Response Theory является так называемая двухпараметрическая модель Бирнбаума. Сущность этой теории заключается в следующем. Пусть параметр отражает уровень подготовленности i-го участника испытаний, а параметры и некоторые параметры j-го тестового задания (и - любые числа, а dj - только положительные). Согласно модели Бирнбаума вероятность Pij успешного выполнения j-го задания i-м участником определяется следующей формулой:

.

Данное выражение показывает, что вероятность успеха Pi зависит только от dj и поэтому модель Бирнбаума, получила название двухпараметрической. Вероятность успеха Pij как функция от при фиксированных значениях = и называется характеристической функцией j - го задания. На рисунке 1 представлен вид характеристической кривой с параметрами = 0,3 и dj = 1,2. Исследование характеристических функций показывает, что:

и ,

т.е. с уменьшением уровня подготовленности участника вероятность верного решения задания уменьшается до 0, а при увеличении уровня подготовленности увеличивается до 1.

Рис.1. Характеристическая кривая задания с уровнем трудности = 0,3 и различающей (дифференцирующей) способностью dj = 1,2.

При увеличении параметра , характеризующего трудность задания, вероятность успеха для одного и того же уровня подготовленности уменьшается. При небольших значениях параметра d0 характеристическая кривая является пологой, следовательно, для испытуемых с уровнем подготовленности и для участников тестирования с вероятности верного решения данного задания приблизительно равны. Если значение параметра d0 велико, то вероятности успеха будут существенно различаться, поэтому параметр dj получил название коэффициента дискриминации. Этот коэффициент показывает насколько данное задание, хорошо различает участников тестирования с высоким, и низким уровнем подготовленности.

Однопараметрическая модель Раша.

Статистическая обработка результатов тестирования на основе модели Раша обладает важными достоинствами, из которых следует отметить следующие:

1. Оценка трудности тестовых заданий не зависит от выборки испытуемых, на которых получена. Пропуск данных для некоторых комбинаций не является критическим;

2. Модель Раша характеризуется наименьшим числом параметров: один параметр уровня знаний для каждого испытуемого и только один параметр трудности для каждого задания;

3. Модель опирается на понятия «трудность задания» и «уровень подготовленности»;

4. Благодаря простой структуре модели существуют удобные вычислительные процедуры для проверки адекватности модели: для всего набора тестовых результатов, для каждого испытуемого, для каждого задания и для каждого конкретного ответа.

Получаемые с помощью данной модели оценки, в силу относительной независимости от конкретного подбора того или иного задания, приобретают характер достаточно объективированных результатов, что также положительно отражается на качестве оценок, используемых в педагогическом контроле. Эта идея Раша превратилась в новое для науки положение о т.н. специфической объективности, как основе для получения справедливых оценок, независимых ни от конкретного набора заданий, ни от подбора групп испытуемых. Не случайно измерения по Г.Рашу в западной литературе называют model based measurement.

Пусть тест состоит из k различных заданий бинарного типа, (испытуемый получает 1 балл, если ответил правильно и 0 - при неверном ответе) и его выполняют n студентов. В результате получается матрица ответов An,k состоящая из n строк (i) и k столбцов (j).

An,k = {aij}

Число bi равное сумме баллов в i - й строке называется первичным баллом i - го испытуемого (оно равно числу его правильных ответов):

При необходимости первичный балл можно выразить в процентах (или долях) следующим образом . Уровни подготовленности участников A и B обозначим через Sa и Sb, а трудность заданий через t (на самом деле все задания имеют разный уровень трудности tk). В модели Раша доказывается, что:

(1).

,

где и - вероятность выполнения задания уровня трудности t соответственно участниками A и B, и - вероятности невыполнения задания уровня трудности t соответственно участниками A и B. Из общих соображений выражение (1) должно быть верным для любого уровня трудности заданий и любой пары участников тестирования. Пусть, какое либо задание имеет трудность t = 1 и необходимо сравнить трудности двух заданий. В модели Раша уровень трудности определяется, как отношение вероятности () того, что некоторый стандартный участник испытания с единичным уровнем подготовки (S = 1) не выполнит данное задание к вероятности () его выполнения: