6.2. Математико-статистический анализ качества тестов и тестовых заданий на основе классической теории тестов
Если за каждый правильный ответ на задание испытуемому давать 1 балл, а за неправильный ответ или пропуск задания – 0 баллов, то профиль ответов студента будет иметь вид последовательности из единиц и нулей. Поскольку каждая единица или нуль появляются в результате взаимодействия испытуемого с заданием, то наиболее адекватной формой представления наблюдаемых результатов выполнения теста служит матрица, т.е. прямоугольная таблица, сводящая воедино профили ответов студентов и профили заданий теста (столбцы из оценок всех студентов по каждому заданию теста).
Пример матрицы наблюдаемых результатов, полученной при выполнения N (N = 10) студентами n (n = 10) заданий теста при дихотомических оценках (1 или 0) по заданиям приведен в табл. 6. 1.
Справа в вертикальном столбце содержатся индивидуальные баллы студентов Xi (i = 1, 2, …, N), которые получаются суммированием единиц по горизонтали в каждом профиле ответов. Сложение единиц в столбцах по профилям ответов на n заданий теста позволяет получить числа Y j (j = 1, 2, …, i), соответствующие количеству правильных ответов на каждое задание. С помощью матрицы можно выполнить ряд расчетов, интерпретация результатов которых позволяет сделать важные выводы относительно качества заданий теста и получить достаточно точные оценки параметра испытуемых в том случае, если тест соответствует определенным критериям качества.
Таблица 6.1 Пример матрицы наблюдаемых результатов выполнения теста
Для анализа обычно используется упорядоченная матрица, в которой не только задания ранжированы по нарастанию трудности (см. табл. 6.1), но и баллы испытуемых расположены по убыванию или нарастанию сверху вниз (табл. 6.2).
По данным матрицы обычно проводят графическую интерпретацию распределений для трудности заданий и индивидуальных баллов испытуемых, которые представляют в виде полигона, гистограммы или сглаженной кривой (процентилей, огивы). Для больших выборок испытуемых (50 студентов и более) графическую интерпретацию предваряет формирование частотного распределения (табл. 6.3).
Таблица 6.2 Упорядоченная матрица данных тестирования
Таблица 6.3 Частотное распределение баллов
В табл. 6.3 содержатся только различные индивидуальные баллы испытуемых, взятые из последнего столбца матрицы эмпирических результатов выполнения теста и расположенные в порядке возрастания слева вместе с числом их повторений (f). Сумма всех частот для данного примера N = 1 + 1 + 3 + 1 + 2 + 2 =10, т.е. числу студентов в группе. Для очень большой группы в 100 или более студентов строят сгруппированное частотное распределение, в котором оценки объединяют в группы. Каждая группа называется разрядом оценок. В случае полного размещения оценок по разрядам говорят о распределении сгруппированных частот баллов студентов. Хотя четкого правила выбора количества разрядов нет, но обычно их число стараются варьировать в пределах от 12 до 15.
По ряду частотного распределения можно получить графическое представление результатов тестирования в виде гистограммы – последовательности столбцов, каждый из которых опирается на единичный (разрядный) интервал, а высота его пропорциональна частоте наблюдаемых баллов. Например, для рассматриваемого примера (см. табл. 6.3) гистограмма приведена на рис. 6.1. Середина столбца совмещается с серединой интервала разряда, который выбран длиной в 1 балл.
Рис. 6.1. Столбчатая гистограмма для распределения баллов в табл. 6.3
Для дальнейшего анализа данных оцениваются меры центральной тенденции в распределении результатов тестирования, которые предназначены для выявления той точки, вокруг которой в основном группируются все результаты выполнения теста. При анализе результатов тестирования можно использовать разные подходы к определению такой центральной точки. Наиболее простой способ основан на выявлении моды распределения и среднего арифметического баллов.
Мода – это такое значение, которое встречается наиболее часто среди результатов выполнения теста. Например, для данных табл. 6.3 модой является балл 4, потому что он встречается чаще (3 раза) любого другого балла. Конечно, не всякое распределение имеет единственную моду, их может быть две или больше. В случае существования двух мод распределение называется бимодальным. Если все значения баллов студентов встречаются одинаково часто, принято считать, что моды у распределения нет.
Среднее выборочное (среднее арифметическое) определяется суммированием всех значений совокупности и последующим делением на их число. Для индивидуальных баллов Χ1, Χ2, …, ХN группы N испытуемых среднее значение X̅ будет:
(6.1)
Среднее арифметическое индивидуальных баллов испытуемых для рассматриваемого выше примера матрицы (см. табл. 6.2) равно
В отличие от моды, фиксирующей одно или несколько значений, на величину среднего влияют значения всех результатов распределения. Таким образом, среднее арифметическое характеризует все распределение в целом. Оно обобщает индивидуальные особенности составляющих распределения на основе уравнивания отдельных значений рассматриваемой величины.
Меры центральной тенденции полезны при оценке качества теста, если есть результаты апробации теста на репрезентативной выборке студентов. Обычно считают, что хороший нормативно-ориентированный тест обеспечивает нормальное распределение индивидуальных баллов репрезентативной выборки испытуемых, если среднее значение баллов находится в центре распределения, а остальные значения концентрируются вокруг среднего по нормальному закону, т.е. примерно 70% значений находятся в центре, а остальные сходят на нет к краям распределения, как на рис. 6.2.
Рис. 6.2. Нормальная кривая распределения индивидуальных баллов
Если тест обеспечивает распределение баллов, близкое к нормальному, то это означает, что на его основе можно определить устойчивое среднее, которое принимается в качестве одной из репрезентативных норм выполнения теста. Обратный вывод, вообще говоря, неверен: устойчивость тестовых норм не предполагает обязательного нормального распределения эмпирических результатов выполнения теста. Нормальная кривая – это изобретение математиков, которое в сглаженном, идеальном виде описывает реальный полигон частот. На практике никогда не была и не будет получена совокупность данных, распределенных точно по нормальному закону, просто иногда полезно, допуская определенную ошибку, утверждать, что распределение эмпирических данных близко к нормальной кривой.
Нормальное распределение унимодально и симметрично, т.е. половина результатов, расположенная ниже моды, в точности совпадает с другой половиной, расположенной выше, а мода и среднее значение равны. Отсутствие полной симметрии в полигоне частот на практике приводит к смещению моды относительно среднего значения.
В малых выборках мода, как и среднее значение, теряет свою стабильность, хотя причина нестабильности может быть другая, связанная с неправильным подбором по трудности заданий в тесте. Например, если на репрезентативной выборке студентов получилась гистограмма тестовых баллов с бимодальным распределением, то среднее значение распределения, находящееся в центре, никак не может служить нормой выполнения теста. Скорее всего, тест был сконструирован неудачно, что послужило причиной отсутствия нормального распределения эмпирических результатов выполнения теста. Смещение среднего значения баллов студентов влево или вправо говорит о слишком трудной либо слишком легкой подборке заданий теста соответственно.
Таким образом, правильно сконструированный нормативно-ориентированный тест на репрезентативной выборке студентов должен обеспечивать близкое к симметричному распределение индивидуальных баллов, когда мода и среднее значение примерно равны, а остальные результаты расположены вокруг среднего по нормальному закону.
Дальнейший анализ данных тестирования связан с оцениванием мер изменчивости в распределении индивидуальных баллов. Характеристика изменчивости указывает на особенности разброса эмпирических данных вокруг среднего значения баллов. Отдельные значения индивидуальных баллов могут быть тесно сгруппированы вокруг своего среднего балла либо, наоборот, сильно удалены от него. Для отражения характера рассеяния отдельных значений вокруг среднего используют различные меры: размах, дисперсию и стандартное отклонение.
Размах измеряет на шкале расстояние, в пределах которого изменяются все значения показателя в распределении. Например, для распределения индивидуальных баллов в табл. 6.3 размах равен 9 – 1 = 8. Вариационный размах легко вычисляется, но используется крайне редко при характеристике распределения баллов по тесту. Во-первых, размах является весьма приближенным показателем, так как не зависит от степени изменчивости промежуточных значений, расположенных между крайними значениями в распределении баллов по тесту. Во-вторых, крайние значения индивидуальных баллов, как правило, ненадежны, поскольку содержат в себе значительную ошибку измерения. В этой связи более удачной мерой изменчивости считается дисперсия.
Подсчет дисперсии основан на вычислении отклонений Xi – X̅ (i = 1, 2, …, N) каждого значения показателя от среднего арифметического в распределении. Для индивидуальных баллов значения отклонений несут информацию о вариации совокупности значений баллов N студентов, поскольку отражают меру неоднородности результатов по тесту. Совокупность с большей неоднородностью будет иметь большие по модулю отклонения, наоборот, для однородных распределений отклонения должны быть близки к нулю. Знак отклонения указывает место результата студента по отношению к среднему арифметическому по тесту. Для студента с индивидуальным баллом выше среднего значение разности Xi – X̅ будет положительно, а для тех, у кого результат ниже X̅, отклонение Xi – X̅ меньше нуля.
Если просуммировать все отклонения, взятые со своим знаком, то для симметричных распределений сумма будет равна нулю. В рассматриваемом примере матрицы сумма отклонений
Чтобы отрицательные и положительные слагаемые не уничтожали друг друга, каждое отклонение возводят в квадрат и находят сумму квадратов отклонений. Эта сумма будет большой, если результаты тестирования отличаются существенной неоднородностью, и малой в случае близких результатов испытуемых по тесту.
Для рассматриваемого примера данных сумма квадратов отклонений
Величина суммы зависит также от размера выборки испытуемых, выполнявших тест, поэтому для сопоставимости мер изменчивости распределений, отличающихся по объему, каждую сумму делят на N – 1, где N – число студентов, выполнявших тест. Определяемая таким образом мера изменчивости называется исправленной дисперсией. Она обычно обозначается символом Sx 2 и вычисляется по формуле
(6.2)
Кроме дисперсии, для характеристики меры изменчивости распределения удобно использовать еще один показатель вариации, который называется стандартным отклонением и вычисляется путем извлечения квадратного корня из дисперсии:
(6.3)
Для рассматриваемого примера данных тестирования
Свойства дисперсии и стандартного отклонения рассматриваются подробно в учебниках по статистике. Заинтересованному читателю можно порекомендовать, например, книгу Дж. Гласс, Дж. Стенли «Статистические методы в педагогике и психологии» [7].
Дисперсия играет важную роль в оценке качества тестов. Низкая дисперсия указывает на плохое качество нормативно-ориентированного теста, поскольку не обеспечивает высокий дифференцирующий эффект. Излишне высокая дисперсия, характерная для случая, когда все студенты отличаются по числу выполненных заданий, также требует переработки теста из-за существенного отличия вида распределения баллов от планируемой нормальной кривой. В процессе коррекции теста следует руководствоваться простым правилом: если проверка согласованности эмпирического распределения с нормальным дает положительные результаты, а дисперсия растет, то это означает, что переработка приводит к повышению его качества.
Использование стандартного отклонения как меры вариации особенно эффективно для нормального распределения баллов испытуемых, поскольку в этом случае можно прогнозировать процент данных, лежащих внутри одного, двух и трех стандартных отклонений, откладываемых от центра распределения. В любом нормальном распределении приблизительно 68% площади под кривой лежит в пределах одного стандартного отклонения, откладываемого влево и вправо от среднего (т.е. X̅ ± 1 · Sx ); 95% площади под кривой расположено в пределах двух Sx откладываемых слева и справа от среднего (X̅·± 2 · S ); 99,7% площади под кривой – в пределах трех Sx по обе стороны от X̅ (X̅ ± 2 · Sx ).
Вообще существует бесконечное множество нормальных кривых, отличающихся друг от друга значениями X̅ и Sx , но все они объединяются общими свойствами, которые связаны с долями площади под кривой в пределах определенного числа отклонений. Из всех нормальных кривых наиболее удобна единичная, площадь под которой равна единице. Для нее среднее значение равно нулю, а стандартное отклонение единице.
Для преобразования любой нормальной кривой в единичную достаточно выполнить вычитание среднего значения X̅ из каждого индивидуального балла X i и разделить полученную разность на стандартное отклонение Sx , т.е., применив формулу
получим нормированное нормальное распределение со средним в нуле и единичным стандартным отклонением.
При разработке теста необходимо помнить о том, что кривая распределения индивидуальных баллов, получаемых на репрезентативной выборке, носит неслучайный характер. Она является следствием подбора трудности заданий теста. При смещении в сторону легких заданий большая часть студентов выполнит почти все задания теста и получит высокие индивидуальные баллы. При приоритетном подборе самых трудных заданий в распределении индивидуальных баллов получится всплеск вблизи начала горизонтальной оси. При оптимальной трудности теста, когда распределение оценок параметра трудности заданий имеет вид нормальной кривой, автоматически возникает нормальность распределения индивидуальных баллов репрезентативной выборки студентов, что в свою очередь позволяет считать полученное распределение устойчивым по отношению к генеральной совокупности и определить репрезентативные нормы выполнения теста.
Углубленный анализ качества теста, позволяющий сделать выводы о направлениях коррекции содержания отдельных заданий, связан с вычислением показателей связи между результатами испытуемых по отдельным заданиям теста. При оценке качества заданий важно понять, существует ли тенденция, когда одни и те же студенты добиваются успеха в какой-либо паре заданий теста либо состав учеников, добивающихся успеха, полностью меняется при переходе от одного задания теста к другому. Ответ на вопрос о существовании связи между двумя наборами данных получают с помощью корреляции.
Для выражения степени соответствия между наборами данных X и Y используется специальная мера, которая называется ковариацией. Смысл понятия «ковариация» удобно пояснить на примере результатов выполнения одной группой испытуемых двух тестов X и Y Пусть результаты по первому тесту X – это множество хi (i = l, 2, …, Ν), а по второму тесту – Yi (i = 1, 2, …, Ν). Тогда для установления меры связи между результатами студентов по двум тестам необходимо сравнить положение каждого тестируемого по отношению к средним в распределении результатов по тесту X и по тесту Y. Степень соответствия результатов i-го испытуемого в первом (X) и во втором (Y) тестированиях будет проявляться в величине и знаке произведения отклонений (Xi – X̅)(Yi – Y̅), где Xi , Yi – результаты i-го испытуемого в первом и во втором тестированиях соответственно (i = 1, 2, …, N); X̅, Y̅ — средние значения результатов по тестам X и Y, N — число студентов тестируемой группы.
Если результат i-го испытуемого намного выше или ниже среднего балла по обоим тестам, то произведение (Xi – X̅)(Yi – Y̅) будет большим и положительным. Таким образом, при прямой связи значений Xi и Yi (i = 1, 2, …, N) по тестам X и Y большой и положительной получится сумма всех произведений, т.е.
При обратной связи результатов тестирования, когда большинство значений Xi выше (ниже) среднего X̅ по тесту X сменяются на значения Yi ниже (выше) среднего Y̅ по тесту Y, сумма
будет меньше нуля и велика по модулю в силу отрицательного знака всех или почти всех произведений (Xi – X̅)(Yi – Y̅). Наконец, если систематической связи между результатами студентов по тестам X и Y не наблюдается, знак произведения (Xi – X̅)(Yi – Y̅) будет хаотически меняться. Вполне возможно, что для достаточно большой выборки испытуемых, положительные слагаемые будут уравновешиваться отрицательными и потому сумма произведений
получится близкой к нулю.
Таким образом, произведение (Xi – X̅)(Yi – Y̅) по знаку и абсолютной величине отражает характер связи между наборами данных. Операция усреднения, осуществляемая путем деления суммы произведений отклонений на число испытуемых в выборке, позволяет получить показатель связи, не зависящий от размеров выборок, который называется ковариацией и обозначается символом. Его можно использовать для сравнения мер связи между результатами тестовых измерений по выборкам разного объема.
(6.4)
(Замечание, также как и в случае подсчета дисперсии, для различных прикладных задач в статистике удобнее делить не на N, а на N – 1, что при больших размерах выборок не сказывается существенно на величине Sxy ).
Для повышения сопоставимости оценок показателей связи по выборкам с различной дисперсией ковариацию делят на стандартные отклонения. Таким образом, Sxy необходимо разделить на Sx и Sy , где Sx и Sy – стандартные отклонения по множествам X и Y соответственно. В результате после преобразований получается величина, которая называется коэффициентом корреляции Пирсона rxy :
(6.5)
При исследовании связи между наборами данных необходимо правильно выбрать вид и форму показателя, зависящих от шкал, в которых представлены данные (см. подробнее в книге: [7]). В частности, для оценки связи между результатами выполнения учащимися двух заданий теста коэффициент корреляции Пирсона rxy необходимо преобразовать, поскольку результаты выполнения заданий представляются в дихотомической шкале (столбцы из нулей и единиц в матрице данных по тесту). Преобразованный коэффициент Пирсона для дихотомических данных называется коэффициентом ц и вычисляется по формуле
(6.6)
где pjl – доля испытуемых, выполнивших правильно оба задания с номерами j и l, т.е. доля тех, кто получил 1 балл по обоим заданиям; pj – доля испытуемых, правильно выполнивших j-е задание, qj = 1 – pj ; pl – доля испытуемых, правильно выполнивших l-е задание теста, ql = 1 – pl .
Например, для рассматриваемого примера матрицы корреляция между результатами по 5-му и 6-му заданиям теста будет:
Результаты подсчета значений коэффициента корреляции между всеми заданиями для примера матрицы сведены в табл. 6.4.
Анализ значений коэффициента корреляции в табл. 6.4 позволяет выделить в категорию «плохих» 3-е и 8-е задания теста. Задание 3 отрицательно коррелирует с заданиями 7, 8, 9 и 10. О том, что «виновато» 3-е, а не другие задания теста, свидетельствует анализ значений коэффициента корреляции в столбцах с номерами 7, 9 и 10. В них просматривается только один минус на месте, соответствующем заданию теста 3, которое в свою очередь отрицательно коррелирует с четырьмя заданиями теста. Аналогичная ситуация наблюдается для задания 8. Отрицательные значения коэффициента корреляции указывают на определенный просчет разработчиков в содержании заданий, которые рекомендуется из теста удалить. Наиболее распространенная причина появления отрицательной корреляции – отсутствие предметной чистоты содержания – нередко встречается при разработке самых разных тестов.
Понятно, что предметная чистота – скорее, идеализируемое, чем реальное требование к содержанию любого теста. Например, в тесте по физике всегда встречаются задания с большим количеством математических преобразований, в тесте по биологии – задания, требующие серьезных знаний по химии, в тесте по истории – задания, рассчитанные на выявление культурологических знаний, и т.п. Поэтому можно лишь стремиться к тому, чтобы при выполнении каждого задания доминировали знания по проверяемому предмету.
Таблица 6.4 Коэффициенты корреляции заданий
Анализ 9-го столбца табл. 6.4 с максимальной суммой 4,6495, приведенной в конце, указывает на наличие ряда довольно высоких значений коэффициента корреляции (φ9,8 = 0,6124; φ9,7 = 0,7638; φ9,10 = 0,6667), которые могут получить различную трактовку в зависимости от вида разрабатываемого теста. Для тематических тестов высокая корреляция между заданиями неизбежна, так как они в большинстве своем имеют слабо варьирующее исходное содержание, что вполне объяснимо назначением теста. Однако для итоговых тестов высокой корреляции между заданиями по возможности стараются избегать, поскольку вряд ли имеет смысл включать в итоговый тест несколько заданий, оценивающих одинаковые содержательные элементы. Поэтому в итоговых аттестационных тестах обычно стремятся к невысокой положительной корреляции, когда значения коэффициента варьируют в интервале (0; 0,3), и каждое задание привносит свой специфический вклад в общее содержание теста.
Далее с помощью подсчета значений точечного бисериального коэффициента корреляции можно оценить валидность отдельных заданий теста. Бисериальный коэффициент корреляции используется в том случае, когда один набор значений распределения задается в дихотомической шкале, а другой – в интервальной. Под эту ситуацию подпадает подсчет корреляции между результатами выполнения каждого задания (дихотомическая шкала) и суммой баллов испытуемых (интервальная или квазиинтервальная шкала) по заданиям теста.
Формула для вычисления значения точечного бисериального коэффициента rpbis, имеет вид:
(6.7)
где (X̅1)j — среднее значение индивидуальных баллов испытуемых, выполнивших верно j-е задание теста; (X̅0) – среднее значение индивидуальных баллов испытуемых, выполнивших неверно j-е задание теста; Sx — стандартное отклонение по множеству значений индивидуальных баллов; (N1)j – число испытуемых, выполнивших верно j-е задание теста; (N0)j — число испытуемых, выполнивших неверно j-е задание теста; N — общее число испытуемых, N = N1 + N0.
Применение формулы (6.7) для данных по 5-му заданию рассматриваемого примера матрицы дает достаточно высокое значение точечного бисериального коэффициента.
так как 1, 4, 5, 9 и 10-й испытуемые выполнили задание 5 верно.
так как 2, 3, 6, 7 и 8-й испытуемые выполнили задание 5 неверно. Стандартное отклонение, подсчитанное для рассматриваемого примера ранее, Sx ≈ 2,6; (N1)5 = (N0)5 = 5; N = 10. Поэтому
Значения бисериального коэффициента корреляции десяти заданий с суммой баллов по тесту rbis, рассчитанные с помощью компьютерных программ для данных матрицы, приводятся в табл. 6.5
Таблица 6.5 Значения коэффициента бисериальной корреляции
Анализ значений коэффициента бисериальной корреляции в табл. 6.5 указывает на два довольно неудачных задания теста – 3-е [(rbis)3 = 0,26] и 8-е [(rbis)8 = 0,24], которые имеют низкую валидность и должны быть удалены из теста. В целом задание можно считать валидным, когда значение (rbis)j ≈ 0,5 или выше этого числа. Оценка валидности задания позволяет судить о том, насколько оно пригодно для работы в соответствии с общей целью создания теста. Если эта цель – дифференциация студентов по уровню подготовки, то валидные задания должны четко отделять хорошо подготовленных от слабо подготовленных испытуемых тестируемой группы.
Решающую роль в оценке валидности задания играет разность (X̅1)j – (X̅0)j , находящаяся в числителе дроби формулы (6.7). Чем выше значение этой разности, тем лучше работает задание на общую цель дифференциации испытуемых. Значения, близкие к нулю, указывают на низкую дифференцирующую способность заданий теста. В том случае, когда в разности доминирует вклад (X̅0), а не (X̅1), задание следует просто удалить из теста. В нем побеждают слабые испытуемые, а сильные выбирают неверный ответ либо пропускают задание при выполнении теста. Таким образом, подлежат удалению все задания, у которых rbis < 0.
Оценка трудности тестовых заданий в классической теории получается по формуле
p j = R j / N
где pj — доля правильных ответов на j-е задание; Rj — количество студентов, выполнивших j-е задание верно; N — число студентов в тестируемой группе; j – номер задания теста, j = 1, 2, …, n. Трудность задания нередко выражают в процентах, тогда оценку, полученную по формуле (6.8), умножают на 100%.
Долю правильных ответов на задание pj естественно интерпретировать как легкость задания, в то время как трудность скорее ассоциируется с долей неправильных ответов qj , которая находится путем вычитания pj из единицы: qj = 1 – pj . Однако по сложившейся традиции в классической теории тестов за трудность задания принимается именно доля pj . Для рассматриваемого примера матрицы доля правильных ответов на первое задание p1 = 9/10 = 0,9, а доля неправильных ответов q1 = 1 – 0,9 = 0,1 и т.д. После перевода доли p1 в проценты (0,9 · 100% = 90%) первое задание следует отнести к категории крайне легких: его выполнили 90% тестируемой выборки студентов.
Подбор заданий по трудности в тесте удобно оценить с помощью гистограммы (рис. 6.3).
Рис. 6.3. Гистограмма хорошо сбалансированного по трудности нормативно-ориентированного теста
В хорошо сбалансированном по трудности нормативно-ориентированном тесте есть несколько самых легких заданий со значениями p → 0. Есть несколько самых трудных с p → 1. Остальные задания по значениям p занимают промежуточное положение между этими крайними ситуациями и имеют в основном трудность 60–70%. Дополнительный аргумент в пользу преимущественного включения заданий средней трудности с p =̣ 0,5 связан с подсчетом дисперсии по каждому заданию теста, которая для дихотомического набора данных будет равна σj = pj qj , (j = 1, 2, …, n). Так как произведение pj qj достигает максимального значения (0,5 · 0,5 =̣ 0,25) при pj =̣ 0,5 =̣ qj , то в рамках нормативно-ориентированного подхода наиболее удачными считаются задания средней трудности p = q =̣ 0,5, обеспечивающие максимальный вклад в общую дисперсию теста. В пользу преимущественного выбора заданий средней трудности также говорит подсчет ошибки измерения, которая уменьшается по мере продвижения к центру, где расположены задания средней трудности, и увеличивается на концах распределения.
В критериально-ориентированных тестах основную массу составляют достаточно легкие задания, которые выполняют верно не менее 80–90% испытуемых, чтобы обеспечить достаточно низкий процент не аттестованных студентов, не прошедших по результатам тестирования за критериальный балл.
Оценка правдоподобности дистракторов основана на подсчете долей испытуемых, выбравших каждый неправильный ответ. Анализ правдоподобности дистракторов, проведенный для результатов выполнения 39 заданий теста выборкой из 100 испытуемых, показан в табл. 6.6. В первом столбце таблицы помещены номера заданий теста. Второй столбец указывает на число испытуемых, выполнявших каждое из заданий. Все последующие столбцы содержат число и процент тестируемых, выбравших каждый из ответов к заданиям теста. Звездочкой отмечен процент, соответствующий правильному ответу к заданиям.
Таблица 6.6 Анализ правдоподобности дистракторов
Анализ строк таблицы позволяет собрать полезную информацию о качестве дистракторов. Например, в первом задании правильным является 3-й ответ, и поэтому число P1 =̣ 67% в столбце, соответствующем 3-му ответу, указывает на трудность. Из 96 испытуемых, выполнявших задание, 65 справились с ним успешно, а остальные (96 – 65 = 31) распределились между дистракторами следующим образом: 8 тестируемых выбрали 1-й дистрактор, 1 тестируемый выбрал 2-й дистрактор и 22 испытуемых остановились при выполнении задания на 4-м, неправильном ответе, который, по-видимому, очень похож на правильный и поэтому оказался таким привлекательным для незнающих учеников. Таким образом, второй ответ функцию дистрактора не выполняет, поэтому подлежит изменению либо удалению из теста. Несомненно, нуждаются в переработке 1-й и 4-й ответы из задания 6, поскольку их не выбрал ни один человек из шести (97 – 91 = 6), неправильно выполнивших это задание теста и т.д.
Таким образом, дистракторы, которые выбирают менее 5% неверно ответивших испытуемых, следует удалять из теста. Углубленный вариант дистракторного анализа построен на подсчете значения точечно-бисериального коэффициента корреляции для каждого дистрактора в заданиях теста. Отрицательные значения коэффициента корреляции указывают на ситуацию, когда хорошо выполнившие тест испытуемые не будут выбирать данный дистрактор в качестве правильного ответа.
Значения коэффициента точечно-бисериальной корреляции для примера из табл. 6.6 приводятся в табл. 6.7 (как и ранее, звездочка соответствует правильному ответу).
Таблица 6.7 Значения коэффициента точечно-бисериальной корреляции для дистракторов
Выделенные положительные значения коэффициента точечно-бисериальной корреляции для дистракторов (например 2-й ответ в задании 4, 2-й ответ в задании 8, 4-й в 13 и т. д.) указывают на то, что эти неверные ответы выбирают в качестве правильных сильные студенты, что недопустимо в хороших заданиях теста. При правильном положении вещей значения коэффициента точечно-бисериальной корреляции для дистракторов должны быть отрицательными и превышающими по модулю 0,2. Положительные или близкие к нулю значения коэффициента для дистракторов говорят о необходимости их исключения либо переделки неправильных ответов.
Правильные ответы, наоборот, должны выбирать сильные студенты, поэтому в хороших заданиях значения коэффициента точечно-бисериальной корреляции на месте ответов со звездочкой бывают только положительными и превышающими 0,5. Для случая, когда правильный ответ не выбирают сильные студенты (например, в задании 31 или в заданиях 17, 35 из табл. 6.7), коэффициент корреляции бывает близким к нулю или даже меньше нуля. Отрицательная или нулевая корреляция для верного ответа может отражать случайный характер ответов студентов, наличие систематических проблем в усвоении проверяемого материала, вызванных дефектами преподавания либо некорректной формулировкой задания теста.
Дискриминативностью (discriminatory power) называется способность задания дифференцировать студентов на лучших и худших. Высокая дискриминативность – важная характеристика удачного тестового задания, она определяет меру валидности задания, его адекватность целям создания теста. Поэтому хороший нормативно-ориентированный тест должен быть составлен из заданий с высокой дискриминативной способностью. Для критериально-ориентированных тестов дискриминативность не является решающим фактором при отборе заданий в тест, но в любом случае невалидные задания должны быть удалены из теста.
Для оценки дискриминативности задания применяются различные формулы. Наиболее простым является расчет по формуле rдис j = p1 j – p0 j , где rдис j – индекс дискриминативности для j-го задания теста; p1 j – доля студентов, правильно выполнивших j-е задание в подгруппе из 27% лучших студентов по результатам выполнения теста; p0 j – доля студентов, правильно выполнивших j-е задание в подгруппе из 27% худших студентов по результатам выполнения теста.
Значения индекса rдис для заданий теста обычно представляют собой десятичную дробь, принадлежащую интервалу [–1; 1]. Максимального значения 1,00 rдис достигнет в том случае, когда все студенты из подгруппы лучших верно выполнят j-е задание теста, а из подгруппы худших это задание не выполнит верно ни один студент. Тогда задание будет обладать максимальным дифференцирующим эффектом. Нулевого значения rдис достигнет в том случае, когда в обеих подгруппах будут равны доли студентов, правильно выполнивших j-е задание теста. И наконец, минимальное значение rдис = –1 будет в ситуации, когда данное задание теста все сильные студенты сделали неверно, а все слабые – верно. Естественно, что задания второго и третьего типа с rдис = 0 или rдис < 0 из теста следует удалить.
Более точное представление о дискриминативной способности задания можно составить, подсчитав точечный бисериальный коэффициент (rpbis) корреляции, процесс вычисления значений которого подробно рассмотрен выше в этом же разделе. Помимо приведенной формулы для rpbis, можно использовать другие, дающие близкие значения:
где (rpbis)j – точечно-бисериальный коэффициент корреляции для j-го задания; (X̅1)j — среднее значение индивидуальных баллов студентов, выполнивших верно j-е задание; (X̅0)j — среднее значение индивидуальных баллов учеников, выполнивших j-е задание неверно; X̅ — среднее значение баллов по всей выборке студентов; Sx — стандартное отклонение по множеству индивидуальных баллов.
По мнению многих специалистов (Крокер, Алгина, Клайна и др. ), в качестве критического числа следует выбрать значение 0,2, потому все задания со значением rpbis < 0,2 необходимо удалить из теста.
Интересна взаимосвязь показателей трудности и дискриминативности заданий теста. Задания с высокой дискриминативностью обычно имеют среднюю трудность, поскольку именно для них характерен высокий дифференцирующий эффект. Однако обратное заключение, вообще говоря, неверно. Задания с p =̣ 0,5 могут иметь как высокий, так и низкий дифференцирующий эффект.
При подсчете статистик по тесту всегда проводится проверка значимости значений дисперсии, асимметрии, эксцесса и т.д. Для этого к данным, собранным по тесту, необходимо добавить информацию о принимаемом уровне риска допустить ошибку в статистическом выводе. Наиболее приемлемым для педагогических измерений является уровень в 5%, который допускает ошибку в пяти случаях из ста. После выбора степени риска проверка значимости проводится одним из описанных в литературе методов.
При конструировании теста необходимо иметь четкое представление о содержании заданий, которые предполагается включить в окончательную версию теста. При одномерных измерениях содержание заданий должно отвечать свойству гомогенности, указывающему на степень его однородности с точки зрения оцениваемого параметра подготовленности ученика. Таким образом, гомогенность (однородность) – это характеристика задания, отражающая степень соответствия его содержания измеряемому свойству ученика.
Степень гомогенности содержания обычно оценивают с помощью факторного анализа. Для вывода о приемлемой степени гомогенности достаточно лишь того, чтобы доминирующий фактор, в основном определяющий результаты выполнения задания, был ориентирован на измеряемую переменную. Представление о степени гомогенности задания как составляющей системы заданий в тесте можно получить с помощью анализа парных корреляций (см. выше в данном разделе). Если какое-либо задание отрицательно коррелирует с остальными, то есть веские основания для сомнений в его гомогенности. Наоборот, значимые, высокие оценки корреляции указывают на высокую степень однородности содержания заданий теста. При увеличении интеркорреляции заданий сужается содержательная область, отраженная в тесте, что желательно в тематических, но недопустимо в итоговых тестах для оценки уровня подготовки по предмету. Поэтому при создании итоговых нормативно-ориентированных тестов стараются отобрать задания с положительными, но невысокими значениями коэффициентов парной корреляции в пределах интервала (0; 0,3).
Показанные в разделе простейшие случаи подсчета статистических характеристик теста входят в состав так называемой дескриптивной статистики по тесту. В общем случае статистика включает также факторный анализ для оценки полученных результатов тестирования соответствия измеряемой переменной.