Контроль качества обучения при аттестации: компетентностный подход

Звонников Виктор Иванович

Челышкова Марина Борисовна

3. Основные подходы к разработке измерителей

 

 

3.1. Общие подходы к интерпретации результатов педагогических измерений

При педагогических измерениях интерпретация баллов студентов может носить различный характер в зависимости от того, каким способом сравниваются их результаты. В одном случае проводится сопоставление баллов тестируемых с результатами определенной группы – выборки студентов, выполнявших тот же самый тест, – для определения места каждого балла по отношению к среднему результату в группе (нормативно-ориентированный подход). В другом случае результаты испытуемых интерпретируются по отношению к содержательной области, включенной в тест и снабженной определенными критериями выполнения (критериально-ориентированный подход) [22, 28, 33, 43]. Хотя оба подхода дают информацию о подготовленности студентов, они отличаются по характеру получаемых данных. В нормативно-ориентированном подходе определяется место результата каждого студента по отношению к результатам других студентов. В критериально-ориентированном подходе информация, полученная при тестировании, позволяет установить освоенные разделы учебного курса или виды учебной деятельности, выявить проблемы и пробелы в усвоении.

Соответственно двум подходам к интерпретации результатов тестирования выстраиваются и два подхода к созданию педагогических тестов. Оба они перспективны и важны, имеют свою сферу применения, преимущества и недостатки. Выбор подхода к интерпретации результатов тестирования необходимо сделать в самом начале – в момент постановки цели создания теста. В противном случае можно оказаться в ситуации, когда результаты тестирования окажутся недостаточно информативными и непригодными для принятия обоснованных управленческих решений в рамках обоих подходов из-за неопределенности при интерпретации результатов выполнения теста. С первого взгляда оба подхода – нормативный и критериальный – непротиворечивы, поэтому у многих педагогов возникает впечатление, что можно делать тесты, допускающие сразу обе интерпретации результатов. Для специалистов по педагогическим измерениям совмещение нормативно-ориентированного и критериально-ориентированного подходов представляется недопустимым в силу целого ряда различий в конструировании тестов, поэтому в соответствии с двумя подходами к интерпретации результатов тестирования выделяют нормативно-ориентированные и критериально-ориентированные тесты.

 

3.2. Нормативно-ориентированный подход и стандартизация тестов

Нормативно-ориентированные тесты разрабатываются для сравнения обучаемых по уровню учебных достижений, поэтому основная цель нормативно-ориентированного подхода – дифференциация испытуемых по результатам выполнения теста. При интерпретации результатов студентов относительная позиция испытуемого может оцениваться по-разному, поскольку он будет выглядеть лучше на фоне более слабой, чем более сильной группы. Например, можно высоко оценить знания студента, выполнившего правильно всего 30 заданий в тесте из 60 в том случае, если 70–80% остальных студентов в группе сделали меньшее число заданий. Тот же самый результат обучаемого в сильной группе будет отнесен к категории довольно низких, если только 10–20% испытуемых сделали правильно 30 заданий, а все остальные значительно превысили этот результат. Для корректной интерпретации результатов тестирования балл каждого студента сравнивается с нормами выполнения теста.

Нормы – это совокупность показателей, отражающая результаты выполнения теста четко определенной выборкой испытуемых – релевантной нормативной группой, репрезентативно представляющей генеральную совокупность тестируемых студентов [1, 21, 28]. Нормы нельзя придумать или задать априорно, они устанавливаются в соответствии с эмпирическими данными по тесту. К ним обычно относят среднее значение тестовых баллов и показатель разброса (вариативности) вокруг среднего значения всех остальных баллов, полученных представительной выборкой тестируемых студентов. Имея нормы, можно установить положение каждого результата по отношению к среднему значению тестовых баллов, посмотреть, на сколько результат испытуемого выше или ниже среднего и как располагаются результаты остальных студентов вокруг среднего балла по тесту. Таким образом, соотнесение первичного результата испытуемого с нормами теста позволяет определить его место в выборке, использованной для подсчета.

Процесс определения норм называется стандартизацией теста. Этот процесс всегда осуществляется на репрезентативной выборке испытуемых, формирование которой обязательно при определении норм теста. Тестовых норм, пригодных для интерпретации результатов всех студентов по любым тестам, не существует вообще. Область применимости любой нормы ограничивается данным тестом и конкретной совокупностью испытуемых, поэтому нормы не абсолютны и не постоянны. Они отражают результаты выборки стандартизации на момент создания теста и подлежат систематическому обновлению и перепроверке.

Нормы обычно устанавливают в ситуации массового тестирования, например, при аттестации студентов или выпускников. В текущем контроле нормы выполнения теста, конечно, не определяются. В этом случае обычно используют не преобразованные (сырые) результаты выполнения тестов, подсчитанные путем суммирования оценок по отдельным заданиям, в том числе и с весовыми коэффициентами.

Руководству факультета нередко интересно узнать, по какому предмету отстает тот или иной студент. Для этого приходится сравнивать результаты студентов по предметным тестам. Подобное сравнение относительных позиций студента в тестах по разным предметам возможно в том случае, если они стандартизованы на одной и той же выборке испытуемых и представлены в одинаковых шкалах с общими средним значением и стандартным отклонением. В противном случае результаты сравнения тестовых баллов студента по отдельным предметам можно неверно интерпретировать из-за несопоставимости тестовых норм.

В педагогических измерениях термин «стандартизация» обычно используется гораздо чаще не только применительно к процессу установления норм выполнения теста. В расширенном понимании стандартизация предполагает единообразие всей процедуры выполнения теста. Для стандартизации, помимо норм, разработчик должен дать точные указания по форме предъявления теста, оптимальному времени его выполнения, составу выборки стандартизации, устные инструкции и ряд других деталей, влияющих на результаты выполнения теста.

К нормам предъявляют ряд требований:

     • нормы должны быть дифференцированными. Например, тесты для аттестации студентов вузов, реализующих одинаковые направления подготовки, необходимо стандартизировать на собственных выборках в тех случаях, когда результаты аттестации используются только внутри самого вуза. В случае, если речь идет об аттестации студентов при комплексной проверке деятельности учебных заведений, стандартизация тестов должна проводиться на репрезентативной выборке, состоящей из студентов разных вузов России и отражающей пропорции генеральной совокупности всех студентов, получающих подготовку по данному направлению;

     • нормы должны отражать реальный контингент и актуальные требования к качеству учебных достижений, вытекающие из современной ситуации в образовании;

     • нормы должны быть репрезентативными, поэтому они всегда устанавливаются эмпирически в соответствии с результатами тестирования выборки стандартизации, обеспечивающей несмещенные оценки.

Норма – относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. Выборка должна точно отражать категорию (или несколько категорий) лиц, для которых предназначен тест, а также быть достаточно большой и сбалансированной для обеспечения столь малой стандартной погрешности, чтобы ею можно было пренебречь в процессе стандартизации теста. Таким образом, при формировании выборки стандартизации необходимо учитывать две переменные: объем и представительность (репрезентативность), обеспечивающие в совокупности высокую точность при оценивании норм выполнения теста. Если выборка не репрезентативна, то нормы неадекватно отражают характеристики подготовленности генеральной совокупности испытуемых. В этом случае результаты тестирования выборочной совокупности студентов не подлежат генерализации (распространению на всю генеральную совокупность), а сами нормы являются недостоверными (неточными), поэтому их нельзя использовать при интерпретации результатов выполнения тестов.

Если принимать во внимание только первую переменную – объем выборки, то для получения приемлемой точности оценивания норм вполне достаточно провести тестирование 200–500 испытуемых. Гораздо более важной характеристикой выборки, не зависящей от ее размера, является репрезентативность (представительность). В практической работе вполне допустимо ограничиться выборкой из 300, а иногда даже 200 испытуемых, поскольку маленькая, но репрезентативная нормативная выборка предпочтительнее, чем большая, но неравномерно представленная.

Для обеспечения равномерности представления различных специфических составляющих популяции испытуемых используют специальный процесс – стратификацию (расслоение выборки на страты, размеры которых должны быть пропорциональны размерам соответствующих популяций в генеральной совокупности). Обычно в качестве оснований для стратификации выделяют факторы, наиболее тесно связанные с переменной измерения и воспроизводящие реальную структуру генеральной совокупности по ряду признаков (возрастных, гендерных, психологических, социальных и др.). Например, к числу таких факторов для группы вузов можно отнести программу обучения, используемые учебники, специфику технологий обучения, социальное положение родителей студентов, регион, где расположен вуз и т.д. Внутри одного учебного заведения можно выделить формы обучения, методы обучения, кадровый состав преподавателей и т.д.

Для формирования выборки определенного типа чаще всего используют вероятностные методы, отличающиеся от других, невероятностных методов способами извлечения объектов из генеральной совокупности и дающие по сравнению с последними более высокий уровень репрезентативности выборочных совокупностей [21]. Среди распространенных типов выборок можно выделить простую случайную, элементы которой отбираются из генеральной совокупности случайно, т.е. с равной вероятностью без выделения оснований по стратификации. В том случае, когда фиксируется определенный шаг выборки при отборе ее элементов, случайная выборка превращается в систематическую.

Стратифицированный тип выборки является наиболее предпочтительным с точки зрения обеспечения ее высокой репрезентативности. При ее формировании каждый элемент генеральной совокупности, включенный в одну внутреннегомогенную страту, отбирается методом простой случайной выборки, а процесс стратификации производится способом, описанным выше. Реже встречаются кластерные и мультистадийные выборки, требующие предварительного формирования кластерных групп элементов в тех случаях, когда генеральная совокупность неоднородна.

Определение оптимального типа выборки производится на основе анализа ряда факторов, к числу которых относятся цель измерения, вид измерителя и его содержание, особенности генеральной совокупности, специфика переменных измерения, планируемая надежность результатов, предполагаемые выводы по результатам педагогических измерений.

В целом можно сформулировать общие правила получения репрезентативной выборки стандартизации:

     • выборка должна быть стратифицирована на подгруппы по наиболее важным переменным, обычно отражающим не более четырех уровней стратификации;

     • в каждой подгруппе необходимо выровнять число испытуемых, установив в качестве минимального числа не менее 100 испытуемых в одной подгруппе.

С учетом всех возможных сочетаний факторов, обычно выбираемых при массовом тестировании для стратификации, минимальный объем национальной выборки стандартизации во многих странах достигает 12–15 тыс. обучаемых. Для уменьшения этого объема минимизируют число оснований при делении на подгруппы – количество страт, – снижая тем самым затраты на стандартизацию национальных тестов.

Наличие многих факторов стратификации, необходимость анализа пропорций генеральной совокупности испытуемых, проведение апробационного тестирования для определения норм делают работу по стандартизации тестов достаточно дорогостоящей и трудоемкой. Современный уровень развития тестовых технологий позволяет моделировать тесты с прогнозируемыми нормами с помощью теории IRT, банка калиброванных тестовых заданий и специальных программ для компьютерной генерации вариантов теста. Поэтому в настоящее время некоторые зарубежные тестовые службы (например, ETS), обеспечивающие массовое тестирование в стране, занимаются созданием банков заданий с устойчивыми характеристиками для различных уровней образования. Чтобы получить такой банк, вузу необходима апробация тестов на репрезентативных выборках, поэтому проблема создания выборок стандартизации не снимается, а, наоборот, приобретает особенное значение.

К стандартизованному тесту необходимо приложить:

     • нормы выполнения теста, которые определяются на выборке стандартизации;

     • объем выборки стандартизации, основания для ее стратификации и временной период ее использования;

     • необработанные показатели выполнения теста для каждой выборки стандартизации.

Последняя информация необходима, поскольку необработанные результаты выполнения тестов могут поддаваться адекватной интерпретации лишь при сравнении с показателями выборки стандартизации. Пользователям тестов следует также помнить о том, что сопоставление норм по различным тестам возможно лишь тогда, когда есть основания для утверждения об адекватности выборок стандартизации.

 

3.3. Критериально-ориентированный подход

При критериально-ориентированном подходе в педагогических измерениях результаты испытуемых интерпретируются по отношению к содержательной области или требованиям, установленным к учебным достижениям. Балл каждого студента подсчитывается путем перевода в проценты доли правильно выполненных заданий по отношению к общему числу заданий теста (для дихотомических оценок (1 или 0) по отдельным заданиям) либо отношения суммарного балла по правильно выполненным заданиям к общему числу баллов по всем заданиям теста (для политомических оценок по отдельным заданиям). Полученный для каждого студента процент сравнивается со стандартами выполнения – критериями, установленными экспертным путем и прошедшими эмпирическую валидизацию в процессе конструирования теста [1, 22, 28, 33].

Таким образом, при критериально-ориентированном подходе создаются тесты для сопоставления учебных достижений каждого студента с планируемым к усвоению объемом знаний, умений или навыков. В качестве интерпретационной системы отсчета используется конкретная область содержания, а не та или иная выборка студентов. Упор в интерпретации результатов делается на то, что может выполнить обучаемый и что он знает, а не на то, как он выглядит на фоне других студентов, выполнявших тест.

За рубежом типы критериально-ориентированных тестов имеют определенную классификацию: domain-referenced tests – тесты, ориентированные на содержательную область, результаты по которым, как правило, выражаются в процентах освоенного содержания; mastery, non-mastery tests – тесты для отбора испытуемых, достигших определенной ступени мастерства, результаты студентов в которых обычно делятся на две группы – превысившие критерий и не достигшие критерия выполнения.

В России такая классификация пока не сложилась, хотя она, несомненно, нужна, поскольку эти типы критериально-ориентированных тестов имеют разные технологии разработки.

С помощью критериально-ориентированных тестов благодаря содержательной интерпретации результатов тестирования можно:

     • выявить освоенные и неосвоенные знания, умения, навыки и компетенции, построить индивидуальную образовательную траекторию каждого студента (domain-referenced tests) и повысить индивидуализацию учебного процесса;

     • ранжировать тестируемых по проценту выполнения и построить рейтинговые шкалы (domain-referenced tests);

     • разбить испытуемых на две группы с помощью одного критериального балла (mastery, non-mastery tests);

     • разбить испытуемых на несколько групп с помощью нескольких критериальных баллов, поставив, например, балльные отметки – два, три, четыре, пять – и привести развернутый анализ неосвоенных разделов содержания и видов учебной деятельности.

Для получения критериального балла обычно применяют экспертный подход, результаты которого проходят статистический анализ методом контрастных групп. Главные принципы в работе экспертов – независимость суждений и четкое следование стандартизованным инструкциям.

При использовании статистического метода валидизации критериального балла всю группу студентов по результатам предварительных испытаний разбивают на три части: 27% – наиболее слабых, 27% – наиболее сильных и оставшаяся средняя часть. Затем всей группе студентов предлагают тест, из результатов которого выбирают только данные сильных и слабых студентов. По ним строят графики, представленные в сглаженном виде на рис. 3.1.

Рис. 3.1. Статистическая валидизация критериального балла методом контрастных групп

Через проекцию точки пересечения графиков на ось абсцисс проводят вертикальную прямую. Число процентов, соответствующих точке пересечения графиков, принимают за критериальный балл, а «хвосты» кривых слева и справа от вертикальной прямой показывают проценты неправильных решений (сильные испытуемые, попавшие в группы неаттестованных, и слабые студенты, отнесенные к аттестованным, соответственно).

Несмотря на кажущуюся привлекательность, благодаря содержательной интерпретации, критериально-ориентированный подход имеет недостатки, связанные с необходимостью полного охвата содержания, принимаемого за 100%, в одном тесте. Аттестационные критериально-ориентированные тесты нередко получаются очень длинными (из 150–300 заданий), выполнить которые даже студентам при одноразовом предъявлении просто невозможно. Поэтому при аттестации нередко применяют адаптивное тестирование, позволяющее за счет оптимизации трудности заданий значительно сократить длину теста [44]. Другой путь укорочения тестов – сокращение содержания теста за счет минимизации целей оценивания. Для этого критериально-ориентированные тесты нередко используют для проверки одного-двух умений или навыков, а при охвате более разнородного содержания выбирают нормативно-ориентированные тесты.

Помимо этого, критериально-ориентированные тесты имеют довольно ограниченную область применения. Они пригодны в тех случаях, когда можно четко определить знания, умения, навыки по конкретной области содержания и задать их верхний и нижний пределы для корректного определения критериев выполнения тестов. В более сложных и менее структурированных областях знаний, связанных с решением задач творческого уровня, определить верхний предел зачастую невозможно. Иногда при выполнении таких заданий студент руководствуется знаниями, но чаще все решают смекалка и догадка. Поэтому при создании тестов, предназначенных для контроля за выполнением задач творческого уровня, предпочтение следует отдавать нормативно-ориентированному подходу либо постараться совместить оба подхода в одном тесте.

Нормативно-ориентированный и критериально-ориентированный подходы не имеют тех различий, которые можно выявить путем обычного осмотра заданий тестов. Углубленный анализ существенных характеристик тестов, разработанных в рамках различных подходов, указывает на ряд особенностей. Нормативно-ориентированные и критериально-ориентированные тесты отличаются по целям создания, методике отбора содержания, характеру распределения эмпирических результатов тестирования и методам их обработки, критериям качества тестов и тестовых заданий, а главное, по интерпретации результатов испытуемых, выполнивших тест.

В частности, содержание критериально-ориентированного теста должно быть достаточно полно, в него включают все то, что условно можно принять за 100%-ный объем, планируемый к усвоению. Содержание нормативно-ориентированного теста фрагментарно, в нем могут быть только те разделы, которых достаточно для сравнения и дифференциации студентов по уровню учебных достижений. Нормативно-ориентированные тесты обычно имеют от 50 до 70% заданий примерно средней трудности, т.е. таких, которые смогла выполнить верно приблизительно половина тестируемых студентов (рис. 3.2).

Рис. 3.2. Распределение заданий по трудности в нормативно-ориентированном тесте

В критериально-ориентированных тестах, используемых для аттестации, основная часть заданий намного легче, особенно в тех случаях, когда стараются спланировать процент двоек и ограничить число неаттестованных студентов. Например, процент двоек не должен быть больше десяти, и критерий отсева неуспевающих хотят установить на уровне 70% (все, кто выполнил меньше 70% заданий теста, получают два), то в тест необходимо включить не менее 70% легких заданий, которые смогут выполнить верно 90% тестируемых студентов (рис. 3.3).

Рис. 3.3. Распределение заданий по трудности в критериально-ориентированном тесте

В силу того что распределения сырых баллов испытуемых по нормативно-ориентированным и критериально-ориентированным тестам имеют, как правило, различную форму, приходится использовать отличающиеся методы оценивания надежности и валидности результатов педагогических измерений, методики шкалирования и выравнивания. Типичные распределения баллов репрезентативной выборки испытуемых в нормативно-ориентированных и критериально-ориентированных тестах показаны на рис. 3.4 и 3.5.

Рис. 3.4. Распределение баллов репрезентативной выборки испытуемых в нормативно-ориентированных тестах

Рис. 3.5. Распределение баллов репрезентативной выборки испытуемых в критериально-ориентированных тестах

Наиболее существенные отличия между нормативно-ориентированными и критериально-ориентированными тестами сведены в табл. 3.1.

Таблица 3.1 Отличия между нормативно-ориентированными и критериально-ориентированными тестами

Между двумя подходами нет непреодолимых противоречий, а для преподавателей наиболее информативной является ситуация, когда оба подхода взаимно дополняют друг друга. Поэтому некоторые тесты разрабатываются с расчетом на то, чтобы результаты студентов можно было бы соотносить как с нормами, так и с содержанием теста. Примером этого в России являются КИМ ЕГЭ.

 

3.4. Задачи тестирования и виды тестов

В соответствии с видами контроля при тестировании можно выделить [28, 39, 42]:

     • задачи, стоящие перед преподавателем на входе в обучение (входной контроль);

     • текущие задачи (текущий контроль);

     • задачи, соответствующие концу определенного периода учебного процесса (итоговый контроль).

Началу обучения ставится в соответствие входное тестирование, позволяющее выявить степень владения базовыми знаниями, умениями и навыками, необходимыми для начала обучения, и определить уровень владения новым материалом до начала его изучения в аудитории. Тесты для входного контроля, обычно называемые претестами, позволяют выявить готовность к усвоению новых знаний у всех студентов. Они разрабатываются в рамках критериально-ориентированного подхода и содержат задания для проверки всех базовых знаний, умений и навыков, необходимых для усвоения нового материала. В основном претесты предназначены для наиболее слабых студентов, находящихся на границе между подготовленными и явно не готовыми к началу усвоения нового материала По результатам выполнения претеста проводится деление тестируемых на две группы, в одну из которых попадают те, кто может двигаться дальше, а в другую – те, кто нуждается в дополнительной работе и консультациях педагога.

Входной претест второго типа разрабатывается в рамках нормативно-ориентированного подхода. Он покрывает планируемые результаты предстоящего обучения и полностью построен на новом материале. По результатам выполнения претеста преподаватель принимает решение, позволяющее внести элементы индивидуализации в массовый учебный процесс. Если студент показал некоторые предварительные знания по новому материалу, то план его обучения необходимо перестроить и начать с более высокого уровня, чтобы учебный материал имел для него действительный характер новизны. Иногда роль входного претеста выполняет итоговый тест, который предназначен для будущей оценки результатов усвоения нового материала после завершения его изучения.

Для текущего контроля разрабатывают корректирующие и диагностические тесты. Тесты первого вида, как правило, являются критериально-ориентированными – если процент ошибок студента превышает критериальный балл, то его знания нуждаются в коррекции. С помощью корректирующих тестов можно найти слабые места в подготовке студентов и выявить направления индивидуальной помощи им в освоении нового материала.

Корректирующие тесты не следует путать со средствами текущего контроля знаний студентов, однако они в какой-то мере близки хотя бы по целям применения. Но между первыми и вторыми средствами есть существенные различия технологического и содержательного характера. Традиционные средства текущего контроля менее эффективны, в основном ориентированы на выполнение его мотивирующей функции путем систематической оценки знаний студентов по небольшим единицам учебного материала. Корректирующие тесты предназначены для выявления пробелов в знаниях по группе учебных единиц, включающих содержание нескольких тем или даже разделов. Обычно они содержат задания, расположенные по нарастанию трудности с тем, чтобы выявить первые же проблемы в усвоении учебного материала.

Если затруднения студента при выполнении заданий носят систематический характер, то педагог может прибегнуть к помощи диагностических тестов. Основная цель диагностики – установление причин пробелов в знаниях студентов – достигается специальным подбором содержания заданий в тестах.

Как правило, в них бывают представлены слабо варьирующиеся по содержанию задания, рассчитанные по форме представления на отслеживание отдельных этапов выполнения каждого задания теста. Подробная детализация позволяет выявить причины устойчивых ошибок студентов, конкретизировать характер возникающих затруднений и сделать выводы о несформированности тех или иных учебных умений.

Для пояснения введенных представлений о тестах для текущего контроля лучше всего привести несколько заданий корректирующего и диагностического тестов с выбором одного правильного ответа, упрощенно иллюстрирующих идеи их создания и применения. Например, пусть задание с выбором ответа из корректирующего теста по математике для начальной школы имеет вид:

Вычислить 2 + 6 : 3 – 8 : 4 =

A) 2

Б) 3

B) 1

Г) 4

Число заданий диагностического теста определяется количеством действий при выполнении задания корректирующего теста. Например, для рассматриваемого числового выражения максимальное число возможных заданий 4:

Таким образом, в целом можно сделать вывод о том, что подбор заданий в диагностический тест осуществляется в индивидуализированном режиме, в зависимости от тех заданий, которые выполнил неверно каждый студент в корректирующем тесте.

Особенно эффективны процессы коррекции и диагностики в ситуации, когда тестирование осуществляется в компьютеризованном режиме и подкрепляется соответствующими обучающими модулями по каждой единице неусвоенного учебного материала. В этом случае коррекция проводится незамедлительно, поскольку после выявления очередного пробела и установления его причины компьютер сам подбирает обучающий модуль и сразу же выдает его студенту.

Основная цель итогового тестирования – обеспечение объективной оценки результатов обучения, которая ориентирована на характеристику освоения содержания курса (критериально-ориентированные тесты) или на дифференциацию студентов (нормативно-ориентированные тесты). Итоговые тесты обычно подвергаются стандартизации, поскольку чаще всего они применяются для принятия административных управленческих решений в образовании. Если проведение входного и текущего тестирования – функция преподавателя, то итоговое тестирование часто проводится структурами, внешними по отношению к учебным заведениям. Итоговые тесты можно также использовать при рубежной аттестации для принятия различных управленческих решений.

В отечественной и иностранной литературе существуют различные подходы к классификации педагогических тестов, зависящие от признаков, которые положены в основу демаркации видов. В соответствии с подходом, выбранным в качестве основополагающего, можно выделить нормативно-ориентированные и критериально-ориентированные тесты. По размерности конструкта педагогические тесты делятся на гомогенные (измеряющие только одну переменную и потому однородные по содержанию) и гетерогенные (измеряющие более одной переменной – случай многомерного конструкта).

Гетерогенные тесты бывают полидисциплинарные и междисциплинарные [42]. Полидисциплинарные тесты состоят из гомогенных субтестов по отдельным дисциплинам. Результаты студентов по субтестам объединяются для подсчета итоговых баллов по всему полидисциплинарному тесту. Для выполнения заданий междисциплинарных тестов требуется применение обобщенных, межпредметных, интегративных знаний и умений. Междисциплинарные тесты всегда многомерны, их разработка требует обращения к факторным методам анализа данных, математико-статистическим методам многомерного шкалирования и т.д.

По характеру измеряемых переменных выделяют тесты для проверки навыков, учебных умений, практических умений, а также компетентностные тесты. Иногда в отдельную группу выделяют скоростные тесты, требующие жесткого ограничения на время для выполнения каждого задания и всегда содержащие избыточное число заданий, не позволяющее никому дойти до конца теста. В зависимости от формы предъявления различают бланковые и компьютерные тесты, устные и письменные.

Наиболее общая классификация тестов в учебном процессе позволяет разделить их на две неравные группы: стандартизованные тесты, обладающие нормами выполнения, и не стандартизованные тесты, которых значительно больше, поскольку их делает каждый педагог для использования в повседневном учебном процессе. Не стандартизованные тесты нередко называют авторскими.

Если в качестве признака демаркации выбрать виды контроля и характер задач, решаемых преподавателем с помощью тестов, то классификация видов педагогических тестов имеет вид, приведенный на рис. 3.6.

Рис. 3.6. Классификация видов педагогических тестов по видам педагогического контроля

Анализ классификационной таблицы позволяет выделить в качестве основополагающих четыре вида педагогических тестов, среди которых наибольшую важность по сфере использования имеют итоговые нормативно-ориентированные тесты.

Увеличение влияния тестирования на принятие управленческих решений на основе данных мониторинга и анализа качества образования во многих странах в XXI в. привело к возникновению нового вида тестов административно-управленческого назначения (в англоязычной литературе – High-Stakes tests). Данные административно-управленческого тестирования служат важным информационным источником для анализа последствий образовательных реформ и инноваций в образовании, проведения сравнительных исследований качества подготовленности выпускников различных вузов России, процедур комплексной проверки деятельности учебных заведений при их аккредитации и т.д. [25, 27].

Единицей контрольного материала, входящей в тест, является тестовое задание, в котором определяется то, что однозначно считается правильным ответом, и определяется степень его полноты для случая самостоятельного конструирования ответа испытуемым.

Каждое тестовое задание должно иметь определенный порядковый номер, стандартную инструкцию по выполнению, эталон правильного ответа или стандартизованные правила по оценке результатов его выполнения и статистические оценки его системообразующих характеристик, удовлетворяющие определенным требованиям теории педагогических измерений. Обычно для выполнения этих требований проводят не менее 2–3 апробаций, по результатам которых ведется коррекция содержания, формы, трудности задания, его валидности и статистических свойств, характеризующих качество его работы в связке с остальными заданиями теста.

Анализ и коррекция характеристик тестового задания должны быть основаны на дескриптивной (описательной) статистике, дополняемой методами корреляционного и факторного анализа. Проведение такого анализа требует учета множества условий, в том числе целей разработки и вида теста при оценивании его надежности и валидности. Естественно, что в длительной апробации и коррекции на репрезентативной выборке обучаемых нуждаются в основном аттестационные итоговые тесты, используемые для принятия управленческих решений в образовании. Работа по коррекции аттестационного теста консолидирует систему тестовых заданий – постепенно нарастает внутренняя связь и целостность, интегративность системы, совершается переход от совокупности контрольных заданий к профессионально разработанному итоговому тесту для оценки учебных достижений студентов.

 

3.5. Инновационные измерители в контексте компетентностного подхода

Современные тенденции в трактовке качества результатов образования, связанные с компетентностным подходом, привели к появлению новых видов итоговых измерителей, выявляющих позитивную динамику изменений подготовленности, активность обучаемых в усвоении знаний, рост их компетентности, степень освоения коммуникативных и интеллектуальных умений. В частности, во многих странах стали использовать портфолио, значительно расширяющие возможности подготовки студентов к прохождению итоговой аттестации благодаря учету новых форм учебных достижений в течение определенного промежутка времени, оценки динамики прироста подготовленности и привлечения внешних источников информации о качестве подготовленности студентов, столь важных в компетентностном подходе.

Под портфолио понимают целевую подборку работ студента, раскрывающую его успехи и достижения в одной или нескольких учебных дисциплинах, оценивание умений самостоятельно решать проблемы различного содержания и проявлять логическое мышление при выполнении законченных практико-ориентированных работ, проектов и набросков, особенно значимых для поставленных целей обучения [9, 23, 32]. Подборка обязательно проводится с участием самого обучаемого и включает его лучшие работы, которые оцениваются на основе четко определенных критериев выставления баллов независимыми экспертами (преподавателями, сокурсниками и т.д.) и сопровождается свидетельствами самостоятельной работы обучаемого.

Сегодня в образовании сложилась определенная типология портфолио, представленная, в отечественных и зарубежных работах (рис. 3.7).

Рис. 3.7. Типология портфолио

Первый вид, известный в зарубежных публикациях под названием «рабочее портфолио», рассматривает подборку работ студента за определенный период времени, показывающую произошедшие изменения в его знаниях. Второй вид – протокольное портфолио – может содержать любые работы, отражающие в форме документов все виды учебной деятельности: от результатов участия в «мозговой атаке» до черновиков готовых работ. Третий вид, встречающийся в зарубежных публикациях – процессное портфолио – отражает достижения студента сообразно документированным фазам процесса обучения. Этот вид портфолио особенно полезен в документировании всего процесса обучения, поскольку может показать, как студент овладевает определенными знаниями и умениями на разных фазах учебного процесса. В дополнение к этому процессное портфолио неизбежно стимулирует формирование мнения студента относительно динамики процесса учения. Четвертый вид – итоговое портфолио – обычно используется для получения суммарной оценки знаний и умений студентов на основе интегрирования оценок, полученных по основным предметам учебной программы. Пятый вид – оn-line портфолио – специфичен, он сложился буквально в последние годы в связи с широким развитием дистанционного обучения [23]. Его структура представлена на рис. 3.8.

Рис. 3.8. Структура on-line портфолио

В общей структуре on-line портфолио можно выделить четыре основных компонента: материалы, подтверждающие достижение студентом основных задач курса; материалы, представляющие собственное видение студентом учебного материала; результаты осмысления проделанной им работы в рамках индивидуального плана; отчет о результатах выполнения завершающего проекта по осваиваемому курсу.

В рамках этой структуры он-лайн портфолио может принимать различные формы. Первая форма может быть создана студентом путем загрузки ряда документов в специально отведенную для этого часть общего сайта курса, предполагающую работу студента по заранее составленному шаблону. Вторая форма портфолио позволяет обучающемуся создать собственную веб-страничку и составить ответы в соответствии с собственным пониманием форм отчета по курсу обучения. Хотя первый из этих двух вариантов, несомненно, легче в освоении и использовании, второй вариант дает студентам больше свободы, позволяет работать более самостоятельно, проявляя в полной мере способности к творчеству по результатам обучения.

Конечно, эффективность использования on-line портфолио, как и их текстовых аналогов, пока не доказана. Их разработка достаточно трудоемка и требует выделения определенных этапов. На начальном этапе работ необходимо проведение планирования, включающего определение целей составления портфолио, его статуса, содержания, средств осуществления и способов оценки учебных достижений обучаемых. Начальный этап составления портфолио предполагает совместную деятельность обучаемых и преподавателей. В частности, рассмотрев необходимые вопросы в начале процесса формирования портфолио, студенты могут понять цель его составления и его статус как средства обеспечения мониторинга и оценки их собственных успехов. Ключевые вопросы для преподавателя и студента должны включать следующее:

     • Каким образом я выберу время, материал и тому подобное для отражения того, что изучаю в этой аудитории?

     • Как я организую и в какой форме представлю материал, который я собрал?

     • Как будет поддерживаться и храниться портфолио?

Как правило, при выборе форм представления материалов портфолио нередко предпочитают аудиовизуальные средства, такие как, например, фотографии, видеозаписи или электронные версии законченной работы студента. Первый этап также предполагает наличие подготовленного студентам письменного обоснования состава работ, включенных в портфолио.

Второй этап предназначен для сбора информации о достижениях студента, включающей значимые материалы и продукты учебной деятельности. Сбор информации и ее композиция могут производиться в соответствии с выбором определенной темы, последовательностью процесса изучения материала или по другим основаниям. Компоновка материала портфолио должна также учитывать критерии и стандарты, выбранные для оценивания результатов работ.

На третьем этапе в портфолио помещаются различные оценочные суждения и мнения относительно результатов выполнения запланированных работ. Характеризуя третий этап, необходимо отметить, что оценки в портфолио фокусируются на самостоятельной работе студентов, проводятся экспертным путем по стандартизованным критериям и включают определение не только уровня владения базовыми знаниями, умениями, но и уровня мотивации к обучению и отношения к учебе.

Для оценивания портфолио используют различные стратегии и критерии при подсчете итоговых баллов студентов, которые должны быть построены на основе совместной деятельности студента и педагога. В частности, критерии по оцениванию портфолио могут отражать:

     • качество содержания работ, включая свидетельство того, что студент наблюдает за изменением собственного понимания учебного материала, метакогнитивного мышления и за продуктивной мыслительной деятельностью;

     • рост и развитие достижений студента в сравнении с целевыми требованиями к качеству подготовки (например, с требованиями ФГОС или содержанием учебной программы);

     • понимание и правильность использования ключевых процессов когнитивной деятельности;

     • полноту, правильность и уместность материалов портфолио;

     • разнообразие форм предоставления данных портфолио.

Несомненно, портфолио требуют долгих часов преподавательского труда, потраченного не только на разработку, но и на проверку. Несмотря на многие нерешенные проблемы и дополнительные трудозатраты педагогов, преимущества портфолио несомненны.

Портфолио обеспечивает:

     • непрерывный процесс отслеживания и оценивания качества учебных достижений для организации внутривузовского мониторинга;

     • многомерные представления о различных учебных достижениях и учебной деятельности, связанной с широким спектром задач учебного процесса;

     • оценку мыслительной деятельности студента, его междисциплинарных умений, умений постановки проблем, решения нестандартных задач, понимания учебных предметов и овладения соответствующими навыками.

Материалы портфолио при правильном его составлении и использовании очень информативны, поэтому, несмотря на нежелание многих педагогов выполнять дополнительный объем работы, связанной с разработкой и проверкой портфолио, скорее всего, со временем этот вид работы студентов займет свое место в современном учебном процессе.

Рис. 3.9. Кейс-измерители

Второй вид инновационных оценочных средств получил название кейс-измерители, и его ждет интенсивное развитие в связи с введением компетентностного подхода (рис. 3.9) [10, 32]. Кейс-измерители обычно включают специальные проблемные задачи, в которых студенту предлагают осмыслить реальную жизненную ситуацию, отражающую практическую проблему и актуализирующую определенный комплекс профессиональных знаний. Отличительной особенностью такой проблемы является отсутствие однозначных решений, побуждающее студента искать пути оптимизации подходов, анализировать методы решений и аргументировать свой выбор метода. В основном эти измерители предназначены для сопровождения специальных и гуманитарных дисциплин, а не для дисциплин естественнонаучного цикла, где чаще всего существует однозначное решение поставленной перед студентом задачи. Таким образом, есть явные преимущества кейс-измерителей, которые проявляются не везде, а только в задачах, которые имеют решения, соперничающие по степени истинности. Конечно, в первую очередь эти преимущества связаны с возможностью развития творческих способностей студентов, ориентацией на модель конкретной профессиональной ситуации, развитием навыков критического мышления.

При разработке кейс-измерителей в электронном или текстовом виде формируется модель, имитирующая профессиональную ситуацию. Совокупность таких ситуационных моделей называют кейсом. Работа студента над кейсом может проходить как в самостоятельном режиме, так и в сотрудничестве с педагогом и другими студентами с привлечением различного рода аргументов и литературных источников для обоснования собственных доводов и выбора оптимального решения. Несомненным достоинством кейс-измерителей является их важная мотивирующая роль, побуждающая студента к формированию собственных профессиональных позиций и самостоятельному приобретению знаний, формированию умений и навыков мыслительной деятельности, развитию способностей и умению самостоятельно перерабатывать большие массивы информации.

На первый взгляд технология разработки кейс-измерителей довольно проста. Однако эта видимая простота оборачивается значительными трудностями, когда кейс-измерители используются для рубежной или итоговой аттестации студентов и выпускников. В последнем случае важно не просто подобрать ситуационные задания, адекватные проблемам будущей профессиональной деятельности, но и обеспечить надежность и сопоставимость результатов педагогических измерений. Следовательно, при разработке кейс-измерителей для аттестации необходимо статистическое обоснование качества измерений и специальных методов шкалирования результатов студентов, полученных ими при решении заданий кейса. Поскольку речь идет о неоднозначных решениях, оценивание результатов выполнения заданий приходится проводить экспертными методами и разрабатывать стандартизованные методики для работы экспертов. По результатам оценивания строится порядковая шкала, в которой откладываются ранговые баллы студентов.

Новейший вид измерителей, пока находящийся в стадии разработки во всех странах мира, – это компетентностные тесты, ориентированные на современный интегративный подход к оценке качества обучения с позиций прогнозирования дальнейших жизненных успехов студентов [10, 32]. Оценка уровня компетентности, распадающейся на спектр отдельных компетенций, представляет большую сложность. В образовании компетенции представляют интерес многоплановые и многоструктурные характеристики качества подготовки обучающихся, которые вряд ли могут быть в полной мере стандартизованы. Трудность здесь видится в том, что компетентность нельзя трактовать как сумму предметных знаний и умений. Скорее, это приобретаемые в результате обучения новые способности, увязывающие знания и умения со спектром интегральных характеристик качества подготовки, в том числе и со способностью применять полученные знания и умения в решении межпредметных практических задач, в будущей профессиональной деятельности после окончания учебного заведения. В этой связи возникает необходимость создания межпредметных (комплексных) тестов, требующих при оценке подготовленности студентов использования методов многомерного шкалирования и специальных методов интеграции оценок отдельных характеристик подготовки выпускников вузов.

Специалисты рекомендуют разрабатывать компетентностные тесты в рамках критериально-ориентированного подхода, поскольку бессмысленно говорить о численном аналоге уровня сформированности компетенций. Для получения надежных и валидных результатов итоговой аттестации выпускников вузов в рамках компетентностного подхода обычно используют уровневую шкалу, которую в зарубежных работах обычно, называют вертикальной.

Рис. 3.10. Уровневая компетентностная шкала

Основные направления работ по созданию методики корректного измерения при компетентностном подходе связаны с анализом содержательной структуры и трудностей заданий компетентностного теста. Таким образом, процесс построения вертикальной шкалы (рис. 3.10) для каждой компетенции идет двумя путями. С одной стороны, экспертно выделяются планируемые уровни учебных достижений и соответствующие им по содержанию задания под каждый уровень, нуждающиеся в обосновании своей прогностической валидности путем привлечения работодателей. С другой стороны, строится количественная шкала, получающаяся на основании статического анализа результатов выпускников в итоговой аттестации и позволяющая соотнести определенные совокупности заданий по количественным оценкам их трудности с выделенными диапазонами компетентности. Таким образом, для каждого диапазона компетентности определяется фрейм заданий, образующих часть общего компетентностного теста.

На рис. 3.10 показаны минимальный, базовый, промежуточный, продвинутый уровни и уровень высокой компетентности. Этот рисунок приведен в качестве примера использования вертикальной шкалы в международных исследованиях качества образования. При аттестации, по-видимому, вполне достаточно выделения трех уровней компетентности для построения вертикальной шкалы: минимального, базового и высокого.

При интерпретации результатов выполнения уровневых компетентностных тестов возможны различные схемы построения итогового балла испытуемого для принятия аттестационного решения. В одном случае внутри каждого уровня компетентности экспертно определяют критериальный балл, подлежащий обязательной эмпирической валидизации и позволяющий говорить об освоении определенного уровня компетенции в различных диапазонах в том случае, когда балл испытуемого, подсчитанный только по совокупности заданий, относящихся к данному диапазону компетентности, превышает критерий в каждом диапазоне. В другом случае можно сосредоточиться только на одном диапазоне, например диапазоне высокой компетентности, и засчитывать результаты аттестуемых как положительные вне зависимости от освоения ими компетенций на базовом или минимальном уровнях. В третьем случае балл испытуемого можно находить простым сложением результатов по отдельным заданиям компетентностного теста, не задаваясь вопросом о принадлежности заданий отдельным диапазонам компетентности, а затем сопоставлять его с критериальным баллом и принимать решение об аттестации студента.

Конечно, при построении вертикальной шкалы можно использовать не только компетентностные тесты. В этом случае при вертикальном шкалировании важно добиться сопряжения результатов, полученных на различных уровнях измерения при использовании разнообразных оценочных средств и сопряжения количественных диапазонов шкалы с содержательной структурой оценочных средств. Это работа не одного дня, требующая доказательства валидности заданий (содержательной, конструктной, прогностической) статистическими методами и определения оптимальных весовых коэффициентов при интеграции данных по различным измерителям в единой шкале разнообразных оценочных средств.

Компетентностный подход имеет большое будущее для итоговой аттестации, несмотря на всю сложность реализации его на практике. Сегодня, когда в образовательный процесс вовлечены не отдельные представители интеллектуальной элиты, а большие сообщества, возникла насущная необходимость установления связи качества подготовленности выпускников учебных заведений с требованиями сферы предполагаемого употребления результатов труда. Таким образом, сама жизнь выдвигает новые требования как к квалификации педагогов, так и к качеству подготовленности выпускников вузов. В этой связи одним из основных направлений развития современных педагогических измерений становится переориентация на междисциплинарность и полипрофессиональность, присущие современному образовательному пространству.

К числу новых форм измерителей относятся тесты, которые разрабатываются для оценки практической деятельности студентов (Performance assessment). Они позволяют выявить уровень освоения практических навыков с помощью экспериментальных заданий деятельностного характера, по результатам выполнения которых получается некоторый материальный продукт, оцениваемый экспертами по стандартизованной шкале тестовых баллов. Многие из тестов, оценивающих результаты практической деятельности, не выдержали бы никакой критики специалистов тестологов из-за низких характеристик по ряду показателей качества в области педагогических измерений. Тем не менее они имеют высокую очевидную валидность и вызывают большой интерес у студентов.

Анкеты и интервью предоставляют дополнительную информацию о студентах, их окружении и деятельности во внеучебное время, позволяющую обоснованно интерпретировать данные тестирования или результаты применения других современных оценочных средств.

Анкеты относятся к инструментарию, дающему возможность собрать надежные и валидные данные об измеряемых переменных в тех случаях, когда процесс создания анкет проходит определенные научно обоснованные стадии. Вначале осуществляется формулирование проверяемой и нулевой гипотез и решаются проблемы учета всех сопутствующих факторов, влияющих на результаты эксперимента. Затем разрабатывается план исследований, включающих проведение анкетирования, обработку данных, их анализ и интерпретацию в соответствии с планом эксперимента. Разработка структуры анкеты и ее вопросов проводится в строгом соответствии с научно обоснованными требованиями, которые приводятся в многочисленной литературе по проблемам психодиагностики и измерений в социальных науках. Помимо содержания и формы представления вопросов, эти требования охватывают также внешний вид анкет, систему кодировки данных, их анализа и интерпретации.

При проведении анкетирования обычно принимается решение о том, что считать единицей анализа, в процессе которого происходит приписывание каждому респонденту определенного значения по оцениваемой переменной на основе выбранных правил. Обычно в образовании в качестве единиц анализа выступают учащиеся, педагоги или администрация учебных заведений, иногда к участию в анкетировании в качестве респондентов привлекаются родители студентов.

Интервью можно также рассматривать как научно обоснованный метод сбора дополнительных данных о студентах, их родителях или преподавателях. Специалисты различают континуум видов интервью, постепенно меняющихся от неструктурированного и открытого к высоко структурированному и закрытому интервью, требующему от респондентов однозначных ответов в рамках фиксированных форматов. В последнем случае некоторые исследователи склонны считать, что данные интервьюирования носят количественный характер, хотя это ошибочное суждение, поскольку искусственное приписывание чисел ответам респондентов вовсе не тождественно построению метрической шкалы.

Наиболее распространенный способ интервьюирования связан с последовательностью вопросов, поначалу имеющих достаточно общий вид, но постепенно сходящихся к предмету обсуждения. В образовании интервью часто используются при аккредитации учебных заведений, когда беседы с преподавательским составом вузов или администрацией носят общий ознакомительный характер [19]. Аналогичный случай имеет место в процессе ЕГЭ во время инспекционных посещений экзамена представителями других регионов, общественности или Минобрнауки. Для представления данных интервьюирования обычно используются неметрические шкалы Лайкерта, Терстоуна и т.д.

Различные виды инновационных и традиционных оценочных средств, соотнесенные с функциями педагогического контроля, представлены на рис. 3.11. Можно сделать вывод о том, что в настоящий момент на фоне традиционных средств оценивания результатов обучения появились различные новые виды измерителей, ориентированные на современные подходы к оценке качества образования. Разработка этих видов и их использование в управлении качеством обучения являются важными условиями эффективного выполнения всех функций педагогического контроля и повышения качества образования.

Рис. 3.11. Классификационная схема современных оценочных средств

Таким образом, на количественном уровне измерений применяют стандартизованные тесты учебных достижений, содержащие задания с выбором ответов. На качественном уровне измерений широкое распространение получили портфолио, тесты практических умений, кейсы, анкетные обследования и интервью, отвечающие требованиям теории педагогических измерений, в частности требованиям высокой надежности и валидности.

По данным педагогического контроля, организованного с помощью современных оценочных средств, можно осуществлять:

     • феноменологический анализ качества процесса и результатов образования, строящийся на анализе данных анкет, интервью и тестовых заданий со свободно конструируемым ответом;

     • содержательный анализ программных документов процесса обучения, включающий изучение инструкций, писем, протоколов и пр.;

     • аналитическую индукцию, позволяющую связать данные о качестве образования с различного рода инновациями в учебном процессе и получить данные, подтверждающие достоверность и надежность управленческих выводов;

     • сравнительный анализ, предполагающий сопоставление данных по однородным группам объектов исследования (студентам, педагогам, вузам и т.д).

Современные оценочные средства позволяют:

     • повысить аутентичность результатов итогового контроля;

     • создать в процессе текущего контроля условия, адекватные современным технологиям обучения и обеспечивающие развитие компетенций, повышение вариативности и доступности учебных программ для студентов;

     • повысить роль самоконтроля, самокоррекции и самооценки в учебной деятельности;

     • выбрать общие критерии оценивания, построить стандартизованные интервальные, квазиинтервальные или уровневые шкалы;

     • создать эффективную систему вузовского мониторинга качества образовательных достижений;

     • перейти к интегральным многомерным итоговым оценкам учебных достижений.

 

3.6. Основные этапы разработки аттестационных измерителей

В общем случае в процессе планирования при разработке измерителей важно идентифицировать:

     • цель измерения, связав ее с функциями контроля и областью применения результатов измерения;

     • порции и временные интервалы применения;

     • содержание измерителей (предметное описание содержания, планируемые к проверке умения и виды деятельности).

Если в качестве измерителя выбран тест для итоговой аттестации, то в начале работы над тестом необходимо:

     • подход к созданию теста и интерпретации результатов измерения (нормативно-ориентированный, критериально-ориентированный или смешанный);

     • виды шкал тестовых баллов или других результатов измерения с детальным описанием правил оценивания отдельных заданий;

     • представительные выборки студентов или выпускников, стратифицированные в соответствии с основными факторами;

     • инструкции по выполнению теста (краткую и развернутую), инструкции для экзаменаторов и инструкции по проверке в том случае, если привлекаются эксперты;

     • время выполнения теста или временные промежутки, если есть субтесты.

Если основная цель тестирования – итоговая аттестация, то создается стандартизованный итоговый тест, обеспечивающий высокую точность измерений, поскольку его результаты используются для принятия административных решений. Поэтому при разработке аттестационного теста необходимо выполнить все указанные ниже этапы в полном объеме и провести несколько апробаций на репрезентативных выборках выпускников учебного заведения. В частности, необходимо:

     • определить подход к созданию аттестационного теста (нормативно– или критериально-ориентированный);

     • провести анализ содержания учебной дисциплины, определить степень полноты, необходимую для репрезентативного отображения требований ФГОС в тесте;

     • определить структуру теста и стратегию расположения заданий;

     • разработать спецификацию теста, осуществить априорный выбор длины теста, форм его заданий и времени его выполнения;

     • создать задания в каждой из выбранных тестовых форм;

     • отобрать задания в тест и ранжировать их согласно выбранной стратегии предъявления на основании априорных авторских оценок трудности заданий;

     • провести экспертный анализ качества содержания заданий и теста;

     • провести экспертизу формы предтестовых заданий;

     • переработать содержание и формы заданий по результатам экспертизы;

     • сформировать выборку для апробационного тестирования;

     • разработать инструкции для студентов и преподавателей, проводящих апробацию теста;

     • провести апробационное тестирование для сбора эмпирических результатов;

     • провести статистическую обработку результатов апробации;

     • выполнить интерпретацию результатов обработки и наметить пути коррекции теста;

     • провести чистку теста и добавить новые задания для улучшения характеристик теста (оптимизации трудности заданий, повышения их валидности, улучшения системообразующих свойств заданий, повышения надежности и валидности теста);

     • повторить этап апробации для доказательства достигнутого повышения качества теста (неоднократно, если в этом есть потребность);

     • установить нормы выполнения теста и построить шкалу или шкалы для оценки результатов испытуемых.

Возникает своеобразный цикл, так как после чистки теста разработчику приходится возвращаться к этапу сбора эмпирических данных. Как правило, стандартизованные тесты, используемые в образовании для принятия ответственных управленческих решений, проходят не менее 3–4 апробаций, результаты которых позволяют получить устойчивую стандартную шкалу тестовых баллов. Немалое значение для обеспечения высокой точности и валидности измерений имеет представительность выборки испытуемых, используемой при апробации теста. Успех создания теста во многом зависит от высокого качества начального тестового материала, которое обеспечивается правильным отбором проверяемого содержания и умением разработчика корректно отобразить его в заданиях теста. Крайне важен этап обработки эмпирических результатов тестирования, для выполнения которого необходимы специальные программные средства для профессиональной разработки тестов (ConQuest, Testan и др.) [41].

 

Выводы

Для административных управленческих решений, связанных с переводом студентов из группы в группу, изменением программы обучения, аттестацией студентов и выпускников учебных заведений, а также при принятии аккредитационных решений необходимы стандартизованные тесты.

Постановка цели создания теста определяет подходы (нормативно-ориентированный или критериально-ориентированный) к интерпретации результатов тестирования, отличающиеся по ряду характеристик и влияющие на особенности процесса создания теста.

В нормативно-ориентированном подходе разрабатываются тесты для сравнения студентов по уровню учебных достижений, поэтому основное назначение нормативно-ориентированных тестов состоит в дифференциации испытуемых по результатам выполнения теста. Поскольку при сравнении и интерпретации оценок студентов используются нормы, то языковые, культурные и социально-экономические различия в выборках стандартизации могут влиять на результаты интерпретации.

При критериально-ориентированном подходе в педагогических измерениях результаты студентов интерпретируются по отношению к содержательной области или требованиям, установленным к учебным достижениям. Тесты для текущего контроля носят смешанный характер, кроме отдельных случаев использования диагностических тестов. Текущий контроль не требует стандартизации тестов. Хотя при интерпретации результатов текущего тестирования не происходит сравнения с нормами, языковые, культурные и социально-экономические факторы также могут оказывать влияние на результаты тестирования, поэтому их следует принимать во внимание.

Содержательная интерпретация результатов тестирования не исключает возможности сравнения их с нормами выполнения теста. Для этого требуется совмещение нормативно-ориентированного и критериально-ориентированного подходов, которое в силу существующих значительных различий между подходами значительно затрудняет процесс разработки теста.

При формулировании понятийного аппарата необходимо классифицировать виды тестов, чтобы привести вводимые определения в соответствие с различными видами тестов и целями их создания. Понятийный аппарат теории педагогических измерений необходим не только специалистам, но и преподавателям для правильного выбора и использования педагогических тестов, знания существенных признаков тестов и их отличий от псевдотестов.

В настоящий момент во многих странах разрабатываются измерители, отличающиеся от традиционных оценочных средств и тестов в сфере отбора содержания (компетентностный подход, междисциплинарный подход, творческие аспекты содержания подготовки), в форме заданий (переход от заданий с выбором ответа к заданиям со свободно конструируемым ответом), форме оценки (переход к самооценке, многомерной оценке). Во многом эти измерители преодолевают недостатки существовавших ранее оценочных средств, поэтому они получили название средств аутентичного оценивания.

 

Практические задания и вопросы для обсуждения

1. Каковы функции входного тестирования? Есть ли смысл разрабатывать входные тесты в вузе?

2. Каковы цели разработки корректирующих тестов? Есть ли различия между корректирующими тестами и традиционными средствами текущего контроля?

3. В рамках какого подхода, по вашему мнению, следует разрабатывать компетентностные тесты?

4. Какой процесс называется стандартизацией теста?

5. Перечислите основные факторы, влияющие на устойчивость норм теста для вашего вуза.

6. Укажите отличия между нормативно-ориентированными и критериально-ориентированными тестами.

7. Какие тесты, по вашему мнению, необходимо разрабатывать в первую очередь для повышения эффективности учебного процесса в вузе? Назовите несколько ситуаций, в которых целесообразно использовать портфолио.

8. На какие инновационные средства, по вашему мнению, следует делать упор при введении компетентностного подхода в высшее профессиональное образование?

9. Составьте сравнительную характеристику инновационных измерителей на основе анализа их возможностей для оценивания творческих аспектов подготовленности студентов.

10 Какие измерители наиболее адекватны по своим характеристикам задаче отслеживания динамики изменений качества подготовленности студентов?

11. Какие измерители необходимы для системы мониторинга качества образования внутри учебного заведения?

12. Эффективно ли использовать диагностические тесты без корректирующих тестов?