1.1. Надежность психологических тестов (опыт психологической интерпретации)

По мере того как расширилось практическое применение тестов и увеличилось их изготовление, все настоятельнее становилась необходимость разработки некоторых, методически обоснованных требований к подобным психологическим пробам. Эти требования складывались в ходе самой работы над тестами и над их совершенствованием, а большее или меньшее соответствие тестов этим требованиям свидетельствовало об их качестве. Кроме того, требования, выступая в качестве некоторого критерия методического уровня тестов, давали возможность оградить психологию от всевозможных безграмотных подделок, претендующих на диагностическо-прогностическое испытание психологических особенностей людей.

Изготовление методически грамотного теста представляет большую и трудоемкую задачу, решение которой предполагает проведение специальных исследований. Если даже не касаться теоретической основы тестов, а остаться лишь в рамках самой по себе методики, то следует признать, что путь от первого рабочего варианта до создания практически приемлемой пробы требует не одного года систематического труда. И, в конце концов, даже США, страна, выпускающая до 4/5 современных тестов, не может похвалиться тем, что они стоят на уровне современных методических вопросов.

Следует сказать, что разработка формальных требований к психологическим тестам, начавшаяся еще в 20–30 годы XX века, сыграла положительную роль в развитии этого направления исследований. Но сейчас понятно, что при всей необходимости формальных требований, они не дают всего того, что позволило бы полно и всесторонне оценить тест даже с методической стороны. Особенно актуальным представляется в свете сказанного истолкование требований к надежности и валидности тестов.

Мы уже обращали внимание на то, что о значении этих требований можно судить хотя бы по факту того, что фирмы и издательства, торгующие тестами в США, как правило, указывают в рекламных проспектах коэффициенты надежности и валидности своей продукции, а также и то, на каких выборках и в какие годы эти коэффициенты получены. Но такая общепризнанность указанных требований не означает, что они не нуждаются в дальнейшем уточнении; и действительно, вопросы надежности и валидности активно обсуждаются в тестологической литературе.

Для дальнейшего анализа важно еще раз уточнить основные понятия.

•  Надежность — такой признак психологического теста, который позволяет судить о том, насколько внушают доверие полученные при его применении данные, насколько обоснованно ожидание исследователя, что при сохранении известного минимума неизменных условий, испытуемые в выборке останутся и при повторных испытаниях примерно на тех же порядковых (ранговых) местах. Уровень коэффициента надежности и его статистическая значимость укажут на вероятность осуществления этого ожидания.

•  Валидность — признак теста, по которому можно судить, насколько данные, полученные при применении теста, совпадают с показателями какой-то деятельности испытуемых: учебной, спортивной, производственной. Валидность – это действенность теста, характеризующая возможность ставить практически важный диагноз и в некоторых случаях намечать прогноз. Можно полагать, что исследователь, применяющий тесты, обычно рассчитывает в дальнейшем на практическое использование полученных результатов, то есть имеет в виду валидность. Вопрос о валидности потребует специального рассмотрения.

Продолжая обсуждение выделенной проблемы, напомним, что надежность и валидность взаимосвязаны. Надежность есть необходимое, но не достаточное условие валидности, из чего следует, что надежные показатели теста не могут быть валидными. Но надежные показатели сами по себе не представляют валидности.

Простое рассуждение подтверждает справедливость приведенного высказывания. В самом деле, если тест отличается низкой надежностью, то это значит, что его показатели весьма сильно варьируют от одного испытания до другого. Испытуемый, который в одном испытании выступал как представитель наиболее успешно работавшей части, в другом может попасть в наиболее неуспешно работающую часть выборки. Сопоставлять данные одного из этих испытаний с показателями какой-то деятельности испытуемых очевидно бессмысленно. С другой стороны, высокая надежность тоже еще не дает права считать, что результаты теста могут быть по существу сопоставимыми с показателями деятельности. Успешность или неуспешность по тесту может представлять собою нечто самодовлеющее или не-соотносимое с какими-либо другими уместными для данного исследования внешними – по отношению к тесту – показателями. Поэтому испытания с применением заданий психологического характера, надежность и валидность которых по отношению к данной популяции или выборке не установлены, не могут иметь никакого диагностического практического значения, хотя их при начальном этапе подготовки теста приводят лишь как первый шаг исследовательского поиска.

Во второй части этой книги мы уже касались данной темы в связи с проблемой надежности психофизиологических показателей (см. раздел 2, подраздел 2.2). Напомним, как устанавливается надежность психологического теста, и продолжим обсуждение этого вопроса.

В тестологической литературе описываются несколько способов, рекомендуемых для этой цели.

1. Повторное проведение испытаний тем же тестом через какой-то срок, длительность которого определяется характером теста и задачами исследования.

2. Проведение испытаний двумя вариантами, двумя различными «формами» теста, обычно построенными по одному принципу.

3. Разделение, «расщепление» теста на две половинки, обычно на половинки, состоящие из четных и нечетных заданий.

4. Проведение двух эквивалентных форм теста. Этот способ представляет собою уточнение 2-го способа [5] .

В установлении надежности сопоставляют, таким образом, два получаемых показателя и чаще всего прибегают к вычислению коэффициента корреляции по Пирсону – Бравэ или по Спирмену. Надежность тем выше, чем больше полученный коэффициент приближается к единице, и наоборот. Оставаясь в пределах формального анализа, можно отметить, что коэффициент корреляции будет тем выше, чем меньше дисперсия, то есть разброс данных, получаемых конкретным испытуемым по тесту. Если по одному из сопоставляемых показателей испытуемый окажется в верхней части таблицы, составленной по убыванию успешности, а по другому показателю в нижней ее части, то очевидно дисперсия данных по тесту – по крайней мере в данной выборке – велика и не позволяет делать вывод о том, какова, собственно, его характеристика по результатам этого психологического исследования. Напротив, чем дисперсия меньше, тем больше оснований для определенных психологических выводов. В этом смысле корреляция может дать достаточную информацию для суждения о надежности.

Представим себе, исследователь поставлен перед таким фактом: надежность разрабатываемого им теста оказалась слишком низкой. Что же делать, как добиваться ее повышения?

Очевидно, что даже внимательное ознакомление со способами установления надежности приводит к заключению, что дисперсия, снижающая уровень коэффициента корреляции, зависит не от одной, а от нескольких различных причин.

В самом деле, проверяя надежность способом расщепления, исследователь получает информацию о внутренней однородности теста, о его гомогенности. Если тест – по составу включенных в него заданий – разнороден, то это обнаружится в том, что при случайном его разделении на половинки испытуемые будут выполнять разнородные по своей психологической трудности задачи, и вряд ли можно ожидать, что их успешность в каждой из этих половинок будет одинаковой. При однородности заданий можно полагать, что большой разницы в успешности по половинкам не будет. Следовательно, дисперсия в этом способе показывает, насколько однороден тест.

Совсем другую информацию получает исследователь при повторении того же теста через какой-то срок. Дисперсия в таком случае может зависеть от того, что тот процесс, который испытывался тестом, изменился. Почему это произошло, на этот вопрос статистика не ответит. Но факт большего или меньшего изменения процесса по тому параметру, на который направлен тест, она обнаружит и зафиксирует. Вопрос же о гомогенности теста в данном способе не актуализируется.

И второй, и четвертый способы выдают совсем особую информацию – это информация о том, насколько близки – по существу – две различные «формы» теста, два его варианта. Исследователь может считать, что если эти две формы при испытаниях дали одинаковые или близкие результаты на избранной им выборке, то из этого следует, что при разработке теста найден достаточно отчетливый психологический признак для испытания. В этом случае вновь ставится вопрос о гомогенности, но уже не для одного теста, а для теста и варианта, для двух более или менее эквивалентных «форм».

Выходит, что понятие «надежность» имеет совершенно различный смысл в зависимости от того, какой из способов исследователь возьмет. Поэтому нельзя признать удовлетворительным решение, при котором утверждается, что все четыре способа представляют собою оценки повторений показателей по тесту и в одних случаях тот, а в других – иной из способов обеспечивает получение лучшей меры (надежности). Но дело не в лучшей или худшей мере надежности, дело в том, что это меры разной по существу надежности. Скорее можно согласиться с авторами «Стандартных требований…», которые полагают, что коэффициент надежности в современном понимании – это родовой показатель, охватывающий несколько ее дифференцированных видов, и каждый вид имеет свой особый смысл (Standards for Educational and Psychological Test, 1974). Однако о том, что обусловливает эти различные виды надежности, от чего зависит малая или большая дисперсия, влияющая на коэффициенты этих различных видов надежности, – обо всем этом в «Стандартных требованиях…» ничего не говорится.

По-видимому, было бы совершенно нелогичным, давая характеристику надежности, сообщить какой-то коэффициент без раскрытия того, каким способом он определен и почему автор считает, что надежность в данном случае должна быть представлена именно таким коэффициентом. Очевидно, необходимо достаточно обоснованно истолковать эти различные по своей сущности коэффициенты.

Что же устанавливается при сопоставлении результатов по двум половинкам теста (способ расщепления)? Более всего оснований считать, что так устанавливается надежность самого теста как диагностического инструмента. Несомненно, что следует считать надежным только тот тест, который состоит из однородных и притом равно трудных задач. Оценка успешности работы испытуемых выводится из общего числа правильно выполненных ими заданий. Если тест отвечает своему назначению как диагностический инструмент, то можно полагать, что в любой из произвольно выбранных его половинок испытуемый должен правильно выполнить примерно одинаковое число задач. Правильность этого предположения исследователь проверяет, вычисляя коэффициент корреляции между результатами, показанными испытуемыми по двум половинкам теста.

А сравнение результатов, показанных испытуемыми при первом и втором, повторном, тестировании имеет совсем другой смысл. Оно говорит о том, насколько устойчиво, стабильно то свойство психики (функция, умение, способность и пр.), для диагностирования которого был применен тест. Оставим пока открытым вопрос о том, чем объясняется устойчивость или изменчивость диагностируемого свойства. Важно, что коэффициент корреляции, вычисляемый в этом случае, указывает на степень стабильности диагностируемого свойства. Об этом будет свидетельствовать сохранение каждым испытуемым своего порядкового места в выборке (в рангах или в сигмальных единицах) при первом и повторном применении теста через определенный промежуток времени.

В такой интерпретации ясно обнаруживается, что разные способы установления надежности относятся по существу к разным объектам. При вычислении коэффициента между результатами, показанными в каждой из двух половинок теста, устанавливается надежность самого теста, при вычислении того же коэффициента между результатами первого и второго испытания устанавливается стабильность диагностируемого свойства.

Весьма возможно, что невысокая надежность теста самого по себе (способ сравнивания половинок) окажет неблагоприятное воздействие и на результаты как первого, так и повторного испытаний. Поэтому следует заранее позаботиться о том, чтобы такое воздействие было устранено или сведено к минимуму. Для этого нужно соблюдать естественную очередность установления надежности: сначала нужно проверить надежность теста, добиться путем устранения ненадежных задач надлежащего его качества, как измерительного инструмента, а затем переходить к установлению надежности диагностируемого свойства.

Что же касается способов установления надежности теста, заключающихся в сопоставлении двух параллельных или эквивалентных форм-вариантов, то выводы из таких сопоставлений скорее можно понять как аргумент в пользу психологической значимости единого принципа, положенного исследователем в основу создания того и другого варианта теста. Принцип проверяется путем сравнения результатов успешности испытуемых, выполнявших две подготовленные исследователем формы или два варианта теста. С точки зрения применения теста эти способы естественнее всего толковать как изучение возможности взаимозаменяемости вариантов теста. Но сколько-нибудь убедительного ответа на вопрос о надежности каждого из вариантов эти способы, по-видимому, не могут дать. О неопределенности выводов, получаемых при сопоставлении двух форм или вариантов теста для установления надежности, пишут и авторы «Стандартных требований…» (Standards for Educational and Psychological Test, 1974). Поэтому, по крайней мере до тех пор, пока не будет предложено новых толкований этих способов, применение их для установления надежности представляется необоснованным.

Выше было сказано, что способ разделения теста на две половины позволяет охарактеризовать надежность самого теста как диагностического инструмента, а способ повторного тестирования дает материал для суждения о надежности (или стабильности) исследуемого свойства психики. Употребление слов «надежность теста и надежность свойства психики» не должно маскировать важнейшей специфической черты психологических тестов – их результаты, итоги работы испытуемых всегда являются продуктом взаимодействия испытуемого (со всеми присущими ему к моменту испытания особенностями) и ситуации психологического испытания. Здесь испытуемому представляется тест с его конкретной наполненностью: словами, рисунками, заданиями, требующими логико-перцептивных действий, от выполнения которых зависит успешность его работы. Надежность теста и надежность (стабильность) диагностируемого психического свойства не существуют «вообще», они всегда выступают как продукт контакта конкретной ситуации испытания с конкретными выборками и совокупностями испытуемых. На первый взгляд высказанные суждения кажутся ненужной тривиальностью – каждому ясно, что никак по-другому получить сведения о надежности нельзя. Однако следует принять во внимание специфические, укоренившиеся у неосведомленных людей мнения о тестах, чтобы согласиться с тем, что дополнительные разъяснения по этому пункту не окажутся лишними.