Надежность теста
НАДЕЖНОСТЬ — одно из трех основных психометрических свойств любой измерительной психодиагностической методики (теста). Надежность — это помехоустойчивость теста, независимость его результатов от деяния всевозможных случайных факторов. К числу таких факторов следует отнести:
— разнообразие наружных материальных условий тестирования, меняющихся от одного испытуемого к иному (время суток, освещенность, температура в помещении, наличие посторонних звуков, отвлекающих внимание и т. п.),
— динамичные внутренние факторы, по-различному действующие на различных испытуемых в ходе тести рования (время так именуемой врабатываемости — выхода на стабильные показатели темпа и точности деяний после начала тестирования, скорость утомления и т. п.),
— информационно-социальные обстоятельства
(разная динамика в установлении контакта с пси
хологом или лаборантом, проводящим тестирование;
вероятное наличие иных людей в помещении;
наличие предыдущего опыта знакомства с данным
тестом; наличие какого-то знания и отношения к
■
тестам вообще и т. п.).
Разнообразие и изменчивость всех этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения измеренного тестового балла от подлинного тестового балла (который можно было бы в принципе получать в образцовых условиях). Средняя условная величина этого отклонения определяется как стандартная ошибка измерения ( Se ). Величина оплошности измерения указывает на уровень неточности или ненадежности тестовой шкалы (умышленно подчеркнем, что в психометрической теории надежность и точность оказываются синонимами).
ОШИБКА ИЗМЕРЕНИЯ ( Se ) и надежность измерения ( R ), сообразно общепринятой психометрической теории, связаны следующей формулой:
(1) R -1 — Se 2 / Sx 2 ,
*
где S — дисперсия тестовых показателей X .
Формула (1) является чисто теоретической, и на ее основе нельзя подсчитать надежность теста, так как величина Se оказывается также неведомой величиной. Поэтому на практике применяют корреляционные методы- Самый знаменитый из них — метод перетестирования (тест-ретест) или метод измерения РЕТЕСТОВОЙ НАДЕЖНОСТИ. На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование X , а затем повторное тестирование Y . Интервал, как верховодило, — две недели, что гарантирует забывание вопросов теста.
Затем для двух рядов значений X и Y подсчиты-вается, например, линейный коэффициент корреляции (вероятный и нередко более корректный вари-
ант — подсчитывать ранговый коэффициент корреляции):
(2) R -* ВД •
где Sx , S — стандартные отклонения X и Y ,
Cov ( X , Y ) — ковариация двух переменных X и Y .
В этой книге мы не ставим целью научить студентов-педагогов корреляционным методам и пытаемся изложить лишь принципиальную суть дела. Увлекающиеся найдут все необходимые формулы и вычислительные образцы в любом учебнике по статистике, а также в специализированных изданиях по психодиагностике и психометрике (Общая психодиагностика, 1987; Клайн, 1994).
Что главно для сути теории надежности тестов, так это возможность определить ошибку измерения после того, как подсчитана корреляция тест-ретест по формуле (3), полученной маршрутом простого преображения формулы (1):
(3) Se = Sx – Vl — R
Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем дозволяют испытуемые от среднего балла для выборки), а корреляция тест-ретест оказалась одинаковой лишь 0,5, то ошибка измерения оказывается очень великий:
Se = 10* V 1 – 0,5 ~ 7.1.
То есть оказывается, что ошибка измерения перекрывает великую часть разброса тестовых показателей, так как правильный балл по тесту может отклоняться от измеренного балла на целых 7 очков! И
если испытуемый набрал на 6 очков больше, чем средний испытуемый, мы не можем с достаточной уверенностью (статистической достоверностью) разговаривать о том, что он означаемо превзошел среднего испытуемого, так как это отклонение оказывается в пределах стандартной оплошности измерения.
Таким образом, низкая корреляция результатов теста между первым и повторным тестированием разговаривает о том, что случайные факторы существенно извращают результаты теста. Это означает, что тест не владеет необходимой помехоустойчивостью, и его нельзя использовать как измерительный инструмент.
Показатель надежности R , который принято считать достаточно высоким, равен или превышает 0,95. Желая в личностных тестах часто пользуются веско менее надежными тестами с показателями 0,8 — 0,9.
Метод измерения ретестовой надежности пригоден только для психических свойств, стабильных во медли. Надежность тестов на психические состояния и динамичные установки личности нельзя проверить таким образом. В этом случае применяют разные методы расщепления теста на отдельные пункты, освещение которых выходит за пределы подлинного пособия.