Так, если в обследованной выборке мальчики получили заметно
более высокое среднее значение в тесте на понимание техники, чем де-
Рис. 10. Коэффициент надежности 0,72 (A. Anostosi, J. Drake, 1954)
75-79 70-74 65-69 60-64i
155-59 50-54 i 1 45-49 И 1 40-44 1 35-39 30-35 25-29 20-24 15-19иii
fM-iч11
/иufniiiilii
itmililliiiii
////ми114i
/////mimilii
тчiiiii
/illi
/
CT>
in
S
0
01
CT>
Ю ГО
f
0 in 0
104 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
вочки, то можно заключить, что мальчики будут превосходить девочек
по этому тесту и в популяции в целом.
Коэффициент надежности. Коэффициенты корреляции часто
применяются при анализе психологических данных. Одно из таких при-
менений - это измерение надежности теста. Пример коэффициента надеж-
ности, вычисленного по пирсоновскому методу смешанных моментов,
приведен на рис. 10. В этом случае выяснялось наличие корреляции ме-
жду показателями 104 человек по двум эквивалентным формам теста
беглости речи. В обоих случаях испытуемым давалось пять минут, в те-
чение которых они должны были написать как можно больше слов, на-
чинающихся на заданную букву. Формы теста отличались друг от друга
лишь задаваемой буквой. Авторы теста подобрали начальные буквы
с таким расчетом, чтобы трудность заданий была примерно одинаковой.
Корреляция между числом слов, написанных в ходе выполнения
каждой из двух форм данного теста, оказалась равной 0,72, т. е. значимой
на уровне 0,01. При наличии 104 случаев любая корреляция, превышаю-
щая 0,25, значима на этом уровне. Тем не менее полученная корреляция
несколько ниже, чем это желательно для коэффициента надежности, ко-
торый обычно бывает выше 0,8 и даже 0,9. Диаграмма на рис. 10 пред-
ставляет типичное двумерное распределение с высокой положительной
корреляцией. Можно видеть, как палочки теснятся вблизи диагонали,
идущей от левого нижнего к правому верхнему углу. Направление это
в общем довольно ясно выражено, хотя и наблюдается некоторый раз-
брос палочек. В следующем разделе обсуждается использование коэффи-
циента корреляции для вычисления различных мер надежности теста.
ТИПЫ НАДЕЖНОСТИ
Ретестовая надежность. Самый естественный способ определить
надежность результатов теста-использовать тот же тест второй раз.
В этом случае коэффициент надежности (Гц) просто равен корреляции
между результатами, полученными на одних и тех же испытуемых в каж-
дом из двух случаев проведения теста. Дисперсия ошибки соответствует
случайным колебаниям в выполнении заданий от одного сеанса тестиро-
вания к другому. Эти колебания могут отчасти быть результатом некон-
тролируемых условий тестирования-таких, как значительные изменения
погоды, появление неожиданного шума и иных отвлекающих моментов
типа сломавшегося карандаша. В какой-то степени их можно объяснять
изменениями в состоянии самого испытуемого-например болезнью,
утомлением, эмоциональным напряжением, беспокойством, недавними
приятными или неприятными переживаниями и т.д. Ретестовая надеж-
ность показывает, в какой степени результаты теста можно распростра-
нить на различные случаи его применения. Чем выше надежность, тем
менее чувствительны результаты к обычным изменениям состояния ис-
пытуемого и обстановки тестирования.
Приводя в руководстве к тесту его ретестовую надежность, всегда
следует указывать, в каком интервале времени она измерена. Поскольку
ретестовая корреляция с течением времени постепенно снижается для
105 НАДЕЖНОСТЬ
любого теста, существует не один, а бесконечное количество ретестовых
коэффициентов надежности. Желательно также давать некоторые сведе-
ния о событиях, происшедших за это время с испытуемыми в учебе или
работе (консультировался ли кто-либо с психологом или прошел курс
психотерапии и т.д.).
Независимо от желательности сведений об интервале времени меж-
ду двумя тестированиями, какими соображениями следует руководство-
ваться при выборе этого интервала? Можно привести немало примеров
того, как надежность теста остается высокой в течение нескольких дней
или недель, но спустя десять-пятнадцать лет его результаты уже почти
не коррелируют с первоначальными. Так, многие из тестов интеллекта
для дошкольников достаточно стабильны в дошкольный период, но со-
вершенно бесполезны для предсказания, каков будет IQ ребенка в стар-
шем возрасте или во взрослом состоянии. На практике, однако, чаще
всего можно провести следующее различие. На дисперсию ошибки те-
стовых результатов обычно влияют случайные колебания с периодами
от нескольких часов до нескольких месяцев. Поэтому, определяя тип тес-
товой надежности, стараются придерживаться небольших временных ин-
тервалов. При тестировании маленьких детей этот период должен быть
еще короче, чем у испытуемых старшего возраста, поскольку в раннем
детстве возрастные изменения происходят в течение месяца и даже
быстрее.
В целом для любого типа испытуемых интервал между двумя после-
довательными применениями теста обычно не должен превышать 6 мес.
Изменения относительного выполнения теста индивидами, происходя-
щие в более длительные промежутки времени, уместнее отнести к куму-
лятивным и постепенным, а не к чисто случайным. Более того, они, ско-
рее всего, характеризуют более широкую сферу поведения, чем та,
которая проявляется при выполнении данного теста. Общий уровень
развития индивида, его способность к обучению, к пониманию техниче-
ских устройств, его суждения об искусстве могут за 10 лет существенно
измениться. Его личностный статус с годами может заметно возрасти
или упасть вследствие обстоятельств жизни дома, в школе или условий
социального окружения, а также по таким причинам, как болезнь или
эмоциональное расстройство.
Степень влияния таких факторов на психическое развитие индивида
является важной исследовательской проблемой. Однако этот вопрос не
следует смешивать с вопросом надежности конкретного теста. Напри-
мер, при измерении надежности тестов Станфорд-Бине, как правило, со-
относят показатели, полученные с интервалом не в десять лет или даже
в один год, а в несколько недель. Конечно, с этими тестами проводились
и долгосрочные ретестовые испытания, но их результаты обычно обсу-
ждаются с точки зрения предсказуемости уровня интеллекта взрослого
на основе выполнения теста в детском возрасте, а не с точки зрения на-
дежности конкретного теста. Понятие надежности в основном ограничи-
вается краткосрочными случайными изменениями, характеризующими
выполнение теста самого по себе, а не тестируемую область поведения.
Следует отметить, что в различных поведенческих функциях обыч-
ные . колебания проявляются неодинаково. Например, на отточенности
движений пальцев могут сказаться самые незначительные изменения
в состоянии индивида, никак не влияющие на его понимание речи. Если
хотят получить общую оценку характера движений пальцев индивида,
106 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
то, по всей видимости, нужно провести повторные тесты в течение не-
скольких дней; для выяснения же понимания им речи достаточно одного
сеанса тестирования. Но всякий раз необходимо обращаться к анализу
цели теста, основывая его на понимании того поведения, которое пред-
назначен предсказать тест.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132
более высокое среднее значение в тесте на понимание техники, чем де-
Рис. 10. Коэффициент надежности 0,72 (A. Anostosi, J. Drake, 1954)
75-79 70-74 65-69 60-64i
155-59 50-54 i 1 45-49 И 1 40-44 1 35-39 30-35 25-29 20-24 15-19иii
fM-iч11
/иufniiiilii
itmililliiiii
////ми114i
/////mimilii
тчiiiii
/illi
/
CT>
in
S
0
01
Ю ГО
f
0 in 0
104 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
вочки, то можно заключить, что мальчики будут превосходить девочек
по этому тесту и в популяции в целом.
Коэффициент надежности. Коэффициенты корреляции часто
применяются при анализе психологических данных. Одно из таких при-
менений - это измерение надежности теста. Пример коэффициента надеж-
ности, вычисленного по пирсоновскому методу смешанных моментов,
приведен на рис. 10. В этом случае выяснялось наличие корреляции ме-
жду показателями 104 человек по двум эквивалентным формам теста
беглости речи. В обоих случаях испытуемым давалось пять минут, в те-
чение которых они должны были написать как можно больше слов, на-
чинающихся на заданную букву. Формы теста отличались друг от друга
лишь задаваемой буквой. Авторы теста подобрали начальные буквы
с таким расчетом, чтобы трудность заданий была примерно одинаковой.
Корреляция между числом слов, написанных в ходе выполнения
каждой из двух форм данного теста, оказалась равной 0,72, т. е. значимой
на уровне 0,01. При наличии 104 случаев любая корреляция, превышаю-
щая 0,25, значима на этом уровне. Тем не менее полученная корреляция
несколько ниже, чем это желательно для коэффициента надежности, ко-
торый обычно бывает выше 0,8 и даже 0,9. Диаграмма на рис. 10 пред-
ставляет типичное двумерное распределение с высокой положительной
корреляцией. Можно видеть, как палочки теснятся вблизи диагонали,
идущей от левого нижнего к правому верхнему углу. Направление это
в общем довольно ясно выражено, хотя и наблюдается некоторый раз-
брос палочек. В следующем разделе обсуждается использование коэффи-
циента корреляции для вычисления различных мер надежности теста.
ТИПЫ НАДЕЖНОСТИ
Ретестовая надежность. Самый естественный способ определить
надежность результатов теста-использовать тот же тест второй раз.
В этом случае коэффициент надежности (Гц) просто равен корреляции
между результатами, полученными на одних и тех же испытуемых в каж-
дом из двух случаев проведения теста. Дисперсия ошибки соответствует
случайным колебаниям в выполнении заданий от одного сеанса тестиро-
вания к другому. Эти колебания могут отчасти быть результатом некон-
тролируемых условий тестирования-таких, как значительные изменения
погоды, появление неожиданного шума и иных отвлекающих моментов
типа сломавшегося карандаша. В какой-то степени их можно объяснять
изменениями в состоянии самого испытуемого-например болезнью,
утомлением, эмоциональным напряжением, беспокойством, недавними
приятными или неприятными переживаниями и т.д. Ретестовая надеж-
ность показывает, в какой степени результаты теста можно распростра-
нить на различные случаи его применения. Чем выше надежность, тем
менее чувствительны результаты к обычным изменениям состояния ис-
пытуемого и обстановки тестирования.
Приводя в руководстве к тесту его ретестовую надежность, всегда
следует указывать, в каком интервале времени она измерена. Поскольку
ретестовая корреляция с течением времени постепенно снижается для
105 НАДЕЖНОСТЬ
любого теста, существует не один, а бесконечное количество ретестовых
коэффициентов надежности. Желательно также давать некоторые сведе-
ния о событиях, происшедших за это время с испытуемыми в учебе или
работе (консультировался ли кто-либо с психологом или прошел курс
психотерапии и т.д.).
Независимо от желательности сведений об интервале времени меж-
ду двумя тестированиями, какими соображениями следует руководство-
ваться при выборе этого интервала? Можно привести немало примеров
того, как надежность теста остается высокой в течение нескольких дней
или недель, но спустя десять-пятнадцать лет его результаты уже почти
не коррелируют с первоначальными. Так, многие из тестов интеллекта
для дошкольников достаточно стабильны в дошкольный период, но со-
вершенно бесполезны для предсказания, каков будет IQ ребенка в стар-
шем возрасте или во взрослом состоянии. На практике, однако, чаще
всего можно провести следующее различие. На дисперсию ошибки те-
стовых результатов обычно влияют случайные колебания с периодами
от нескольких часов до нескольких месяцев. Поэтому, определяя тип тес-
товой надежности, стараются придерживаться небольших временных ин-
тервалов. При тестировании маленьких детей этот период должен быть
еще короче, чем у испытуемых старшего возраста, поскольку в раннем
детстве возрастные изменения происходят в течение месяца и даже
быстрее.
В целом для любого типа испытуемых интервал между двумя после-
довательными применениями теста обычно не должен превышать 6 мес.
Изменения относительного выполнения теста индивидами, происходя-
щие в более длительные промежутки времени, уместнее отнести к куму-
лятивным и постепенным, а не к чисто случайным. Более того, они, ско-
рее всего, характеризуют более широкую сферу поведения, чем та,
которая проявляется при выполнении данного теста. Общий уровень
развития индивида, его способность к обучению, к пониманию техниче-
ских устройств, его суждения об искусстве могут за 10 лет существенно
измениться. Его личностный статус с годами может заметно возрасти
или упасть вследствие обстоятельств жизни дома, в школе или условий
социального окружения, а также по таким причинам, как болезнь или
эмоциональное расстройство.
Степень влияния таких факторов на психическое развитие индивида
является важной исследовательской проблемой. Однако этот вопрос не
следует смешивать с вопросом надежности конкретного теста. Напри-
мер, при измерении надежности тестов Станфорд-Бине, как правило, со-
относят показатели, полученные с интервалом не в десять лет или даже
в один год, а в несколько недель. Конечно, с этими тестами проводились
и долгосрочные ретестовые испытания, но их результаты обычно обсу-
ждаются с точки зрения предсказуемости уровня интеллекта взрослого
на основе выполнения теста в детском возрасте, а не с точки зрения на-
дежности конкретного теста. Понятие надежности в основном ограничи-
вается краткосрочными случайными изменениями, характеризующими
выполнение теста самого по себе, а не тестируемую область поведения.
Следует отметить, что в различных поведенческих функциях обыч-
ные . колебания проявляются неодинаково. Например, на отточенности
движений пальцев могут сказаться самые незначительные изменения
в состоянии индивида, никак не влияющие на его понимание речи. Если
хотят получить общую оценку характера движений пальцев индивида,
106 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
то, по всей видимости, нужно провести повторные тесты в течение не-
скольких дней; для выяснения же понимания им речи достаточно одного
сеанса тестирования. Но всякий раз необходимо обращаться к анализу
цели теста, основывая его на понимании того поведения, которое пред-
назначен предсказать тест.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132