Следует помнить, что стандартная ошибка различий двух показате-
лей больше, чем ошибка измерения каждого из них в отдельности. Это
вытекает из того, что на это различие влияют случайные ошибки измере-
ния обоих показателей. Зная величины стандартных ошибок для каждого
из двух результатов теста, стандартную ошибку разности различий мож-
но вычислить по следующей формуле:
= 1/1 + 2.
где стд-стандартная ошибка различий двух результатов, а с и
ст"2 -стандартные ошибки измерения каждого результата. Подставляя
<71/1- rii на место (71 и ст]/1-Гц на место (72, можно выразить о а
через коэффициенты надежности:
= ст/2- ri, - г" .
Здесь
в одну и ту же шкалу.
Проиллюстрируем приведенную выше процедуру на примере вер-
бального IQ и IQ шкалы действия интеллекта взрослых Векслера. Най-
" Поскольку коэффициент надежности (и, следовательно, ет") несколько меняется
в зависимости от субтеста, класса и пола, действительные диапазоны дюймовых полос на
123
НАДЕЖНОСТЬ
денные методом расщепления коэффициенты надежности этих показате-
лей равны соответственно 0,96 и 0,93. Для этой шкалы стандартный IQ
имеет М -- 100 и о = 15. Таким образом, стандартная ошибка различия
двух результатов может быть найдена следующим образом:
Рис. 13. Профиль результатов теста различных
с использованием процентильных полос,
способностей (DAT), построенный
о Ugsgg g s 5 11 1 11 III ll 11 1 L
вч со + 1-. 3 i>o r3 uio s o
Первич-з u Suю з < ss i с 10 (u т i?" 5-5 з S и
ный ре-
зультат213051433844399640
Процен-тиль609580953080909985
124 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
о а == 152~0,96~0,93 - 4,95.
Чтобы определить, насколько велики такие различия результатов в слу-
чае уровня 0,05, умножим стандартную ошибку разности 4,95 на 1,96, что
даст 9,7, т.е. приблизительно 10 единиц шкалы. Следовательно, различия
выполнения индивидом вербального IQ и IQ действия по этой шкале
должны быть не меньше 10, чтобы их можно было считать значимыми
на уровне 0,05.
НАДЕЖНОСТЬ КРИТЕРИАЛЬНО-ОРИЕНТИРОВАННЫХ ТЕСТОВ
В гл. 4 говорилось, что критериальный тест обычно (хотя и не всегда)
оценивает выполнение скорее как овладение навыком, чем как уровнь до-
стижений. Основное статистическое следствие из тестирования владения
навыком-снижение вариативности результатов у испытуемых. Теорети-
чески, если обучение каждого индивида продолжать, пока тот не овла-
деет навыком, вариативность упадет до нуля. Низкая вариативность
объясняется не только спецификой процедуры критериально-ориентиро-
ванного тестирования, но, как будет видно из гл. 8, она привносится
в тесты через построение и отбор заданий.
В одном из предыдущих разделов этой главы объяснялось, что лю-
бая корреляция, и коэффициент надежности в том числе, зависит от раз-
нородности состава группы, на которой она определяется. С повыше-
нием однородности выборки коэффициент корреляции снижается. Следо-
вательно, было бы неправильно оценивать надежность большинства
критериально-ориентированных тестов обычными методами. При этих
условиях даже тесты с высокой стабильностью и внутренне согласо-
ванные могли бы иметь коэффициент надежности близкий к нулю.
При построении критериально-ориентированных тестов важно найти
ответы на следующие два вопроса: (1) какое число заданий следует счи-
тать достаточным для надежной оценки тех учебных задач, к которым
относится тест? и (2) какое количество заданий должно быть выполнено,
чтобы оценка овладения навыком была надежной? Ответы на эти два
вопроса в настоящее время даются большей частью на основе субъек-
тивных суждений. Однако предпринимаются усилия для разработки ста-
тистических методов, которые давали бы объективную эмпирическую
оценку (R.L.Ferguson, M.R.Novick, 1973; R.UIaser, A.J.Nitko, 1971;
R.K.Hambleton, M.R.Novick, 1973; S.A.Livingston, 1972; J.Millman,
1974). Несколько примеров послужат иллюстрацией характера и разно-
сторонности этих усилий.
Два вопроса о числе заданий и зачетных нормативах могут быть со-
единены в одной предпосылке, поддающейся проверке методами теории
решений и последовательного анализа (R.GIaser, A.J.Nitko, 1971;
B.W. Lindgren, G.W. McElrath, 1969; A. Wald, 1947). Собственно говоря,
" Более полное обсуждение специальных статистических процедур, необходимых для
построения и оценки критериально-ориентированных тестов, приводится в работах
Р. Гласера, А. Нитко, Р. Хамблетона, М. Новика, Дж. Миллмана, В. Попхама, Т. Гусека
(R. Glaser, A.J. Nitko, 1971; R.K. Hambleton, M.R. Novick, 1973; J. Millman, 1974; W.J. Po-
pham, T.R. Husek, 1969). В работах Дж. Миллмана (J. Millman, 1972, 1973) дается серия та-
блиц для определения минимального числа заданий, требуемого для установления овладе-
ния навыком на определенном уровне.
125 НАДЕЖНОСТЬ
требуется проверить гипотезу, что испытуемый достиг требуемого овла-
дения навыком в какой-то содержательной области или учебными зада-
чами, тестовыми заданиями. Последовательный анализ состоит в осу-
ществлении одного за другим серии наблюдений, после каждого из
которых принимается решение: (1) принять гипотезу, (2) отклонить гипо-
тезу, (3) провести дополнительное наблюдение. Таким образом, число на-
блюдений (в данном случае-число заданий), необходимых для получе-
ния надежного заключения, определяется в процессе тестирования.
Испытуемый выполняет не фиксированный, заранее определенный .набор
заданий, а продолжает выполнять задания, пока не принимается реше-
ние, владеет он навыком или нет. С этого момента тестирование прекра-
щается и учащийся либо переводится на следующий уровень обучения,
либо продолжается его подготовка по овладению навыком на уровне,
который предполагается тестом. При описанном в гл. 4 применении
компьютеров такая процедура последовательных решений вполне осуще-
ствима и позволяет сократить общее время тестирования, сохраняя при
этом необходимую надежность оценки уровня владения навыком
(R. Glaser, J. Nitko, 1971).
Некоторые исследователи применяют бейесовский метод оценки, ко-
торый сам по себе весьма приспособлен для принятия того типа реше-
ний, которые требуются при тестировании владения навыком. Ввиду
многочисленности тестируемых конкретных учебных задач в критериаль-
но-ориентированных тестах каждая задача обычно обеспечивается не-
большим числом заданий. Для восполнения связанного с этим недостат-
ка информации разработаны способы привлечения дополнительных
данных по тестам, проведенным ранее с тем же учащимся, а также ре-
зультатов тестирования других учеников (R. L. Ferguson, М. R. Novick,
1973; R.K.Hambleton, M.R. Novick, 1973).
Когда гибкие, адаптированные к индивиду процедуры оказываются
неприменимы, для оценки надежности теста можно использовать более
традиционные методы. Например, правильность решения об овладении
навыком может быть проверена выполнением учебных задач следующе-
го уровня. Значительна ли доля учащихся, достигших или превысивших
зачетный норматив теста владения навыком на более низком уровне, но
после, казалось бы, достаточного периода обучения не сумевших овла-
деть навыком на следующем уровне? Можно ли считать на основе ана-
лиза возникших затруднений, что они не достигли по-настоящему
и предыдущего уровня? Если да, то эти данные вполне бы могли озна-
чать недостаточную надежность теста.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132