Сумма весов
<заданий> составляла итоговый результат каждого студента. Несмотря
на заведомо случайное происхождение данных, корреляция <результатов
теста> с критерием успеваемости для все той же группы из 29 студентов
оказалась равной 0,82. Этот результат аналогичен тому, который был
получен в примере с тестом Роршаха. В обоих случаях очевидное со-
ответствие между результатами теста и критерием объясняется исполь-
зованием одних и тех же случайных различий как для отбора заданий,
так и для определения валидности теста в целом.
Условия, влияющие на снижение валидности. Степень сни-
жения коэффициента валидности при перекрестной валидации частично
зависит от размера первоначальной совокупности заданий и от того, ка-
кая часть заданий сохраняется. Если первоначальное число заданий вели-
ко, а доля отобранных заданий мала, то возрастает возможность исполь-
зования случайных различий и тем самым получения завышенного
коэффициента валидности. На степень снижения валидности при пере-
крестной валидации влияет также размер выборки. Поскольку завыше-
ние валидности в первоначальной выборке является результатом нако-
пления ошибок выборки, при малых выборках (для которых такие
ошибки больше) будет наблюдаться большее снижение валидности.
Если задания отбираются сообразно гипотезам, которые формули-
руются заранее, исходя из психологической теории или опыта работы
с данным критерием, то при перекрестной валидации сокращение валид-
ности будет минимальным. Например, если согласно частной гипотезе
ответ <да> должен появляться чаще среди успевающих учеников, то за-
дание следует отбросить, когда ответ <да> значительно чаще исходит от
неуспевающих учеников. Наоборот, бездумный эмпирический подход оз-
начал бы, например, включение в первоначальную серию самых разно-
образных вопросов, безотносительно к их связи с критериальным пове-
дением, в расчете на последующий отбор заданий, имеющих значимую
положительную или отрицательную корреляцию с критерием. В послед-
нем случае следует ожидать большего снижения валидности, чем
в первом. Итак, снижение валидности теста при перекрестной валида-
ции будет наибольшим, если выборки малы, исходный набор заданий ве-
лик, величина отобранных заданий мала и задания подбираются без за-
ранее выработанной системы гипотез.
ВЗАИМОДЕЙСТВИЕ МЕЖДУ ЗАДАНИЕМ И ГРУППОЙ
Предварительные исследования. В той мере, в какой разные куль-
туры или субкультуры благоприятствуют развитию различных навыков
и знаний, эти различия сказываются и на результатах тестов. Общий
200
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
средой. В связи с этим возникает вопрос об относительной трудности
заданий для групп с различными культурами. Если трудность измеряет-
ся обычным способом, т.е. с помощью процента справившихся с зада-
нием, то будет ли ранг порядка задания тем же самым от группы к груп-
пе, независимо от общего уровня его выполнения? Уже в первых
исследованиях, направленных на выяснение этого вопроса, был обнару-
жен ряд существенных различий между городскими и сельскими детьми
по отношению к трудности заданий тестов Станфорд-Бине (Н.Е. Jones,
H.S.Conrad, M.B.BIanchard, 1930) и общей информативности теста
(M.E.Shimberg, 1929).
Более полную информацию о групповых различиях относительно
трудности заданий дает мера взаимодействия между заданием и груп-
пой, получаемая посредством дисперсионного анализа. Существует
и другой метод, по которому определяется корреляция в двух группах
процента выполнивших одни и те же задания или значений А. При отсут-
ствии значимого взаимодействия между заданием и группой, т.е. если
Рис. 27. Двумерное распределение трудности заданий предварительного теста способ-
ности к обучению для двух случайных выборок белых учеников-старшеклассников
(W. Н. Angoff, S. F. Ford, 1973).
С разрешения Национального совета по статистике в образовании
201
АНАЛИЗ ЗАДАНИЙ
относительные трудности заданий одинаковы для обоих групп, эта кор-
реляция должна быть близка к 1,0. Эти более совершенные средства ста-
тистического анализа были применены для исследования предваритель-
ного теста способности к обучению для старшеклассников. Изучению
было подвергнуто влияние на относительную трудность заданий этого
теста таких факторов, как этнический, социоэкономический и проживание
в городе или в сельской местности (W.H. Angoff, S.F. Ford, 1973;
Т. A. Cleary, Т. L. Hilton, 1968).
Было обнаружено значимое, хотя и слабое взаимодействие между
заданиями и группами. Корреляция между значениями А для двух этни-
ческих групп была несколько ниже корреляции для двух случайных вы-
борок из одной и той же этнической группы. На рис. 27 и 28 представ-
лены два двумерных распределения показателя А. При сравнении двух
случайных выборок белых старшеклассников (рис. 27) значения показате-
ля А для заданий теста оказались весьма сходными, причем коэффициент
корреляции достиг 0,987. Когда же были сопоставлены результаты белых
Рис. 28. Двумерное роспредепение трудности заданий предварительного теста способ-
ности к обучению для двух случайных выборок белых и черных учеников-старше-
классников (W. Н. Angoff, S. F. Ford, 1973).
С разрешения Национального совета по статистике в образовании
10 12 14 16
Чмакйыия А для выбооки черных школьников
202 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
и черных школьников (рис. 28), выяснилось, что для негритянских детей
задания не только были в целом труднее, но и имели несколько иную от-
носительную трудность, на что указывает коэффициент корреляции 0,929.
Попытки выяснить причины этих различий привели к следующим
предварительным выводам. Во-первых, обследование содержания зада-
ний не вскрыло какой-либо связи между ними и известными различиями
в предшествующем жизненном опыте сравниваемых групп. Во-вторых,
уравнивание групп по когнитивной переменной, на которую были ориен-
тированы задания, приводило к сокращению групповых различий как по
среднему показателю, так и по взаимодействию между заданием и груп-
пой. Последний результат указывает на то, что относительная трудность
заданий зависит, по крайней мере отчасти, от абсолютного уровня раз-
вития измеряемой тестом способности. Возможно, например, что лица
с разными уровнями способностей пользуются при выполнении одного
и того же задания различными методами решения задач или когни-
тивными навыками. Поэтому задания, оказавшиеся относительно
трудными при решении их методом А, могут оказаться намного легче,
если их решать методом В, и наоборот.
Следует добавить, что все методы исследования взаимодействия
между заданием и группой в тестах способностей применимы также
к личностным тестам. В последнем случае, правда, измеряется не труд-
ность заданий, а относительная частота выбора конкретных ответов
в тестах типа шкал способностей или личностных опросников.
Отбор заданий для минимизации или максимизации груп-
повых различий. При построении определенных тестов взаимодей-
ствие между заданием и группой используется в качестве признака для
отбора заданий. В ходе разработки, например, тестов Станфорд-Вине
составители стремились исключить задания, ставящие представителей
того или иного пола в более выгодное положение.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132
<заданий> составляла итоговый результат каждого студента. Несмотря
на заведомо случайное происхождение данных, корреляция <результатов
теста> с критерием успеваемости для все той же группы из 29 студентов
оказалась равной 0,82. Этот результат аналогичен тому, который был
получен в примере с тестом Роршаха. В обоих случаях очевидное со-
ответствие между результатами теста и критерием объясняется исполь-
зованием одних и тех же случайных различий как для отбора заданий,
так и для определения валидности теста в целом.
Условия, влияющие на снижение валидности. Степень сни-
жения коэффициента валидности при перекрестной валидации частично
зависит от размера первоначальной совокупности заданий и от того, ка-
кая часть заданий сохраняется. Если первоначальное число заданий вели-
ко, а доля отобранных заданий мала, то возрастает возможность исполь-
зования случайных различий и тем самым получения завышенного
коэффициента валидности. На степень снижения валидности при пере-
крестной валидации влияет также размер выборки. Поскольку завыше-
ние валидности в первоначальной выборке является результатом нако-
пления ошибок выборки, при малых выборках (для которых такие
ошибки больше) будет наблюдаться большее снижение валидности.
Если задания отбираются сообразно гипотезам, которые формули-
руются заранее, исходя из психологической теории или опыта работы
с данным критерием, то при перекрестной валидации сокращение валид-
ности будет минимальным. Например, если согласно частной гипотезе
ответ <да> должен появляться чаще среди успевающих учеников, то за-
дание следует отбросить, когда ответ <да> значительно чаще исходит от
неуспевающих учеников. Наоборот, бездумный эмпирический подход оз-
начал бы, например, включение в первоначальную серию самых разно-
образных вопросов, безотносительно к их связи с критериальным пове-
дением, в расчете на последующий отбор заданий, имеющих значимую
положительную или отрицательную корреляцию с критерием. В послед-
нем случае следует ожидать большего снижения валидности, чем
в первом. Итак, снижение валидности теста при перекрестной валида-
ции будет наибольшим, если выборки малы, исходный набор заданий ве-
лик, величина отобранных заданий мала и задания подбираются без за-
ранее выработанной системы гипотез.
ВЗАИМОДЕЙСТВИЕ МЕЖДУ ЗАДАНИЕМ И ГРУППОЙ
Предварительные исследования. В той мере, в какой разные куль-
туры или субкультуры благоприятствуют развитию различных навыков
и знаний, эти различия сказываются и на результатах тестов. Общий
200
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
средой. В связи с этим возникает вопрос об относительной трудности
заданий для групп с различными культурами. Если трудность измеряет-
ся обычным способом, т.е. с помощью процента справившихся с зада-
нием, то будет ли ранг порядка задания тем же самым от группы к груп-
пе, независимо от общего уровня его выполнения? Уже в первых
исследованиях, направленных на выяснение этого вопроса, был обнару-
жен ряд существенных различий между городскими и сельскими детьми
по отношению к трудности заданий тестов Станфорд-Бине (Н.Е. Jones,
H.S.Conrad, M.B.BIanchard, 1930) и общей информативности теста
(M.E.Shimberg, 1929).
Более полную информацию о групповых различиях относительно
трудности заданий дает мера взаимодействия между заданием и груп-
пой, получаемая посредством дисперсионного анализа. Существует
и другой метод, по которому определяется корреляция в двух группах
процента выполнивших одни и те же задания или значений А. При отсут-
ствии значимого взаимодействия между заданием и группой, т.е. если
Рис. 27. Двумерное распределение трудности заданий предварительного теста способ-
ности к обучению для двух случайных выборок белых учеников-старшеклассников
(W. Н. Angoff, S. F. Ford, 1973).
С разрешения Национального совета по статистике в образовании
201
АНАЛИЗ ЗАДАНИЙ
относительные трудности заданий одинаковы для обоих групп, эта кор-
реляция должна быть близка к 1,0. Эти более совершенные средства ста-
тистического анализа были применены для исследования предваритель-
ного теста способности к обучению для старшеклассников. Изучению
было подвергнуто влияние на относительную трудность заданий этого
теста таких факторов, как этнический, социоэкономический и проживание
в городе или в сельской местности (W.H. Angoff, S.F. Ford, 1973;
Т. A. Cleary, Т. L. Hilton, 1968).
Было обнаружено значимое, хотя и слабое взаимодействие между
заданиями и группами. Корреляция между значениями А для двух этни-
ческих групп была несколько ниже корреляции для двух случайных вы-
борок из одной и той же этнической группы. На рис. 27 и 28 представ-
лены два двумерных распределения показателя А. При сравнении двух
случайных выборок белых старшеклассников (рис. 27) значения показате-
ля А для заданий теста оказались весьма сходными, причем коэффициент
корреляции достиг 0,987. Когда же были сопоставлены результаты белых
Рис. 28. Двумерное роспредепение трудности заданий предварительного теста способ-
ности к обучению для двух случайных выборок белых и черных учеников-старше-
классников (W. Н. Angoff, S. F. Ford, 1973).
С разрешения Национального совета по статистике в образовании
10 12 14 16
Чмакйыия А для выбооки черных школьников
202 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
и черных школьников (рис. 28), выяснилось, что для негритянских детей
задания не только были в целом труднее, но и имели несколько иную от-
носительную трудность, на что указывает коэффициент корреляции 0,929.
Попытки выяснить причины этих различий привели к следующим
предварительным выводам. Во-первых, обследование содержания зада-
ний не вскрыло какой-либо связи между ними и известными различиями
в предшествующем жизненном опыте сравниваемых групп. Во-вторых,
уравнивание групп по когнитивной переменной, на которую были ориен-
тированы задания, приводило к сокращению групповых различий как по
среднему показателю, так и по взаимодействию между заданием и груп-
пой. Последний результат указывает на то, что относительная трудность
заданий зависит, по крайней мере отчасти, от абсолютного уровня раз-
вития измеряемой тестом способности. Возможно, например, что лица
с разными уровнями способностей пользуются при выполнении одного
и того же задания различными методами решения задач или когни-
тивными навыками. Поэтому задания, оказавшиеся относительно
трудными при решении их методом А, могут оказаться намного легче,
если их решать методом В, и наоборот.
Следует добавить, что все методы исследования взаимодействия
между заданием и группой в тестах способностей применимы также
к личностным тестам. В последнем случае, правда, измеряется не труд-
ность заданий, а относительная частота выбора конкретных ответов
в тестах типа шкал способностей или личностных опросников.
Отбор заданий для минимизации или максимизации груп-
повых различий. При построении определенных тестов взаимодей-
ствие между заданием и группой используется в качестве признака для
отбора заданий. В ходе разработки, например, тестов Станфорд-Вине
составители стремились исключить задания, ставящие представителей
того или иного пола в более выгодное положение.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132