чем
В боттРР прттгч>">вт11-,1-т"-"-"- ---" "
197 АНАЛИЗ ЗАДАНИЙ
респондентов выборка, на которой анализируются задания, располо-
женные в конце теста, охватывала бы относительно узкий диапазон спо-
собности. В этих условиях валидность более поздних заданий скорее все-
го окажется ниже, чем если бы она вычислялась на всей выборке.
Ожидаемое влияние скорости на индексы трудности и валидности
заданий проверялось опытным путем как для случаев, когда статистиче-
ская обработка проводится по всей выборке (A.G.Wesman, 1949), так
и для случаев, когда выборка ограничивалась лицами, пытавшимися вы-
полнить задание (W.G. Mollenkopf, 1950 а). Во втором из этих двух ис-
следований сопоставимым группам старшеклассников давались две
формы вербального теста и две формы математического теста. Каждая
из двух форм состояла из одних и тех же заданий, но начальные и ко-
нечные серии в этих формах менялись местами. Каждая форма предъя-
влялась в жестких (условия скорости) и свободных (условия возможно-
стей) временных рамках. Такой способ тестирования позволил сравнить
между собой как формы тестов, так и временные условия. Результаты
ясно показали, что положение задания в скоростном тесте влияет на ин-
дексы трудности и валидности. Когда одной то же задание предъявля-
лось не в самом начале скоростного теста, оно выполнялось большим
процентом испытуемых, пытавшихся его решить, и имело более высокую
корреляцию с критерием.
Трудности, возникающие в ходе анализа заданий скоростного теста,
в принципе аналогичны тем, о которых говорилось в гл. 5 в связи
с надежностью тестов на скорость. Были предложены различные спо-
собы преодоления этих трудностей, касающиеся как процедуры тестиро-
вания, так и статистической обработки результатов. Одним из эмпириче-
ских решений было увеличение лимита времени для групп, на которых
проводится анализ заданий. Такое решение приемлемо, если только сама
скорость не является важным аспектом измеряемой тестом способности.
Помимо технических проблем, относящихся к конкретным тестам, необ-
ходимо иметь в виду, что данные, получаемые в ходе анализа заданий
скоростных тестов, ненадежны и нуждаются в тщательном изучении.
ПЕРЕКРЕСТНАЯ ВАЛИДАЦИЯ
Значение перекрестной валидации. Важно, чтобы валидность теста
определялась на выборке испытуемых, отличной от той, с помощью ко-
торой производился отбор заданий. Такое независимое измерение валид-
ности всего теста называется перекрестной валидацией (C.I. Mosier,
1951). Любой коэффициент валидности, найденный по выборке, приме-
нявшейся для отбора заданий, окажется завышенным, так как случайные
особенности этой выборки будут учитываться как истинные свойства по-
пуляции. Фактически при таких обстоятельствах высокий коэффициент
валидности может появиться, даже когда тест совершенно не обладает
валидностью в предсказании конкретного критерия.
Предположим, что в выборке из 100 студентов-медиков было выде-
лено 30 человек с самой высокой успеваемостью и 30 с наиболее низкой
успеваемостью, которые составили контрастные критериальные группы.
Если теперь эти две группы сопоставить по ряду качеств, фактически не
имеющих отношения к успеваемости в медицинском институте, то, не-
198 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
частных школ и рыжеволосых студентов. Если бы нам пришло в голову
приписывать каждому человеку по очку за окончание частной школы
и за рыжий цвет волос, то средний результат оказался бы, несомненно,
выше в верхней, чем в нижней критериальной группе. Однако это не сви-
детельствует о валидности выбранных признаков, так как данный про-
цесс валидации содержит круг в доказательстве. Оба предиктора вы-
браны в первую очередь на основе случайных особенностей, характери-
зующих данную выборку. И те же случайные различия ответственны за
появление различий между суммарными результатами. Однако при про-
верке на другой выборке случайные различия в количестве окончивших
частные школы и рыжих, скорее всего, исчезнут или изменят знак, и сле-
довательно, валидность показателей нарушится.
Практический пример. Конкретной иллюстрацией необходимо-
сти перекрестной валидации является исследование, в котором была
предпринята попытка выяснить применимость роршаховского теста чер-
нильных пятен для найма управляющих агентствами по страхованию
жизни (А. К. Kurtz, 1948). Этот тест был применен к 80 испытуемым,
тщательно отобранным среди нескольких сот таких управляющих, рабо-
тавших в восьми страховых компаниях. Из этих 80 человек 42, считав-
шихся весьма компетентными работниками, составили верхнюю крите-
риальную группу. Остальные 38 человек были неудовлетворительными
работниками, и они образовали нижнюю критериальную группу. Полу-
ченные 80 тестовых ответов были изучены экспертами по тесту Роршаха,
отобравшими 32 знака (т.е. характеристики ответов), чаще встречавших-
ся в одной группе, нежели в другой. Затем каждому испытуемому было
присуждено по +1 очку за каждый знак, чаще обнаруживаемый в верх-
ней критериальной группе, и по-1 очку за каждый знак, чаще встречав-
шийся в нижней критериальной группе. Поскольку всего имелось по 16
знаков каждого типа, суммарный результат теоретически мог принимать
значения от -16 до +16.
Когда этот ключ, основанный на 32 знаках, был применен к перво-
начальной группе из 80 человек, принадлежность 79 из них к верхней или
нижней группе была определена правильно. Таким образом, корреляция
между результатом теста и критерием оказалась близкой к 1,00. Однако
когда была проведена перекрестная валидация теста на второй сопоста-
вимой выборке управляющих страховыми агентствами, насчитывавшей
41 человек (21 в верхней группе и 20 в нижней), коэффициент валидности
упал до ничтожной цифры 0,02. Очевидно, таким образом, что ключ, раз-
работанный на первой выборке, не пригоден для отбора персонала на
такую должность.
Пример со случайными данными. Э. Э. Кьюретон (Е. Е. Ки-
reton, 1950) убедительно показал, что использование одной и той
же выборки для отбора заданий и валидации теста может привести
к значительному завышению коэффициента валидности даже при чисто
случайных условиях. В этой работе прогнозируемым критерием служил
средний балл каждого из 29 студентов, записавшихся на курс психоло-
гии. Весь диапазон значений этого критерия был разбит на две области:
оценки не ниже <В> и оценки ниже <В>. Роль <заданий> в этом экспери-
менте играли 85 номерков (1-85). Чтобы получить <результаты> теста
для каждого испытуемого, номерки складывались в коробочку, переме-
ТТТИВЯ ЛИСТ. И RЫГTПЯTTИr НЯ Г-ТПТТ Тр тлч UMV vn-rnner ттзгтпгтп гтт1ттот1Г>й г-гп-
199 АНАЛИЗ ЗАДАНИЙ
дентом заданий. Подобный <тест> был проведен 29 раз, что дало
полный набор <результатов> каждого студента по каждому <заданию>.
Эту процедуру Э. Кьюретон остроумно назвал <тест В-проективного
психокинеза>.
Затем был проведен анализ заданий, в котором в качестве критерия
фигурировал средний балл студента. В результате из 85 <заданий> было
отобрано 24, из коих 9 чаще <выполнялись> членами верхней крите-
риальной группы и поэтому получили веса + 1, тогда как 15 чаще <вы-
полнялись> в нижней группе, и им приписывались веса - 1.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132
В боттРР прттгч>">вт11-,1-т"-"-"- ---" "
197 АНАЛИЗ ЗАДАНИЙ
респондентов выборка, на которой анализируются задания, располо-
женные в конце теста, охватывала бы относительно узкий диапазон спо-
собности. В этих условиях валидность более поздних заданий скорее все-
го окажется ниже, чем если бы она вычислялась на всей выборке.
Ожидаемое влияние скорости на индексы трудности и валидности
заданий проверялось опытным путем как для случаев, когда статистиче-
ская обработка проводится по всей выборке (A.G.Wesman, 1949), так
и для случаев, когда выборка ограничивалась лицами, пытавшимися вы-
полнить задание (W.G. Mollenkopf, 1950 а). Во втором из этих двух ис-
следований сопоставимым группам старшеклассников давались две
формы вербального теста и две формы математического теста. Каждая
из двух форм состояла из одних и тех же заданий, но начальные и ко-
нечные серии в этих формах менялись местами. Каждая форма предъя-
влялась в жестких (условия скорости) и свободных (условия возможно-
стей) временных рамках. Такой способ тестирования позволил сравнить
между собой как формы тестов, так и временные условия. Результаты
ясно показали, что положение задания в скоростном тесте влияет на ин-
дексы трудности и валидности. Когда одной то же задание предъявля-
лось не в самом начале скоростного теста, оно выполнялось большим
процентом испытуемых, пытавшихся его решить, и имело более высокую
корреляцию с критерием.
Трудности, возникающие в ходе анализа заданий скоростного теста,
в принципе аналогичны тем, о которых говорилось в гл. 5 в связи
с надежностью тестов на скорость. Были предложены различные спо-
собы преодоления этих трудностей, касающиеся как процедуры тестиро-
вания, так и статистической обработки результатов. Одним из эмпириче-
ских решений было увеличение лимита времени для групп, на которых
проводится анализ заданий. Такое решение приемлемо, если только сама
скорость не является важным аспектом измеряемой тестом способности.
Помимо технических проблем, относящихся к конкретным тестам, необ-
ходимо иметь в виду, что данные, получаемые в ходе анализа заданий
скоростных тестов, ненадежны и нуждаются в тщательном изучении.
ПЕРЕКРЕСТНАЯ ВАЛИДАЦИЯ
Значение перекрестной валидации. Важно, чтобы валидность теста
определялась на выборке испытуемых, отличной от той, с помощью ко-
торой производился отбор заданий. Такое независимое измерение валид-
ности всего теста называется перекрестной валидацией (C.I. Mosier,
1951). Любой коэффициент валидности, найденный по выборке, приме-
нявшейся для отбора заданий, окажется завышенным, так как случайные
особенности этой выборки будут учитываться как истинные свойства по-
пуляции. Фактически при таких обстоятельствах высокий коэффициент
валидности может появиться, даже когда тест совершенно не обладает
валидностью в предсказании конкретного критерия.
Предположим, что в выборке из 100 студентов-медиков было выде-
лено 30 человек с самой высокой успеваемостью и 30 с наиболее низкой
успеваемостью, которые составили контрастные критериальные группы.
Если теперь эти две группы сопоставить по ряду качеств, фактически не
имеющих отношения к успеваемости в медицинском институте, то, не-
198 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
частных школ и рыжеволосых студентов. Если бы нам пришло в голову
приписывать каждому человеку по очку за окончание частной школы
и за рыжий цвет волос, то средний результат оказался бы, несомненно,
выше в верхней, чем в нижней критериальной группе. Однако это не сви-
детельствует о валидности выбранных признаков, так как данный про-
цесс валидации содержит круг в доказательстве. Оба предиктора вы-
браны в первую очередь на основе случайных особенностей, характери-
зующих данную выборку. И те же случайные различия ответственны за
появление различий между суммарными результатами. Однако при про-
верке на другой выборке случайные различия в количестве окончивших
частные школы и рыжих, скорее всего, исчезнут или изменят знак, и сле-
довательно, валидность показателей нарушится.
Практический пример. Конкретной иллюстрацией необходимо-
сти перекрестной валидации является исследование, в котором была
предпринята попытка выяснить применимость роршаховского теста чер-
нильных пятен для найма управляющих агентствами по страхованию
жизни (А. К. Kurtz, 1948). Этот тест был применен к 80 испытуемым,
тщательно отобранным среди нескольких сот таких управляющих, рабо-
тавших в восьми страховых компаниях. Из этих 80 человек 42, считав-
шихся весьма компетентными работниками, составили верхнюю крите-
риальную группу. Остальные 38 человек были неудовлетворительными
работниками, и они образовали нижнюю критериальную группу. Полу-
ченные 80 тестовых ответов были изучены экспертами по тесту Роршаха,
отобравшими 32 знака (т.е. характеристики ответов), чаще встречавших-
ся в одной группе, нежели в другой. Затем каждому испытуемому было
присуждено по +1 очку за каждый знак, чаще обнаруживаемый в верх-
ней критериальной группе, и по-1 очку за каждый знак, чаще встречав-
шийся в нижней критериальной группе. Поскольку всего имелось по 16
знаков каждого типа, суммарный результат теоретически мог принимать
значения от -16 до +16.
Когда этот ключ, основанный на 32 знаках, был применен к перво-
начальной группе из 80 человек, принадлежность 79 из них к верхней или
нижней группе была определена правильно. Таким образом, корреляция
между результатом теста и критерием оказалась близкой к 1,00. Однако
когда была проведена перекрестная валидация теста на второй сопоста-
вимой выборке управляющих страховыми агентствами, насчитывавшей
41 человек (21 в верхней группе и 20 в нижней), коэффициент валидности
упал до ничтожной цифры 0,02. Очевидно, таким образом, что ключ, раз-
работанный на первой выборке, не пригоден для отбора персонала на
такую должность.
Пример со случайными данными. Э. Э. Кьюретон (Е. Е. Ки-
reton, 1950) убедительно показал, что использование одной и той
же выборки для отбора заданий и валидации теста может привести
к значительному завышению коэффициента валидности даже при чисто
случайных условиях. В этой работе прогнозируемым критерием служил
средний балл каждого из 29 студентов, записавшихся на курс психоло-
гии. Весь диапазон значений этого критерия был разбит на две области:
оценки не ниже <В> и оценки ниже <В>. Роль <заданий> в этом экспери-
менте играли 85 номерков (1-85). Чтобы получить <результаты> теста
для каждого испытуемого, номерки складывались в коробочку, переме-
ТТТИВЯ ЛИСТ. И RЫГTПЯTTИr НЯ Г-ТПТТ Тр тлч UMV vn-rnner ттзгтпгтп гтт1ттот1Г>й г-гп-
199 АНАЛИЗ ЗАДАНИЙ
дентом заданий. Подобный <тест> был проведен 29 раз, что дало
полный набор <результатов> каждого студента по каждому <заданию>.
Эту процедуру Э. Кьюретон остроумно назвал <тест В-проективного
психокинеза>.
Затем был проведен анализ заданий, в котором в качестве критерия
фигурировал средний балл студента. В результате из 85 <заданий> было
отобрано 24, из коих 9 чаще <выполнялись> членами верхней крите-
риальной группы и поэтому получили веса + 1, тогда как 15 чаще <вы-
полнялись> в нижней группе, и им приписывались веса - 1.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132