Может показаться, что к отбору заданий применимы те же методы,
что и при комплектовании батареи тестов. В частности, можно было бы
ориентироваться на корреляцию задания с критерием и с другими зада-
ниями. Лучшим заданиям, отобранным таким путем, можно было бы за-
тем приписать веса и представить в уравнении регрессии. Такая процеду-
ра, однако, неосуществима и теоретически несостоятельна. Дело не
Такая корреляция части и целого будет несколько завышенной в силу присутствия
общей специфической дисперсии и дисперсии ошибки в задании и в тесте, частью которо-
го оно является. Существуют формулы, вносящие необходимую поправку в коэффициент
195 АНАЛИЗ ЗАДАНИЙ
только в усилиях, которые потребовались бы для проведения необхо-
димых вычислений. Более существенно то обстоятельство, что корреля-
ция между заданиями подвержена зависящим от выборки колебаниям
и найденные параметры регрессии слишком неустойчивы, чтобы на них
можно было основывать отбор заданий, не прибегая к чрезвычайно
большим выборкам. По этой причине для отбора заданий по их чистому
вкладу в валидность теста было разработано несколько методов апрок-
симации. Некоторые из этих методов основаны на эмпирическом процес-
се построения теста, при котором набор заданий растет постепенно,
а при добавлении задания валидность всего набора каждый раз под-
считывается заново. Согласно другим методам, вначале берется полный
набор заданий, из которого последовательно изымаются наименее
удачные, пока не достигается требуемая валидность теста. Поскольку да-
же такие методы требуют большого объема вычислений, к ним целесо-
образно обращаться только при наличии вычислительной техники
(J.A.Fossum, 1973; S.Henrysson, 1971).
Следует отметить, что все способы отбора заданий по их чистой эф-
фективности представляют подход, обратный тому, который ориентиро-
ван на внутреннюю согласованность. В первом случае чем выше корре-
ляция между заданием и тестом, тем больше шансов на то, что задание
будет изъято; во втором же случае чем выше такая корреляция, тем
больше вероятность того, что задание будет включено в тест. Цели обо-
их подходов, разумеется, различны. Один направлен на наиболее широ-
кий охват критерия и меньшее дублирование заданий; второй же предус-
матривает повышение однородности теста. И то и другое желательно
иметь в виду при составлении теста. Выбор конкретной процедуры
в большой степени зависит от характера теста и его назначения. Так,
в биографическом опроснике задания (вопросы) можно оценивать и от-
бирать только в соответствии с внешним критерием, причем охватывае-
мое опросником содержание в высшей степени неоднородно. Примером
совсем иного рода может служить тест на правописание, весьма одно-
родный по содержанию; здесь уже существенным ориентиром для отбо-
ра заданий является внутренняя согласованность.
Применительно ко многим задачам тестирования удовлетворитель-
ное решение означает распределение сравнительно однородных заданий
по отдельным тестам или субтестам, каждый из которых относится к ка-
кому-то одному аспекту критерия. Таким образом, учет разных аспектов
достигается разнообразием тестов, каждый из которых позволяет полу-
чить более или менее однозначный результат, а не разнородностью зада-
ний в рамках одного теста. При таком подходе задания с низкими ин-
дексами внутренней согласованности не отбрасываются, а выделяются.
Тем самым в пределах каждого субтеста или группы заданий может
быть достигнута довольно высокая внутренняя согласованность. В то же
время такая согласованность не будет трактоваться как заменитель ва-
лидности по критерию, и потребуется лишь уделить некоторое внимание
тому, чтобы разные аспекты критерия были адекватно представлены
в тесте и чтобы не было чрезмерной концентрации заданий по неко-
торым из аспектов.
196 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
АНАЛИЗ ЗАДАНИЙ ТЕСТОВ НА СКОРОСТЬ
Независимо от того, входит ли скорость в число измеряемых функций,
индексы заданий, вычисленные для скоростных тестов, могут создавать
ложное впечатление. Если не считать заданий, при выполнении которых
никто или почти никто из обследуемых не испытывает недостатка време-
ни, эти индексы отражают не столько действительную трудность или ва-
лидность заданий, сколько их положение в тесте. Задания, выполняемые
в тесте позднее, будут выполнены сравнительно малым числом испы-
туемых, поскольку лишь немногие успевают до них добраться. Каким бы
легким ни было задание, если оно расположено в конце теста на ско-
рость, оно будет казаться трудным. Если, скажем, вопрос об имени ис-
пытуемого поместить в конце скоростного теста, то процент лиц, отве-
тивших на него, будет весьма низким.
Точно так же переоценивается валидность заданий, к выполнению
которых многие испытуемые не успевают приступить. Поскольку более
опытные индивиды обычно работают быстрее, они, по-видимому, скорее
доберутся до заданий, находящихся в конце теста на скорость
(W.G. Mollenkopf, 1950 а). Таким образом, независимо от характера
самого задания некоторая корреляция между ним и критерием будет об-
наружена, даже если оно находится ближе к концу теста.
Чтобы избежать некоторых из этих затруднений, можно ограничить
анализ каждого задания только данными испытуемых, достигших со-
ответствующего задания в тесте. Это решение, однако, нельзя считать
удовлетворительным, если число лиц, выполнивших задание, невелико.
Такая процедура сопряжена с использованием быстро сокращающегося
числа испытуемых, вследствие чего результаты по последним заданиям
могут оказаться ненадежными. Более того, испытуемые, выполнившие
такие задания, вероятно, будут представлять собой селективную выбор-
ку, не сопоставимую с более широкой выборкой, использованной для
анализа ранних заданий. Как уже отмечалось, испытуемые, работающие
быстро, часто также более опытны. Таким образом, более поздние зада-
ния будут анализироваться на выборке индивидов с более высоким уров-
нем. Последствием такого селективного фактора окажется занижение
уровня трудности более поздних заданий, поскольку процент справив-
шихся с заданием в селективной выборке выше, чем во всей выборке.
Отметим, что в данном случае ошибка обратна той, которая появляется
при вычислении процента справившихся с заданием относительно всей
исходной выборки. В этом случае происходит завышение трудности
заданий.
Влияние вышеописанной процедуры на индексы валидности заданий
не столь очевидно, но тем не менее реально. Замечено, например, что не-
которые из испытуемых, показывающих низкие результаты, торопясь
выполнить тест в отведенное время, отмечают в тестовом бланке (или
тетради) ответы почти наугад. Среди испытуемых с высокими результа-
тами эта тенденция выражена гораздо меньше. В итоге выборка, на ко-
торой производится анализ более позднего задания, нередко включает
в себя нескольких весьма слабых респондентов, выполняющих задания
на уровне случайности, и довольно значительное число опытных и бы-
стрых испытуемых, чьи ответы обычно оказываются правильными. В та-
кой группе корреляция задания и критерия, вероятно, будет выше.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132