Например, для отбора в среднюю
школу в некоторых областях страны требовались тесты с максималь-
ной дискриминативностью на уровне 115-120 IQ; в других регионах,
там, где было меньше мест в средних школах, максимум дискрими-
нативности был на уровне 125 IQ. Чтобы достичь этого, были необхо-
димы задания различного уровня трудности.
Такое утверждение существенно упрощает истинное положение дел. Определяю-
щим является не количество заданий, а их характер (особенности) и назначение
теста (Прим .ред.)
194
Отбор заданий тестов
Простейшая процедура отбора заданий для теста, которая должна
удовлетворять нашей модели измерения (и без каких-либо специаль-
ных уровней трудности) приведена ниже:
(1) Выберите те задания, которые во всех процедурах их анализа
удовлетворяют статистическим критериям ГрЬи и Р .
(2) Изучите те задания, которые не прошли одну из процедур
анализа, чтобы увидеть, не повлияла ли на это какая-либо особая
характеристика выборки. Например, для выборки из учителей автор
данной книги обнаружил, что задание, касающееся дисциплины,
имеет совершенно другие статистические оценки, чем для других
выборок. Это открытие позволило принять решение об использова-
нии этого задания. С другой стороны, задание, касающееся ухода за
детьми, на котором выявились большие различия в зависимости от
пола испытуемых, было удалено, поскольку можно было ожидать,
что такие различия будут иметь место всегда. При сравнения заданий
на мужской и женской выборках были обнаружены множество эф-
фективных заданий для мужчин и множество эффективных заданий
для женщин, но они имели относительно малое пересечение, следо-
вательно, это было явным показанием к тому, что на этих множест-
вах желательно создание отдельных тестов.
(3) Проверьте содержание отобранных заданий. Охватывают ли
они все характеристики, которые мы предполагали измерять при
помощи данного теста? Если нет, то изучите отбракованные задания,
чтобы посмотреть, есть ли среди них такие, которые измеряют эти
черты и почти удовлетворяет статистическим критериям. Если есть
несколько таких заданий, они должны быть введены в тест. Если нет,
то из этого вытекают два следствия: (а) эти задания, при предъявле-
нии вместе с отобранными, не образуют однородный тест; или (б) мы
сформулировали неудачные задания. Если мы остановимся на (б), то
задания должны быть переформулированы и опять подвергнуты ис-
пытаниям (см. стр. 197).
(4) Подсчитайте количество отобранных заданий. Если их коли-
чество приближается к рекомендованному (20-30) и охватывает все
содержание теста, вычислите коэффициент надежности K-R20. Он
всегда должен быть не менее 0,7; в противном случае в силу ряда
причин, как об этом говорилось при обсуждении процедуры отбора
по внутренней согласованности, можно ожидать более низкой одно-
родности теста. Если же значение надежности удовлетворительно, то
первое испытание заданий может быть окончено. Сконструирован
однородный, надежный, очевидно релевантный по содержанию тест.
т 195
(5) Если значение коэффициента надежности невысокое, то мож-
но добавить к тесту задания, имеющие наилучшие показатели по
статистическим критериям из оставшихся. Затем пересчитывается
коэффициент надежности K-R20 всякий раз, когда мы пытаемся
добавлением заданий увеличить значение надежности. Однако, уда-
стся ли это сделать - зависит от случая. Если нововведенные задания
слабо коррелируют с общим показателем, то они не смогут значи-
тельно увеличить надежность. Необходимо испытывать новые зада-
ния (см. стр. 197).
(6) Если испытание заданий завершилось созданием теста, надеж-
ного и удовлетворительного по содержанию, есть смысл изучить рас-
пределение показателей. Обычно распределение должно быть сим-
метричным. Практически, поскольку наибольшие значения корре-
ляции, вычисленной по формуле rpbis , бывают присущи заданиям,
близким к средним по уровню трудности, то почти неизбежно будет
получено симметричное распределение. Если же оно значительно
смещено, то для его корректировки нам могут понадобиться новые
задания, но в процессе стандартизации возможно приведение пока-
зателей к другому виду распределения.
Следует изучить дисперсию. Она должна быть настолько боль-
шой, насколько возможно, так как это означает, что тест является
эффективно дискриминирующим. При малом значении дисперсии в
тест нужно вводить новые задания. Если большое количество испы-
туемых получили максимальные и минимальные показатели, то для
этих уровней трудности могут потребоваться новые задания, по-
скольку ясно, что наш тест не является дискриминативным на этих
уровнях, и на более крупных выборках из изучаемой популяции
следует ожидать еще большего количества таких испытуемых.
(7) Если тест представляется удовлетворительным по дисперсии и
дискриминативности, вычислите Ферпосона. Если ее значение пре-
вышает 0,9 , то с уверенностью можно сказать, что тест является
дискриминативным.
(8) Если все получилось и похоже, что нам удалось сконструиро-
вать удовлетворительный набор заданий, проведите процедуру ана-
лиза этих заданий на новой выборке. Если более, чем одно или два
задания не удовлетворяют статистическим критериям rpbis и Р , яв-
ляющимся единственными критериями, интересующими нас при
этой повторной проверке, то эти задания должны быть переформули-
рованы и испытаны вновь. Это, однако, маловероятно, если на первом
этапе вы использовали хорошо сформированные выборки. На новой
выборке сравните средние значения для мужчин и для женщин: они,
конечно же, не должны сильно различаться.
196
(9) В этой процедуре производится только анализ заданий. В ней
мы не встречались с проблемами подбора дистракторов для заданий
с несколькими вариантами выбора или случайного угадывания отве-
тов, обсуждавшимися в главе 2, посвященной тестам способностей,
или с устранением влияния установок на ответы, с которыми мы
имели дело в главе 3 о личностных тестах.
Понятие надежности, возникающее на шаге 5 приведенной про-
цедуры, нуждается в некотором дополнении. Некоторые авторы от-
стаивают систематический подход к определению надежности, суть
которого в том, что лучшие задания (по критерию корреляции с
общим показателем) должны добавляться к тесту до тех пор, пока не
будет достигнуто настолько высокое значение коэффициента надеж-
ности, насколько это было желательно, и на этом шаге конструиро-
вание теста завершается. С нашей точки зрения, при таком подходе
игнорируются другие важные аспекты теста (как обсуждалось выше)
и слишком много внимания уделяется его внутренней согласованно-
сти.
До сих пор при обсуждении процедур анализа заданий и констру-
ирования тестов предполагалось, что для конструирования шкалы,
которую уже можно исследовать на валидность, было сформулирова-
но достаточное количество заданий. Однако, на различных этапах
процедуры отбора заданий часто возникает необходимость в пере-
формулировании заданий.
Переформулирование заданий
Если по некоторым аспектам исследуемой переменной нет удов-
летворительных заданий, или их недостаточно для создания надеж-
ного теста, как и в том случае, когда при повторном испытании
некоторые задания не удовлетворяют критериям, может возникнуть
необходимость в переформулировании заданий.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88
школу в некоторых областях страны требовались тесты с максималь-
ной дискриминативностью на уровне 115-120 IQ; в других регионах,
там, где было меньше мест в средних школах, максимум дискрими-
нативности был на уровне 125 IQ. Чтобы достичь этого, были необхо-
димы задания различного уровня трудности.
Такое утверждение существенно упрощает истинное положение дел. Определяю-
щим является не количество заданий, а их характер (особенности) и назначение
теста (Прим .ред.)
194
Отбор заданий тестов
Простейшая процедура отбора заданий для теста, которая должна
удовлетворять нашей модели измерения (и без каких-либо специаль-
ных уровней трудности) приведена ниже:
(1) Выберите те задания, которые во всех процедурах их анализа
удовлетворяют статистическим критериям ГрЬи и Р .
(2) Изучите те задания, которые не прошли одну из процедур
анализа, чтобы увидеть, не повлияла ли на это какая-либо особая
характеристика выборки. Например, для выборки из учителей автор
данной книги обнаружил, что задание, касающееся дисциплины,
имеет совершенно другие статистические оценки, чем для других
выборок. Это открытие позволило принять решение об использова-
нии этого задания. С другой стороны, задание, касающееся ухода за
детьми, на котором выявились большие различия в зависимости от
пола испытуемых, было удалено, поскольку можно было ожидать,
что такие различия будут иметь место всегда. При сравнения заданий
на мужской и женской выборках были обнаружены множество эф-
фективных заданий для мужчин и множество эффективных заданий
для женщин, но они имели относительно малое пересечение, следо-
вательно, это было явным показанием к тому, что на этих множест-
вах желательно создание отдельных тестов.
(3) Проверьте содержание отобранных заданий. Охватывают ли
они все характеристики, которые мы предполагали измерять при
помощи данного теста? Если нет, то изучите отбракованные задания,
чтобы посмотреть, есть ли среди них такие, которые измеряют эти
черты и почти удовлетворяет статистическим критериям. Если есть
несколько таких заданий, они должны быть введены в тест. Если нет,
то из этого вытекают два следствия: (а) эти задания, при предъявле-
нии вместе с отобранными, не образуют однородный тест; или (б) мы
сформулировали неудачные задания. Если мы остановимся на (б), то
задания должны быть переформулированы и опять подвергнуты ис-
пытаниям (см. стр. 197).
(4) Подсчитайте количество отобранных заданий. Если их коли-
чество приближается к рекомендованному (20-30) и охватывает все
содержание теста, вычислите коэффициент надежности K-R20. Он
всегда должен быть не менее 0,7; в противном случае в силу ряда
причин, как об этом говорилось при обсуждении процедуры отбора
по внутренней согласованности, можно ожидать более низкой одно-
родности теста. Если же значение надежности удовлетворительно, то
первое испытание заданий может быть окончено. Сконструирован
однородный, надежный, очевидно релевантный по содержанию тест.
т 195
(5) Если значение коэффициента надежности невысокое, то мож-
но добавить к тесту задания, имеющие наилучшие показатели по
статистическим критериям из оставшихся. Затем пересчитывается
коэффициент надежности K-R20 всякий раз, когда мы пытаемся
добавлением заданий увеличить значение надежности. Однако, уда-
стся ли это сделать - зависит от случая. Если нововведенные задания
слабо коррелируют с общим показателем, то они не смогут значи-
тельно увеличить надежность. Необходимо испытывать новые зада-
ния (см. стр. 197).
(6) Если испытание заданий завершилось созданием теста, надеж-
ного и удовлетворительного по содержанию, есть смысл изучить рас-
пределение показателей. Обычно распределение должно быть сим-
метричным. Практически, поскольку наибольшие значения корре-
ляции, вычисленной по формуле rpbis , бывают присущи заданиям,
близким к средним по уровню трудности, то почти неизбежно будет
получено симметричное распределение. Если же оно значительно
смещено, то для его корректировки нам могут понадобиться новые
задания, но в процессе стандартизации возможно приведение пока-
зателей к другому виду распределения.
Следует изучить дисперсию. Она должна быть настолько боль-
шой, насколько возможно, так как это означает, что тест является
эффективно дискриминирующим. При малом значении дисперсии в
тест нужно вводить новые задания. Если большое количество испы-
туемых получили максимальные и минимальные показатели, то для
этих уровней трудности могут потребоваться новые задания, по-
скольку ясно, что наш тест не является дискриминативным на этих
уровнях, и на более крупных выборках из изучаемой популяции
следует ожидать еще большего количества таких испытуемых.
(7) Если тест представляется удовлетворительным по дисперсии и
дискриминативности, вычислите Ферпосона. Если ее значение пре-
вышает 0,9 , то с уверенностью можно сказать, что тест является
дискриминативным.
(8) Если все получилось и похоже, что нам удалось сконструиро-
вать удовлетворительный набор заданий, проведите процедуру ана-
лиза этих заданий на новой выборке. Если более, чем одно или два
задания не удовлетворяют статистическим критериям rpbis и Р , яв-
ляющимся единственными критериями, интересующими нас при
этой повторной проверке, то эти задания должны быть переформули-
рованы и испытаны вновь. Это, однако, маловероятно, если на первом
этапе вы использовали хорошо сформированные выборки. На новой
выборке сравните средние значения для мужчин и для женщин: они,
конечно же, не должны сильно различаться.
196
(9) В этой процедуре производится только анализ заданий. В ней
мы не встречались с проблемами подбора дистракторов для заданий
с несколькими вариантами выбора или случайного угадывания отве-
тов, обсуждавшимися в главе 2, посвященной тестам способностей,
или с устранением влияния установок на ответы, с которыми мы
имели дело в главе 3 о личностных тестах.
Понятие надежности, возникающее на шаге 5 приведенной про-
цедуры, нуждается в некотором дополнении. Некоторые авторы от-
стаивают систематический подход к определению надежности, суть
которого в том, что лучшие задания (по критерию корреляции с
общим показателем) должны добавляться к тесту до тех пор, пока не
будет достигнуто настолько высокое значение коэффициента надеж-
ности, насколько это было желательно, и на этом шаге конструиро-
вание теста завершается. С нашей точки зрения, при таком подходе
игнорируются другие важные аспекты теста (как обсуждалось выше)
и слишком много внимания уделяется его внутренней согласованно-
сти.
До сих пор при обсуждении процедур анализа заданий и констру-
ирования тестов предполагалось, что для конструирования шкалы,
которую уже можно исследовать на валидность, было сформулирова-
но достаточное количество заданий. Однако, на различных этапах
процедуры отбора заданий часто возникает необходимость в пере-
формулировании заданий.
Переформулирование заданий
Если по некоторым аспектам исследуемой переменной нет удов-
летворительных заданий, или их недостаточно для создания надеж-
ного теста, как и в том случае, когда при повторном испытании
некоторые задания не удовлетворяют критериям, может возникнуть
необходимость в переформулировании заданий.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88