Это объяснение может быть принято только тогда, когда мы убеж-
дены, что никакие другие причины не могут объяснить полученные
факты. В самом деле, единственный способ продемонстрировать это
- написать эффективные задания для последующих испытаний.
Задания нагружают (насыщают) несколько факторов
Одним из критических замечаний по процедуре анализа заданий
является то, что можно получить задания, нагружающие два корре-
200
пирующих фактора, для которых значение корреляции с общим по-
казателем все же будет высоким. Однако, если эти факторы не кор-
релируют, то значение корреляции с общим показателем может быть
только низким, и тест не может быть сконструирован.
Этот случай неудачного составления теста - по существу лишь
вариант первого случая: не существует переменной, положенной в
основу теста, - только в этом случае неудача нас постигает в резуль-
тате того, что существует несколько переменных, которые измеря-
ются нашими заданиями. Если это предположение исходит из приро-
ды самого теста, то должна быть принята следующая процедура.
Во-первых, должны быть вычислены коэффициенты корреляции
<р между заданиями теста. Эти корреляции затем должны быть под-
вергнуты факторному анализу. Это позволит выяснить, действитель-
но ли задания нагружают несколько факторов. Если да, это указыва-
ет на то, что у нас есть несколько тестов, составленных вместе. Когда
мы хотим разработать отдельные тесты для этих факторов, должны
быть изучены задания, нагружающие каждый из факторов, и должны
быть сформулированы другие, подобные им. Однако, при помощи
этой процедуры мы конструируем фактически факторизованные тес-
ты. Методология создания этих средств измерения описана в главе 9,
и здесь им не будет уделено внимания. Следует заметить, что если
задания вообще не нагружают ни один фактор, то мы приходим к
первому случаю, когда тест не измеряет вообще никакой переменной.
Недостаточное количество эффективных заданий
Nunnally (1978) упоминает один случай неудачного формирова-
ния теста, который легко устраним. Это происходит, когда существу-
ет ядро эффективных заданий с высокими значениями корреляции
заданий с общим показателем и, следовательно, взаимной корреля-
ции между заданиями, но количества этих заданий недостаточно,
чтобы сформировать надежный тест. Добавление других слабых за-
даний не улучшит надежность, поскольку они не коррелируют друг
с другом.
Причину такой неудачи можно быстро определить. Должно быть
несколько эффективных заданий (по критерию ГрЫл ), а для всех
остальных это значение будет низким. С целью устранения сложив-
шейся ситуации следует изучить содержание эффективных заданий
и должны быть сформулированы подобные им другие. Это, однако,
следует делать только тогда, когда видно, что составляющие ядро
эффективные задания охватывают все содержание теста. Если эф-
фективные задания сами очень похожи, то может случиться, что мы
201
опять конструируем тест для дутого, ложного специфического фак-
тора.
Этот случай идентичен первому случаю неудачного формирова-
ния теста - когда не существует переменная. Корреляционный ана-
лиз заданий может идентифицировать небольшой кластер заданий.
Однако, если это не проявилось в процедуре анализа заданий, таких
заданий будет мало.
В этой главе были указаны пошаговые процедуры для анализа
подготовленного множества заданий и отбора их для окончательного
теста. Было также показано, как результаты анализа заданий могут
помочь переформулированию заданий.
Следует подчеркнуть, что описанные методы гарантируют пол-
учение теста с удовлетворительной внутренней согласованностью и
дискриминативностью, который измеряет некоторую переменную.
Продемонстрировать, что это за переменная - задача исследований
валвдности.
Глава 7. Вычисление дискриминативности и
валидности тестов
В вводной главе, посвященной средствам измерения, было указа-
но, что у психометрических тестов есть три характеристики, благо-
даря которым они превосходят другие формы измерений: надеж-
ность, валидность и дискриминативность. Прежде чем переходить к
обсуждению методов достижения валидности, будут рассмотрены
приемы для измерения дискриминативности, поскольку, как и на-
дежность, она может быть получена с известной долей объективнос-
ти. При определении же валидности, хотя и существуют определен-
ные методики, все же присутствует некоторый элемент субъектив-
ности.
Дискриминативность
Как указывалось в главе 1, потенциально тест может быть гораздо
более дискриминативным, чем другие средства измерения, скажем,
интервью или рейтинги, в которых для обеспечения надежности мо-
жет использоваться не более девяти градаций.
Показатели дискриминативности, как указывает Guilford (1956),
связаны по существу с ранжированием исп-ытуемых. Основной пока-
затель коэффициента дискриминативности, ЙФергюсона (Ferguson,
1949), который был рекомендован для оценивания дискриминатив-
ности тестов, прост в вычислении. Его формула указана ниже. Вво-
дится отношение между показателями любых двух испытуемых: эти
показатели либо равны, либо различны. Общее количество возмож-
ных отношений между парами испытуемых в выборке из N испытуе-
мых равно N (N- 1 )/ 2 . Общее количество отношений равенства
среди этих пар:
2-2
(7.1)
где/; - частота встречаемости каждого показателя, следователь-
но, S=.
Общее количество отношений различия среди этих пар:
(2)-
(7.2)
и (7.1) + (7.2) = (YV +N)/2, поскольку это единственные воз-
можные отношения для этих пар. Очевидно, что наибольшее количе-
203
ство отношений различия - максимум дискриминативности - дос-
тигается тогда, когда все показатели имеют одинаковую частоту. Это
происходит, когда частота встречаемости каждого показателя равна
N/(n +!), где п - количество заданий теста.
Это основные сведения из статистики, на которых основана фор-
мула Фергюсона. Коэффициент д Ферпосона - это отношение меж-
ду показателем дискриминативности, полученным для некоторого
теста, и максимальным значением дискриминативности, которое мо-
жет обеспечить такой тест. Формула выглядит следующим образом:
л- -
- IN/(п +1)
Она может быть упрощена:
_ (п+1) -2/)
где N - количество испытуемых, п - количество заданий,// -
частота встречаемости каждого показателя.
д = 0, когда все испытуемые получили одинаковые показатели (то
есть когда нет дискриминативности), и равно 1 при равномерном
(прямоугольном) распределении.
ШАГИ ВЫЧИСЛЕНИЙ ДЛЯ и ФЕРГЮСОНА (ВЫЧИСЛЕНИЕ
7.1)
(1) Подсчитайте, как часто встречаются значения показателей
для данного теста.
(2) Возведите эти числа в квадрат и просуммируйте: S .
(3) Прибавьте 1 к количеству заданий: п + 1 .
(4) Возведите в квадрат количество испытуемых: N .
(5) Помножьте количество заданий на результат шага (4): п N .
(6) Это дает нам все элементы формулы. Теперь можно их подста-
вить в формулу:
д _ (3) x[(4j -(2)] _ (п +1) (-2/)
-( - nN
Разработчик тестов должен учитывать некоторые характеристики
этого коэффициента, обсуждавшиеся Ferguson (1949). Поскольку
для равномерного (прямоугольного) распределения (наиболее дис-
криминативного) необходимы задания, в которых бы наиболее полно
204
были реализованы все возможные проявления измеряемого свойства,
это означает, что дискриминативность до некоторой степени проти-
востоит надежности, так как использование заданий с широким пе-
речнем возможных проявлений измеряемого свойства уменьшает
взаимную корреляцию между заданиями.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88