Такую надежность
субъективной оценки можно определить, сравнив два тестовых бланка
с оценками, заполненные двумя экспертами независимо друг от друга.
Коэффициент корреляции полученных таким образом результатов вы-
числяется обычным путем и служит искомой мерой надежности подсче-
та. Если результаты теста определяются на основе суждений эксперимен-
татора, то в руководстве к тесту необходимо также привести
и коэффициент надежности подсчета.
Итоги. Различные типы только что рассмотренных коэффициентов
надежности сведены в табл. 8 и 9. В табл. 8 коэффициенты распределены
по числу форм теста и сеансов тестирования, необходимых для их опре-
деления. В табл. 9 представлены источники дисперсии ошибки, учиты-
ваемые каждой из процедур определения коэффициента надежности.
-------- - -.>...,.п т,ттт.дг>ттг>>типг>т1ятт1 непосоед-
113
НАДЕЖНОСТЬ
Таблица 8
Методы измерения надежности теста
в мвисимости от форм теста и сеансов
тестирования
Таблица 9
Источники дисперсии ошибки для раз-
личных коэффициентов надежности
Необходимое число сеансов тес-Необходимое число форм теста
тированияоднадве
расщеплен-
наявзаимозаменяе-
Кьюдера -один Ричардсона субъектив-мые (непосредственно следующие друг за другом)
ных оце-
нок
Тип коэффициента
надежности
Дисперсия ошибки
ретестовый
временные колебания
состояния испытуемого
ретестовая
взаимозаменяе-
мые (проводимые
через определен-
ный промежуток
времени)
взаимозаме-
няемых формнеоднородность
(непосредст-содержания
венный)
взаимозаме-колебания в состоянии
няемых формиспытуемого и неодно-
(с временнымзначность содержания
интервалом)
расщеплениянеоднозначность
содержания
неоднородность и
Кьюдера-Ри-неоднозначность
чардсона,содержания
альфаиндивидуальные
субъективныхразличия у ставящих
оценокоценки
ственно в процентах дисперсии показателей, определяемой разными
источниками. Так, коэффициент надежности 0,85 показывает, что 85Їо
дисперсии результатов теста зависят от истинной дисперсии по измеряе-
мому свойству, а 15Їо-от дисперсии ошибки (согласно операционально-
му определению применяемой процедуры). Читателю, знакомому со ста-
тистикой, напомним, что долю общей дисперсии представляет квадрат
коэффициента корреляции. Действительно, доля <истинной> дисперсии
в результатах теста есть квадрат корреляции между результатами оди-
ночной формы теста и истинными результатами, свободными от слу-
чайных ошибок. Эта корреляция, именуемая индексом надежности, рав-
на квадратному корню коэффициента надежности (1/гЦ). Квадрат индекса
надежности и дает коэффициент надежности (гц), который, следователь-
но, может интерпретироваться как процент <истинной> дисперсии.
Эксперименты, позволяющие получать разные типы коэффициентов
надежности для одной и той же группы, допускают разложение суммар-
ной дисперсии показателей на отдельные составляющие. Рассмотрим
следующий гипотетический пример. Предположим, 100 шестиклассников
с интервалом в два месяца прошли формы А и В теста творческих спо-
собностей, причем надежность взаимозаменяемых форм составила 0,7,
надежность, найденная методом расщепления и вычисленная по формуле
Спирмана-Брауна, равнялась 0,8 и, наконец, надежность подсчета, по-
лученная благодаря привлечению еще одного эксперта, проставившего
новые баллы случайно выбранным 50 сочинениям, оказалась равной 0,92.
" Выводы индекса надежности, основанные на двух различных сериях допущений,
приводятся в работе X. Гулликсена (Н. Gulliksen, 1950, гл. 2 и 3).
В целях более точной оценки коэффициента внутренней согласованности корреля-
ции между двумя половинами теста было бы лучше вычислять его для каждой формы от-
п,>п1.иг> н Чатем соптветствуюшей статистической процедурой определять среднее значение
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Таблица 10
Анализ источников дисперсии ошибки в гипотетическом тесте
Надежность взаимозаменяемых
форм теста с временным интервалом
1-0 7= 0,3
Изменения состояния
испытуемого + неоднознач-
ность содержания
Надежность расщепленного теста по 1-0,8 = 0,2 Неоднозначность
формуле Спирмана-Брауна содержания
Разность = 0,1 Изменения состояния
испытуемого
Надежность субъективных оценок
1 - 0,92 = 0,08 Индивидуальные
различия у
ставящих оценки
Суммарное значение дисперсии ошибки = 0,2+0,1+ 0,08 = 0,38
<истинная> дисперсия = I - 0,38 = 0,62
Анализ этих трех коэффициентов надежности приводится в табл. 10 и на
рис. II. Вычитая дисперсию ошибки, относящуюся только к выборке со-
держания, из дисперсии ошибки, определяемой временный выборкой
и выборкой содержания, получаем, что дисперсия временных колебаний
равна 0,1. Складывая дисперсии ошибки, относящиеся к выборкам содер-
жания (0,20), временным (0,10) и различиям у ставящих оценки (0,08), по-
лучаем суммарную дисперсию ошибки, равную 0,38, из чего следует, что
<истинная> дисперсия равна 0,62. Эти величины, выраженные в более
привычной процентной форме, графически изображены на рис. Ц.
НАДЕЖНОСТЬ ТЕСТОВ НА СКОРОСТЬ
При составлении теста и интерпретации его результатов важно разли-
чать измерение скорости выполнения и возможности выполнения. В <чи-
стом> тесте на скорость индивидуальные различия определяются толь-
ко скоростью выполнения заданий. Трудность заданий такого теста
принудительно одинакова, невысока и вполне посильна испытуемым, на
которых рассчитан тест. Но лимит времени устанавливается так, что
никто не успевает выполнить всех заданий. В таких условиях результат
испытуемого отражает только скорость его работы. Вместе с тем в <чи-
стом> тесте возможностей испытуемому предоставляется достаточно
времени для выполнения всех заданий. Но их трудность постепенно воз-
растает от задания к заданию, так что никто не может справиться со все-
ми заданиями, а значит, не может получить высший результат.
Вообще как скоростные тесты, так и тесты возможностей строятся
с таким расчетом, чтобы нельзя было получить высшего результата.
Излагая на элементарном уровне общую идею одного из способов интерпретации
численных значений коэффициентов надежности, автор заведомо идет на ряд серьезных
чпппп1йний. В частности, в реальных условиях дисперсия от совместного действия не-
НАДЕЖНОСТЬ
"Истинная" дисперсия = 62%
_
Дисперсия ошибки = 38%
Стабильность во времени; согласованность форм;
независимость от особенностей лиц.оценивающих
выполнение теста
Различия у лиц, оценивающих выполнение теста
Рис. 11. Процентное распределение дисперсии результатов гипотетического теста
Объясняется это неопределенностью такого результата: остается не-
известным, насколько индивидуальный результат оказался бы выше, ес-
ли бы в тесте было использовано больше заданий или соответственно
более трудные задания. Чтобы каждый испытуемый мог полностью про-
демонстрировать, на что он способен, <потолок> теста должен быть за-
ведомо выше его возможностей либо по числу заданий, либо по степени
трудности. Исключение составляют тесты владения навыком, например
критериально-ориентированные тесты, обсуждавшиеся в гл. 4. Цель та-
кого тестирования не в том, чтобы установить границы возможностей
индивида, а в определении того, достиг ли он заранее установленного
уровня выполнения.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132
субъективной оценки можно определить, сравнив два тестовых бланка
с оценками, заполненные двумя экспертами независимо друг от друга.
Коэффициент корреляции полученных таким образом результатов вы-
числяется обычным путем и служит искомой мерой надежности подсче-
та. Если результаты теста определяются на основе суждений эксперимен-
татора, то в руководстве к тесту необходимо также привести
и коэффициент надежности подсчета.
Итоги. Различные типы только что рассмотренных коэффициентов
надежности сведены в табл. 8 и 9. В табл. 8 коэффициенты распределены
по числу форм теста и сеансов тестирования, необходимых для их опре-
деления. В табл. 9 представлены источники дисперсии ошибки, учиты-
ваемые каждой из процедур определения коэффициента надежности.
-------- - -.>...,.п т,ттт.дг>ттг>>типг>т1ятт1 непосоед-
113
НАДЕЖНОСТЬ
Таблица 8
Методы измерения надежности теста
в мвисимости от форм теста и сеансов
тестирования
Таблица 9
Источники дисперсии ошибки для раз-
личных коэффициентов надежности
Необходимое число сеансов тес-Необходимое число форм теста
тированияоднадве
расщеплен-
наявзаимозаменяе-
Кьюдера -один Ричардсона субъектив-мые (непосредственно следующие друг за другом)
ных оце-
нок
Тип коэффициента
надежности
Дисперсия ошибки
ретестовый
временные колебания
состояния испытуемого
ретестовая
взаимозаменяе-
мые (проводимые
через определен-
ный промежуток
времени)
взаимозаме-
няемых формнеоднородность
(непосредст-содержания
венный)
взаимозаме-колебания в состоянии
няемых формиспытуемого и неодно-
(с временнымзначность содержания
интервалом)
расщеплениянеоднозначность
содержания
неоднородность и
Кьюдера-Ри-неоднозначность
чардсона,содержания
альфаиндивидуальные
субъективныхразличия у ставящих
оценокоценки
ственно в процентах дисперсии показателей, определяемой разными
источниками. Так, коэффициент надежности 0,85 показывает, что 85Їо
дисперсии результатов теста зависят от истинной дисперсии по измеряе-
мому свойству, а 15Їо-от дисперсии ошибки (согласно операционально-
му определению применяемой процедуры). Читателю, знакомому со ста-
тистикой, напомним, что долю общей дисперсии представляет квадрат
коэффициента корреляции. Действительно, доля <истинной> дисперсии
в результатах теста есть квадрат корреляции между результатами оди-
ночной формы теста и истинными результатами, свободными от слу-
чайных ошибок. Эта корреляция, именуемая индексом надежности, рав-
на квадратному корню коэффициента надежности (1/гЦ). Квадрат индекса
надежности и дает коэффициент надежности (гц), который, следователь-
но, может интерпретироваться как процент <истинной> дисперсии.
Эксперименты, позволяющие получать разные типы коэффициентов
надежности для одной и той же группы, допускают разложение суммар-
ной дисперсии показателей на отдельные составляющие. Рассмотрим
следующий гипотетический пример. Предположим, 100 шестиклассников
с интервалом в два месяца прошли формы А и В теста творческих спо-
собностей, причем надежность взаимозаменяемых форм составила 0,7,
надежность, найденная методом расщепления и вычисленная по формуле
Спирмана-Брауна, равнялась 0,8 и, наконец, надежность подсчета, по-
лученная благодаря привлечению еще одного эксперта, проставившего
новые баллы случайно выбранным 50 сочинениям, оказалась равной 0,92.
" Выводы индекса надежности, основанные на двух различных сериях допущений,
приводятся в работе X. Гулликсена (Н. Gulliksen, 1950, гл. 2 и 3).
В целях более точной оценки коэффициента внутренней согласованности корреля-
ции между двумя половинами теста было бы лучше вычислять его для каждой формы от-
п,>п1.иг> н Чатем соптветствуюшей статистической процедурой определять среднее значение
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Таблица 10
Анализ источников дисперсии ошибки в гипотетическом тесте
Надежность взаимозаменяемых
форм теста с временным интервалом
1-0 7= 0,3
Изменения состояния
испытуемого + неоднознач-
ность содержания
Надежность расщепленного теста по 1-0,8 = 0,2 Неоднозначность
формуле Спирмана-Брауна содержания
Разность = 0,1 Изменения состояния
испытуемого
Надежность субъективных оценок
1 - 0,92 = 0,08 Индивидуальные
различия у
ставящих оценки
Суммарное значение дисперсии ошибки = 0,2+0,1+ 0,08 = 0,38
<истинная> дисперсия = I - 0,38 = 0,62
Анализ этих трех коэффициентов надежности приводится в табл. 10 и на
рис. II. Вычитая дисперсию ошибки, относящуюся только к выборке со-
держания, из дисперсии ошибки, определяемой временный выборкой
и выборкой содержания, получаем, что дисперсия временных колебаний
равна 0,1. Складывая дисперсии ошибки, относящиеся к выборкам содер-
жания (0,20), временным (0,10) и различиям у ставящих оценки (0,08), по-
лучаем суммарную дисперсию ошибки, равную 0,38, из чего следует, что
<истинная> дисперсия равна 0,62. Эти величины, выраженные в более
привычной процентной форме, графически изображены на рис. Ц.
НАДЕЖНОСТЬ ТЕСТОВ НА СКОРОСТЬ
При составлении теста и интерпретации его результатов важно разли-
чать измерение скорости выполнения и возможности выполнения. В <чи-
стом> тесте на скорость индивидуальные различия определяются толь-
ко скоростью выполнения заданий. Трудность заданий такого теста
принудительно одинакова, невысока и вполне посильна испытуемым, на
которых рассчитан тест. Но лимит времени устанавливается так, что
никто не успевает выполнить всех заданий. В таких условиях результат
испытуемого отражает только скорость его работы. Вместе с тем в <чи-
стом> тесте возможностей испытуемому предоставляется достаточно
времени для выполнения всех заданий. Но их трудность постепенно воз-
растает от задания к заданию, так что никто не может справиться со все-
ми заданиями, а значит, не может получить высший результат.
Вообще как скоростные тесты, так и тесты возможностей строятся
с таким расчетом, чтобы нельзя было получить высшего результата.
Излагая на элементарном уровне общую идею одного из способов интерпретации
численных значений коэффициентов надежности, автор заведомо идет на ряд серьезных
чпппп1йний. В частности, в реальных условиях дисперсия от совместного действия не-
НАДЕЖНОСТЬ
"Истинная" дисперсия = 62%
_
Дисперсия ошибки = 38%
Стабильность во времени; согласованность форм;
независимость от особенностей лиц.оценивающих
выполнение теста
Различия у лиц, оценивающих выполнение теста
Рис. 11. Процентное распределение дисперсии результатов гипотетического теста
Объясняется это неопределенностью такого результата: остается не-
известным, насколько индивидуальный результат оказался бы выше, ес-
ли бы в тесте было использовано больше заданий или соответственно
более трудные задания. Чтобы каждый испытуемый мог полностью про-
демонстрировать, на что он способен, <потолок> теста должен быть за-
ведомо выше его возможностей либо по числу заданий, либо по степени
трудности. Исключение составляют тесты владения навыком, например
критериально-ориентированные тесты, обсуждавшиеся в гл. 4. Цель та-
кого тестирования не в том, чтобы установить границы возможностей
индивида, а в определении того, достиг ли он заранее установленного
уровня выполнения.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132