15, отчасти объясняется различия-
ми между тестами, применяющимися для измерения умственного разви-
тия или пальцевой моторики. Кроме того, часть дисперсий результатов,
отраженных на рис. 15 и 16, обусловлена различиями в однородности
Рис. 16. Суммарный график коэффициентов валидности теста различных способностей
(DAT) (формы S и Т) относительно оценок по курсу математики. Черные полосы
и приведенные рядом с ними числа указывают, сколько коэффициентов кор-
реляции попало в приведенный в крайнем левом столбце интервал.
С разрешения Психологической корпорации штата Нью-Йорк
МальчикиСМ ЧС СМ + ЧС AM ТАИтм по Гр ип
0,70 иL
вышеИз 1
0,60 - 0,69и 8 as52пи
0,50-0,59и 6НбIS2BJв3и 7
0,40-0,49ffi8Я 8S2Я7В 7Mil
0,30-0,39i2ЯП 6т?WIG
0,20-0,29B4ЯВЯ12то
0,19 и нижеИг гMS
ДевочкиСМ ЧСCM t ч сAM ТАИ TMпо гр ия
0.70> вышеS3S31
0,60-0,6912Я 11В 7iИh
0.50-0,59И 816Я4<8
0.40-0,49 0,30-0.39вапЯ4<12 В 6Я8 азp9 1й8Я14а 9mio uais
0,20-0,29"SfiИЗ, Еб K28p8Я13>б
0,19 и НИЖР84L 312 >7И1016
138 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
и уровне исследовавшихся групп. Этого, однако, недостаточно, чтобы
объяснить столь широкий разброс валидности. Основной причиной рас-
хождений несомненно являются различия в самих критериях валидации.
Так, функции клерка или слесаря на разных предприятиях или даже
в разных отделах одного и того же учреждения не совпадают. Точно так
же неодинаковы и содержание курса данного предмета, и индиви-
дуальные качества преподавателей, и их подход к оценке знаний учащих-
ся. Таким образом, то, что представляется <одним и тем же> критерием,
в разных ситуациях оказывается весьма различной комбинацией свойств.
Критерии могут также изменяться во времени. Например, коэффи-
циент валидности теста относительно критериев профессионального обу-
чения часто отличается от его же валидности относительно выполнения
деятельности (Е.Е. Ghiselli, 1966). Есть данные, свидетельствующие
о том, что качества, необходимые для успешного выполнения работы
или даже конкретного задания, зависят от тренированности и профессио-
нального опыта индивида (E.A.FIeishman, 1972; E.A.FIeishman,
B.Fruchter, 1960; E.A.FIeishman, W.E.Hempel, 1956; Е.Е. Ghiselli,
M. Haire, 1960). Имеются также многочисленные указания на то, что кри-
терии выполнения деятельности меняются со временем вследствие изме-
нения характера работы, организационных целей, продвижения работни-
ка по службе и т. д. (А. С. MacKinney, 1967, E. P. Prien, 1966). Как
известно, учебные программы и содержание курсов также изменяются.
Иными словами, наиболее распространенные критерии, используемые
при валидации тестов способностей и интеллекта, а именно выполнение
деятельности и успеваемость-это динамические, а не статические вели-
чины. Отсюда следует, что валидность критерия сама подвержена вре-
менным изменениям.
Синтетическая валидность. Критерии ре только различаются
в зависимости от ситуации и времени, они также, по всей вероятности,
достаточно сложны по составу (J. M. Richards, С. W. Taylol P. В. Price,
T.L. Jacobsen, 1965). Успех на работе, в школе, в повседневной жизни за-
висит не от одного, а от многих свойств. Отсюда и многогранность
практических критериев. Поэтому для валидации теста могут быть ис-
пользованы различные меры профессиональных навыков или успеваемо-
сти. Поскольку эти меры могут относиться к различным свойствам или
комбинациям свойств, не удивительно, что коэффициенты валидности
для одного и того же теста неодинаковы. Когда различные крите-
риальные меры получают на одних и тех же испытуемых, их взаимокор-
реляция весьма низка. Например, может оказаться, что между числом
несчастных случаев или количеством невыходов на работу и производи-
тельностью или частотой допускаемых ошибок не будет обнаружено
практически никакой связи (S. E. Seashore, В. P. Indik, В. S. Georgopoulos,
1960). Эти различия, конечно, отражаются на коэффициентах валидности
любого данного теста по отношению к различным критериальным ме-
рам. Так, результаты теста могут не коррелировать значимо с оценками
профессиональных навыков мастером и тем не менее оказаться валидны-
ми относительно более поздних данных ухода с работы или продвиже-
ния по службе (L.E. Albright, W..Т. Smith, J.R. Glennon, 1959).
Ввиду комплексности критерия валидация теста относительно слож-
ного критерия профессиональных навыков, академической успеваемости
и других аналогичных показателей часто представляет сомнительную
ценность и обладает лишь локальной значимостью. В случае относитель-
139 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия
ной независимости различных критериев более эффективна валидация те-
ста относительно того аспекта критерия, на который этот тест ориенти-
рован в первую очередь. Анализ этих более специфических соотношений
осмысляет тестовые показатели с точки зрения многомерности крите-
риального поведения (М. D. Dunnette, 1963; R. L. Ebel, 1961; S. R. Wallace,
1965). Например, один тест может хорошо прогнозировать скорость во-
сприятия клерка и точность выполнения мелкой работы, другой-гра-
мотность его письма, третий-способность сосредоточиться на выполня-
емой работе и т.д.
Возвращаясь к практическим вопросам оценки теста или комбина-
ции тестов как средства прогнозирования комплексного критерия (ска-
жем, успеха в работе), мы сталкиваемся с необходимостью проведения
конкретной валидации для каждой частной ситуации и повторения ее че-
рез короткие промежутки времени. Это считается желательным и часто
рекомендуется в руководствах к тестам. В большинстве случаев, однако,
следовать таким предписаниям не удается. Даже если мы располагаем
хорошо подготовленным персоналом, большинство валидационных ис-
следований, осуществляемых в условиях производства, часто оказывают-
ся неудовлетворительными минимум по трем причинам. Во-первых,
трудно получить надежные и достаточно полные критериальные данные.
Во-вторых, число работников, выполняющих одну и ту же или близкие
функции на одном предприятии, часто слишком мало для получения ста-
тистически значимых результатов. В-третьих, корреляция, как правило,
снижается ввиду ограниченного разброса показателей, что объясняется
предварительным отбором: фактически испытуемыми оказываются
лишь те, кто был принят на работу.
В силу перечисленных обстоятельств среди психологов, занимаю-
щихся проблемами кадров, проявляется растущий интерес к так называе-
мой синтетической валидности. Это понятие было введено Ч. X. Лоши
(С.Н. Lawshe, 1952) и определено М. Балмой как <установление валидно-
сти в конкретных условиях на основе систематического анализа элемен-
тов деятельности, определение по этим элементам валидности теста
и объединение составляющих валидностей в единый показатель>
(M.J.Balma, 1959, р. 395). Были разработаны методы сбора необхо-
димых эмпирических данных и получения из них значения синтетической
валидности для частного комплексного критерия (R.M. Guion, 1965;
С.Н. Lawshe, M.J. Balma, 1966, гл. 14; E.J. McCormick, 1959; E.S. Prirnoff,
1959; 1975). По сути дела весь процесс складывается из трех этапов: (1)
детальный анализ деятельности для выделения ее элементов и определе-
ния их относительных весов; (2) анализ и экспериментальное исследова-
ние каждого теста для выяснения того, в какой степени он измеряет на-
выки в выполнении каждого из выделенных элементов деятельности; (3)
определение валидности каждого теста путем синтеза весов отдельных
элементов в деятельности и в тесте.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132
ми между тестами, применяющимися для измерения умственного разви-
тия или пальцевой моторики. Кроме того, часть дисперсий результатов,
отраженных на рис. 15 и 16, обусловлена различиями в однородности
Рис. 16. Суммарный график коэффициентов валидности теста различных способностей
(DAT) (формы S и Т) относительно оценок по курсу математики. Черные полосы
и приведенные рядом с ними числа указывают, сколько коэффициентов кор-
реляции попало в приведенный в крайнем левом столбце интервал.
С разрешения Психологической корпорации штата Нью-Йорк
МальчикиСМ ЧС СМ + ЧС AM ТАИтм по Гр ип
0,70 иL
вышеИз 1
0,60 - 0,69и 8 as52пи
0,50-0,59и 6НбIS2BJв3и 7
0,40-0,49ffi8Я 8S2Я7В 7Mil
0,30-0,39i2ЯП 6т?WIG
0,20-0,29B4ЯВЯ12то
0,19 и нижеИг гMS
ДевочкиСМ ЧСCM t ч сAM ТАИ TMпо гр ия
0.70> вышеS3S31
0,60-0,6912Я 11В 7iИh
0.50-0,59И 816Я4<8
0.40-0,49 0,30-0.39вапЯ4<12 В 6Я8 азp9 1й8Я14а 9mio uais
0,20-0,29"SfiИЗ, Еб K28p8Я13>б
0,19 и НИЖР84L 312 >7И1016
138 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
и уровне исследовавшихся групп. Этого, однако, недостаточно, чтобы
объяснить столь широкий разброс валидности. Основной причиной рас-
хождений несомненно являются различия в самих критериях валидации.
Так, функции клерка или слесаря на разных предприятиях или даже
в разных отделах одного и того же учреждения не совпадают. Точно так
же неодинаковы и содержание курса данного предмета, и индиви-
дуальные качества преподавателей, и их подход к оценке знаний учащих-
ся. Таким образом, то, что представляется <одним и тем же> критерием,
в разных ситуациях оказывается весьма различной комбинацией свойств.
Критерии могут также изменяться во времени. Например, коэффи-
циент валидности теста относительно критериев профессионального обу-
чения часто отличается от его же валидности относительно выполнения
деятельности (Е.Е. Ghiselli, 1966). Есть данные, свидетельствующие
о том, что качества, необходимые для успешного выполнения работы
или даже конкретного задания, зависят от тренированности и профессио-
нального опыта индивида (E.A.FIeishman, 1972; E.A.FIeishman,
B.Fruchter, 1960; E.A.FIeishman, W.E.Hempel, 1956; Е.Е. Ghiselli,
M. Haire, 1960). Имеются также многочисленные указания на то, что кри-
терии выполнения деятельности меняются со временем вследствие изме-
нения характера работы, организационных целей, продвижения работни-
ка по службе и т. д. (А. С. MacKinney, 1967, E. P. Prien, 1966). Как
известно, учебные программы и содержание курсов также изменяются.
Иными словами, наиболее распространенные критерии, используемые
при валидации тестов способностей и интеллекта, а именно выполнение
деятельности и успеваемость-это динамические, а не статические вели-
чины. Отсюда следует, что валидность критерия сама подвержена вре-
менным изменениям.
Синтетическая валидность. Критерии ре только различаются
в зависимости от ситуации и времени, они также, по всей вероятности,
достаточно сложны по составу (J. M. Richards, С. W. Taylol P. В. Price,
T.L. Jacobsen, 1965). Успех на работе, в школе, в повседневной жизни за-
висит не от одного, а от многих свойств. Отсюда и многогранность
практических критериев. Поэтому для валидации теста могут быть ис-
пользованы различные меры профессиональных навыков или успеваемо-
сти. Поскольку эти меры могут относиться к различным свойствам или
комбинациям свойств, не удивительно, что коэффициенты валидности
для одного и того же теста неодинаковы. Когда различные крите-
риальные меры получают на одних и тех же испытуемых, их взаимокор-
реляция весьма низка. Например, может оказаться, что между числом
несчастных случаев или количеством невыходов на работу и производи-
тельностью или частотой допускаемых ошибок не будет обнаружено
практически никакой связи (S. E. Seashore, В. P. Indik, В. S. Georgopoulos,
1960). Эти различия, конечно, отражаются на коэффициентах валидности
любого данного теста по отношению к различным критериальным ме-
рам. Так, результаты теста могут не коррелировать значимо с оценками
профессиональных навыков мастером и тем не менее оказаться валидны-
ми относительно более поздних данных ухода с работы или продвиже-
ния по службе (L.E. Albright, W..Т. Smith, J.R. Glennon, 1959).
Ввиду комплексности критерия валидация теста относительно слож-
ного критерия профессиональных навыков, академической успеваемости
и других аналогичных показателей часто представляет сомнительную
ценность и обладает лишь локальной значимостью. В случае относитель-
139 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия
ной независимости различных критериев более эффективна валидация те-
ста относительно того аспекта критерия, на который этот тест ориенти-
рован в первую очередь. Анализ этих более специфических соотношений
осмысляет тестовые показатели с точки зрения многомерности крите-
риального поведения (М. D. Dunnette, 1963; R. L. Ebel, 1961; S. R. Wallace,
1965). Например, один тест может хорошо прогнозировать скорость во-
сприятия клерка и точность выполнения мелкой работы, другой-гра-
мотность его письма, третий-способность сосредоточиться на выполня-
емой работе и т.д.
Возвращаясь к практическим вопросам оценки теста или комбина-
ции тестов как средства прогнозирования комплексного критерия (ска-
жем, успеха в работе), мы сталкиваемся с необходимостью проведения
конкретной валидации для каждой частной ситуации и повторения ее че-
рез короткие промежутки времени. Это считается желательным и часто
рекомендуется в руководствах к тестам. В большинстве случаев, однако,
следовать таким предписаниям не удается. Даже если мы располагаем
хорошо подготовленным персоналом, большинство валидационных ис-
следований, осуществляемых в условиях производства, часто оказывают-
ся неудовлетворительными минимум по трем причинам. Во-первых,
трудно получить надежные и достаточно полные критериальные данные.
Во-вторых, число работников, выполняющих одну и ту же или близкие
функции на одном предприятии, часто слишком мало для получения ста-
тистически значимых результатов. В-третьих, корреляция, как правило,
снижается ввиду ограниченного разброса показателей, что объясняется
предварительным отбором: фактически испытуемыми оказываются
лишь те, кто был принят на работу.
В силу перечисленных обстоятельств среди психологов, занимаю-
щихся проблемами кадров, проявляется растущий интерес к так называе-
мой синтетической валидности. Это понятие было введено Ч. X. Лоши
(С.Н. Lawshe, 1952) и определено М. Балмой как <установление валидно-
сти в конкретных условиях на основе систематического анализа элемен-
тов деятельности, определение по этим элементам валидности теста
и объединение составляющих валидностей в единый показатель>
(M.J.Balma, 1959, р. 395). Были разработаны методы сбора необхо-
димых эмпирических данных и получения из них значения синтетической
валидности для частного комплексного критерия (R.M. Guion, 1965;
С.Н. Lawshe, M.J. Balma, 1966, гл. 14; E.J. McCormick, 1959; E.S. Prirnoff,
1959; 1975). По сути дела весь процесс складывается из трех этапов: (1)
детальный анализ деятельности для выделения ее элементов и определе-
ния их относительных весов; (2) анализ и экспериментальное исследова-
ние каждого теста для выяснения того, в какой степени он измеряет на-
выки в выполнении каждого из выделенных элементов деятельности; (3)
определение валидности каждого теста путем синтеза весов отдельных
элементов в деятельности и в тесте.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132