чем выше надеж-
ность, тем меньше погрешность и тем ближе значение показателя по
тесту к истинному показателю (см. гл. 1). Из этого делается очевид-
ный вывод: высокая внутренняя согласованность должна быть основ-
ной целью разработчиков тестов, и это точка зрения многих специа-
листов по психометрии (напр., Cronbach, 1970), отражаемая и в
обзорах тестов во многих изданиях Mental Measurement Yearbook
(Buros).
Однако, Кэттелл и его коллеги, являющиеся авторами некоторых
из наиболее известных тестов во многих областях психологических
измерений - например , Культурно-свободного теста интеллекта
(Culture-Fair Intelligence Test, CFIT; Cattell и Cattell, 1960), Шест-
надцатифакторного личностного опросника (16 PF Personality Test;
Cattell и др., 1970), Теста анализа мотивов (Motivation Analysis Test;
Cattell и др., 1970) -постоянно утверждали, что высокая внутренняя
согласованность может быть (а часто и является в таких ложных
областях, как темперамент и динамика) противоположностью высо-
кой валидности. Поскольку валидность определена как степень, в
которой тест измеряет то, для измерения чего он предназначен, то
164
достижение ее должно быть основной целью при разработке тестов.
Надежность важна лишь постольку, поскольку она может обеспечить
высокую валидность. Как же тогда могло оказаться, что Кэттелл
придерживается точки зрения, не только противоположной мнению
большинства специалистов в этой области, но и такой, которая про-
тиворечит статистическим основаниям разработки тестов?
Значение истинных показателей
В главе 1 большое внимание было уделено определению значения
истинных показателей - показателей для некоторой бесконечной
генеральной совокупности заданий - потому что это понятие явля-
ется определяющим.
Поскольку я буду утверждать здесь, что важность надежности по
внутренней согласованности была в психометрии излишне преувели-
чена (то есть я соглашаюсь с мнением Кэттелла) и что она может
быть антитезисом валидности, то существенно важно указать, что я
полностью принимаю статистические аргументы, выдвинутые ранее.
Однако то, что не было вынесено на рассмотрение при обсуждении
математических методов (и то, почему понятие истинного показате-
ля является определяющим) - это психологическая значимость ис-
тинных показателей в том виде, как они определены теоретически.
Эту точку зрения лучше всего пояснить на примерах.
Предположим, что мы пытаемся измерить такую переменную,
как вербальные способности. Весьма вероятно, что задания, которые
представляются затрагивающими вербальные способности, в дейст-
вительности их и затрагивают; например, словарный запас, опреде-
ления, синонимы, антонимы, конструирование искусственных язы-
ков с грамматикой, составление конспектов, понимание и способ-
ность к подведению итогов. То есть можно сказать, что переменная
"вербальные способности" является относительно однородным набо-
ром ясно определенных и очерченных навыков. Было бы очень уди-
вительно, если бы испытуемые, хорошо составляющие краткие кон-
спекты, были не очень понятливы и имели плохой словарный запас.
Это означает, что существуют веские психологические основания
для того, чтобы предполагать, что соответствующая выборка заданий
будет внутренне согласована, однородна и надежна, и что любые
задания, которые не могли быть определены таким образом, по всей
вероятности, измеряют некоторую другую переменную, а не вер-
бальные способности. Следовательно, в этом случае можно было бы
ожидать, что выборочный тест будет высоко надежным, потому что
генеральная совокупность истинных заданий была сама однородна. В
самом деле, большинство эффективных тестов способностей дейст-
165
вительно имеют высокие значения коэффициента О., поскольку в
сфере способностей каждый фактор является обычно четко опреде-
ленным и дискретным. Если тест валиден - то есть если его задания
взяты из той генеральной совокупности заданий, которую мы имели
в виду - то в сфере способностей высокая надежность является,
вероятно; обязательным, условием.
Однако, этот пример также дает нам основания для аргумента
против слишком высокой надежности, то есть речь идет о том, что
высокая надежность является антитезой высокой валидности. Давай-
те представим, что наш тест вербальных способностей состоит из
вопросов по антонимам, синонимам, пониманию, словарному запасу
и краткому конспективному изложению. Такие средства измерения,
при тщательной их разработке, имели высокие значения надежнос-
ти, порядка 0,90. Однако, если бы в стремлении достичь высокой
надежности мы использовали только один тип заданий, скажем, за-
дания на антонимы, то это значение надежности могло, несомненно,
возрасти. Однако, (и надеюсь, большинству читателей это понятно),
очень маловероятно, чтобы этот последний тест вербальных способ-
ностей имел бы более высокую валидность.
В терминах классической модели погрешностей измерений мы
можем ясно увидеть, почему этот тест с более высокой надежностью
является менее валидным. Высокая надежность теста антонимов от-
ражает тот факт, что наша выборка заданий теста (на антонимы) в
высокой степени коррелирует с гипотетической генеральной сово-
купностью заданий, то есть со всеми возможными заданиями на
антонимы. Однако, этот истинный показатель отражает не вербаль-
ные способности, а только способность подбирать антонимы. Таким
образом, можно создать валидные тесты, ограничивая выбор заданий
и конструируя генеральную совокупность заданий, однако это будет
достигнуто только за счет уменьшения валидности. Так, из этого
примера можно видеть, каким образом утверждение о том, что высо-
кая надежность противостоит высокой валидности, не является про-
тиворечащим классической модели погрешностей измерения. Как
отмечалось, все зависит от психологического значения истинных по-
казателей (в данном примере отличия вербальных способностей от
способности подбирать антонимы).
В нашем примере из сферы способностей большинство разработ-
чиков тестов не сделали бы такой ошибки, создавая высоконадежный
тест путем ограничения себя лишь одним типом заданий, потому что
конструкт вербальных способностей хорошо понятен и одних заданий
на антонимы для него недостаточно. Однако в других областях пси-
хологических измерений, особенно личности и мотивов, это не так.
166
Многие разработчики тестов, например, Кэттелл, Гилфорд и Айзенк
для очерчивания области и определения конструктов используют
факторно-аналитические методы.
Следовательно, в том случае, когда переменная не может быть
определена a priori, существует реальная опасность создания тестов
с такой высокой надежностью, что, и это существенно, генеральная
совокупность заданий будет настолько ограничена, что не будет
представлять сколь-нибудь значительного психологического интере-
са, или, говоря статистическим языком, истинный показатель будет
очень специфичным и не будет коррелировать практически ни с чем.
Это в особенности имеет место тогда, когда мы имеем дело с попыткой
измерить такую переменную, как экстраверсия, которая является
некоторым кластером или синдромом характеристик.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88
ность, тем меньше погрешность и тем ближе значение показателя по
тесту к истинному показателю (см. гл. 1). Из этого делается очевид-
ный вывод: высокая внутренняя согласованность должна быть основ-
ной целью разработчиков тестов, и это точка зрения многих специа-
листов по психометрии (напр., Cronbach, 1970), отражаемая и в
обзорах тестов во многих изданиях Mental Measurement Yearbook
(Buros).
Однако, Кэттелл и его коллеги, являющиеся авторами некоторых
из наиболее известных тестов во многих областях психологических
измерений - например , Культурно-свободного теста интеллекта
(Culture-Fair Intelligence Test, CFIT; Cattell и Cattell, 1960), Шест-
надцатифакторного личностного опросника (16 PF Personality Test;
Cattell и др., 1970), Теста анализа мотивов (Motivation Analysis Test;
Cattell и др., 1970) -постоянно утверждали, что высокая внутренняя
согласованность может быть (а часто и является в таких ложных
областях, как темперамент и динамика) противоположностью высо-
кой валидности. Поскольку валидность определена как степень, в
которой тест измеряет то, для измерения чего он предназначен, то
164
достижение ее должно быть основной целью при разработке тестов.
Надежность важна лишь постольку, поскольку она может обеспечить
высокую валидность. Как же тогда могло оказаться, что Кэттелл
придерживается точки зрения, не только противоположной мнению
большинства специалистов в этой области, но и такой, которая про-
тиворечит статистическим основаниям разработки тестов?
Значение истинных показателей
В главе 1 большое внимание было уделено определению значения
истинных показателей - показателей для некоторой бесконечной
генеральной совокупности заданий - потому что это понятие явля-
ется определяющим.
Поскольку я буду утверждать здесь, что важность надежности по
внутренней согласованности была в психометрии излишне преувели-
чена (то есть я соглашаюсь с мнением Кэттелла) и что она может
быть антитезисом валидности, то существенно важно указать, что я
полностью принимаю статистические аргументы, выдвинутые ранее.
Однако то, что не было вынесено на рассмотрение при обсуждении
математических методов (и то, почему понятие истинного показате-
ля является определяющим) - это психологическая значимость ис-
тинных показателей в том виде, как они определены теоретически.
Эту точку зрения лучше всего пояснить на примерах.
Предположим, что мы пытаемся измерить такую переменную,
как вербальные способности. Весьма вероятно, что задания, которые
представляются затрагивающими вербальные способности, в дейст-
вительности их и затрагивают; например, словарный запас, опреде-
ления, синонимы, антонимы, конструирование искусственных язы-
ков с грамматикой, составление конспектов, понимание и способ-
ность к подведению итогов. То есть можно сказать, что переменная
"вербальные способности" является относительно однородным набо-
ром ясно определенных и очерченных навыков. Было бы очень уди-
вительно, если бы испытуемые, хорошо составляющие краткие кон-
спекты, были не очень понятливы и имели плохой словарный запас.
Это означает, что существуют веские психологические основания
для того, чтобы предполагать, что соответствующая выборка заданий
будет внутренне согласована, однородна и надежна, и что любые
задания, которые не могли быть определены таким образом, по всей
вероятности, измеряют некоторую другую переменную, а не вер-
бальные способности. Следовательно, в этом случае можно было бы
ожидать, что выборочный тест будет высоко надежным, потому что
генеральная совокупность истинных заданий была сама однородна. В
самом деле, большинство эффективных тестов способностей дейст-
165
вительно имеют высокие значения коэффициента О., поскольку в
сфере способностей каждый фактор является обычно четко опреде-
ленным и дискретным. Если тест валиден - то есть если его задания
взяты из той генеральной совокупности заданий, которую мы имели
в виду - то в сфере способностей высокая надежность является,
вероятно; обязательным, условием.
Однако, этот пример также дает нам основания для аргумента
против слишком высокой надежности, то есть речь идет о том, что
высокая надежность является антитезой высокой валидности. Давай-
те представим, что наш тест вербальных способностей состоит из
вопросов по антонимам, синонимам, пониманию, словарному запасу
и краткому конспективному изложению. Такие средства измерения,
при тщательной их разработке, имели высокие значения надежнос-
ти, порядка 0,90. Однако, если бы в стремлении достичь высокой
надежности мы использовали только один тип заданий, скажем, за-
дания на антонимы, то это значение надежности могло, несомненно,
возрасти. Однако, (и надеюсь, большинству читателей это понятно),
очень маловероятно, чтобы этот последний тест вербальных способ-
ностей имел бы более высокую валидность.
В терминах классической модели погрешностей измерений мы
можем ясно увидеть, почему этот тест с более высокой надежностью
является менее валидным. Высокая надежность теста антонимов от-
ражает тот факт, что наша выборка заданий теста (на антонимы) в
высокой степени коррелирует с гипотетической генеральной сово-
купностью заданий, то есть со всеми возможными заданиями на
антонимы. Однако, этот истинный показатель отражает не вербаль-
ные способности, а только способность подбирать антонимы. Таким
образом, можно создать валидные тесты, ограничивая выбор заданий
и конструируя генеральную совокупность заданий, однако это будет
достигнуто только за счет уменьшения валидности. Так, из этого
примера можно видеть, каким образом утверждение о том, что высо-
кая надежность противостоит высокой валидности, не является про-
тиворечащим классической модели погрешностей измерения. Как
отмечалось, все зависит от психологического значения истинных по-
казателей (в данном примере отличия вербальных способностей от
способности подбирать антонимы).
В нашем примере из сферы способностей большинство разработ-
чиков тестов не сделали бы такой ошибки, создавая высоконадежный
тест путем ограничения себя лишь одним типом заданий, потому что
конструкт вербальных способностей хорошо понятен и одних заданий
на антонимы для него недостаточно. Однако в других областях пси-
хологических измерений, особенно личности и мотивов, это не так.
166
Многие разработчики тестов, например, Кэттелл, Гилфорд и Айзенк
для очерчивания области и определения конструктов используют
факторно-аналитические методы.
Следовательно, в том случае, когда переменная не может быть
определена a priori, существует реальная опасность создания тестов
с такой высокой надежностью, что, и это существенно, генеральная
совокупность заданий будет настолько ограничена, что не будет
представлять сколь-нибудь значительного психологического интере-
са, или, говоря статистическим языком, истинный показатель будет
очень специфичным и не будет коррелировать практически ни с чем.
Это в особенности имеет место тогда, когда мы имеем дело с попыткой
измерить такую переменную, как экстраверсия, которая является
некоторым кластером или синдромом характеристик.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88