Следовательно, чем больше
на результат выполнения теста или отдельного задания влияет изме-
ряемое свойство и чем меньше - другие переменные (в том числе
внешние), тем тест валидней и, добавим, надежнее, поскольку вли-
яние помех на деятельность испытуемого, измеряемую валидным
тестом, минимально.
Но это противоречит классической теории теста, которая осно-
вана не на деятельностном подходе к измерению психических
свойств, а на бихевиористской парадигме: стимул - ответ. Если же
рассматривать тестирование как активное порождение испытуемым
ответов на задания, то надежность теста будет функцией, производ-
ной от валидности.
Тест валиден (и надежен), если на его результаты влияет лишь
измеряемое свойство.
Тест невалиден (и ненадежен), если результаты тестирования
определяются влиянием нерелевантных переменных.
Каким же образом определяется валидность? Все многочислен-
ные способы доказательства валидности теста называются разными
ее видами.
1. Очевидная валидность. Тест считается валидным, если у испы-
туемых складывается впечатление, что он измеряет то, что должен
205
измерять.
2. Конкретнаявалидность, нпнконвергентная-.дивергентная. Тест
должен хорошо коррелировать с тестами, измеряющими конкрет-
ное свойство либо близкое ему по содержанию, и иметь низкие кор-
реляции с тестами, измеряющими заведомо иные свойства.
3. Прогностическая валидность. Тест должен коррелировать с от-
даленными по времени внешними критериями: измерение интел-
лекта в детстве должно предсказывать будущие профессиональные
успехи.
4. Содержательная валидность. Применяется для тестов дости-
жений: тест должен охватывать всю область изучаемого поведения.
5. Конструктная валидность. Предполагает:
а) полное описание измеряемой переменной;
б) выдвижение системы гипотез о связях ее с другими перемен-
ными;
в) эмпирическое подтверждение (не опровержение) этих гипо-
тез.
С теоретической точки зрения единственным способом установ-
ления "внутренней" валидности теста и отдельных заданий являет-
ся метод факторного анализа (и аналогичные), позволяющий:
а) выявлять латентные свойства и вычислять значение "фактор-
ных нагрузок" - коэффициенты детерминации свойством тех или
иных поведенческих признаков;
б) определять меру влияния каждого латентного свойства на ре-
зультаты тестирования.
К сожалению, в классической теории теста не выявлены причин-
ные связи факторных нагрузок и надежности теста.
Дискриминативность задания является еще одним параметром,
внутренне присущим тесту. Тест должен хорошо "различать" испы-
туемых с разными уровнями выраженности свойства. Считается, что
больше 9-10 градаций использовать не стоит.
Тестовые нормы, полученные в ходе стандартизации, представ-
ляют собой систему шкал с характеристиками распределения тесто-
вого балла для различных выборок. Они не являются "внутренним"
свойством теста, а лишь облегчают его практическое применение.
6.5. Стохастическая теория тестов (IRT)
Наиболее общая теория конструирования тестов, опирающаяся
на теорию измерения, - Item Response Theory (IRT). Она основыва-
ется на теории латентно-структурного анализа (ЛСА), созданной
П.Лазарсфельдом и его последователями.
Латентно-структурный анализ создан для измерения латентных
(в том числе психических) свойств личности. Он является одним из
вариантов многомерного анализа данных, к которым принадлежат
факторный анализ в его различных модификациях, многомерное
шкалирование, кластерный анализ и др.
Теория измерения латентных черт предполагает, что:
1. Существует одномерный континуум свойства - латентной пере-
менной (х); на этом континууме происходит вероятностное распре-
деление индивидов с определенной плотностью f(x).
2. Существует вероятностная зависимость ответа испытуемого на
задачу (пункт теста) от уровня его психического свойства, которая
называется характеристикой кривой пункта. Если ответ имеет две
градации ("да- нет", "верно- не верно"), то эта функция есть ве-
роятность ответа, зависящая от места, занимаемого индивидом на
континууме (х).
3. Ответы испытуемого не зависят друг от друга, а связаны только
через латентную черту. Вероятность того, что, выполняя тест, испы-
туемый даст определенную последовательность ответов, равна про-
изведению вероятностей ответов на отдельные задания.
Конкретные модели ЛСА, применяемые для анализа эмпиричес-
ких данных, основаны надополнительных допущениях о плотности
распределения индивидов на латентном континууме или о форме
функциональной связи уровня выраженности свойства у испытуе-
мого и ответа на пункт теста.
В модели латентного класса функция плотности распределения
индивидов является точечно-дискретной: все индивиды относятся
к разным непересекающимся классам. Измерение производится но-
минальной шкалой.
В модели латентной дистанции постулируется, что вероятность
ответа индивида на пункттестаявляется мультипликативной функ-
цией от параметров задачи и величины свойства:
Р_ (х) - к, (х -Д. ).
Р(х) - вероятность ответа "да" на i-й пункт,
a - "дифференцирующая сила" задания,
х - величина свойства,
р- "трудность" задания.
Вероятность ответа на пункт теста описывается функцией, изо-
браженной на графике.
Р.(х)
где
Р(х) - величина i-ro задания,
Рх) - вероятность ответа на i-e задание.
Модель нормальной огивы есть обобщение модели латентной дис-
танции. В ней вероятность ответа на задание такова:
00
Р,(х) =Sp(t)dt,
-L.M
где
-L(x) - плотность нормального распределения.
В логистической модели вероятность ответа на задание описыва-
ется следующей зависимостью:
P,(x)=[DL_(x)],
L,(x) = а (х- ), \i/ (x) ==e(l-e0- логистическая функция
распределения.
Логистическая модель используется наиболее широко, так как она
специально предназначена для тестов, где свойство измеряется сум-
мированием баллов, полученных за выполнение каждого задания с
учетом их весов.
Логистическая функция и функция нормального распределения
тесно связаны:
/ Ф(х)-(1,7х) 1 <0,01
(здесьФ(х) - кумулятивная функция нормального распределения).
Развитием ЛСА являются различные модификации Item Response
Theory. В IRT распределения переменных на оси латентного свой-
208
ства считаются непрерывными, т.е. модельлатентного класса не ис-
пользуется.
Базадля IRT - это модельлатентной дистанции. Предполагает-
ся, что и индивидов, и задания можно расположить на одной оси
"способность - трудность", или "интенсивность свойства - сила
пункта". Каждому испытуемому ставится в соответствие только одно
значение латентного параметра ("способности").
В общем виде вероятность ответа зависит от множества свойств
испытуемого, но в моделях IRT рассматривается лишь одномерный
случай.
Главное отличие IRT от классической теории теста в том, что в ней
не ставятся и не решаются фундаментальные проблемы эмпирической
валидпости и надежности теста: задача априорно соотносится лишь с
одним свойством, т.е. тест заранее считается валидным. Вся проце-
дура сводится к получению оценок параметров трудности задания и
к измерению "способностей" испытуемых (образованию "характе-
ристических кривых"),
В классической теории теста индивидуальный балл (уровень свой-
ства) считается некоторым постоянным значением.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77
на результат выполнения теста или отдельного задания влияет изме-
ряемое свойство и чем меньше - другие переменные (в том числе
внешние), тем тест валидней и, добавим, надежнее, поскольку вли-
яние помех на деятельность испытуемого, измеряемую валидным
тестом, минимально.
Но это противоречит классической теории теста, которая осно-
вана не на деятельностном подходе к измерению психических
свойств, а на бихевиористской парадигме: стимул - ответ. Если же
рассматривать тестирование как активное порождение испытуемым
ответов на задания, то надежность теста будет функцией, производ-
ной от валидности.
Тест валиден (и надежен), если на его результаты влияет лишь
измеряемое свойство.
Тест невалиден (и ненадежен), если результаты тестирования
определяются влиянием нерелевантных переменных.
Каким же образом определяется валидность? Все многочислен-
ные способы доказательства валидности теста называются разными
ее видами.
1. Очевидная валидность. Тест считается валидным, если у испы-
туемых складывается впечатление, что он измеряет то, что должен
205
измерять.
2. Конкретнаявалидность, нпнконвергентная-.дивергентная. Тест
должен хорошо коррелировать с тестами, измеряющими конкрет-
ное свойство либо близкое ему по содержанию, и иметь низкие кор-
реляции с тестами, измеряющими заведомо иные свойства.
3. Прогностическая валидность. Тест должен коррелировать с от-
даленными по времени внешними критериями: измерение интел-
лекта в детстве должно предсказывать будущие профессиональные
успехи.
4. Содержательная валидность. Применяется для тестов дости-
жений: тест должен охватывать всю область изучаемого поведения.
5. Конструктная валидность. Предполагает:
а) полное описание измеряемой переменной;
б) выдвижение системы гипотез о связях ее с другими перемен-
ными;
в) эмпирическое подтверждение (не опровержение) этих гипо-
тез.
С теоретической точки зрения единственным способом установ-
ления "внутренней" валидности теста и отдельных заданий являет-
ся метод факторного анализа (и аналогичные), позволяющий:
а) выявлять латентные свойства и вычислять значение "фактор-
ных нагрузок" - коэффициенты детерминации свойством тех или
иных поведенческих признаков;
б) определять меру влияния каждого латентного свойства на ре-
зультаты тестирования.
К сожалению, в классической теории теста не выявлены причин-
ные связи факторных нагрузок и надежности теста.
Дискриминативность задания является еще одним параметром,
внутренне присущим тесту. Тест должен хорошо "различать" испы-
туемых с разными уровнями выраженности свойства. Считается, что
больше 9-10 градаций использовать не стоит.
Тестовые нормы, полученные в ходе стандартизации, представ-
ляют собой систему шкал с характеристиками распределения тесто-
вого балла для различных выборок. Они не являются "внутренним"
свойством теста, а лишь облегчают его практическое применение.
6.5. Стохастическая теория тестов (IRT)
Наиболее общая теория конструирования тестов, опирающаяся
на теорию измерения, - Item Response Theory (IRT). Она основыва-
ется на теории латентно-структурного анализа (ЛСА), созданной
П.Лазарсфельдом и его последователями.
Латентно-структурный анализ создан для измерения латентных
(в том числе психических) свойств личности. Он является одним из
вариантов многомерного анализа данных, к которым принадлежат
факторный анализ в его различных модификациях, многомерное
шкалирование, кластерный анализ и др.
Теория измерения латентных черт предполагает, что:
1. Существует одномерный континуум свойства - латентной пере-
менной (х); на этом континууме происходит вероятностное распре-
деление индивидов с определенной плотностью f(x).
2. Существует вероятностная зависимость ответа испытуемого на
задачу (пункт теста) от уровня его психического свойства, которая
называется характеристикой кривой пункта. Если ответ имеет две
градации ("да- нет", "верно- не верно"), то эта функция есть ве-
роятность ответа, зависящая от места, занимаемого индивидом на
континууме (х).
3. Ответы испытуемого не зависят друг от друга, а связаны только
через латентную черту. Вероятность того, что, выполняя тест, испы-
туемый даст определенную последовательность ответов, равна про-
изведению вероятностей ответов на отдельные задания.
Конкретные модели ЛСА, применяемые для анализа эмпиричес-
ких данных, основаны надополнительных допущениях о плотности
распределения индивидов на латентном континууме или о форме
функциональной связи уровня выраженности свойства у испытуе-
мого и ответа на пункт теста.
В модели латентного класса функция плотности распределения
индивидов является точечно-дискретной: все индивиды относятся
к разным непересекающимся классам. Измерение производится но-
минальной шкалой.
В модели латентной дистанции постулируется, что вероятность
ответа индивида на пункттестаявляется мультипликативной функ-
цией от параметров задачи и величины свойства:
Р_ (х) - к, (х -Д. ).
Р(х) - вероятность ответа "да" на i-й пункт,
a - "дифференцирующая сила" задания,
х - величина свойства,
р- "трудность" задания.
Вероятность ответа на пункт теста описывается функцией, изо-
браженной на графике.
Р.(х)
где
Р(х) - величина i-ro задания,
Рх) - вероятность ответа на i-e задание.
Модель нормальной огивы есть обобщение модели латентной дис-
танции. В ней вероятность ответа на задание такова:
00
Р,(х) =Sp(t)dt,
-L.M
где
-L(x) - плотность нормального распределения.
В логистической модели вероятность ответа на задание описыва-
ется следующей зависимостью:
P,(x)=[DL_(x)],
L,(x) = а (х- ), \i/ (x) ==e(l-e0- логистическая функция
распределения.
Логистическая модель используется наиболее широко, так как она
специально предназначена для тестов, где свойство измеряется сум-
мированием баллов, полученных за выполнение каждого задания с
учетом их весов.
Логистическая функция и функция нормального распределения
тесно связаны:
/ Ф(х)-(1,7х) 1 <0,01
(здесьФ(х) - кумулятивная функция нормального распределения).
Развитием ЛСА являются различные модификации Item Response
Theory. В IRT распределения переменных на оси латентного свой-
208
ства считаются непрерывными, т.е. модельлатентного класса не ис-
пользуется.
Базадля IRT - это модельлатентной дистанции. Предполагает-
ся, что и индивидов, и задания можно расположить на одной оси
"способность - трудность", или "интенсивность свойства - сила
пункта". Каждому испытуемому ставится в соответствие только одно
значение латентного параметра ("способности").
В общем виде вероятность ответа зависит от множества свойств
испытуемого, но в моделях IRT рассматривается лишь одномерный
случай.
Главное отличие IRT от классической теории теста в том, что в ней
не ставятся и не решаются фундаментальные проблемы эмпирической
валидпости и надежности теста: задача априорно соотносится лишь с
одним свойством, т.е. тест заранее считается валидным. Вся проце-
дура сводится к получению оценок параметров трудности задания и
к измерению "способностей" испытуемых (образованию "характе-
ристических кривых"),
В классической теории теста индивидуальный балл (уровень свой-
ства) считается некоторым постоянным значением.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77