В IRT латент-
ный параметртрактуется как непрерывная переменная.
Первично моделью в IRT стала модель латентной дистанции,
предложенная Г.Рашем: разность уровня способности и трудности
теста х, -, где х - положение i-ro испытуемого на шкале, а -
положение j-го задания на той же шкале. Расстояние (х - [) харак-
теризует отставание способности испытуемого от уровня сложности
задания. Если разница велика и отрицательна, то задание не может
быть выполнено, так как для данного испытуемого оно слишком
сложно. Если же разница велика и положительна, то задание также
не информативно, ибо испытуемый заведомо легко и правильно его
решит.
Вероятность правильного решения задания (или ответа "да") i-м
испытуемым:
Р.()=-Р.)-
Вероятность выполнения j-го задания группой испытуемых:
P=ft-P.
В IRT функции (х) и f(p) называются функциями выбора пункта.
Соответственно первая является характеристической функцией ис-
пытуемого, а вторая - характеристической функцией задания.
Считается, что латентные переменные х и (3 нормально распреде-
лены, поэтомудля характеристических функций выбирают либо ло-
гистическую функцию, либо интегральную функцию нормирован-
ного нормального распределения (как мы уже отметили выше, они
мало отличаются друг от друга).
Поскольку логистическую функцию проще аналитически зада-
вать, ее используют чаще, чем функцию нормального распределе-
ния.
Кроме "свойства" и "силы пункта" (она же-трудность задания)
в аналитическую модель IRT могут включаться и другие перемен-
ные. Все варианты I RT классифицируются по числу используемых в
них переменных.
Наиболее известны однопараметрическая модель Г.Раша, двух-
параметрическая модель А. Бирнбаума и трехпараметрическая модель
А.Бирнбаума.
В однопараметрической модели Раша предполагается, что ответ
испытуемого обусловлен только индивидуальной величиной изме-
ряемого свойства (6.) и "силой" тестового задания (р.). Следователь-
но, для верного ответа ("да")
ехр- )
Р,(/)= ,- )
и для неверного ответа ("нет")
cxp(e.-ft. )
О ("/в.Р ) = 1 - -.
" " ]+ехр(в_-)
Наиболее распространена модель Раша с логистической функцией
отклика.
Для тестового задания:
ц1.7<>-ЦП
Р,(в)=
Для испытуемого:
РФ)
f -f- pl.7<> -Ui>
pi .7(41-IV
] + gl .7(4!-ft)
Естественно, чем выше уровень свойства (способности), тем ве-
роятнее получить правильный ответ ("ключевой" ответ - "да").
Следовательно, функция Р. (6) является монотонно возрастающей.
В точке "перегиба" характеристической кривой i-го задания тес-
та "способность" равна "трудности задания", следовательно, "веро-
ятность его решения" равна 0,5.
Очевидно, что индивидуальная кривая испытуемого, характе-
ризующая вероятность решить то или иное задание (дать ответ "да"),
будет монотонно убывающей функцией.
В точке на шкале, где "трудность равна индивидуальной спо-
собности испытуемого", происходит "перегиб" функции. С ростом
"способности" (развитием психологического свойства) кривая сдви-
гается вправо.
Главной задачей IRT является шкалирование пунктовтестаи ис-
пытуемых.
Упростим исходную формулу модели, введя параметр V - е"
V
Q = 1 -
if
I+V
V
Шанс на успех i-го испытуемого при решении j-ro задания опре-
деляется отношением:
V
Р.
у== e>i-ii\
Если сравнить шансы двух испытуемых решить одно и то же)-е
задание, то это отношение будет следующим:
Л с/У
Следовательно, разница в успешности решения задания испыту-
емыми не зависит от сложности задания и определяется лишь уров-
нем способности.
Нетрудно заметить, что в модели Раша отношение трудности за-
даний не зависит от способности испытуемых. Для того, чтобы убе-
диться в этом, достаточно проделать аналогичные простейшие пре-
образования, сравнивая вероятности ответов группы на два пункта
теста, а не вероятности ответов разных испытуемых.
Р- вероятностьответа Hak-езаданиедля i-го испытуемого,U=
ев.. р,
и для неправильного ответа
О.-
1
Следовательно,
I+U
U
Для сравнения шансов на успех i-го испытуемого решить зада-
ния k и п берем отношение:
р
f .1. Hi- iu-
_
V
= рЦп-flk
Тем самым отношение шансов испытуемого решить два разных
задания определяется лишь трудностью этих заданий.
Обратим внимание, что шкала Раша (в теории ) является шкалой
отношений.
Теперь у нас есть возможность ввести единицу измерения спо-
собности (в общем виде - свойства). Если взять натуральный лога-
рифм от е"" или е>-<"\ то получается единица измерения "логит"
(термин ввел Г.Ращ), которая позволяет измерить и "силу пункта"
(трудность задания), и величину свойства (способность испытуемо-
го) в одной шкале.
Эмпирически эта процедура производится следующим образом.
Предполагается, что данные тестирования и значения латентных
переменных характеризуются нормальным распределением. Уровень
"способности" испытуемого в "логитах" определяется на шкале ин-
тервалов с помощью формулы:
в"-/,, -
п - число испытуемых,
р. - доля правильных ответов i-го испытуемого на задания теста,
q. -доля неправильных ответов,
Р.+Я=<-
Для первичного определения трудности задания в логитах исполь-
зуют о цепку
0.
Р",=1"
,./--= 1. 2, ..., п,
где
п - ч и ел о зада ни и,
р. -доля правильных ответов для испытуемых группы naj-е за-
дание,
q. -доля неправильных ответов,
1-
Хотя параметры р и 8 изменяются от "плюса" до "минуса", то
при Р <-6 значения р близки к единице, т.е. на эти задания прак-
тически каждый испытуемый дает правильный ("ключевой") ответ.
При р > 6 с заданием не сможет справиться ни один испытуемый,
точнее - вероятность дать "ключевой" ответ ничтожна.
Рекомендуется рассматривать лишь интервалы от-3 до+3 как
для р (трудности), так и для 6 (способность).
Второй этап шкалирования испытуемых и заданий сводится к
тому, что шкалы преобразуются в единую путем "уничтожения" вли-
яния трудности задания на результат индивидов. И наоборот, эли-
минируется влияние индивидуальных способностей на решение за-
даний различной трудности.
Для шкалы испытуемых:
Р,
вр-xln
=р +хв".,
где
х=У1 +
2,89
р - среднее значение логитов трудности заданий теста,
W - стандартное отклонение распределения начальных значений
параметра р,
ii - число испытуемых.
Для шкалы заданий:
Р=в +у1п --=в+ур".
Р,
где
2,89
8 - среднее значение логитов уровней способностей,
V - стандарное отклонение распределения начальных значений
"способности",
п - число заданий в тесте.
Эти эмпирические оценки используются в качестве окончатель-
ных характеристик измеряемого свойства и самого измерительного
инструмента (заданий теста).
Если перед исследователем стоит задача конструирования теста, то
он приступает к получению характеристических кривых заданий теста.
Характеристические кривые могут накладываться одна на другую. В
этом случае избыточные задания выбраковываются. На определенных
участках оси 9 ("способность") характеристические кривые заданий
могут вовсе отсутствовать. Тогда разработчик теста должен добавить
задания недостающей трудности, чтобы равномерно заполнить ими весь
интервал шкалы логитов от -6 до +6. Заданий средней трудности долж-
но быть больше, чем на "краях" распределения, чтобы тест обладал
необходимой дифференцирующей (различающей) силой.
Вся процедура эмпирической проверки теста повторяется не-
сколько раз, пока разработчик не останется доволен результатом ра-
боты.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77
ный параметртрактуется как непрерывная переменная.
Первично моделью в IRT стала модель латентной дистанции,
предложенная Г.Рашем: разность уровня способности и трудности
теста х, -, где х - положение i-ro испытуемого на шкале, а -
положение j-го задания на той же шкале. Расстояние (х - [) харак-
теризует отставание способности испытуемого от уровня сложности
задания. Если разница велика и отрицательна, то задание не может
быть выполнено, так как для данного испытуемого оно слишком
сложно. Если же разница велика и положительна, то задание также
не информативно, ибо испытуемый заведомо легко и правильно его
решит.
Вероятность правильного решения задания (или ответа "да") i-м
испытуемым:
Р.()=-Р.)-
Вероятность выполнения j-го задания группой испытуемых:
P=ft-P.
В IRT функции (х) и f(p) называются функциями выбора пункта.
Соответственно первая является характеристической функцией ис-
пытуемого, а вторая - характеристической функцией задания.
Считается, что латентные переменные х и (3 нормально распреде-
лены, поэтомудля характеристических функций выбирают либо ло-
гистическую функцию, либо интегральную функцию нормирован-
ного нормального распределения (как мы уже отметили выше, они
мало отличаются друг от друга).
Поскольку логистическую функцию проще аналитически зада-
вать, ее используют чаще, чем функцию нормального распределе-
ния.
Кроме "свойства" и "силы пункта" (она же-трудность задания)
в аналитическую модель IRT могут включаться и другие перемен-
ные. Все варианты I RT классифицируются по числу используемых в
них переменных.
Наиболее известны однопараметрическая модель Г.Раша, двух-
параметрическая модель А. Бирнбаума и трехпараметрическая модель
А.Бирнбаума.
В однопараметрической модели Раша предполагается, что ответ
испытуемого обусловлен только индивидуальной величиной изме-
ряемого свойства (6.) и "силой" тестового задания (р.). Следователь-
но, для верного ответа ("да")
ехр- )
Р,(/)= ,- )
и для неверного ответа ("нет")
cxp(e.-ft. )
О ("/в.Р ) = 1 - -.
" " ]+ехр(в_-)
Наиболее распространена модель Раша с логистической функцией
отклика.
Для тестового задания:
ц1.7<>-ЦП
Р,(в)=
Для испытуемого:
РФ)
f -f- pl.7<> -Ui>
pi .7(41-IV
] + gl .7(4!-ft)
Естественно, чем выше уровень свойства (способности), тем ве-
роятнее получить правильный ответ ("ключевой" ответ - "да").
Следовательно, функция Р. (6) является монотонно возрастающей.
В точке "перегиба" характеристической кривой i-го задания тес-
та "способность" равна "трудности задания", следовательно, "веро-
ятность его решения" равна 0,5.
Очевидно, что индивидуальная кривая испытуемого, характе-
ризующая вероятность решить то или иное задание (дать ответ "да"),
будет монотонно убывающей функцией.
В точке на шкале, где "трудность равна индивидуальной спо-
собности испытуемого", происходит "перегиб" функции. С ростом
"способности" (развитием психологического свойства) кривая сдви-
гается вправо.
Главной задачей IRT является шкалирование пунктовтестаи ис-
пытуемых.
Упростим исходную формулу модели, введя параметр V - е"
V
Q = 1 -
if
I+V
V
Шанс на успех i-го испытуемого при решении j-ro задания опре-
деляется отношением:
V
Р.
у== e>i-ii\
Если сравнить шансы двух испытуемых решить одно и то же)-е
задание, то это отношение будет следующим:
Л с/У
Следовательно, разница в успешности решения задания испыту-
емыми не зависит от сложности задания и определяется лишь уров-
нем способности.
Нетрудно заметить, что в модели Раша отношение трудности за-
даний не зависит от способности испытуемых. Для того, чтобы убе-
диться в этом, достаточно проделать аналогичные простейшие пре-
образования, сравнивая вероятности ответов группы на два пункта
теста, а не вероятности ответов разных испытуемых.
Р- вероятностьответа Hak-езаданиедля i-го испытуемого,U=
ев.. р,
и для неправильного ответа
О.-
1
Следовательно,
I+U
U
Для сравнения шансов на успех i-го испытуемого решить зада-
ния k и п берем отношение:
р
f .1. Hi- iu-
_
V
= рЦп-flk
Тем самым отношение шансов испытуемого решить два разных
задания определяется лишь трудностью этих заданий.
Обратим внимание, что шкала Раша (в теории ) является шкалой
отношений.
Теперь у нас есть возможность ввести единицу измерения спо-
собности (в общем виде - свойства). Если взять натуральный лога-
рифм от е"" или е>-<"\ то получается единица измерения "логит"
(термин ввел Г.Ращ), которая позволяет измерить и "силу пункта"
(трудность задания), и величину свойства (способность испытуемо-
го) в одной шкале.
Эмпирически эта процедура производится следующим образом.
Предполагается, что данные тестирования и значения латентных
переменных характеризуются нормальным распределением. Уровень
"способности" испытуемого в "логитах" определяется на шкале ин-
тервалов с помощью формулы:
в"-/,, -
п - число испытуемых,
р. - доля правильных ответов i-го испытуемого на задания теста,
q. -доля неправильных ответов,
Р.+Я=<-
Для первичного определения трудности задания в логитах исполь-
зуют о цепку
0.
Р",=1"
,./--= 1. 2, ..., п,
где
п - ч и ел о зада ни и,
р. -доля правильных ответов для испытуемых группы naj-е за-
дание,
q. -доля неправильных ответов,
1-
Хотя параметры р и 8 изменяются от "плюса" до "минуса", то
при Р <-6 значения р близки к единице, т.е. на эти задания прак-
тически каждый испытуемый дает правильный ("ключевой") ответ.
При р > 6 с заданием не сможет справиться ни один испытуемый,
точнее - вероятность дать "ключевой" ответ ничтожна.
Рекомендуется рассматривать лишь интервалы от-3 до+3 как
для р (трудности), так и для 6 (способность).
Второй этап шкалирования испытуемых и заданий сводится к
тому, что шкалы преобразуются в единую путем "уничтожения" вли-
яния трудности задания на результат индивидов. И наоборот, эли-
минируется влияние индивидуальных способностей на решение за-
даний различной трудности.
Для шкалы испытуемых:
Р,
вр-xln
=р +хв".,
где
х=У1 +
2,89
р - среднее значение логитов трудности заданий теста,
W - стандартное отклонение распределения начальных значений
параметра р,
ii - число испытуемых.
Для шкалы заданий:
Р=в +у1п --=в+ур".
Р,
где
2,89
8 - среднее значение логитов уровней способностей,
V - стандарное отклонение распределения начальных значений
"способности",
п - число заданий в тесте.
Эти эмпирические оценки используются в качестве окончатель-
ных характеристик измеряемого свойства и самого измерительного
инструмента (заданий теста).
Если перед исследователем стоит задача конструирования теста, то
он приступает к получению характеристических кривых заданий теста.
Характеристические кривые могут накладываться одна на другую. В
этом случае избыточные задания выбраковываются. На определенных
участках оси 9 ("способность") характеристические кривые заданий
могут вовсе отсутствовать. Тогда разработчик теста должен добавить
задания недостающей трудности, чтобы равномерно заполнить ими весь
интервал шкалы логитов от -6 до +6. Заданий средней трудности долж-
но быть больше, чем на "краях" распределения, чтобы тест обладал
необходимой дифференцирующей (различающей) силой.
Вся процедура эмпирической проверки теста повторяется не-
сколько раз, пока разработчик не останется доволен результатом ра-
боты.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77