Надежность и стандартная ошибка измерения

Стандартная ошибка измерения: определение и пример

17 авг. 2022 г.
читать 2 мин

Стандартная ошибка измерения , часто обозначаемая как SE m , оценивает отклонение от «истинного» показателя для индивидуума при повторных измерениях.

Он рассчитывается как:

SE m = s√ 1-R

куда:

s: стандартное отклонение измерений
R: коэффициент надежности теста.

Обратите внимание, что коэффициент надежности находится в диапазоне от 0 до 1 и рассчитывается путем двукратного проведения теста для многих людей и расчета корреляции между их результатами теста.

Чем выше коэффициент надежности, тем чаще тест дает стабильные результаты.

Пример: расчет стандартной ошибки измерения

Предположим, человек проходит определенный тест 10 раз в течение недели, целью которого является измерение общего интеллекта по шкале от 0 до 100. Он получает следующие баллы:

Очки: 88, 90, 91, 94, 86, 88, 84, 90, 90, 94.

Среднее значение выборки равно 89,5, а стандартное отклонение выборки равно 3,17.

Если известно, что тест имеет коэффициент надежности 0,88, то мы рассчитываем стандартную ошибку измерения как:

SE м = с√1 -R = 3,17√1-0,88 = 1,098

Как использовать SE m для создания доверительных интервалов

Используя стандартную ошибку измерения, мы можем создать доверительный интервал, который, вероятно, будет содержать «истинную» оценку человека по определенному тесту с определенной степенью достоверности.

Если человек получает по тесту оценку x , мы можем использовать следующие формулы для расчета различных доверительных интервалов для этой оценки:

68% доверительный интервал = [ x – SE m , x + SE m ]
95% доверительный интервал = [ x – 2*SE m , x + 2*SE m ]
99% доверительный интервал = [ x – 3*SE m , x + 3*SE m ]

Например, предположим, что человек набрал 92 балла по определенному тесту, который, как известно, имеет SE m 2,5. Мы могли бы рассчитать 95% доверительный интервал как:

95% доверительный интервал = [92 – 2*2,5, 92 + 2*2,5] = [87, 97]

Это означает, что мы на 95% уверены в том, что «истинный» результат этого теста человека находится между 87 и 97.

Существует простая зависимость между коэффициентом надежности теста и стандартной ошибкой измерения:

Чем выше коэффициент надежности, тем меньше стандартная ошибка измерения.
Чем ниже коэффициент надежности, тем выше стандартная ошибка измерения.

Чтобы проиллюстрировать это, рассмотрим человека, который проходит тест 10 раз и имеет стандартное отклонение баллов, равное 2 .

Если тест имеет коэффициент надежности 0,9 , то стандартная ошибка измерения будет рассчитываться как:

SE m = s√1 -R = 2√1-0,9 = 0,632

Однако, если тест имеет коэффициент надежности 0,5 , то стандартная ошибка измерения будет рассчитываться как:

SE м = с√ 1-R = 2√ 1-,5 = 1,414

Это должно иметь смысл интуитивно: если результаты теста менее надежны, то ошибка измерения «истинного» результата будет выше.

Источник

Методы
тестирования

.
Широко распространенные диагностические
методы. Их существует множество, и они
разделяются на группы по следующим
признакам: индивидуальные и групповые
(коллективные), вербальные и невербальные,
количественные и качественные, общие
и специальные и др.

Тесты

являются
специализированными методами
диагностического обследования, применяя
которые, можно получать количественную
или качественную характеристику
изучаемого явления. В отличие от других
методов, они предполагают четкую
процедуру сбора и обработки первичных
данных, а также своеобразие их последующей
интерпретации. Существуют варианты
теста: тест-опросник и тест-задание.

Тест-опросник
—
тщательно продуманные и проверенные
вопросы, по ответам на которые можно
судить о психологических качествах
испытуемого.

Тест-задание
—
оценка психологии и поведения человека
на базе того, что он делает. Испытуемый
выполняет специальные задания, по
которым можно судить о наличии или
отсутствии степени развития у него
изучаемого качества.

Положительная
сторона тестов состоит в том, что они
могут применяться к категориям населения,
различающимся по возрасту, культуре,
профессии, жизненному опыту и т.д.
Недостаток их в том, что испытуемый по
желанию может сознательно влиять на
результаты, зная механизм теста.

В
этих случаях применяется тест-проектирование.
Создается определенный тип проекции,
согласно которому неосознаваемые
собственные качества, особенно недостатки,
человек склонен приписывать другим.
Этот тест требует повышенного
интеллектуального уровня как от
испытуемого, так и высокой профессиональной
квалификации со стороны самого диагноста.

Технология социальной работы
Зайнышев И.Г.

Социальная
педагогика и социальная работа сайт

Здоровы
ли вы душевно?

Узнайте
— все ли в порядке у вас с вашим душевным
здоровьем?

Тест
на выявление уровня самооценки

Как
высоко вы цените себя? Пройдите этот
тест чтобы выяснить это!

Зависите
ли вы от общественного мнения?

Пройдите
тест и выясните это!

стандартная
ошибка измерения

Надежность
психодиагностических методик. Стандартная
ошибка измерения. Понятие о методе
измерения ретестовой надежности

Надежность
– одно из трех главных психометрических
свойств любой измерительной
психодиагностической методики (теста).

Надежность
– это помехоустойчивость теста,
независимость его результата от действия
всевозможных случайных
факторов:

а) разнообразие
внешних материальных условий тестирования,
меняющихся от одного испытуемого к
другому;

б) динамичные
внутренние факторы, по-разному действующие
на разных испытуемых в ходе тестирования;

в) информационно-социальные
обстоятельства. Разнообразие и
изменчивость этих факторов так велики,
что они обусловливают появление у
каждого испытуемого непрогнозируемого
по размерам и направлению отклонения
измеренного тестового балла от истинного
тестового балла (который можно было бы,
в принципе, получать в идеальных
условиях). Величина этого отклонения
определяется как «стандартная
ошибка измерения» (Se).

Ошибка
измерения (Se) и надежность измерения
(R), согласно общепринятой психометрической
теории, связаны следующей формулой:

R
= 1 – Se2 / Sx2, (1)

где
Sx – дисперсия тестовых показателей Х.

Лучинин
Алексей Сергеевич
Психодиагностика конспект лекций

стандартная
ошибка измерения
— относительная доля случайного изменения
(дисперсии) измеряемого показателям по
отношению к совокупного изменению этого
показателя (общей дисперсии). Чем выше
СОИ, тем ниже точность и НАДЕЖНОСТЬ
теста.

СТАНДАРТНАЯ
ОШИБКА ИЗМЕРЕНИЯ

(standard
error of measurement)
— статистическая величина, отражающая
степень точности отдельных (педагогических)
измерений; диапазон изменения показателей,
в который попадает теоретический
показатель (например, истинный балл),
при данном выборочном показателе, с
различной степенью вероятности
Информационно просветительский портал
Ханта Мансийского округа

Стандартная Ошибка Измерения

Оценка
степени, в которой можно ожидать, что
определенный набор измерений, полученных
в данной ситуации (например, в тесте или
в одной из нескольких параллельных форм
теста), будет отклоняться от истинных
значений. Обозначается как а (М).
Психологическая энцеклопедия

Основы теории тестов

1. Основные понятия теории тестов

Измерение
или испытание, проводимое с целью
определения состояния или способностей
спортсмена, называется тестом.

Не
всякие измерения могут быть использованы
как тесты, а только те, которые отвечают
специальным требованиям. К ним относятся:

1.
стандартизованность (процедура и условия
тестирования должны быть одинаковыми
во всех случаях применения теста);
2.
надежность;
3. информативность;
4.
наличие системы оценок.

Тесты,
удовлетворяющие требованиям надежности
и информативности, называют добротными
или аутентичными
(греч. аутентико — достоверным образом).

Процесс
испытаний называется тестированием;
полученное в итоге измерения числовое
значение — результатом
тестирования
(или результатом теста). Например, бег
100 м — это тест, процедура проведения
забегов и хронометража — тестирование,
время забега — результат теста.

Тесты,
в основе которых лежат двигательные
задания, называют двигательными
или моторными
. Результатами их могут быть либо
двигательные достижения (время прохождения
дистанции, число повторений, пройденное
расстояние и т.п.), либо физиологические
и биохимические показатели.

Иногда
используется не один, а несколько тестов,
имеющих единую конечную цель (например,
оценку состояния спортсмена в
соревновательном периоде тренировки).
Такая группа тестов называется комплексом
или батареей
тестов.

Один
и тот же тест, примененный к одним и тем
же исследуемым, должен дать в одинаковых
условиях совпадающие результаты (если
только не изменились сами исследуемые).
Однако при самой строгой стандартизации
и точной аппаратуре результаты
тестирования всегда несколько варьируют.
Например, исследуемый, только что
показавший в тесте становой динамометрии
результат 215 кГ, при повторном выполнении
показывает лишь 190 кГ.

2. Надежность тестов и пути ее определения

Надежностью
теста называется степень совпадения
результатов при повторном тестировании
одних и тех же людей (или других объектов)
в одинаковых условиях.

Вариацию
результатов при повторном тестировании
называют внутри индивидуальной, или
внутри групповой, либо внутриклассовой.

Четыре
основные причины вызывают эту вариацию:

1.
Изменение состояния исследуемых
(утомление, врабатывание, научение,
изменение мотивации, концентрации
внимания и т.п.).
2. Неконтролируемые
изменения внешних условий и аппаратуры
(температура, ветер, влажность, напряжение
в электросети, присутствие посторонних
лиц и т.п.), т.е. все то, что объединяется
термином “случайная ошибка измерения”.
3.
Изменение состояния человека, проводящего
или оценивающего тест (и, конечно, замена
одного экспериментатора или судьи
другим).
4. Несовершенство теста (есть
такие тесты, которые заведомо малонадежные.
Например, если исследуемые выполняют
штрафные броски в баскетбольную корзину,
то даже баскетболист, имеющий высокий
процент попаданий, может случайно
ошибиться при первых бросках).

Основное
различие теории надежности тестов от
теории ошибок измерения состоит в том,
что в теории ошибок измеряемая величина
считается неизменной, а в теории
надежности тестов предполагается, что
она меняется от измерения к измерению.
Например, если необходимо измерить
результат выполненной попытки в прыжках
в длину с разбега, то он вполне определенный
и с течением времени значительно
измениться не может. Конечно, в силу
случайных причин (например, неодинакового
натяжения рулетки) нельзя с идеальной
точностью (скажем до 0,0001 мм) измерить
этот результат. Однако используя более
точный измерительный инструмент
(например, лазерный измеритель), можно
повысить их точность до необходимого
уровня. Вместе с тем, если стоит задача
определить подготовленность прыгуна
на отдельных этапах годичного цикла
тренировки, то самое точное измерение
показанных им результатов мало чем
поможет: ведь они от попытки к попытке
изменятся.

Чтобы
разобраться в идее методов, используемых
для суждения о надежности тестов,
рассмотрим упрощенный пример. Предположим,
что необходимо сравнить результаты
прыжков в длину с места у двух спортсменов
по двум выполненным попыткам. Допустим,
что результаты каждого из спортсменов
варьируют в пределах ± 10 см от средней
величины и равны соответственно 230 ± 10
см (т.е. 220 и 240 см) и 280± 10 см (т.е. 270 и 290
см). В таком случае вывод, конечно, будет
совершенно однозначным: второй спортсмен
превосходит первого (различия между
средними в 50см явно выше случайных
колебаний в ± 10 см). Если же при той же
самой внутригрупповой вариации ( ± 10
см) различие между средними значениями
исследуемых (межгрупповая вариация)
будут маленькими, то сделать вывод будет
гораздо труднее. Допустим, что средние
значения будут примерно равны 220 см (в
одной попытке — 210, в другой — 230 см) и
222 см (212 и 232 см). При этом первый исследуемый
в первой попытке прыгает на 230 см, а
второй — только на 212 см; и создается
впечатление, что первый существенно
сильнее второго. Из этого примера видно,
что основное значение имеет не сама по
себе внутриклассовая изменчивость, а
ее соотношение с межклассовыми различиями.
Одна и та же внутриклассовая изменчивость
дает разную надежность при равных
различиях между классами (в частном
случае между исследуемыми, рис. 14).

Например,
если зарегистрировать у исследуемых
их результаты в каком-либо тесте, повторяя
этот тест в разные дни, причем каждый
день делать по несколько попыток,
периодически меняя экспериментаторов,
то будут иметь место вариации:

а)
от испытуемого к испытуемому;

б)
ото дня ко дню;

в)
от экспериментатора к экспериментатору;

г)
от попытки к попытке.

Дисперсионный
анализ дает возможность выделить и
оценить эти вариации.

Таким
образом, чтобы оценить практически
надежность теста надо, во-первых,
выполнить дисперсионный анализ,
во-вторых, рассчитать внутриклассовый
коэффициент корреляции (коэффициент
надежности).

При
двух попытках величина внутриклассового
коэффициента корреляции практически
совпадает со значениями обычного
коэффициента корреляции между результатами
первой и второй попыток. Поэтому в таких
ситуациях для оценки надежности можно
использовать обычный коэффициент
корреляции (он при этом оценивает
надежность одной, а не двух попыток).

Говоря
о надежности тестов, необходимо различать
их стабильность (воспроизводимость),
согласованность, эквивалентность.

Под
стабильностью
теста понимают воспроизводимость
результатов при его повторении через
определенное время в одинаковых условиях.
Повторное тестирование обычно называют
ретестом.

Согласованность
теста характеризуется независимостью
результатов тестирования от личных
качеств лица, проводящего или оценивающего
тест.

При
выборе теста из определенного числа
однотипных тестов (например, спринтерский
бег на 30, 60 и 100 м) методом параллельных
форм оценивается степень совпадения
результатов. Рассчитанный между
результатами коэффициент корреляции
называют коэффициентом
эквивалентности.

Если
все тесты, входящие в какой-либо комплекс
тестов, высоко эквивалентны, он называется
гомогенным.
Весь этот комплекс измеряет одно какое-то
свойство моторики человека (например,
комплекс, состоящий из прыжков с места
в длину, вверх и тройного; оценивается
уровень развития скоростно-силовых
качеств). Если в комплексе нет эквивалентных
тестов, то есть тесты, входящие в него,
измеряют разные свойства, то он называется
гетерогенным
(например,
комплекс, состоящий из становой
динамометрии, прыжка вверх по Абалакову,
бега на 100 м).

Надежность
тестов может быть повышена до определенной
степени путем:

а)
более строгой стандартизации тестирования;

б)
увеличения числа попыток;

в)
увеличения числа оценщиков (судей,
экспериментов) и повышения согласованности
их мнений;

г)
увеличения числа эквивалентных тестов;

д)
лучшей мотивации исследуемых.

Кубанский
государственный университет физ культуры
спорта и туризма

Популярные
тестовые методики, применяемые в практике
профессионального отбора и тестирования
персонала:

Проективные
тесты

Тест
Роршаха.
Испытуемому предъявляются для
интерпретации картинки с абстрактными
изображениями — пятнами различной
конфигурации и цвета (напоминающими
чернильные кляксы). На основании того,
что увидит испытуемый, диагностируются
его скрытые установки, побуждения,
свойства характера.

Тест
Люшера
позволяет исследовать личность работника
путем анализа его субъективных
предпочтений при выборе цветовых
стимулов. В оригинале стимульный материал
представляют 73 карточки различного
цвета, в российской психодиагностике
распространена упрощенная тестовая
методика, применяющая восемь основных
цветов. При этом каждому цвету приписывается
определенное значение. Важен порядок
выбора цветов: первые выбранные цвета
выражают явные цели деятельности
личности и способы их достижения,
последние — подавленные, вытесненные
стремления.

Тематический
апперцептивный тест (ТАТ)
направлен на исследование психических
свойств личности по спонтанному описанию
тестируемым тех или иных стандартных
ситуаций, изображенных на предъявляемых
ему рисунках. Это один из наиболее
известных тестов на мотивацию достижений.
Надежность в практике тестирования
персонала не является доказанной. По
мнению специалистов, ответы на вопросы
ТАТ могут быть подвержены влиянию
сторонних факторов. Тем не менее,
успешность прохождения данного теста
коррелирует как с общими успехами
человека в учебе, так и с его экономическим
преуспеванием.

Тест
Майнера
на завершение предложений позволяет
прогнозировать управленческий и
творческий потенциал менеджеров. Этот
тест состоит из 40 незаконченных
предложений, которые тестируемый должен
дописать самостоятельно. По нему можно
судить о различных аспектах мотивации
менеджерской деятельности. В других
тестах на завершение предлагается
досочинить рассказ или дорисовать
рисунки.

По
критерию измеряемого психологического
качества можно выделить следующие
группы тестов:

Тесты
на уровень интеллекта (тесты на IQ —
интеллектуальные тесты)

Тестов,
измеряющих уровень интеллекта, очень
много, большинство из них происходят
от двух классических методик: теста
Бине-Симона
и теста
Векслера.
Оба теста прошли испытание на протяжении
70-летней практики их применения и
являются наиболее изученными и надежными.
К примеру, баллы по результатам
словесно-речевых IQ-тестов (тест Векслера)
всегда хорошо коррелируют с успехами
в учебе.

Применяя
тот или иной тест интеллекта, важно
знать, что автор или авторы теста
вкладывают в понятие «интеллект». В
настоящее время психологами выделяется
несколько видов интеллекта: словесно-речевой,
математический, визуально-пространственный,
художественный, двигательный, музыкальный
и прикладной. При этом многие психологи
говорят о так называемом «общем (едином)
интеллекте», позволяющим человеку
довольно эффективно проявлять себя в
разных областях жизнедеятельности.

Тесты
на IQ (коэффициент интеллекта) помогают
выявить наличие отдельных интеллектуальных
способностей человека, в том числе:

словесно-речевых;
способностей
оперировать с числами — математический
интеллект;
визуально-пространственных;
исполнительских
(особых) — прикладной интеллект.

Недостатком
интеллектуальных тестов является то,
что они нацелены на получение некоторого
суммарного балла, отражающего
интеллектуальные способности «вообще».
Но за этим суммарным баллом остаются
неразличимыми отдельные сильные и
слабые способности человека. Выполняя
интеллектуальные тесты, человек
использует главным образом конвергентное
мышление.
Это мышление «специализируется» на
решении задач, у которых есть только
один правильный ответ. Однако на многие
вопросы нельзя дать однозначный, верный
или неверный ответ. Например, когда
нужно найти новую генеральную линию
развития фирмы, которая позволила бы
ей обогнать своих конкурентов, или
выработать новый действенный слоган —
в этих случаях у задачи множество
вариантов решения. Некоторые из них
будут лучше, другие хуже (зачастую это
может показать лишь время), но ни один
из них не является единственно верным.
Такие вопросы требуют дивергентного
мышления.
Тесты на IQ реально зондируют лишь
конвергентное мышление.

К
тому же высокий коэффициент интеллекта
сам по себе не является гарантией
успешной работы сотрудника. Многое
определяется тем, что требуется для
выполнения конкретной работы, а в этом
случае на первом месте далеко не всегда
выходят интеллектуальные качества. К
примеру, финансовому директору
недостаточно иметь хороший математический
интеллект, ему очень важно уметь верно
оценивать степень риска и принимать
правильные финансовые решения.

Тесты
на личностные качества

Отличительная
особенность данных тестов в том, что в
них оценивается не правильность ответов
тестируемого, а его личностные качества.
Хотя не все стороны характера можно
оценить с помощью тестов, поскольку
каждый человек уникален, но некоторые
личностные черты поддаются количественной
оценке.

В
практике кадровой работы часто
используются MMPI
(Миннесотский многопрофильный личностный
опросник), СМИЛ
(стандартизированный метод исследования
личности), тест
Айзенка,
16-факторный
опросник Кеттелла
(тест 16PF), тесты
Лири, Стреляу, Леонгарда,
«рисуночные тесты», тесты цветовых
предпочтений, а также такие экзотические,
как графологические
(анализ почерка)
и физиогномические (анализ черт лица).
Эти тесты могут применяться при
профотборе, если в службе персонала
есть квалифицированные психологи,
способные интерпретировать получаемые
с их помощью данные. При этом следует
учитывать, что ни один из этих тестов
не рассчитывался на специальное
применение в кадровых службах. Личностные
тесты обладают недостатком: как правило
они достаточно громоздки и сложны. В то
же время большинство служб персонала
при определении личностных качеств
кандидата стремятся использовать более
простые тесты.

Многофакторный
метод исследования личности (СМИЛ)
— это модифицированный (адаптированный
к российским условиям) вариант теста
MMPI, разработанного в 40-х годах американскими
психологами Дж. Маккинли и С. Хатэуэем
для профессионального отбора военных
летчиков. Методика построена по типу
опросника, при этом оценка результата
базируется не на прямом анализе ответов
испытуемого, а на данных статистически
подтвержденной значимости каждого
ответа в сравнении со средненормативными
показателями. Одно из важных достоинств
метода состоит в том, что автоматизированный
способ обработки данных практически
исключает зависимость получаемых
результатов от личностных особенностей
и опыта специалиста, проводящего
тестирование. В основу методики положена
статистически достоверная математическая
база.

Тест
эффективен в решении сложных вопросов
профотбора и профориентации, комплектовании
рабочих коллективов, расстановки кадров,
при изучении социального климата в
организациях и на предприятиях. Он
находит активное применение в
профконсультировании и профориентационной
работе психологов.

Тест
Кеттелла (16PF)
выводит баллы для разных качеств личности
(17 факторов первого порядка). Данные по
некоторым из этих шкал коррелируют друг
с другом, поэтому в итоге образуются 5
факторов (показателей) второго (высшего)
порядка. Полный вариант теста Кеттелла
позволяет исследовать и уровень
интеллекта, и личностные качества. Тест
Кеттелла, а также тест Айзенка наиболее
результативны в диагностике степени
нервозности личности, что профессионально
значимо для некоторых профессий.

Тест
Майерс-Бриггс,
в основе которого лежит психологическая
теория личности К.Г. Юнга, содержит более
ста утверждений и позволяет описать
личность человека по четырем составляющим:

Экстравертированность
— Интравертированность;
Осознание
— Интуиция (что из них для вас более
значимо, приоритетно);
Размышления
— Чувства;
Суждения
— Ощущения.

Однако
этот тест больше подходит для оценки
возможности карьерного роста сотрудников
внутри организации, чем для решения
вопроса о приеме на работу.

На
входном контроле (при приеме на работу)
используют тесты самооценки, например,
тест
Лири,
личностный
дифференциал
(ЛД) или опросник
деловой направленности
(ОДН) личности, а также СМИЛ,
результаты которого коррелируют с
результатами, полученными другими
методами.

Тесты
на творческое мышление

Существуют
следующие виды:

Тесты
на генерирование идей;
Тесты
на межпредметные связи (умение создавать
«творческие композиции» особенно важно
в рекламном и маркетинговом деле);
Визуальные
тесты (на умение создавать визуальные
каламбуры или рассказы по картинкам);
Тесты
на «боковое мышление» (которое, в отличие
от обычного, позволяет взглянуть на
задачу под нестандартным углом зрения).

Нередко
в тестах на творческое мышление
применяются сюрреалистические либо
иронические рисунки.

Управление
персоналом Словарь-справочник

Источник

Один из аспектов применения коэффициента надежности связан с определением стандартной ошибки измерения. Для установления связи между стандартной ошибкой измерения и надежностью теста необходимо преобразовать формулу

и выделить в левой части S_Е². После преобразования формулы относительно S_Е² получится выражение S_Е² = S_X² (1 – r_н), или

где S_X — стандартное отклонение по распределению индивидуальных баллов; r_н – коэффициент надежности теста; S_E — стандартная ошибка измерения. Это выражение обычно используется для вычисления S_E по известным величинам r_н и S_X Что касается сущностного смысла, то S_E(standard error of measurement) трактуется как стандартное отклонение результатов испытуемого от его истинного балла, полученное при выполнении им большого числа параллельных форм теста.

Для лучшего уяснения смысла показателя S_E можно представить другую гипотетическую ситуацию, когда i-и испытуемый выполнял много раз один и тот же тест. Если предположить, что эффект запоминания отсутствует, то результаты тестирования образуют нормальное распределение вокруг истинного балла Т_i со стандартным отклонением S_E. На практике S_E рассматривается как статистическая величина, отражающая степень точности отдельных измерений, поэтому величину S_E используют для определения границ доверительного интервала, внутри которого должен находиться истинный балл оцениваемого ученика группы.

Построение доверительного интервала. Общераспространен подход, когда доверительный интервал выстраивается как две симметричные окрестности (левая и правая) вокруг наблюдаемого показателя ученика, хотя это не совсем верно, поскольку речь должна идти об окрестностях, расположенных слева и справа от истинного балла. Тем не менее этот факт вынуждено игнорируется в прикладных исследованиях в силу отсутствия истинного балла, и доверительный интервал при заданном риске допустить ошибку t =? 0,05, т.е. в пяти случаях из ста, принимается равным (X_i – 1,96S_E; X_i + 1,96S_E), где ?_i — наблюдаемый балл i-го испытуемого; 1,96 – константа, табличное число, используемое при t ? 0,05.

Для рассматриваемого ранее примера матрицы тестовых результатов (см. табл. 6.11), коэффициента надежности r_н =? 0,78 и стандартного отклонения S_X =? 2,62, вычисленного ранее для матрицы, S_E будет равно

Тогда доверительный интервал для истинного балла первого ученика со значением Х_i = 6 будет (6 – 1,23; 6 + 1,23) или (4,77; 7,23). Истинный балл первого ученика может находиться в любой точке этого интервала.

Интересна геометрическая интерпретация доверительного интервала на оси наблюдаемых баллов, приведенная для балла i-го учащегося. Очевидно, что с ростом S_E границы доверительного интервала будут раздвигаться, и вместе с тем будут увеличиваться возможные пределы отклонения истинного балла от наблюдаемых результатов измерения (более правильная с точки зрения теории трактовка: пределы отклонения наблюдаемых баллов от истинной компоненты измерения).

Источник