Мощность критерия это ошибка рода

При
проверке гипотезы экспериментальные
данные могут противоречить
гипотезе
,
тогда эта гипотезаотклоняется.

В
противном случае, если экспериментальные
данные согласуются
с
гипотезой
,
то онане
отклоняется
.

Значит,
статистическая проверка гипотез,
основанная на экспериментальных данных,
неизбежно связанно с риском
принять ложное решение
.

Тогда
в терминах правильности или ошибочности
принятия H0
и
 можно
указать четыре потенциально возможных
результата применения критерия к
выборке. При
этом возможны ошибки двух родов.

Ошибкой первого
рода

называется
ошибка отклонения правильной гипотезы
.
Вероятность
ошибки первого рода равна
уровню значимости
,
т.е.

.

Эта
формула означает, что гипотеза
отклоняется с вероятностью,
хотя эта гипотеза верна. Название
«уровень значимости» в терминах «сходства
и различия» — это вероятность того, что
мы сочли различия существенными (приняли),
а они на самом деле случайны (верна
гипотеза).

Для того чтобы
проверяемая гипотеза была достаточно
обоснованно отвергнута, уровень
значимости выбирают достаточно малым,
в практике: 0,01; 0,001.

Ошибкой второго
рода

называется ошибка принятия неверной
гипотезы.
Вероятность
ошибки второго рода обозначается
:

.

Эта
формула означает, что гипотеза
принимается с вероятностью,
хотя верна альтернативная гипотеза.

Чем
меньше уровень значимости, тем меньше
вероятность забраковать верную гипотезу,
т.е. совершить ошибку первого рода, но
при этом увеличивается вероятность
принятия неверной гипотезы, т.е. совершения
ошибки второго рода.

Принята гипотеза

H0

H1

Верна

гипотеза

H0


вероятность правильно принять H0,
когда верна H0


вероятность ошибочно принять H1,
когда верна H0
(ошибка
1-го рода, уровень значимости
)

H1


вероятность ошибочно принять H0,
когда верна H1
(ошибка
2-го рода
)


вероятность правильно принять H1,
когда верна H
(мощность
критерия
)

Возможны
два
статистических правильных решения

по выборочным данным:

1) Принять верную гипотезу . Вероятность этого решения называетсяуровнем доверия;

2)
принять
верную гипотезу
.
Вероятностьтакого решения называетсямощностью
критерия
.
Мощность критерия в терминах
«сходство-различие» — это его способность
выявлять различия, если они есть
.

4.
Односторонний и двусторонний критерии

По
виду альтернативной (конкурирующей)
гипотезы
определяется вид критической области,
в которой результаты выборочного
наблюдения выглядят менее правдоподобными
в отношении нулевой гипотезы.

Если
конкурирующая гипотеза имеет вид
:,
то критическая область— правосторонняя и соответствующийкритерий
называется правосторонним,
а в случае
:критерий
называется левосторонним.

Область
допустимых

Правосторонняя

значений
критическая
область

(принятия
гипотезы
)
(отклоненияи принятия)

Если конкурирующая гипотеза имеет вид
:,
т.е.,
то критическая областьявляется объединением полубесконечных
промежутков: — двусторонняя.

Область

Критическая допустимых
Критическая

область значений область

Важное замечание.В психологии часто
эмпирическое значениесравнивается одновременно с двумя
критическими(0,05)
и(0,01),
которые соответствуют уровням значимости
в 5% и 1% и находятся по соответствующим
таблицам. Все три числа,(0,05),(0,01)
располагают на «оси значимости». Числоможет попасть в одну из трех областей:
незначимости различий, значимости
различий, неопределенности.

Область Область
Область

незначимости неопределенности
значимости

различий различий

К

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Ошибки I и II рода при проверке гипотез, мощность

Общий обзор

Принятие неправильного решения

Мощность и связанные факторы

Проверка множественных гипотез

Общий обзор

Большинство проверяемых гипотез сравнивают между собой группы объектов, которые испытывают влияние различных факторов.

Например, можно сравнить эффективность двух видов лечения, чтобы сократить 5-летнюю смертность от рака молочной железы. Для данного исхода (например, смерть) сравнение, представляющее интерес (напри­мер, различные показатели смертности через 5 лет), называют эффектом или, если уместно, эффектом лечения.

Нулевую гипотезу выражают как отсутствие эффекта (например 5-летняя смертность от рака мо­лочной железы одинаковая в двух группах, получаю­щих разное лечение); двусторонняя альтернативная гипотеза будет означать, что различие эффектов не равно нулю.

Критериальная проверка гипотезы дает возможность определить, достаточно ли аргументов, чтобы отвергнуть нулевую гипотезу. Можно принять только одно из двух решений:

  1. отвергнуть нулевую гипотезу и принять альтер­нативную гипотезу
  2. остаться в рамках нулевой гипотезы

Важно: В литературе достаточно часто встречается понятие «принять нулевую гипотезу». Хотелось бы внести ясность, что со статистической точки зрения принять нулевую гипотезу невозможно, т.к. нулевая гипотеза представляет собой достаточно строгое утверждение (например, средние значения в сравниваемых группах равны ).

Поэтому фразу о принятии нулевой гипотезы следует понимать как то, что мы просто остаемся в рамках гипотезы.

Принятие неправильного решения

Возможно неправильное решение, когда отвергают/не отвергают нулевую гипотезу, потому что есть только выборочная информация.

 
Верная гипотеза
H0 H1
Результат

 применения 

критерия
H0 H0 верно принята H0 неверно принята 

(Ошибка второго рода)
H1 H0 неверно отвергнута 

(Ошибка первого рода)
H0 верно отвергнута

Ошибка 1-го рода: нулевую гипотезу отвергают, когда она истинна, и делают вывод, что имеется эффект, когда в действительности его нет. Максимальный шанс (вероятность) допустить ошибку 1-го рода обозначается α (альфа). Это уровень значимости критерия; нулевую гипотезу отвергают, если наше значение p ниже уровня значимости, т. е., если p < α.

Следует принять решение относительно значения а прежде, чем будут собраны данные; обычно назначают условное значение 0,05, хотя можно выбрать более ограничивающее значение, например 0,01.

Шанс допустить ошибку 1-го рода никогда не превысит выбранного уровня значимости, скажем α = 0,05, так как нулевую гипотезу отвергают только тогда, когда p< 0,05. Если обнаружено, что p > 0,05, то нулевую гипотезу не отвергнут и, следовательно, не допустят ошибки 1-го рода.

Ошибка 2-го рода: не отвергают нулевую гипотезу, когда она ложна, и делают вывод, что нет эффекта, тогда как в действительности он существует. Шанс возникновения ошибки 2-го рода обозначается β (бета); а величина (1-β) называется мощностью критерия.

Следовательно, мощность — это вероятность отклонения нулевой гипотезы, когда она ложна, т.е. это шанс (обычно выраженный в процентах) обнаружить реальный эффект лечения в выборке данного объема как статистически значимый.

В идеале хотелось бы, чтобы мощность критерия составляла 100%; однако это невозможно, так как всегда остается шанс, хотя и незначительный, допустить ошибку 2-го рода.

К счастью, известно, какие факторы влияют на мощность и, таким образом, можно контролировать мощность критерия, рассматривая их.

Мощность и связанные факторы

Планируя исследование, необходимо знать мощность предложенного критерия. Очевидно, можно начинать исследование, если есть «хороший» шанс обнаружить уместный эффект, если таковой существует (под «хорошим» мы подразумеваем, что мощность должна быть по крайней мере 70-80%).

Этически безответственно начинать исследование, у которого, скажем, только 40% вероятности обнаружить реальный эффект лечения; это бесполезная трата времени и денежных средств.

Ряд факторов имеют прямое отношение к мощности критерия.

Объем выборки: мощность критерия увеличивается по мере увеличения объема выборки. Это означает, что у большей выборки больше возможностей, чем у незначительной, обнаружить важный эффект, если он существует.

Когда объем выборки небольшой, у критерия может быть недостаточно мощности, чтобы обнаружить отдельный эффект. Эти методы также можно использовать для оценки мощности критерия для точно установленного объема выборки.

Вариабельность наблюдений: мощность увеличивается по мере того, как вариабельность наблюдений уменьшается.

Интересующий исследователя эффект: мощность критерия больше для более высоких эффектов. Критерий проверки гипотез имеет больше шансов обнаружить значительный реальный эффект, чем незначительный.

Уровень значимости: мощность будет больше, если уровень значимости выше (это эквивалентно увеличению допущения ошибки 1-го рода, α, а допущение ошибки 2-го рода, β, уменьшается).

Таким образом, вероятнее всего, исследователь обнаружит реальный эффект, если на стадии планирования решит, что будет рассматривать значение р как значимое, если оно скорее будет меньше 0,05, чем меньше 0,01.

Обратите внимание, что проверка ДИ для интересующего эффекта указывает на то, была ли мощность адекватной. Большой доверительный интервал следует из небольшой выборки и/или набора данных с существенной вариабельностью и указывает на недостаточную мощность.

Проверка множественных гипотез

Часто нужно выполнить критериальную проверку значимости множественных гипотез на наборе данных с многими переменными или существует более двух видов лечения.

Ошибка 1-го рода драматически увеличивается по мере увеличения числа сравнений, что приводит к ложным выводам относительно гипотез. Следовательно, следует проверить только небольшое число гипотез, выбранных для достижения первоначальной цели исследования и точно установленных априорно.

Можно использовать какую-нибудь форму апостериорного уточнения значения р, принимая во внимание число выполненных проверок гипотез.

Например, при подходе Бонферрони (его часто считают довольно консервативным) умножают каждое значение р на число выполненных проверок; тогда любые решения относительно значимости будут основываться на этом уточненном значении р.

Связанные определения:
p-уровень
Альтернативная гипотеза, альтернатива
Альфа-уровень
Бета-уровень
Гипотеза
Двусторонний критерий
Критерий для проверки гипотезы
Критическая область проверки гипотезы
Мощность
Мощность исследования
Мощность статистического критерия
Нулевая гипотеза
Односторонний критерий
Ошибка I рода
Ошибка II рода
Статистика критерия
Эквивалентные статистические критерии

В начало

Содержание портала

Материал из MachineLearning.

(Перенаправлено с Мощность критерия)

Перейти к: навигация, поиск

Содержание

  • 1 Методика проверки статистических гипотез
  • 2 Альтернативная методика на основе достигаемого уровня значимости
  • 3 Типы критической области
  • 4 Ошибки первого и второго рода
  • 5 Свойства статистических критериев
  • 6 Типы статистических гипотез
  • 7 Типы статистических критериев
    • 7.1 Критерии согласия
    • 7.2 Критерии сдвига
    • 7.3 Критерии нормальности
    • 7.4 Критерии однородности
    • 7.5 Критерии симметричности
    • 7.6 Критерии тренда, стационарности и случайности
    • 7.7 Критерии выбросов
    • 7.8 Критерии дисперсионного анализа
    • 7.9 Критерии корреляционного анализа
    • 7.10 Критерии регрессионного анализа
  • 8 Литература
  • 9 Ссылки

Статистическая гипотеза (statistical hypothesys) — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.

Проверка статистической гипотезы (testing statistical hypotheses) — это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.

Статистический тест или статистический критерий — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.

Методика проверки статистических гипотез

Пусть задана случайная выборка x^m = (x_1,ldots,x_m) — последовательность m объектов из множества X.
Предполагается, что на множестве X существует некоторая неизвестная вероятностная мера mathbb{P}.

Методика состоит в следующем.

  1. Формулируется нулевая гипотеза H_0 о распределении вероятностей на множестве X. Гипотеза формулируется исходя из требований прикладной задачи. Чаще всего рассматриваются две гипотезы — основная или нулевая H_0 и альтернативная H_1. Иногда альтернатива не формулируется в явном виде; тогда предполагается, что H_1 означает «не H_0». Иногда рассматривается сразу несколько альтернатив. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей. Примеры приводятся ниже.
  2. Задаётся некоторая статистика (функция выборки) T:: X^m to mathbb{R}, для которой в условиях справедливости гипотезы H_0 выводится функция распределения F(T) и/или плотность распределения p(T). Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика T. Вывод функции распределения F(T) при заданных H_0 и T является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для F(T); в статистических пакетах имеются готовые вычислительные процедуры.
  3. Фиксируется уровень значимости — допустимая для данной задачи вероятность ошибки первого рода, то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число alpha in [0,1]. На практике часто полагают alpha=0.05.
  4. На множестве допустимых значений статистики T выделяется критическое множество Omega_alpha наименее вероятных значений статистики T, такое, что mathbb{P}{TinOmega_alphaleft|H_0right.} = alpha. Вычисление границ критического множества как функции от уровня значимости alpha является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.
  5. Собственно статистический тест (статистический критерий) заключается в проверке условия:

Итак, статистический критерий определяется статистикой T
и критическим множеством Omega_alpha, которое зависит от уровня значимости alpha.

Замечание.
Если данные не противоречат нулевой гипотезе, это ещё не значит, что гипотеза верна.
Тому есть две причины.

Альтернативная методика на основе достигаемого уровня значимости

Широкое распространение методики фиксированного уровня значимости было вызвано сложностью вычисления многих статистических критериев в докомпьютерную эпоху. Чаще всего использовались таблицы, в которых для некоторых априорных уровней значимости были выписаны критические значения. В настоящее время результаты проверки гипотез чаще представляют с помощью достигаемого уровня значимости.

Достигаемый уровень значимости (пи-величина, англ. p-value) — это наименьшая величина уровня значимости,
при которой нулевая гипотеза отвергается для данного значения статистики критерия T:

p(T) = min { alpha:: TinOmega_alpha },

где
Omega_alpha — критическая область критерия.

Другая интерпретация:
достигаемый уровень значимости p(T) — это вероятность при справедливости нулевой гипотезы получить значение статистики, такое же или ещё более экстремальное, чем T.

Если достигаемый уровень значимости достаточно мал (близок к нулю), то нулевая гипотеза отвергается.
В частности, его можно сравнивать с фиксированным уровнем значимости;
тогда альтернативная методика будет эквивалентна классической.

Типы критической области

Обозначим через t_alpha значение, которое находится из уравнения F(t_alpha) = alpha, где F(t) = mathbb{P}left{ T<t right} — функция распределения статистики T.
Если функция распределения непрерывная строго монотонная,
то t_alpha есть обратная к ней функция:

t_alpha = F^{-1}(alpha).

Значение t_alpha называется также alphaквантилем распределения F(t).

На практике, как правило, используются статистики T с унимодальной (имеющей форму пика) плотностью распределения.
Критические области (наименее вероятные значения статистики) соответствуют «хвостам» этого распределения.
Поэтому чаще всего возникают критические области одного из трёх типов:

  • Левосторонняя критическая область:
определяется интервалом Omega_alpha = (-infty,, t_alpha).
пи-величина: p(T) = F(T).
  • Правосторонняя критическая область:
определяется интервалом Omega_alpha = (t_{1-alpha},,+infty).
пи-величина: p(T) = 1-F(T).
  • Двусторонняя критическая область:
определяется двумя интервалами Omega_alpha = (-infty,, t_{alpha/2}) cup (t_{1-alpha/2},,+infty);
пи-величина: p(T) = min left{ 2F(T),; 2(1-F(T)) right}.

Ошибки первого и второго рода

  • Ошибка первого рода или «ложная тревога» (англ. type I error, alpha error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:
alpha = mathbb{P}left{ TinOmega_alpha | H_0 right}.
  • Ошибка второго рода или «пропуск цели» (англ. type II error, beta error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:
beta(H_1) = mathbb{P}left{ TnotinOmega_alpha | H_1 right}.
  Верная гипотеза
 H_0   H_1 
Результат
 применения 
критерия
 H_0  H_0 верно принята H_0 неверно принята 
(Ошибка второго рода)
 H_1  H_0 неверно отвергнута 
(Ошибка первого рода)
H_0 верно отвергнута

Свойства статистических критериев

Мощность критерия:
1 - beta(H) = mathbb{P}left{ TinOmega_alpha | H right} — вероятность отклонить гипотезу H_0, если на самом деле верна альтернативная гипотеза H.
Мощность критерия является числовой функцией от альтернативной гипотезы H.

Несмещённый критерий:
1-beta(H) geq alpha
для всех альтернатив H
или, что то же самое,
mathbb{P}left{ TinOmega_alpha | H right} geq mathbb{P}left{ TinOmega_alpha | H_0 right}
для всех альтернатив H.

Состоятельный критерий:
beta(H) to 0 при mtoinfty для всех альтернатив H.

Равномерно более мощный критерий.
Говорят, что критерий с мощностью 1-beta(H) является равномерно более мощным, чем критерий с мощностью 1-beta'(H), если выполняются два условия:

  1. beta(H_0) = beta'(H_0);
  2. beta(H_1) leq beta'(H_1) для всех рассматриваемых альтернатив H_1neq H_0, причём хотя бы для одной альтернативы неравенство строгое.

Типы статистических гипотез

  • Простая гипотеза однозначно определяет функцию распределения на множестве X. Простые гипотезы имеют узкую область применения, ограниченную критериями согласия (см. ниже). Для простых гипотез известен общий вид равномерно более мощного критерия (Теорема Неймана-Пирсона).
  • Сложная гипотеза утверждает принадлежность распределения к некоторому множеству распределений на X. Для сложных гипотез вывести равномерно более мощный критерий удаётся лишь в некоторых специальных случаях.

Типы статистических критериев

В зависимости от проверяемой нулевой гипотезы статистические критерии делятся на группы, перечисленные ниже по разделам.

Наряду с нулевой гипотезой, которая принимается или отвергается по результату анализа выборки, статистические критерии могут опираться на дополнительные предположения, которые априори предпологаются выполненными.

  • Параметрические критерии предполагают, что выборка порождена распределением из заданного параметрического семейства. В частности, существует много критериев, предназначенных для анализа выборок из нормального распределения. Преимущество этих критериев в том, что они более мощные. Если выборка действительно удовлетворяет дополнительным предположениям, то параметрические критерии дают более точные результаты. Однако если выборка им не удовлетворяет, то вероятность ошибок (как I, так и II рода) может резко возрасти. Прежде чем применять такие критерии, необходимо убедиться, что выборка удовлетворяет дополнительным предположениям. Гипотезы о виде распределения проверяются с помощью критериев согласия.
  • Непараметрические критерии не опираются на дополнительные предположения о распределении. В частности, к этому типу критериев относится большинство ранговых критериев.

Критерии согласия

Критерии согласия проверяют, согласуется ли заданная выборка с заданным фиксированным распределением, с заданным параметрическим семейством распределений, или с другой выборкой.

  • Критерий Колмогорова-Смирнова
  • Критерий хи-квадрат (Пирсона)
  • Критерий омега-квадрат (фон Мизеса)

Критерии сдвига

Специальный случай двухвыборочных критериев согласия.
Проверяется гипотеза сдвига, согласно которой распределения двух выборок имеют одинаковую форму и отличаются только сдвигом на константу.

  • Критерий Стьюдента
  • Критерий Уилкоксона-Манна-Уитни

Критерии нормальности

Критерии нормальности — это выделенный частный случай критериев согласия.
Нормально распределённые величины часто встречаются в прикладных задачах, что обусловлено действием закона больших чисел.
Если про выборки заранее известно, что они подчиняются нормальному распределению, то к ним становится возможно применять более мощные параметрические критерии.
Проверка нормальность часто выполняется на первом шаге анализа выборки, чтобы решить, использовать далее параметрические методы или непараметрические.
В справочнике А. И. Кобзаря приведена сравнительная таблица мощности для 21 критерия нормальности.

  • Критерий Шапиро-Уилка
  • Критерий асимметрии и эксцесса

Критерии однородности

Критерии однородности предназначены для проверки нулевой гипотезы о том, что
две выборки (или несколько) взяты из одного распределения,
либо их распределения имеют одинаковые значения математического ожидания, дисперсии, или других параметров.

Критерии симметричности

Критерии симметричности позволяют проверить симметричность распределения.

  • Одновыборочный критерий Уилкоксона и его модификации: критерий Антилла-Кёрстинга-Цуккини, критерий Бхаттачария-Гаствирса-Райта
  • Критерий знаков
  • Коэффициент асимметрии

Критерии тренда, стационарности и случайности

Критерии тренда и случайности предназначены для проверки нулевой гипотезы об
отсутствии зависимости между выборочными данными и номером наблюдения в выборке.
Они часто применяются в анализе временных рядов, в частности, при анализе регрессионных остатков.

Критерии выбросов

Критерии дисперсионного анализа

Критерии корреляционного анализа

Критерии регрессионного анализа

Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  2. Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006. — 816 с.

Ссылки

  • Statistical hypothesis testing — статья в англоязычной Википедии.

Ошибки первого рода (англ. type I errors, α errors, false positives) и ошибки второго рода (англ. type II errors, β errors, false negatives) в математической статистике — это ключевые понятия задач проверки статистических гипотез. Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат.

Содержание

  • 1 Определения
  • 2 О смысле ошибок первого и второго рода
  • 3 Вероятности ошибок (уровень значимости и мощность)
  • 4 Примеры использования
    • 4.1 Компьютеры
      • 4.1.1 Компьютерная безопасность
      • 4.1.2 Фильтрация спама
      • 4.1.3 Вредоносное программное обеспечение
      • 4.1.4 Поиск в компьютерных базах данных
      • 4.1.5 Оптическое распознавание текстов (OCR)
      • 4.1.6 Досмотр пассажиров и багажа
      • 4.1.7 Биометрия
    • 4.2 Массовая медицинская диагностика (скрининг)
    • 4.3 Медицинское тестирование
    • 4.4 Исследования сверхъестественных явлений
  • 5 См. также
  • 6 Примечания

Определения

Пусть дана выборка mathbf{X} = (X_1,ldots,X_n)^{top} из неизвестного совместного распределения mathbb{P}^{mathbf{X}}, и поставлена бинарная задача проверки статистических гипотез:

 begin{matrix} H_0 \ H_1, end{matrix}

где H0 — нулевая гипотеза, а H1 — альтернативная гипотеза. Предположим, что задан статистический критерий

f:mathbb{R}^n to {H_0,H_1},

сопоставляющий каждой реализации выборки mathbf{X} = mathbf{x} одну из имеющихся гипотез. Тогда возможны следующие четыре ситуации:

  1. Распределение mathbb{P}^{mathbf{X}} выборки mathbf{X} соответствует гипотезе H0, и она точно определена статистическим критерием, то есть f(mathbf{x}) = H_0.
  2. Распределение mathbb{P}^{mathbf{X}} выборки mathbf{X} соответствует гипотезе H0, но она неверно отвергнута статистическим критерием, то есть f(mathbf{x}) = H_1.
  3. Распределение mathbb{P}^{mathbf{X}} выборки mathbf{X} соответствует гипотезе H1, и она точно определена статистическим критерием, то есть f(mathbf{x}) = H_1.
  4. Распределение mathbb{P}^{mathbf{X}} выборки mathbf{X} соответствует гипотезе H1, но она неверно отвергнута статистическим критерием, то есть f(mathbf{x}) = H_0.

Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно.

  Верная гипотеза
 H0   H1 
Результат
 применения 
критерия
 H0  H0 верно принята  H0 неверно принята 
(Ошибка второго рода)
 H1   H0 неверно отвергнута 
(Ошибка первого рода)
H0 верно отвергнута

О смысле ошибок первого и второго рода

Как видно из вышеприведённого определения, ошибки первого и второго рода являются взаимно-симметричными, то есть если поменять местами гипотезы H0 и H1, то ошибки первого рода превратятся в ошибки второго рода и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) — например, что обследумый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, альтернативная гипотеза H1 обозначает противоположную ситуацию, которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции.

С учётом этого ошибку первого рода часто называют ложной тревогой — например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня.
Соответственно, ошибку второго рода иногда называют пропуском события — человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов).

Ниже, в разделе Примеры использования, подробно рассматривается применение понятий ошибок первого и второго рода в различных областях.

Вероятности ошибок (уровень значимости и мощность)

Для проверки статистических гипотез используют так называемые критерии согласия. Для них вероятности ошибок первого и второго рода играют значительную роль.

Вероятность ошибки первого рода при проверке статистических гипотез назывют уровнем значимости и обычно обозначают греческой буквой α (отсюда название α-errors).

Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой β (отсюда β-errors). Однако с этой величиной тесно связана другая, имеющая большое статистическое значение — мощность критерия. Она вычисляется по формуле (1 − β). Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.

В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является уровень значимости, которым задаются при проверке статистических гипотез. Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности — к увеличению риска ошибки второго рода (пропуск запрещённого предмета).

Примеры использования

Компьютеры

Понятия ошибок первого и второго рода широко используются в области компьютеров и программного обеспечения.

Компьютерная безопасность

Наличие уязвимостей в вычислительных системах приводит тому, что приходится, с одной стороны, решать задачу сохранения целостности компьютерных данных, а с другой стороны — обеспечивать нормальный доступ легальных пользователей к этим данным (см. компьютерная безопасность). Moulton (1983, с.125) отмечает, что в данном контексте возможны следующие нежелательные ситуации:

  • когда авторизованные пользователи классифицируются как нарушители (ошибки первого рода)
  • когда нарушители классифицируются как авторизованные пользователи (ошибки второго рода)

Фильтрация спама

Ошибка первого рода происходит, когда механизм блокировки/фильтрации спама ошибочно классифицирует легитимное email-сообщение как спам и препятствует его нормальной доставке. В то время как большинство «анти-спам» алгоритмов способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений).

Ошибка второго рода происходит, когда анти-спам система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности анти-спам алгоритма.

Вредоносное программное обеспечение

Понятие ошибки первого рода также ипользуется, когда антивирусное программное обеспечение ошибочно классифицирует безвредный файл как вирус. Неверное обнаружение может быть вызвано особенностями эвристики, либо неправильной сигнатурой вируса в базе данных. Подобные проблемы могут происходить также и с анти-троянскими и анти-

Поиск в компьютерных базах данных

При поиске в базе данных, к ошибкам первого рода можно отнести документы, которые выдаются поиском, несмотря на их иррелевантность (несоответствие) поисковому запросу. Ошибочные срабатывания характерны для полнотекстового поиска, когда поисковый алгоритм анализирует полные тексты всех хранимых в базе данных документов и пытается найти соответствия одному или нескольким терминам, заданным пользователем в запросе.

Большинство ложных срабатываний обусловлены сложностью естественных языков, многозначностью слов: например, «home» может обозначать как «место проживания человека», так и «корневую страницу веб-сайта». Число подобных ошибок может быть снижено за счёт использования специального словаря. Однако, это решение относительно дорогое, поскольку подобный словарь и разметка документов (индексирование) должны создаваться экспертом.

Оптическое распознавание текстов (OCR)

Разнообразные детектирующие алгоритмы нередко выдают ошибки первого рода. Программное обеспечение оптического распознавания текстов может распознать букву «a» в ситуации, когда на самом деле изображены несколько точек, которые используемый алгоритм расценил как «a».

Досмотр пассажиров и багажа

Ошибки первого рода регулярно встречаются каждый день в комьютерных системах предварительного досмотра пассажиров в аэропортах. Установленные в них детекторы предназначены для предотвращения проноса оружия на борт самолёта; тем не менее, уровень чувствительности в них зачастую настраивается настолько высоко, что много раз за день они срабатывают на незначительные предметы, такие как ключи, пряжки ремней, монеты, мобильные телефоны, гвозди в подошвах обуви и т. п. (см. обнаружение взрывчатых веществ, металлодетекторы).

Таким образом, соотношение числа ложных тревог (идентифицикация благопристойного пассажира как террориста) к числу правильных срабатываний (обнаружение действительно запрещённых предметов) очень велико.

Биометрия

Ошибки первого и второго рода являются большой проблемой в системах биометрического сканирования, использующих распознавание радужной оболочки или сетчатки глаза, черт лица и т. д. Такие сканирующие системы могут ошибочно отождествить кого-то с другим, «известным» системе человеком, информация о котором хранится в базе данных (к примеру, это может быть лицо, имеющее право входа в систему, или подозреваемый преступник и т. п.). Противоположной ошибкой будет неспособность системы распознать легитимного зарегистрированного пользователя, или опознать подозреваемого в преступлении.[1]

Массовая медицинская диагностика (скрининг)

В медицинской практике есть существенное различие между скринингом и тестированием:

  • Скрининг включает в себя относительно дешёвые тесты, которые проводятся для большой группы людей при отсутствии каких-либо клинических признаков болезни (например, мазок Папаниколау).
  • Тестирование подразумевает гораздо более дорогие, зачастую инвазивные, процедуры, которые проводятся только для тех, у кого проявляются клинические признаки заболевания, и которые в основном применяются для подтверждения предполагаемого диагноза.

К примеру, в большинстве штатов в США обязательно прохождение новорожденными процедуры скрининга на оксифенилкетонурию и гипотиреоз, помимо других врождённых аномалий. Несмотря на высокий уровень ошибок первого рода, эти процедуры скрининга считаются целесообразными, поскольку они существенно увеличивают вероятность обнаружения этих расстройств на самой ранней стадии.[2]

Простые анализы крови, используемые для скрининга потенциальных доноров на ВИЧ и гепатит, имеют существенный уровень ошибок первого рода; однако в арсенале врачей есть гораздо более точные (и, соответственно, дорогие) тесты для проверки, действительно ли человек инфицирован каким-либо из этих вирусов.

Возможно, наиболее широкие дискуссии вызывают ошибки первого рода в процедурах скрининга на рак груди (маммография). В США уровень ошибок первого рода в маммограммах достигает 15 %, это самый высокий показатель в мире.[3] Самый низкий уровень наблюдается в Нидерландах, 1 %.[4]

Медицинское тестирование

Ошибки второго рода являются существенной проблемой в медицинском тестировании. Они дают пациенту и врачу ложное убеждение, что заболевание отсутствует, в то время как в действительности оно есть. Это зачастую приводит к неуместному или неадекватному лечению. Типичным примером является доверие результатам кардиотестирования при выявлении коронарного атеросклероза, хотя известно, что кардиотестирование выявляет только те затруднения кровотока в коронарной артерии, которые вызваны стенозом.

Ошибки второго рода вызывают серьёзные и трудные для понимания проблемы, особенно когда искомое условие является широкораспространённым. Если тест с 10%-ным уровнем ошибок второго рода используется для обследования группы, где вероятность «истинно-положительных» случаев составляет 70 %, то многие отрицательные результаты теста окажутся ложными. (См. Теорему Байеса).

Ошибки первого рода также могут вызывать серьёзные и трудные для понимания проблемы. Это происходит, когда искомое условие является редким. Если уровень ошибок первого рода у теста составляет один случай на десять тысяч, но в тестируемой группе образцов (или людей) вероятность «истинно-положительных» случаев составляет в среднем один случай на миллион, то большинство положительных результатов этого теста будут ложными.[5]

Исследования сверхъестественных явлений

Термин ошибка первого рода был взят на вооружение исследователями в области паранормальных явлений и привидений для описания фотографии или записи или какого-либо другого свидетельства, которое ошибочно трактуется как имеющее паранормальное происхождение — в данном контексте ошибка первого рода — это какое-либо несостоятельное «медиа-свидетельство» (изображение, видеозапись, аудиозапись и т. д.), которое имеет обычное объяснение.[6]

См. также

  • Ложное срабатывание (ошибка первого рода)
  • Статистическая значимость

Примечания

  1. Данный пример как раз характеризует случай, когда классификация ошибок будет зависеть от назначения системы: если биометрическое сканирование используется для допуска сотрудников (нулевая гипотеза: «проходящий сканирование человек действительно является сотрудником»), то ошибочное отождествление будет ошибкой второго рода, а «неузнавание» — ошибкой первого рода; если же сканирование используется для опознания преступников (нулевая гипотеза: «проходящий сканирование человек не является преступником»), то ошибочное отождествление будет ошибкой первого рода, а «неузнавание» — ошибкой второго рода.
  2. Относительно скрининга новорожденных, последние исследования показали, что количество ошибок первого рода в 12 раз больше, чем количество верных обнаружений (Gambrill, 2006. [1])
  3. Одним из последствий такого высокого уровня ошибок первого рода в США является то, что за произвольный 10-летний период половина обследуемых американских женщин получают как минимум одну ложноположительную маммограмму. Такие ошибочные маммограммы обходятся дорого, приводя к ежегодным расходам в 100 миллионов долларов на последующее (ненужное) лечение. Кроме того, они вызывают излишнюю тревогу у женщин. В результате высокого уровня подобных ошибок первого рода в США, примерно у 90-95 % женщин, получивших хотя бы раз в жизни положительную маммограмму, на самом деле заболевание отсутствует.
  4. Наиболее низкие уровни этих ошибок наблюдаются в северной Европе, где маммографические плёнки считываются дважды, и для дополнительного тестирования устанавливается повышенное пороговое значение (высокий порог снижает статистическую эффективность теста).
  5. Вероятность того, что выдаваемый тестом результат окажется ошибкой первого рода, может быть вычислена при помощи Теоремы Байеса.
  6. На некоторых сайтах приведены примеры ошибок первого рода, например: Атлантическое Сообщество Паранормальных явлений (The Atlantic Paranormal Society, TAPS) и Морстаунская организация по Исследованию Привидений (Moorestown Ghost Research).

Wikimedia Foundation.
2010.

  1. Главная
  2. >
  3. Ошибки первого и второго рода

Ошибки первого и второго рода

Содержание:

  1. Ошибки первого и второго рода. Мощность критерия
  2. Мощностью критерия

Ошибки первого и второго рода. Мощность критерия

При проверке гипотез по указанному правилу возможны ошибки двух типов:

1. Ошибка первого рода: отвергается верная гипотеза. Вероятность этой ошибки равна уровню значимости Ошибки первого и второго рода. Действительно, из определения Ошибки первого и второго рода имеем:

Ошибки первого и второго рода (ошибки 1 -го рода)= Ошибки первого и второго рода

2. Ошибка второго рода: принимается неверная гипотеза. Вероятность этой ошибки обозначают Ошибки первого и второго рода

Ошибки первого и второго рода (ошибки второго рода)= Ошибки первого и второго рода.

В конкретной ситуации эта вероятность может быть вычислена.

В математической статистике доказывается: при фиксированном объеме выборки уменьшение уровня значимости Ошибки первого и второго рода влечет увеличение Ошибки первого и второго рода и обратно, уменьшение Ошибки первого и второго рода влечет увеличение Ошибки первого и второго рода.

Единственный способ уменьшения одновременно Ошибки первого и второго рода и Ошибки первого и второго рода— это увеличение объема выборки.

В конкретных ситуациях можно минимизировать вероятность той ошибки, которая ведет к менее тяжелым последствиям. Рекомендуется, если это возможно, проводить проверку более одного раза (набрать хотя бы еще одну выборку).

Мощностью критерия

3. Мощностью критерия называется вероятность отвергнуть неверную гипотезу:

Ошибки первого и второго рода, где

Ошибки первого и второго рода — вероятность ошибки второго рода.

Эта лекция взята из полного курса лекци по предмету «теория вероятностей», там вы найдёте другие лекци по всем темам теории вероятности:

Теория вероятностей: полный курс лекций

Другие темы которые вам помогут понять математику:

Общая схема проверки гипотез но данным опыта

Проверка гипотезы о законе распределении случайной величины по данным опыта

Метод наименьших квадратов (МНК)

Непосредственное вычисление вероятностей примеры с решением

Лекции:

  • Метод наименьших квадратов (МНК)
  • Непосредственное вычисление вероятностей примеры с решением
  • Действия над событиями. Теоремы сложения и умножения вероятностей примеры с решением
  • Примеры решения задач на тему: Случайные величины
  • Примеры решения задач на тему: основные законы распределения
  • Два распределения связанные с нормальным законом
  • Квантиль распределения
  • Доверительные интервалы для математического ожидания и дисперсии
  • Общая схема проверки гипотез но данным опыта
  • Проверка гипотезы о законе распределении случайной величины по данным опыта

Понравилась статья? Поделить с друзьями:
  • Мощность критерия это вероятность совершить ошибку второго рода
  • Моя жизнь мой выбор мои ошибки не ваше дело
  • Мощность критерия это вероятность ошибки
  • Моя жизнь мой выбор мои ошибки мои уроки
  • Мощность критерия это вероятность не допустить ошибку второго рода