Мощность статистического критерия это вероятность не совершить ошибку

  1. Понятие статистического критерия.
    Мощность критерия. Уровень статистической
    значимости

Статистический
критерий – решающее правило, обеспечивающее
надежное поведение, то есть принятие
истинной и отклонение ложной гипотезы
с высокой вероятностью (Суходольский
Г.В.) статистические критерии обозначают
также метод расчета определенного числа
и само это число. В большинстве случаев,
когда мы хотим, чтобы наши результаты
были признаны значимыми, необходимо
что бы эмпирическое значение критерия
превышало критическое, хотя есть критерии
(напр Манна-Уитни или критерий знаков),
в которых мы должны придерживаться
противоположного правила. В некотором
случае расчетная формула критерия
включает в себя количество наблюдений
в исследуемой выборке, обозначаемое
как n. В этом случае
эмпирическое значение критерия
одновременно является тестом для
проверки статистических гипотез. По
специальной таблице мы определяем,
какому уровню статистической значимости
различий соответствует данная эмпирическая
величина. Примером такого критерия
является угловое преобразование Фишера.
В большинстве случаев, однако, одно и
то же эмпирическое значение критерия
может оказаться значимым или незначимым,
в зависимости от количества наблюдений
в исследуемой выборке или от так
называемого количества степеней свободы,
которое обозначается как v
или как df. Число степеней
свободы равно числу классов вариационного
ряда минус число условий, при которых
он был сформирован (Ивантер, Э.В., Коросов
А.В.). к числу таких условий относятся
объем выборки, средние и дисперсии.

Если
мы расклассифицировали наблюдения по
классам какой-либо номинативной шкалы
и подсчитали количество наблюдений в
каждой ячейке классификации, то мы
получаем так называемый частотный
вариационный ряд. Единственное условие,
которое соблюдается при его формировании
– объем выборки n. Допустим,
у нас три класса: «Умеет работать на
компьютере – выполняет лишь определенные
операции – не умеет работать на
компьютере». Если в первый класс отнесены
20 испытуемых, во второй – также 20, то в
третий только остальные 10. Мы ограничены
объемом выборки. Поэтому даже если мы
потеряли данные о том, сколько человек
не умеет работать на компьютере, мы
можем определить это, зная, что в первом
и во втором классе – по 20 испытуемых.
Мы не свободны в определении количества
испытуемых в третьем разряде, «свобода»
простирается только на 2 ячейки
классификации. Зная n
и/или число степеней свободы, мы по
специальным таблицам можем определить
критические значения и сопоставить с
ними полученные эмпирические значения.
Обычно это записывается так: «при n
= 22 критические значения критерия
составляют…».

Критерии
делятся на параметрические и
непараметрические.

Параметрические
критерии – критерии, включающие в
формулу расчета параметры распределения,
то есть средние и дисперсии (критерий
стьюдента, критерий f и
т.д.).

Непараметрические
критерии – критерии, не включающие в
формулу расчета параметров распределения
о основанные на оперировании частотами
или рангами (критерий Розенбаума,
Вилкоксона и т.д.).

И
те, и другие критерии имеют преимущества
и недостатки.

Возможности
и ограничения параметрических и
непараметрических критериев – см
приложение 1.

Как
видно, параметрические критерии могут
оказаться более мощными, но только в
том случае, если признак измерен по
интервальной шкале и нормально
распределен. Лишь с некоторой натяжкой
мы можем назвать данные нестандартизированных
методик интервальными. Кроме того, что
определить нормальность распределения,
нужно применить большое количество
сложных расчетов с заранее неизвестными
результатами. Непараметрические критерии
лишены этих ограничений. По сравнению
с параметрическими критериями у них
есть лишь одно ограничение – с их помощью
невозможно оценить взаимодействие двух
или более условий или факторов, влияющих
на изменение признака. Эту задачу может
решить только двухфакторный дисперсионный
анализ.

Уровни
статистической значимости.

Уровень значимости – это вероятность
того, что мы сочти различия существенными,
а они на самом деле случайны. Когда мы
указываем, что различия находятся на 5
% уровне значимости, то мы имеем в виду,
что вероятность того, что они все-таки
недостоверны, составляет ) 0,05. Когда мы
указываем на 1 % уровень значимости, то
вероятность того, что они недостоверны,
составляет 0,01.

Если
перевести все это на формализованный
язык, то уровень значимости – это
вероятность отклонения нулевой гипотезы,
в то время как она верна.

Ошибка,
состоящая в том, что мы отклонили нулевую
гипотезу, в то время, как она верна,
называется ошибкой первого рода.
Вероятность такой ошибки обычно
обозначается как α. В сущности мы должны
указывать ρ ≤ 0,05 и ρ ≤ 0,01, а α≤0,05 и
α≤0,01. В некоторых руководствах так и
делается (Рунион Р, Захаров В.П. и др).

Если
вероятность ошибки это α, то вероятность
правильного решения: 1 – α. Чем меньше
α, тем меньше вероятность ошибки, тем
больше вероятность правильного решения.

Исторически
сложилось так, что в психологии принято
низшим уровнем значимости 0,05 уровень,
достаточной значимости – 0,01, высшим –
0,001.

Ось
значимости.

Практически исследователь может считать
достоверными уже те различия, которые
не попадают в зону незначимости, заявив,
что они достоверны при ρ ≤ 0,05.

Уровень
статистической значимости или критических
значений критерия определяется по-разному
при проверке направленных и ненаправленных
статистических гипотез.

При
направленной статистической гипотезе
используется односторонний критерий,
при ненаправленной – двусторонний.
Последний считается более строгим, так
как проверяет различия в обе стороны и
поэтому эмпирическое значение критерия,
которое раньше было 0,05, теперь только
0,10.

Мощность
критерия.


это его способность выявлять различия,
если они есть. Иными словами, это его
способность отклонить нулевую гипотезу
об отсутствии различий, если она неверна.

Ошибка,
состоящая в том, что мы приняли нулевую
гипотезу, в то время как она неверна,
называется ошибкой второго рода.
Вероятность такой ошибки обозначается
как β. Мощность критерия – это его
способность не допустить ошибку второго
рода, поэтому: мощность = 1 – β. Мощность
критерия определяется эмпирическим
путем. Одни и те же задачи могут быть
решены разными критериями, при этом
обнаруживается, что некоторые критерии
могут показать различия там, где другие
неспособны это сделать или выявляют
более высокий уровень различий. Таким
образом, основанием для выбора критерия
может служить не только мощность, но и:


простота


более широкий диапазон использования


применимость по отношению к неравным
объемам выборки


большая информативность результатов.

Ошибки первого рода (англ. type I errors, α errors, false positives) и ошибки второго рода (англ. type II errors, β errors, false negatives) в математической статистике — это ключевые понятия задач проверки статистических гипотез. Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат.

Содержание

  • 1 Определения
  • 2 О смысле ошибок первого и второго рода
  • 3 Вероятности ошибок (уровень значимости и мощность)
  • 4 Примеры использования
    • 4.1 Компьютеры
      • 4.1.1 Компьютерная безопасность
      • 4.1.2 Фильтрация спама
      • 4.1.3 Вредоносное программное обеспечение
      • 4.1.4 Поиск в компьютерных базах данных
      • 4.1.5 Оптическое распознавание текстов (OCR)
      • 4.1.6 Досмотр пассажиров и багажа
      • 4.1.7 Биометрия
    • 4.2 Массовая медицинская диагностика (скрининг)
    • 4.3 Медицинское тестирование
    • 4.4 Исследования сверхъестественных явлений
  • 5 См. также
  • 6 Примечания

Определения

Пусть дана выборка mathbf{X} = (X_1,ldots,X_n)^{top} из неизвестного совместного распределения mathbb{P}^{mathbf{X}}, и поставлена бинарная задача проверки статистических гипотез:

 begin{matrix} H_0 \ H_1, end{matrix}

где H0 — нулевая гипотеза, а H1 — альтернативная гипотеза. Предположим, что задан статистический критерий

f:mathbb{R}^n to {H_0,H_1},

сопоставляющий каждой реализации выборки mathbf{X} = mathbf{x} одну из имеющихся гипотез. Тогда возможны следующие четыре ситуации:

  1. Распределение mathbb{P}^{mathbf{X}} выборки mathbf{X} соответствует гипотезе H0, и она точно определена статистическим критерием, то есть f(mathbf{x}) = H_0.
  2. Распределение mathbb{P}^{mathbf{X}} выборки mathbf{X} соответствует гипотезе H0, но она неверно отвергнута статистическим критерием, то есть f(mathbf{x}) = H_1.
  3. Распределение mathbb{P}^{mathbf{X}} выборки mathbf{X} соответствует гипотезе H1, и она точно определена статистическим критерием, то есть f(mathbf{x}) = H_1.
  4. Распределение mathbb{P}^{mathbf{X}} выборки mathbf{X} соответствует гипотезе H1, но она неверно отвергнута статистическим критерием, то есть f(mathbf{x}) = H_0.

Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно.

  Верная гипотеза
 H0   H1 
Результат
 применения 
критерия
 H0  H0 верно принята  H0 неверно принята 
(Ошибка второго рода)
 H1   H0 неверно отвергнута 
(Ошибка первого рода)
H0 верно отвергнута

О смысле ошибок первого и второго рода

Как видно из вышеприведённого определения, ошибки первого и второго рода являются взаимно-симметричными, то есть если поменять местами гипотезы H0 и H1, то ошибки первого рода превратятся в ошибки второго рода и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) — например, что обследумый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, альтернативная гипотеза H1 обозначает противоположную ситуацию, которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции.

С учётом этого ошибку первого рода часто называют ложной тревогой — например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня.
Соответственно, ошибку второго рода иногда называют пропуском события — человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов).

Ниже, в разделе Примеры использования, подробно рассматривается применение понятий ошибок первого и второго рода в различных областях.

Вероятности ошибок (уровень значимости и мощность)

Для проверки статистических гипотез используют так называемые критерии согласия. Для них вероятности ошибок первого и второго рода играют значительную роль.

Вероятность ошибки первого рода при проверке статистических гипотез назывют уровнем значимости и обычно обозначают греческой буквой α (отсюда название α-errors).

Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой β (отсюда β-errors). Однако с этой величиной тесно связана другая, имеющая большое статистическое значение — мощность критерия. Она вычисляется по формуле (1 − β). Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.

В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является уровень значимости, которым задаются при проверке статистических гипотез. Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности — к увеличению риска ошибки второго рода (пропуск запрещённого предмета).

Примеры использования

Компьютеры

Понятия ошибок первого и второго рода широко используются в области компьютеров и программного обеспечения.

Компьютерная безопасность

Наличие уязвимостей в вычислительных системах приводит тому, что приходится, с одной стороны, решать задачу сохранения целостности компьютерных данных, а с другой стороны — обеспечивать нормальный доступ легальных пользователей к этим данным (см. компьютерная безопасность). Moulton (1983, с.125) отмечает, что в данном контексте возможны следующие нежелательные ситуации:

  • когда авторизованные пользователи классифицируются как нарушители (ошибки первого рода)
  • когда нарушители классифицируются как авторизованные пользователи (ошибки второго рода)

Фильтрация спама

Ошибка первого рода происходит, когда механизм блокировки/фильтрации спама ошибочно классифицирует легитимное email-сообщение как спам и препятствует его нормальной доставке. В то время как большинство «анти-спам» алгоритмов способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений).

Ошибка второго рода происходит, когда анти-спам система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности анти-спам алгоритма.

Вредоносное программное обеспечение

Понятие ошибки первого рода также ипользуется, когда антивирусное программное обеспечение ошибочно классифицирует безвредный файл как вирус. Неверное обнаружение может быть вызвано особенностями эвристики, либо неправильной сигнатурой вируса в базе данных. Подобные проблемы могут происходить также и с анти-троянскими и анти-

Поиск в компьютерных базах данных

При поиске в базе данных, к ошибкам первого рода можно отнести документы, которые выдаются поиском, несмотря на их иррелевантность (несоответствие) поисковому запросу. Ошибочные срабатывания характерны для полнотекстового поиска, когда поисковый алгоритм анализирует полные тексты всех хранимых в базе данных документов и пытается найти соответствия одному или нескольким терминам, заданным пользователем в запросе.

Большинство ложных срабатываний обусловлены сложностью естественных языков, многозначностью слов: например, «home» может обозначать как «место проживания человека», так и «корневую страницу веб-сайта». Число подобных ошибок может быть снижено за счёт использования специального словаря. Однако, это решение относительно дорогое, поскольку подобный словарь и разметка документов (индексирование) должны создаваться экспертом.

Оптическое распознавание текстов (OCR)

Разнообразные детектирующие алгоритмы нередко выдают ошибки первого рода. Программное обеспечение оптического распознавания текстов может распознать букву «a» в ситуации, когда на самом деле изображены несколько точек, которые используемый алгоритм расценил как «a».

Досмотр пассажиров и багажа

Ошибки первого рода регулярно встречаются каждый день в комьютерных системах предварительного досмотра пассажиров в аэропортах. Установленные в них детекторы предназначены для предотвращения проноса оружия на борт самолёта; тем не менее, уровень чувствительности в них зачастую настраивается настолько высоко, что много раз за день они срабатывают на незначительные предметы, такие как ключи, пряжки ремней, монеты, мобильные телефоны, гвозди в подошвах обуви и т. п. (см. обнаружение взрывчатых веществ, металлодетекторы).

Таким образом, соотношение числа ложных тревог (идентифицикация благопристойного пассажира как террориста) к числу правильных срабатываний (обнаружение действительно запрещённых предметов) очень велико.

Биометрия

Ошибки первого и второго рода являются большой проблемой в системах биометрического сканирования, использующих распознавание радужной оболочки или сетчатки глаза, черт лица и т. д. Такие сканирующие системы могут ошибочно отождествить кого-то с другим, «известным» системе человеком, информация о котором хранится в базе данных (к примеру, это может быть лицо, имеющее право входа в систему, или подозреваемый преступник и т. п.). Противоположной ошибкой будет неспособность системы распознать легитимного зарегистрированного пользователя, или опознать подозреваемого в преступлении.[1]

Массовая медицинская диагностика (скрининг)

В медицинской практике есть существенное различие между скринингом и тестированием:

  • Скрининг включает в себя относительно дешёвые тесты, которые проводятся для большой группы людей при отсутствии каких-либо клинических признаков болезни (например, мазок Папаниколау).
  • Тестирование подразумевает гораздо более дорогие, зачастую инвазивные, процедуры, которые проводятся только для тех, у кого проявляются клинические признаки заболевания, и которые в основном применяются для подтверждения предполагаемого диагноза.

К примеру, в большинстве штатов в США обязательно прохождение новорожденными процедуры скрининга на оксифенилкетонурию и гипотиреоз, помимо других врождённых аномалий. Несмотря на высокий уровень ошибок первого рода, эти процедуры скрининга считаются целесообразными, поскольку они существенно увеличивают вероятность обнаружения этих расстройств на самой ранней стадии.[2]

Простые анализы крови, используемые для скрининга потенциальных доноров на ВИЧ и гепатит, имеют существенный уровень ошибок первого рода; однако в арсенале врачей есть гораздо более точные (и, соответственно, дорогие) тесты для проверки, действительно ли человек инфицирован каким-либо из этих вирусов.

Возможно, наиболее широкие дискуссии вызывают ошибки первого рода в процедурах скрининга на рак груди (маммография). В США уровень ошибок первого рода в маммограммах достигает 15 %, это самый высокий показатель в мире.[3] Самый низкий уровень наблюдается в Нидерландах, 1 %.[4]

Медицинское тестирование

Ошибки второго рода являются существенной проблемой в медицинском тестировании. Они дают пациенту и врачу ложное убеждение, что заболевание отсутствует, в то время как в действительности оно есть. Это зачастую приводит к неуместному или неадекватному лечению. Типичным примером является доверие результатам кардиотестирования при выявлении коронарного атеросклероза, хотя известно, что кардиотестирование выявляет только те затруднения кровотока в коронарной артерии, которые вызваны стенозом.

Ошибки второго рода вызывают серьёзные и трудные для понимания проблемы, особенно когда искомое условие является широкораспространённым. Если тест с 10%-ным уровнем ошибок второго рода используется для обследования группы, где вероятность «истинно-положительных» случаев составляет 70 %, то многие отрицательные результаты теста окажутся ложными. (См. Теорему Байеса).

Ошибки первого рода также могут вызывать серьёзные и трудные для понимания проблемы. Это происходит, когда искомое условие является редким. Если уровень ошибок первого рода у теста составляет один случай на десять тысяч, но в тестируемой группе образцов (или людей) вероятность «истинно-положительных» случаев составляет в среднем один случай на миллион, то большинство положительных результатов этого теста будут ложными.[5]

Исследования сверхъестественных явлений

Термин ошибка первого рода был взят на вооружение исследователями в области паранормальных явлений и привидений для описания фотографии или записи или какого-либо другого свидетельства, которое ошибочно трактуется как имеющее паранормальное происхождение — в данном контексте ошибка первого рода — это какое-либо несостоятельное «медиа-свидетельство» (изображение, видеозапись, аудиозапись и т. д.), которое имеет обычное объяснение.[6]

См. также

  • Ложное срабатывание (ошибка первого рода)
  • Статистическая значимость

Примечания

  1. Данный пример как раз характеризует случай, когда классификация ошибок будет зависеть от назначения системы: если биометрическое сканирование используется для допуска сотрудников (нулевая гипотеза: «проходящий сканирование человек действительно является сотрудником»), то ошибочное отождествление будет ошибкой второго рода, а «неузнавание» — ошибкой первого рода; если же сканирование используется для опознания преступников (нулевая гипотеза: «проходящий сканирование человек не является преступником»), то ошибочное отождествление будет ошибкой первого рода, а «неузнавание» — ошибкой второго рода.
  2. Относительно скрининга новорожденных, последние исследования показали, что количество ошибок первого рода в 12 раз больше, чем количество верных обнаружений (Gambrill, 2006. [1])
  3. Одним из последствий такого высокого уровня ошибок первого рода в США является то, что за произвольный 10-летний период половина обследуемых американских женщин получают как минимум одну ложноположительную маммограмму. Такие ошибочные маммограммы обходятся дорого, приводя к ежегодным расходам в 100 миллионов долларов на последующее (ненужное) лечение. Кроме того, они вызывают излишнюю тревогу у женщин. В результате высокого уровня подобных ошибок первого рода в США, примерно у 90-95 % женщин, получивших хотя бы раз в жизни положительную маммограмму, на самом деле заболевание отсутствует.
  4. Наиболее низкие уровни этих ошибок наблюдаются в северной Европе, где маммографические плёнки считываются дважды, и для дополнительного тестирования устанавливается повышенное пороговое значение (высокий порог снижает статистическую эффективность теста).
  5. Вероятность того, что выдаваемый тестом результат окажется ошибкой первого рода, может быть вычислена при помощи Теоремы Байеса.
  6. На некоторых сайтах приведены примеры ошибок первого рода, например: Атлантическое Сообщество Паранормальных явлений (The Atlantic Paranormal Society, TAPS) и Морстаунская организация по Исследованию Привидений (Moorestown Ghost Research).

Wikimedia Foundation.
2010.

Материал из MachineLearning.

(Перенаправлено с Мощность критерия)

Перейти к: навигация, поиск

Содержание

  • 1 Методика проверки статистических гипотез
  • 2 Альтернативная методика на основе достигаемого уровня значимости
  • 3 Типы критической области
  • 4 Ошибки первого и второго рода
  • 5 Свойства статистических критериев
  • 6 Типы статистических гипотез
  • 7 Типы статистических критериев
    • 7.1 Критерии согласия
    • 7.2 Критерии сдвига
    • 7.3 Критерии нормальности
    • 7.4 Критерии однородности
    • 7.5 Критерии симметричности
    • 7.6 Критерии тренда, стационарности и случайности
    • 7.7 Критерии выбросов
    • 7.8 Критерии дисперсионного анализа
    • 7.9 Критерии корреляционного анализа
    • 7.10 Критерии регрессионного анализа
  • 8 Литература
  • 9 Ссылки

Статистическая гипотеза (statistical hypothesys) — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.

Проверка статистической гипотезы (testing statistical hypotheses) — это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.

Статистический тест или статистический критерий — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.

Методика проверки статистических гипотез

Пусть задана случайная выборка x^m = (x_1,ldots,x_m) — последовательность m объектов из множества X.
Предполагается, что на множестве X существует некоторая неизвестная вероятностная мера mathbb{P}.

Методика состоит в следующем.

  1. Формулируется нулевая гипотеза H_0 о распределении вероятностей на множестве X. Гипотеза формулируется исходя из требований прикладной задачи. Чаще всего рассматриваются две гипотезы — основная или нулевая H_0 и альтернативная H_1. Иногда альтернатива не формулируется в явном виде; тогда предполагается, что H_1 означает «не H_0». Иногда рассматривается сразу несколько альтернатив. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей. Примеры приводятся ниже.
  2. Задаётся некоторая статистика (функция выборки) T:: X^m to mathbb{R}, для которой в условиях справедливости гипотезы H_0 выводится функция распределения F(T) и/или плотность распределения p(T). Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика T. Вывод функции распределения F(T) при заданных H_0 и T является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для F(T); в статистических пакетах имеются готовые вычислительные процедуры.
  3. Фиксируется уровень значимости — допустимая для данной задачи вероятность ошибки первого рода, то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число alpha in [0,1]. На практике часто полагают alpha=0.05.
  4. На множестве допустимых значений статистики T выделяется критическое множество Omega_alpha наименее вероятных значений статистики T, такое, что mathbb{P}{TinOmega_alphaleft|H_0right.} = alpha. Вычисление границ критического множества как функции от уровня значимости alpha является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.
  5. Собственно статистический тест (статистический критерий) заключается в проверке условия:

Итак, статистический критерий определяется статистикой T
и критическим множеством Omega_alpha, которое зависит от уровня значимости alpha.

Замечание.
Если данные не противоречат нулевой гипотезе, это ещё не значит, что гипотеза верна.
Тому есть две причины.

Альтернативная методика на основе достигаемого уровня значимости

Широкое распространение методики фиксированного уровня значимости было вызвано сложностью вычисления многих статистических критериев в докомпьютерную эпоху. Чаще всего использовались таблицы, в которых для некоторых априорных уровней значимости были выписаны критические значения. В настоящее время результаты проверки гипотез чаще представляют с помощью достигаемого уровня значимости.

Достигаемый уровень значимости (пи-величина, англ. p-value) — это наименьшая величина уровня значимости,
при которой нулевая гипотеза отвергается для данного значения статистики критерия T:

p(T) = min { alpha:: TinOmega_alpha },

где
Omega_alpha — критическая область критерия.

Другая интерпретация:
достигаемый уровень значимости p(T) — это вероятность при справедливости нулевой гипотезы получить значение статистики, такое же или ещё более экстремальное, чем T.

Если достигаемый уровень значимости достаточно мал (близок к нулю), то нулевая гипотеза отвергается.
В частности, его можно сравнивать с фиксированным уровнем значимости;
тогда альтернативная методика будет эквивалентна классической.

Типы критической области

Обозначим через t_alpha значение, которое находится из уравнения F(t_alpha) = alpha, где F(t) = mathbb{P}left{ T<t right} — функция распределения статистики T.
Если функция распределения непрерывная строго монотонная,
то t_alpha есть обратная к ней функция:

t_alpha = F^{-1}(alpha).

Значение t_alpha называется также alphaквантилем распределения F(t).

На практике, как правило, используются статистики T с унимодальной (имеющей форму пика) плотностью распределения.
Критические области (наименее вероятные значения статистики) соответствуют «хвостам» этого распределения.
Поэтому чаще всего возникают критические области одного из трёх типов:

  • Левосторонняя критическая область:
определяется интервалом Omega_alpha = (-infty,, t_alpha).
пи-величина: p(T) = F(T).
  • Правосторонняя критическая область:
определяется интервалом Omega_alpha = (t_{1-alpha},,+infty).
пи-величина: p(T) = 1-F(T).
  • Двусторонняя критическая область:
определяется двумя интервалами Omega_alpha = (-infty,, t_{alpha/2}) cup (t_{1-alpha/2},,+infty);
пи-величина: p(T) = min left{ 2F(T),; 2(1-F(T)) right}.

Ошибки первого и второго рода

  • Ошибка первого рода или «ложная тревога» (англ. type I error, alpha error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:
alpha = mathbb{P}left{ TinOmega_alpha | H_0 right}.
  • Ошибка второго рода или «пропуск цели» (англ. type II error, beta error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:
beta(H_1) = mathbb{P}left{ TnotinOmega_alpha | H_1 right}.
  Верная гипотеза
 H_0   H_1 
Результат
 применения 
критерия
 H_0  H_0 верно принята H_0 неверно принята 
(Ошибка второго рода)
 H_1  H_0 неверно отвергнута 
(Ошибка первого рода)
H_0 верно отвергнута

Свойства статистических критериев

Мощность критерия:
1 - beta(H) = mathbb{P}left{ TinOmega_alpha | H right} — вероятность отклонить гипотезу H_0, если на самом деле верна альтернативная гипотеза H.
Мощность критерия является числовой функцией от альтернативной гипотезы H.

Несмещённый критерий:
1-beta(H) geq alpha
для всех альтернатив H
или, что то же самое,
mathbb{P}left{ TinOmega_alpha | H right} geq mathbb{P}left{ TinOmega_alpha | H_0 right}
для всех альтернатив H.

Состоятельный критерий:
beta(H) to 0 при mtoinfty для всех альтернатив H.

Равномерно более мощный критерий.
Говорят, что критерий с мощностью 1-beta(H) является равномерно более мощным, чем критерий с мощностью 1-beta'(H), если выполняются два условия:

  1. beta(H_0) = beta'(H_0);
  2. beta(H_1) leq beta'(H_1) для всех рассматриваемых альтернатив H_1neq H_0, причём хотя бы для одной альтернативы неравенство строгое.

Типы статистических гипотез

  • Простая гипотеза однозначно определяет функцию распределения на множестве X. Простые гипотезы имеют узкую область применения, ограниченную критериями согласия (см. ниже). Для простых гипотез известен общий вид равномерно более мощного критерия (Теорема Неймана-Пирсона).
  • Сложная гипотеза утверждает принадлежность распределения к некоторому множеству распределений на X. Для сложных гипотез вывести равномерно более мощный критерий удаётся лишь в некоторых специальных случаях.

Типы статистических критериев

В зависимости от проверяемой нулевой гипотезы статистические критерии делятся на группы, перечисленные ниже по разделам.

Наряду с нулевой гипотезой, которая принимается или отвергается по результату анализа выборки, статистические критерии могут опираться на дополнительные предположения, которые априори предпологаются выполненными.

  • Параметрические критерии предполагают, что выборка порождена распределением из заданного параметрического семейства. В частности, существует много критериев, предназначенных для анализа выборок из нормального распределения. Преимущество этих критериев в том, что они более мощные. Если выборка действительно удовлетворяет дополнительным предположениям, то параметрические критерии дают более точные результаты. Однако если выборка им не удовлетворяет, то вероятность ошибок (как I, так и II рода) может резко возрасти. Прежде чем применять такие критерии, необходимо убедиться, что выборка удовлетворяет дополнительным предположениям. Гипотезы о виде распределения проверяются с помощью критериев согласия.
  • Непараметрические критерии не опираются на дополнительные предположения о распределении. В частности, к этому типу критериев относится большинство ранговых критериев.

Критерии согласия

Критерии согласия проверяют, согласуется ли заданная выборка с заданным фиксированным распределением, с заданным параметрическим семейством распределений, или с другой выборкой.

  • Критерий Колмогорова-Смирнова
  • Критерий хи-квадрат (Пирсона)
  • Критерий омега-квадрат (фон Мизеса)

Критерии сдвига

Специальный случай двухвыборочных критериев согласия.
Проверяется гипотеза сдвига, согласно которой распределения двух выборок имеют одинаковую форму и отличаются только сдвигом на константу.

  • Критерий Стьюдента
  • Критерий Уилкоксона-Манна-Уитни

Критерии нормальности

Критерии нормальности — это выделенный частный случай критериев согласия.
Нормально распределённые величины часто встречаются в прикладных задачах, что обусловлено действием закона больших чисел.
Если про выборки заранее известно, что они подчиняются нормальному распределению, то к ним становится возможно применять более мощные параметрические критерии.
Проверка нормальность часто выполняется на первом шаге анализа выборки, чтобы решить, использовать далее параметрические методы или непараметрические.
В справочнике А. И. Кобзаря приведена сравнительная таблица мощности для 21 критерия нормальности.

  • Критерий Шапиро-Уилка
  • Критерий асимметрии и эксцесса

Критерии однородности

Критерии однородности предназначены для проверки нулевой гипотезы о том, что
две выборки (или несколько) взяты из одного распределения,
либо их распределения имеют одинаковые значения математического ожидания, дисперсии, или других параметров.

Критерии симметричности

Критерии симметричности позволяют проверить симметричность распределения.

  • Одновыборочный критерий Уилкоксона и его модификации: критерий Антилла-Кёрстинга-Цуккини, критерий Бхаттачария-Гаствирса-Райта
  • Критерий знаков
  • Коэффициент асимметрии

Критерии тренда, стационарности и случайности

Критерии тренда и случайности предназначены для проверки нулевой гипотезы об
отсутствии зависимости между выборочными данными и номером наблюдения в выборке.
Они часто применяются в анализе временных рядов, в частности, при анализе регрессионных остатков.

Критерии выбросов

Критерии дисперсионного анализа

Критерии корреляционного анализа

Критерии регрессионного анализа

Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  2. Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006. — 816 с.

Ссылки

  • Statistical hypothesis testing — статья в англоязычной Википедии.

Мощность

« Назад к Глоссарию

Статистическая мощность — это термин, часто используемый в клинических исследованиях. Мощность статистического критерия — это способность критерия обнаружить эффект, в случае если этот эффект действительно существует. С точки зрения статистики, это вероятность справедливого опровержения нулевой гипотезы.

В некоторых случаях опровергнуть нулевую гипотезу невозможно не потому, что она верна, а потому, что против нее недостаточно доказательств. Это может быть связано с тем, что масштаб эксперимента недостаточен для опровержения нулевой гипотезы. Соответственно, мощность критерия можно описать как вероятность совершить ошибку II рода (не опровергнуть нулевую гипотезу в случае, когда она действительно является ложной).

Синонимы:

статистическая мощность

« Назад к Глоссарию

Уровень значимости — это вероятность того, что мы сочли различия существенными, а они на самом деле случайны. Таким образом, уровень значимости — это вероятность отклонения нулевой гипотезы, в то время как она верна. Ошибка, состоящая в том, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода и обозначается . Если вероятность ошибки — это , то вероятность правильного решения 1 — . Чем меньше , тем больше вероятность правильного решения.

Будем обозначать гипотезу об отсутствии различий — , а о статистической достоверности различий — .

Правило отклонения и принятия .

Если эмпирическое значение критерия равняется критическому значению, соответствующему 0.05 (например, так исторически сложилось в психологии) или превышает его, то отвергается, но мы еще не можем определенно принять .

Если эмпирическое значение критерия равняется критическому значению, соответствующему 0.01 или превышает его, то отклоняется и принимается .

Исключение: критерий знаков G, критерий Т. Вилкоксона, критерий U Манна — Уитни. Для них установлено обратное соотношение.

Для иллюстрации правила иногда используют «ось значимости».

Критические значения критерия обозначим , эмпирическое значение критерия как .

Уровень статистической значимости или критические значения критериев определяются по-разному при проверке направленных и ненаправленных статистических гипотез.

При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе — двусторонний критерий.

Мощность критерия

Мощность критерия — это его способность выявлять различия, если они есть. Иными словами, это его способность отклонить нулевую гипотезу об отсутствии различий, если она неверна.

Ошибка, состоящая в том, что мы приняли нулевую гипотезу, в то время как она неверна, называется ошибкой второго рода.

Вероятность такой ошибки обозначается . Мощность критерия — это его способность не допустить ошибку второго рода. Поэтому:

«Мощность» = 1 —

Мощность критерия определяется эмпирическим путем. Одни и те же задачи могут быть решены разным путем. При этом обнаруживается, что некоторые критерии позволяют выявит различия там, где другие оказываются неспособны это сделать, или выявляют более высокий уровень значимости различий. Тогда возникает вопрос, зачем использовать менее мощные критерии? Дело в том, что основанием для выбора критерия может быть не только мощность критерия, но и другие его характеристики, а именно:

a) Простота;

b) Более широкий диапазон использования (например, по отношению к данным, определенным по номинативной шкале, или по отношению к большим n)

c) Применимость по отношению к неравным по размеру выборкам

d) Большая информативность результатов.

Понравилась статья? Поделить с друзьями:
  • Моя жизнь прошла в атмосфере нефти и газа ошибка
  • Мощность критерия это ошибка рода
  • Моя жизнь одна сплошная ошибка
  • Мощность критерия это вероятность совершить ошибку второго рода
  • Моя жизнь мой выбор мои ошибки не ваше дело