Значение ошибки в доверительном интервале

Погрешность и доверительный интервал: в чем разница?

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


Часто в статистике мы используем доверительные интервалы для оценки значения параметра совокупности с определенным уровнем достоверности.

Каждый доверительный интервал принимает следующий вид:

Доверительный интервал = [нижняя граница, верхняя граница]

Погрешность равна половине ширины всего доверительного интервала.

Например, предположим, что у нас есть следующий доверительный интервал для среднего значения генеральной совокупности:

95% доверительный интервал = [12,5, 18,5]

Ширина доверительного интервала составляет 18,5 – 12,5 = 6. Допустимая погрешность равна половине ширины, которая будет равна 6/2 = 3 .

В следующих примерах показано, как рассчитать доверительный интервал вместе с погрешностью для нескольких различных сценариев.

Пример 1: Доверительный интервал и допустимая погрешность для среднего значения генеральной совокупности

Мы используем следующую формулу для расчета доверительного интервала для среднего значения генеральной совокупности:

Доверительный интервал = x +/- z*(s/ √n )

куда:

  • x : выборочное среднее
  • z: z-критическое значение
  • s: стандартное отклонение выборки
  • n: размер выборки

Пример: Предположим, мы собираем случайную выборку дельфинов со следующей информацией:

  • Размер выборки n = 40
  • Средний вес выборки x = 300
  • Стандартное отклонение выборки s = 18,5

Мы можем подставить эти числа в калькулятор доверительного интервала , чтобы найти 95% доверительный интервал:

95% доверительный интервал для истинного среднего веса популяции черепах составляет [294,267, 305,733] .

Погрешность будет равна половине ширины доверительного интервала, который равен:

Погрешность: (305,733 – 294,267) / 2 = 5,733 .

Пример 2: Доверительный интервал и допустимая погрешность для доли населения

Мы используем следующую формулу для расчета доверительного интервала для доли населения:

Доверительный интервал = p +/- z * (√ p (1-p) / n )

куда:

  • p: доля выборки
  • z: выбранное значение z
  • n: размер выборки

Пример: Предположим, мы хотим оценить долю жителей округа, поддерживающих определенный закон. Мы выбираем случайную выборку из 100 жителей и спрашиваем их об их отношении к закону. Вот результаты:

  • Размер выборки n = 100
  • Доля в пользу закона p = 0,56

Мы можем подставить эти числа в доверительный интервал для калькулятора пропорций , чтобы найти 95% доверительный интервал:

95% доверительный интервал для истинной доли населения составляет [0,4627, 0,6573] .

Погрешность будет равна половине ширины доверительного интервала, который равен:

Погрешность: (0,6573 – 0,4627) / 2 = 0,0973 .

Дополнительные ресурсы

Погрешность и стандартная ошибка: в чем разница?
Как найти погрешность в Excel
Как найти погрешность на калькуляторе TI-84

Доверительный интервал

Доверительный
интервал – это отрезок на оси значений
оцениваемой характеристики случайной
величины (например, математического
ожидания), который с заданной вероятностью
накрывает неизвестное значение
оцениваемой характеристики.

Доверительная
вероятность

– это вероятность того, что неизвестное
значение оцениваемой характеристики
окажется внутри доверительного интервала.

Точки на оси,
ограничивающие доверительный интервал,
называются доверительными
границами
.

Чем шире доверительный
интервал, тем больше доверительная
вероятность.

Для того чтобы по
заданной доверительной вероятности
установить границы доверительного
интервала необходимо иметь плотность
распределения или закон распределения
статистики, применяемой для оценивания
неизвестного значения характеристики
случайной величины.

Однако известно,
что при объёме выборки большем 25
распределение любой статистики очень
близко к нормальному распределению.

Границы доверительного
интервала устанавливают так, чтобы в
его пределах оказались значения
оцениваемой характеристики, наиболее
близкие к среднему значению плотности
распределения или закона распределения,
а «хвосты», содержащие достаточно
удалённые и, как правило, маловероятные
значения, оказались вне границ. Причём
суммы вероятностей значений в каждом
из «хвостов» должны быть равными друг
другу.

Если оценка среднего


имеет нормальное или близкое к нормальному
распределение, то границы доверительного
интервала могут быть определены прямо
через величину среднеквадратической
ошибки оценки
,
на основании свойств нормального
распределения. Делается это следующим
образом.

Пусть вычислены
оценка среднего

и её среднеквадратическая ошибка
.
Истинное неизвестное математическое
ожидание случайной величины будет
находиться в доверительном интервале
от
до
+с доверительной вероятностью 0,682 .

Если выбрать
доверительный интервал вдвое шире, т.е.
по двукратной
ошибке
,
его границами будут значения от
–2до
+2.
Доверительная вероятность при таком
интервале составляет 0,955, т.е. больше,
чем при предыдущем интервале, определённом
пооднократной
ошибке.

Доверительная
вероятность в пределах трёхкратной
ошибки
,
т.е. от
–3до
+3,
будет 0,997 , а значит, практически все
выборочные данные, 99,7 %, попадут в
этот интервал. Это свойство нормального
распределения носит название «правило
трёх сигм
».

Чем больше
доверительная вероятность, тем выше
надёжность результата. Однако при этом
увеличивается и доверительный интервал,
который желательно иметь как можно уже.

Помимо
задания доверительного интервала по
одно-, двух- и трёхкратной ошибке
существует ещё один способ задания: по
доверительной вероятности. Обычно
используются следующие значения
доверительной вероятности: 0,90 ,
0,95 и 0,99. Ширины доверительного
интервала в этом случае составляют
соответственно  1,65, 1,96и 2,58от выборочного среднего
.
А вероятности ошибки: 0,10 , 0,05 и 0,01 (10 %,
5 % и 1 %).

Результатом
оценивания является:

  1. либо значение
    оценки неизвестной характеристики
    случайной величины (например, её
    математического ожидания) и
    среднеквадратическая ошибка оценки
    ;

  2. либо две границы
    доверительного интервала, накрывающего
    неизвестное значение интересующей
    характеристики случайной величины с
    заданной (указываемой) доверительной
    вероятностью.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Когда нам нужно получить одно число в качестве оценки параметра совокупности, мы используем точечную оценку. Тем не менее, из-за ошибки выборки, точечная оценка не будет в точности равняться параметру совокупности при любом размере данной выборки.

Часто, вместо точечной оценки, более полезным подходом будет найти диапазон значений, в рамках которого, как мы ожидаем, может находится значение искомого параметра с заданным уровнем вероятности.

Этот подход называется интервальной оценкой параметра (англ. ‘interval estimate of parameter’), а доверительный интервал выполняет роль этого диапазона значений.

Определение доверительного интервала.

Доверительный интервал (англ. ‘confidence interval’) представляет собой диапазон, для которого можно утверждать, с заданной вероятностью (1 — alpha ), называемой степенью доверия (или степенью уверенности, англ. ‘degree of confidence’), что он будет содержать оцениваемый параметр.

Этот интервал часто упоминается как (100 (1 — alpha)% ) доверительный интервал для параметра.

Конечные значения доверительного интервала называются нижним и верхним доверительными пределами (или доверительными границами или предельной погрешностью, англ. ‘lower/upper confidence limits’).

В этом чтении, мы имеем дело только с двусторонними доверительными интервалами — доверительные интервалами, для которых мы вычисляем и нижние и верхние пределы.

Кроме того, можно определить два типа односторонних доверительных интервалов для параметра совокупности.

Нижний односторонний доверительный интервал устанавливает только нижний предел. Это означает допущение, что с определенной степенью доверия параметр совокупности равен или превышает нижний предел.

Верхний односторонний доверительный интервал устанавливает только верхний предел. Это означает допущение, что с определенной степенью доверия параметр совокупности меньше или равен верхнему пределу.

Инвестиционные аналитики редко используют односторонние доверительные интервалы.

Доверительные интервалы часто дают либо вероятностную интерпретацию, либо практическую интерпретацию.

При вероятностной интерпретации, мы интерпретируем 95%-ный доверительный интервал для среднего значения совокупности следующим образом.

При повторяющейся выборке, 95% таких доверительных интервалов будут, в конечном счете, включать в себя среднее значение совокупности.

Например, предположим, что мы делаем выборку из совокупности 1000 раз, и на основании каждой выборки мы построим 95%-ный доверительный интервал, используя вычисленное выборочное среднее.

Из-за случайного характера выборок, эти доверительные интервалы отличаются друг от друга, но мы ожидаем, что 95% (или 950) этих интервалов включают неизвестное значение среднего по совокупности.

На практике мы обычно не делаем такие повторяющиеся выборки. Поэтому в практической интерпретации, мы утверждаем, что мы 95% уверены в том, что один 95%-ный доверительный интервал содержит среднее по совокупности.

Мы вправе сделать это заявление, потому что мы знаем, что 95% всех возможных доверительных интервалов, построенных аналогичным образом, будут содержать среднее по совокупности.

Доверительные интервалы, которые мы обсудим в этом чтении, имеют структуры, подобные описанной ниже базовой структуре.

Построение доверительных интервалов.

Доверительный интервал (100 (1 — alpha)% ) для параметра имеет следующую структуру.

Точечная оценка (pm) Фактор надежности (times) Стандартная ошибка

где

  • Точечная оценка = точечная оценка параметра (значение выборочной статистики).
  • Фактор надежности (англ. ‘reliability factor’) = коэффициент, основанный на предполагаемом распределении точечной оценки и степени доверия ((1 — alpha)) для доверительного интервала.
  • Стандартная ошибка = стандартная ошибка выборочной статистики, значение которой получено с помощью точечной оценки.

Величину (Фактор надежности) (times) (Cтандартная ошибка) иногда называют точностью оценки (англ. ‘precision of estimator’). Большие значения этой величины подразумевают более низкую точность оценки параметра совокупности.

Самый базовый доверительный интервал для среднего значения по совокупности появляется тогда, когда мы делаем выборку из нормального распределения с известной дисперсией. Фактор надежности в данном случае на основан стандартном нормальном распределении, которое имеет среднее значение, равное 0 и дисперсию 1.

Стандартная нормальная случайная величина обычно обозначается как (Z). Обозначение (z_alpha ) обозначает такую точку стандартного нормального распределения, в которой (alpha) вероятности остается в правом хвосте.

Например, 0.05 или 5% возможных значений стандартной нормальной случайной величины больше, чем ( z_{0.05} = 1.65 ).

Предположим, что мы хотим построить 95%-ный доверительный интервал для среднего по совокупности, и для этой цели, мы сделали выборку размером 100 из нормально распределенной совокупности с известной дисперсией (sigma^2) = 400 (значит, (sigma) = 20).

Мы рассчитываем выборочное среднее как ( overline X = 25 ). Наша точечная оценка среднего по совокупности, таким образом, 25.

Если мы перемещаем 1.96 стандартных отклонений выше среднего значения нормального распределения, то 0.025 или 2.5% вероятности остается в правом хвосте. В силу симметрии нормального распределения, если мы перемещаем 1.96 стандартных отклонений ниже среднего, то 0.025 или 2.5% вероятности остается в левом хвосте.

В общей сложности, 0.05 или 5% вероятности лежит в двух хвостах и 0.95 или 95% вероятности лежит между ними.


Таким образом, ( z_{0.025} = 1.96) является фактором надежности для этого 95%-ного доверительного интервала. Обратите внимание на связь (100 (1 — alpha)% ) для доверительного интервала и (z_{alpha/2}) для фактора надежности.

Стандартная ошибка среднего значения выборки, заданная Формулой 1, равна:

( sigma_{overline X} = 20 Big / sqrt{100} = 2 )

Доверительный интервал, таким образом, имеет нижний предел:

( overline X — 1.96 sigma_{overline X} ) = 25 — 1.96(2) = 25 — 3.92 = 21.08.

Верхний предел доверительного интервала равен:

( overline X + 1.96sigma_{overline X} ) = 25 + 1.96(2) = 25 + 3.92 = 28.92

95%-ный доверительный интервал для среднего по совокупности охватывает значения от 21.08 до 28.92.

Доверительные интервалы для среднего по совокупности (нормально распределенная совокупность с известной дисперсией).

Доверительный интервал (100 (1 — alpha)% ) для среднего по совокупности ( mu ), когда мы делаем выборку из нормального распределения с известной дисперсией ( sigma^2 ) задается формулой:

( Large dst overline X pm z_{alpha /2}{sigma over sqrt n}  ) (Формула 4)

Факторы надежности для наиболее часто используемых доверительных интервалов приведены ниже.

Факторы надежности для доверительных интервалов на основе стандартного нормального распределения.

Мы используем следующие факторы надежности при построении доверительных интервалов на основе стандартного нормального распределения:

  • 90%-ные доверительные интервалы: используется (z_{0.05}) = 1.65
  • 95%-ные доверительные интервалы: используется (z_{0.025}) = 1.96
  • 99%-ные доверительные интервалы: используется (z_{0.005}) = 2.58

На практике, большинство финансовых аналитиков используют значения для (z_{0.05}) и (z_{0.005}), округленные до двух знаков после запятой.

Для справки, более точными значениями для (z_{0.05}) и (z_{0.005}) являются 1.645 и 2.575, соответственно.

Для быстрого расчета 95%-ного доверительного интервала (z_{0.025}) иногда округляют 1.96 до 2.

Эти факторы надежности подчеркивают важный факт о всех доверительных интервалах. По мере того, как мы повышаем степень доверия, доверительный интервал становится все шире и дает нам менее точную информацию о величине, которую мы хотим оценить.

«Чем уверенней мы хотим быть, тем меньше мы должны быть уверены»

см. Freund и Williams (1977), стр. 266.

На практике, допущение о том, что выборочное распределение выборочного среднего, по меньшей мере, приблизительно нормальное, часто является обоснованным, либо потому, что исходное распределение приблизительно нормальное, либо потому что мы имеем большую выборку и поэтому к ней применима центральная предельная теорема.

Однако, на практике, мы редко знаем дисперсию совокупности. Когда дисперсия генеральной совокупности неизвестна, но выборочное среднее, по меньшей мере, приблизительно нормально распределено, у нас есть два приемлемых пути чтобы вычислить доверительные интервалы для среднего значения совокупности.


Вскоре мы обсудим более консервативный подход, который основан на t-распределении Стьюдента (t-распределение, для краткости).

Распределение статистики (t) называется t-распределением Стьюдента (англ. «Student’s t-distribution») из-за псевдонима «Студент» (Student), использованного британским математиком Уильямом Сили Госсеттом, который опубликовал свою работу в 1908 году.

В финансовой литературе, это наиболее часто используемый подход для статистической оценки и проверки статистических гипотез, касающихся среднего значения, когда дисперсия генеральной совокупности не известна, как для малого, так и для большого размер выборки.

Второй подход к доверительным интервалам для среднего по совокупности, основанного на стандартном нормальном распределении, — это z-альтернатива (англ. ‘z-alternative’). Он может быть использован только тогда, когда размер выборки является большим (в общем случае, размер выборки 30 или больше, можно считать большим).

В отличии от доверительного интервала, приведенного в Формуле 4, этот доверительный интервал использует стандартное отклонение выборки (s) при вычислении стандартной ошибки выборочного среднего (по Формуле 2).

Доверительные интервалы для среднего по совокупности — z-альтернатива (большая выборка, дисперсия совокупности неизвестна).

Доверительный интервал (100 (1 — alpha)% ) для среднего по совокупности ( mu ) при выборке из любого распределения с неизвестной дисперсией, когда размер выборки большой, задается формулой:

( Large dst overline X pm z_{alpha /2}{s over sqrt n} ) (Формула 5)

Поскольку этот тип доверительного интервала применяется довольно часто, мы проиллюстрируем его вычисление в Примере 4.

Пример (4) расчета доверительного интервала для среднего по совокупности коэффициентов Шарпа с использованием z-статистики.

Предположим, что инвестиционный аналитик делает случайную выборку акций взаимных фондов США и рассчитывает средний коэффициент Шарпа.

[см. также: CFA — Коэффициент Шарпа]

Размер выборки равен 100, а средний коэффициент Шарпа составляет 0.45. Выборка имеет стандартное отклонение 0.30.

Рассчитайте и интерпретируйте 90-процентный доверительный интервал для среднего по совокупности всех акций взаимных фондов США с использованием фактора надежности на основе стандартного нормального распределения.


Фактор надежности для 90-процентного доверительного интервала, как указано ранее, составляет ( z_{0.05} = 1.65 ).

Доверительный интервал будет равен:

( begin{aligned} & overline X pm z_{0.05}{s over sqrt n } \ &= 0.45 pm 1.65{0.30 over sqrt {100}} \ &= 0.45 pm 1.65(0.03) = 0.45 pm 0.0495   end{aligned} )

Доверительный интервал охватывает значения 0.4005 до 0.4995, или от 0.40 до 0.50, с округлением до двух знаков после запятой. Аналитик может сказать с 90-процентной уверенностью, что интервал включает среднее по совокупности.

В этом примере аналитик не делает никаких конкретных предположений о распределении вероятностей, характеризующем совокупность. Скорее всего, аналитик опирается на центральную предельную теорему для получения приближенного нормального распределения для выборочного среднего.

Как показывает Пример 4, даже если мы не уверены в характере распределения совокупности, мы все еще можем построить доверительные интервалы для среднего по совокупности, если размер выборки достаточно большой, поскольку можем применить центральную предельную теорему.

Концепция степеней свободы.

Обратимся теперь к консервативной альтернативе и используем t-распределение Стьюдента, чтобы построить доверительные интервалы для среднего по совокупности, когда дисперсия генеральной совокупности не известна.

Для доверительных интервалов на основе выборок из нормально распределенных совокупностей с неизвестной дисперсией, теоретически правильный фактор надежности основан на t-распределении. Использование фактора надежности, основанного на t-распределении, имеет важное значение для выборок небольшого размера.

Применение фактора надежности (t) уместно, когда дисперсия генеральной совокупности неизвестна, даже если у нас есть большая выборка и мы можем использовать центральную предельную теорему для обоснования использования фактора надежности (z). В этом случае большой выборки, t-распределение обеспечивает более консервативные (широкие) доверительные интервалы.

t-распределение является симметричным распределением вероятностей и определяется одним параметром, известным как степени свободы (DF, от англ. ‘degrees of freedom’). Каждое значение для числа степеней свободы определяет одно распределение в этом семействе распределений.

Далее мы сравним t-распределения со стандартным нормальным распределением, но сначала мы должны понять концепцию степеней свободы. Мы можем сделать это путем изучения расчета выборочной дисперсии.

Формула 3 дает несмещенную оценку выборочной дисперсии, которую мы используем. Выражение в знаменателе, ( n — 1 ), означающее размер выборки минус 1, это число степеней свободы при расчете дисперсии совокупности с использованием Формулы 3.

Мы также используем ( n — 1 ) как число степеней свободы для определения факторов надежности на основе распределения Стьюдента. Термин «степени свободы» используются, так как мы предполагаем, что в случайной выборке наблюдения отобраны независимо друг от друга. Числитель выборочной дисперсии, однако, использует выборочное среднее.


Каким образом использование выборочного среднего влияет на количество наблюдений, отобранных независимо, для формулы выборочной дисперсии?

При выборке размера 10 и среднем значении в 10%, к примеру, мы можем свободно отобрать только 9 наблюдений. Независимо от отобранных 9 наблюдений, мы всегда можем найти значение для 10-го наблюдения, которое дает среднее значение, равное 10%. С точки зрения формулы выборочной дисперсии, здесь есть 9 степеней свободы.

Учитывая, что мы должны сначала вычислить выборочное среднее от общего числа (n) независимых наблюдений, только (n — 1) наблюдений могут быть отобраны независимо друг от друга для расчета выборочной дисперсии.

Концепция степеней свободы часто применяется в финансовой статистике, и вы встретите ее в последующих чтениях.

t-распределение Стьюдента.

Предположим, что мы делаем выборку из нормального распределения.

Коэффициент (z = (overline X — mu) Big / (sigma big / sqrt n) ) нормально распределен со средним значением 0 и стандартным отклонением 1, однако, коэффициент (t = (overline X — mu) Big / (s big / sqrt n) ) следует t-распределению со средним 0 и (n — 1) степеней свободы.

Коэффициент (t) не является нормальным, поскольку представляет собой отношение двух случайных величин, выборочного среднего и стандартного отклонения выборки.

Определение стандартной нормальной случайной величины включает в себя только одну случайную величину, выборочное среднее. По мере увеличения степеней свободы, однако, t-распределение приближается к стандартному нормальному распределению.

На Рисунке 1 показано стандартное нормальное распределение и два t-распределения, одно с DF = 2 и одно с DF = 8.

Рисунок (1) t-распределение Стьюдента по сравнению со стандартным нормальным распределением. Рисунок (1) t-распределение Стьюдента по сравнению со стандартным нормальным распределением.

Из трех распределений, показанных на Рисунке 1, стандартное нормальное распределение имеет хвосты, которые стремятся к нулю быстрее, чем хвосты двух t-распределений. t-распределение симметрично распределено вокруг среднего нулевого значения, так же как и нормальное распределение.

По мере увеличения степеней свободы, t-распределение приближается к стандартному нормальному распределению. t-распределение с DF = 8 ближе к стандартному нормальному, чем t-распределение с DF = 2.

Помимо области плюс и минус четырех стандартных отклонений от среднего значения, остальная область под стандартным нормальным распределением, как представляется, близка к 0. Однако, оба t-распределения содержать некоторую площадь под каждой кривой за пределом четырех стандартных отклонений.

t-распределения имеют более толстые хвосты, но хвосты t-распределения Стьюдента с DF = 8 сильнее напоминают хвосты нормального распределения. По мере увеличения степеней свободы, хвосты распределения Стьюдента становятся менее толстыми.

Для часто используемых значений распределения Стьюдента составлены таблицы. Например, для каждой степени свободы (t_{0.10}), (t_{0.05}), (t_{0.025}), (t_{0.01}) и (t_{0.005}) значения будут такими, что соответственно, 0.10, 0.05, 0.025, 0.01 и 0.005 вероятности останется в правом хвосте для заданного числа степеней свободы.

Значения (t_{0.10}), (t_{0.05}), (t_{0.025}), (t_{0.01}) и (t_{0.005}) также называют односторонними критическими значениями t на значимых уровнях 0.10, 0.05, 0.025, 0.01 и 0.005, для указанного числа степеней свободы.

Например,

для DF = 30,

(t_{0.10}) = 1.310,
(t_{0.05}) = 1.697,
(t_{0.025}) = 2.042,
(t_{0.01}) = 2.457,
(t_{0.005}) = 2.750.

Приведем форму доверительных интервалов для среднего по совокупности, используя распределение Стьюдента.

Доверительные интервалы для среднего по совокупности (дисперсия совокупности неизвестна) — t-распределение.

Если мы делаем выборку из генеральной совокупности с неизвестной дисперсией и соблюдается одно из перечисленных ниже условий:

  • выборка является большой, или
  • выборка небольшая, но совокупность имеет нормальное распределение, или приблизительно нормально распределена,

то доверительный интервал (100 (1 — alpha)% ) для среднего совокупности ( mu ) задается формулой:

( Large dst overline X pm t_{alpha /2}{s over sqrt n} )  (Формула 6)

где число степеней свободы для ( t_{alpha /2}) равно ( n-1 ), а ( n ) — это размер выборки.

Пример 5 использует данные Примера 4, но применяет t-статистику, а не z-статистику, чтобы рассчитать доверительный интервал для среднего значения совокупности коэффициентов Шарпа.

Пример (5) расчета доверительного интервала для среднего по совокупности коэффициентов Шарпа с использованием t-статистики.

Как и в Примере 4, инвестиционный аналитик стремится вычислить 90-процентный доверительный интервал для среднего по совокупности коэффициентов Шарпа, основанных на случайной выборке из 100 взаимных фондов США.

Выборочное среднее коэффициентов Шарпа составляет 0.45, а выборочное стандартное отклонение — 0.30.

Теперь, признав, что дисперсия генеральной совокупности распределения коэффициентов Шарпа неизвестна, аналитик решает вычислить доверительный интервал, используя теоретически правильную t-статистику.

Поскольку размер выборки равен 100, DF = 99. Используя таблицу степеней свободы, мы находим, что (t_{0.05}) = 1.66.

Этот фактор надежности немного больше, чем фактор надежности (z_{0.05}) = 1.65, который был использован в Примере 4.

Доверительный интервал будет:

( begin{aligned} & overline X pm t_{0.05}{s over sqrt n } \  &= 0.45 pm 1.66{0.30 over sqrt {100}} \ &= 0.45 pm 1.66(0.03) = 0.45 pm 0.0498   end{aligned} )

Доверительный интервал охватывает значения 0.4002 до 0.4998, или 0.40 до 0.50, с двумя знаками после запятой. При округлении до двух знаков после запятой, доверительный интервал не изменился по сравнению с Примером 4.

В Таблице 3 приведены различные факторы надежности, которые мы использовали.

Таблица 3. Основы для расчета факторов надежности.

Выборка из:

Статистика для выборки малого размера

Статистика для выборки большого размера

Нормальное распределение с известной дисперсией

(z)

(z)

Нормальное распределение с неизвестной дисперсией

(t)

(t)*

Ненормальное распределение с известной дисперсией

недоступно

(z)

Ненормальное распределение с неизвестной дисперсией

недоступно

(t)*

* Использование (z) также приемлемо.

Обновлено: 11.06.2023

Доверительный интервал – предельные значения статистической величины, которая с заданной доверительной вероятностью γ будет находится в этом интервале при выборке большего объема. Обозначается как P(θ — ε γ из достаточно близких к единице значений γ = 0.9 , γ = 0.95 , γ = 0.99 .

  • доверительный интервал для генерального среднего, доверительный интервал для дисперсии;
  • доверительный интервал для среднего квадратического отклонения, доверительный интервал для генеральной доли;

Если требуется найти доверительный интервал для вариационного ряда, то необходимо воспользоваться этим онлайн-калькулятором. Возможно, перед началом расчетов необходимо будет сгруппировать данные. Также существует возможность найти интервальный прогноз.

Классификация доверительных интервалов

По виду оцениваемого параметра:

По типу выборки:

  1. Доверительный интервал для бесконечной выборки;
  2. Доверительный интервал для конечной выборки;

По виду критической области:

  • двусторонняя область: =2*(1-НОРМСТРАСП(Χнабл))
  • левосторонняя область: =НОРМСТРАСП(Χнабл)
  • правосторонняя область: =1-НОРМСТРАСП(Χнабл)

Примеры применения

Расчет средней ошибки выборки при случайном отборе

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называется ошибкой репрезентативности.
Обозначения основных параметров генеральной и выборочной совокупности.

Характеристики Генеральная совокупность Выборочная совокупность
Объем совокупности (численность единиц) N n
Численность единиц, обладающих обследуемым качеством (признаком) M m
Доля единиц, обладающих обследуемым качеством (признаком), выборочная доля
Формулы средней ошибки выборки
повторный отбор бесповторный отбор
для средней для доли для средней для доли

Соотношение между пределом ошибки выборки (Δ), гарантируемым с некоторой вероятностью Р(t), и средней ошибкой выборки имеет вид: или Δ = t·μ, где t– коэффициент доверия, определяемый в зависимости от уровня вероятности Р(t) по таблице интегральной функции Лапласа.

Формулы расчета численности выборки при собственно-случайном способе отбора

Способ отбора Формулы определения численности выборки
для средней для доли
Повторный
Бесповторный

Найти численность выборки можно, использовав калькулятор.

Метод доверительных интервалов

  1. задается доверительная вероятность γ (надежность).
  2. по выборке определяется оценка параметра a .
  3. из соотношения P(α1 a находится ошибка ε.
  4. рассчитывается доверительный интервал (a — ε ; a + ε).

Пример №1 . При проверке годности партии таблеток (250 шт.) оказалось, что средний вес таблетки 0,3 г, а СКО веса 0,01 г. Найти доверительный интервал, в который с вероятностью 90% попадает норма веса таблетки.
Решение.

Определяем значение tkp по таблицам функции Лапласа.
В этом случае 2Ф(tkp) = 1 — γ
Ф(tkp) = γ/2 = (1- 0.05)/2 = 0.475
По таблице функции Лапласа найдем, при каком tkp значение Ф(tkp) = 0.475
tkp(γ) = Ф(0.475) = 1.96

(0.3 — 0.206;0.3 + 0.206) = (0.094;0.51)
С вероятностью 0.9 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.

Пример №2 . На площади в 70 га, занятой пшеницей, определяется с помощью выборочного метода доля посева, пораженная насекомыми вредителями. Сколько проб надо взять в выборку, чтобы при вероятности 0,997 определить искомую величину с точностью до 4%, если пробная выборка показывает, что доля пораженной посевной площади составляет 9%?

Решение ищем по формуле определения численности выборки для повторного отбора.

Ф(tkp) = γ/2 = 0.997/2 = 0,4985 и этому значению по таблице Лапласа соответствует tkp =2.96.
w = 9% = 0,09
Δ = 4% = 0,04
Итого: n = 2.96 2 *0,09(1-0,09)/0,04 2 = 448,4844 ≈ 449

Пример . При проверке веса импортируемого груза на таможне методом случайной повторной выборки было отобрано 100 изделий. В результате был установлен средний вес изделия 5000 г при среднем квадратическом отклонении 40 г. С вероятностью 0,950 определить пределы, в которых находится средний вес изделия в генеральной совокупности.

Решение

Поскольку n>30, то определяем значение tkp по таблицам функции Лапласа.
В этом случае 2Ф(tkp) = γ
Ф(tkp) = γ/2 = 0.95/2 = 0.475
По таблице функции Лапласа найдем, при каком tkp значение Ф(tkp) = 0.475
tkp(γ) = (0.475) = 1.96

(5000 — 78.4;5000 + 78.4) = (4921.6;5078.4)
С вероятностью 0.95 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.

Пример . С надежностью γ=0.954 построить доверительный интервал для генеральной доли
Пример №1

1. Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи собственно-случайного 10-ти процентного бесповторного отбора, определить:
а) пределы, за которые с доверительной вероятностью 0,954 не выйдет среднее значение признака, рассчитанное по генеральной совокупности;
б) как нужно изменить объем выборки, чтобы снизить предельную ошибку средней величины на 50%.
2. Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0,954;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20 %.
Методические указания

Задание. Поточная линия по производству однотипных деталей подвергалась реконструкции Заданы две выборки отображающие процент брака в партиях деталей выпускаемых на данной линии до и после реконструкции Можно ли достоверно утверждать, что после реконструкции процент брака в партиях деталей снизился?

  1. провести выборку собственно случайным способом объемом n=5;
  2. определить интервальные значения среднего генеральной совокупности (X) по рассчитанным выборочным показателям (X, s 2 ) с помощью функции t-распределения Стьюдента при уровне значимости α=0.05;
  3. определить точечное значение среднего генеральной совокупности (X) по исходным данным;
  4. оценить правильность интервальных расчетов, сравнивая точечное значение (X) с интервальным значением, рассчитанным по выборке;

2. Вводим исходные данные.

Нажимаем кнопку Далее .

Задание №2: В целях изучения затрат времени на изготовление одной детали рабочими завода проведена 10% -ная случайная бесповторная выборка, в результате которой получено распределение деталей по затратам времени, представленное в прил. Б.
На основании этих данных вычислите:
а) средние затраты времени на изготовление одной детали;
б) средний квадрат отклонений (дисперсию) и среднее квадратическое отклонение;
в) коэффициент вариации;
г) с вероятностью 0,954 предельную ошибку выборочной средней и возможные границы, в которых ожидаются средние затраты времени на изготовление одной детали на заводе;
д) с вероятностью 0,954 предельную ошибку выборочной доли и границы удельного веса числа деталей с минимальными затратами времени на их изготовление. Перед тем как производить расчеты, необходимо записать условия задачи и заполнить табл. 2.1

  • Вид статистического ряда: Задан дискретный ряд ;
  • Количество групп: не делать группировку ;
  • Для построения доверительного интервала генерального среднего, дисперсии и среднеквадратического отклонения: y= 0.954 ;
  • Для построения доверительного интервала генеральной доли: y= 0.954 ;
  • Выборка: 10 ;
  • Выводить в отчет: Доверительный интервал для генерального среднего , Доверительный интервал для генеральной доли ;

Задание №3: Используя результаты расчетов, выполненных в задании №2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0.954 ;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20% .

Решение.
Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0.954 ;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20%.

  • Вид статистический ряда: Задан интервальный ряд ;
  • Для построения доверительного интервала генерального среднего, дисперсии и среднеквадратического отклонения: y = 0.95 ;
  • Выборка: 20 ;
  • Выводить в отчет: Доверительный интервал для генерального среднего .

Задание №5: На заводе электроламп из партии продукции в количестве 16000 шт. ламп взято на выборку 1600 шт. (случайный, бесповторный отбор), из которых 40 шт. оказались бракованными. Определить с вероятностью 0.997 пределы, в которых будет находиться процент брака для всей партии продукции.

Решение.
Здесь N = 16000 , n = 1600 , w = d / n = 40/1600 = 0.025.

Для количественной оценки случайных погрешностей и установления границ случайной погрешности результата измерения могут использоваться: предельная погрешность, интервальная оценка, числовые характеристики закона распределения. Выбор конкретной оценки определяется необходимой полнотой сведений о погрешности, назначением измерений и характером использования их результатов.

Предельная погрешность Δm – погрешность, больше которой в данном измерительном эксперименте не может появиться. Теоретически, такая оценка погрешности правомерна только для распределений, границы которых четко выражены и существует такое значение ± Δm , которое ограничивает возможные значения случайных погрешностей с обеих сторон от центра распределения (например, равномерное). На практике такая оценка есть указание наибольшей погрешности, которая может встретиться при многократных измерениях одной и той же величины. Недостатком такой оценки является то, что она не содержит информации о характере закона распределения случайных погрешностей. При арифметическом суммировании предельных погрешностей получаемая сумма может значительно превышать действительные погрешности.

Более универсальными и информативными являются квантильные оценки. Площадь, заключенная под всей кривой плотности распределения погрешностей, отражает вероятность всех возможных значений погрешности и по условиям нормирования равна единице. Эту площадь можно разделить вертикальными линиями на части. Абсциссы таких линий называются квантилями. Так, на рис.16 Δx1, есть 25%-ная квантиль, так как площадь под кривой fx) слева от нее составляет 25% всей площади. Абсцисса Δx2 соответствует 75%-ной квантили. Между Δx1, и Δx2 заключено 50% всех возможных значений погрешности, а остальные лежат вне этого интервала.

Рис. 16. Квантильные оценки случайной величины

Квантильная оценка погрешности представляется интервалом от − Δx(P) до + Δx(P), на котором с заданной вероятностью Ρ встречаются Ρ⋅100% всех возможных значений случайной погрешности. Интервал с границами ± Δx(P) называется доверительным интервалом случайной погрешности, между границами которого с заданной доверительной вероятностью

где q – уровень значимости; xН , xВ – нижняя и верхняя границы интервала, находится истинное значение оцениваемого параметра. Принято границы доверительного интервала (доверительные границы) указывать симметричными относительно результата измерения.

В метрологической практике используют главным образом квантильные оценки доверительного интервала. Под Р-процентным квантилем xP понимают абсциссу такой вертикальной линии, слева от которой площадь под кривой плотности распределения равна Р %. Иначе говоря, квантиль –это значение случайной величины (погрешности) с заданной доверительной вероятностью Р. Так как квантили, ограничивающие доверительный интервал погрешности могут быть выбраны различными, то при оценивании случайной погрешности доверительными границами необходимо одно -временно указывать значение принятой доверительной вероятности (например, ±0,3 В при Ρ = 0,95). Доверительные границы случайной погрешности Δx(P), соответствующие доверительной вероятности Р, находят по формуле-

где t – коэффициент, зависящий от Ρ и формы закона распределения

Рис. 17. К понятию доверительных интервалов

На графике нормального распределения погрешностей (рис. 4.11) по оси абсцисс отложены интервалы с границами ±σ, ±2σ, ±3σ, ±4σ. Доверительные вероятности для этих интервалов приведены в табл.

Границы доверительных интервалов и соответствующие им доверительные вероятности

Как видно из этой таблицы, оценка случайной погрешности группы наблюдений интервалом ±1σ соответствует доверительной вероятности 0,68. Такая оценка не дает уверенности в высоком качестве измерений, поскольку 32% от всего числа наблюдений может выйти за пределы указанного интервала, что совершенно неприемлемо при однократных измерениях и дезинформирует потребителя измерительной информации. Доверительному интервалу ±3σ соответствует Ρ = 0,997. Это означает, что практически с вероятностью очень близкой к единице ни одно из возможных значений погрешности при нормальном законе ее распределения не выйдет за границы интервала. Поэтому, при нормальном распределении погрешностей, принято считать случайную погрешность с границами ±3σ предельной (максимально возможной) погрешностью. Погрешности, выходящие за эти границы, классифицируют как грубые или промахи. В целях единообразия в оценивании случайных погрешностей интервальными оценками при технических измерениях доверительна вероятность принимается равной 0,95. Лишь для особо точных и ответственных измерений (важных, например, для безопасности и здоровья людей) допускается применять более высокую доверительную вероятность. Итак, для получения интервальной оценки многократных наблюдений нормально распределенной случайной величины необходимо:

− определить точечные оценки МО и СКО Sx случайной величины по формулам (4.3) и (4.6) соответственно;

− выбрать доверительную вероятность Р из рекомендуемого ряда значений 0,90; 0,95; 0,99;

Значения xН и xВ определяются из таблиц значений интегральной функции распределения F(t) или функции Лапласа Ф(t ). Полученный доверительный интервал удовлетворяет условию

где n – число измеренных значений; zр – аргумент функции Лапласа Ф(t ), отвечающей вероятности P/ 2. В данном случае zр называется квантильным множителем. Половина длины доверительного интервала называется доверительной границей погрешности результата измерений. При отличии закона распределения случайной величины от нормального необходимо построить его математическую модель ММ и определять доверительный интервал с ее использованием.

Рассмотренный способ нахождения доверительных интервалов справедлив для достаточно большого числа наблюдений n , когда σ = Sx . Следует помнить, что вычисляемая оценка СКО Sx является лишь некоторым приближением к истинному значению σ . Определение доверительного интервала при заданной вероятности оказывается тем менее надежным, чем меньше число наблюдений. Расчет доверительных интервалов для случая, когда распределение результатов наблюдений нормально, но их дисперсия неизвестна, т.е. при малом числе наблюдений n , можно выполнить с использованием распределения Стьюдента S(t, k ). Оно описывает плотность распределения отношения (дроби Стьюдента):

где Q – истинное значение измеряемой величины. Величины вычисляются на основании опытных данных и представляют собой точечные оценки МО, СКО результатов измерений и СКО среднего арифметического значения. Вероятность того, что дробь Стьюдента в результате выполненных наблюдений примет некоторое значение в интервале [ − tр ; + tр],

где k – число степеней свободы, равное (n −1). Величины t р (называемые коэффициентами Стьюдента), рассчитанные с помощью двух последних формул для различных значений доверительной вероятности и числа измерений, табулированы. Следовательно, с помощью распределения Стьюдента можно найти вероятность того, что отклонение среднего арифметического от истинного значения измеряемой величины не превышает,

ε – половина длины доверительного интервала, или доверительная граница погрешности измерений. В тех случаях, когда распределение случайных погрешностей не является нормальным, все же часто пользуются распределением Стьюдента с приближением, степень которого остается неизвестной. Распределение Стьюдента применяют при числе измерений n

Вспомним первый урок по теме (там же внизу оглавление) и основной метод математической статистики. Он состоит в том, что для изучения генеральной совокупности объёма из неё производится выборка, состоящая из элементов, которая хорошо характеризует всю совокупность (свойство представительности). И на основании исследования этой выборочной совокупности мы с высокой достоверностью можем оценить генеральные характеристики. Чаще всего требуется выявить закон распределения генеральной совокупности (о чём пойдёт речь позже) и оценить его важнейшие числовые параметры, такие как генеральная средняя , генеральная дисперсия и среднее квадратическое отклонение .

Очевидно, что для оценки этих параметров нужно вычислить соответствующие выборочные значения. Так, выборочная средняя позволяет нам оценить генеральную среднюю , причём, оценить её точечно. Почему точечно? Потому что – это отдельно взятое, конкретное значение. Если из той же генеральной совокупности мы будем проводить многократные выборки, то в общем случае у нас будут получаться различные выборочные средние, и каждая из них представляет собой точечную оценку генерального значения .

Аналогично, несмещённой точечной оценкой генеральной дисперсии является исправленная выборочная дисперсия , и соответственно, стандартного отклонения – исправленное стандартное отклонение .

…что-то не понятно / недопонятно в терминах? Срочно изучать предыдущие уроки!

Недостаток точечных оценок состоит в том, что при небольшом объёме выборки (как оно часто бывает), мы можем получать выборочные значения, которые далеки от истины.
И в этих случаях логично потребовать, чтобы выборочная характеристика (средняя, дисперсия или какая-то другая) отличалась от генерального значения не более чем на некоторое положительное значение . А точнее, менее.

Значение называется точностью оценки, и озвученное выше требование можно записать с помощью модуля:

А теперь я раскрою модуль:

и сформулирую суть:

На данном уроке будут рассмотрены:

  • доверительный интервал для… – заголовок параграфа в поле зрения; – быстрая ссылка для опытных читателей.

Доверительный интервал для оценки генеральной средней
нормально распределённой генеральной совокупности

…да-да, пример уже 21-й!

Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением . Найти доверительный интервал для оценки математического ожидания с надежностью 0,95, если выборочная средняя , а объем выборки .

Внимание! Важное замечание: если в задаче указан тип выборки (повторная / бесповторная), то решение будет иметь свои особенности – читайте 10-ю статью об оценках по повторной и бесповторной выборке.

А теперь принципиальный момент непосредственно по задаче:

здесь известно стандартное отклонение генеральной совокупности.

Дело в том, что в похожих задачах оно бывает не известно, и тогда решение будет отличаться!

Но сейчас решение таково, разбираемся в ситуации:

– из генеральной совокупности попугаев проведена выборка в особей и по её результатам найдена выборочная средняя: (средняя масса попугая, например).

Выборочная средняя – это точечная оценка неизвестной нам генеральной средней . Как отмечалось выше, недостаток точечной оценки состоит в том, что она может оказаться далёкой от истины. И по условию, требуется найти интервал , которой с вероятностью накроет истинное значение .

Именно так! Здесь будет неверным сказать, что попадёт в этот интервал.

Решаем. Точность оценки рассчитывается по формуле , где – коэффициент доверия. Этот коэффициент отыскивается из соотношения , где – функция Лапласа.

В данном случае , следовательно:

И по таблице значений функции Лапласа либо пользуясь расчётным макетом (пункт 5*), выясняем, что значению соответствует аргумент .

Таким образом, точность оценки:

и искомый доверительный интервал:

Этот интервал с вероятностью (надёжностью) накрывает истинное генеральное значение среднего веса попугая. Но всё же остаётся 5%-ная вероятность, что генеральная средняя окажется вне найденного интервала.

Ответ: .

И тут возникает светлая мысль уменьшить этот интервал – чтобы получить более точную оценку. Что для этого можно сделать? Давайте посмотрим на формулу .

Очевидно, что чем меньше стандартное отклонение (мера разброса значений), тем короче доверительный интервал. Но это в отдельно взятой задаче ни на что не влияет – ведь нам известно конкретное значение , и изменить его нельзя.

, то есть о том, что этот более узкий интервал накроет генеральную среднюю, мы теперь можем утверждать лишь с вероятностью 68,26%. Что, конечно, неудовлетворительно, для серьёзного статистического исследования.

Поэтому для уменьшения доверительного интервала (при том же значении ) остаётся увеличивать объём выборки . Что совершенно понятно и без формулы , ведь чем больше объём выборки, тем точнее она характеризует генеральную совокупность (при прочих равных условиях). Об объёме мы поговорим на уроке об оценках по повторной и бесповторной выборке, ну а пока продолжаем.

Творческая задача для самостоятельного решения:

По результатам выборочного исследования объектов найдена выборочная средняя .

1) С какой вероятностью можно утверждать, что генеральная средняя отличается от найденного значения менее чем на 3, если известно, что генеральная совокупность распределения нормально с дисперсией 400?

2) Определить доверительный интервал, который с надежностью накроет истинное значение генеральной средней.

Расчётный макет (пункты 5 и 5*) – в помощь. Краткое решение в конце урока.

И тут, наверное, у вас назрели вопросы – а откуда известно, что генеральная совокупность распределена нормально, и тем более, откуда известно её стандартное отклонение?

Обычно эта информация известна из предыдущих исследований. Классический пример – измерительный прибор. Очевидно, что его случайные погрешности удовлетворяют условию теоремы Ляпунова, а значит, распределены нормально. Кроме того, производитель, как правило, тестирует прибор, и указывает в его паспорте стандартное отклонение случайных погрешностей измерений, которое можно принять за .

Но если установить нормальность распределения достаточно просто (в том числе статистическими методами), то с генеральным значением всё сложнее – зачастую вычислить его трудно или невозможно.

В такой ситуации остаётся ориентироваться на исправленное стандартное отклонение , и решение несколько изменится. Ещё одна классическая задача, которая уже встретилась ранее:

В результате 10 независимых измерений некоторой величины , выполненных с одинаковой точностью, полученные опытные данные, которые представлены в таблице:

Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины при помощи доверительного интервала, покрывающего это значение с доверительной вероятностью 0,95.

Не путать со случайными ошибками измерительного прибора! Здесь речь идёт об измерениях и помимо технических, велико влияние других, в частности, человеческого фактора, особенно, если вы используете махрово-аналоговый прибор – что-нибудь вроде механического секундомера или линейки.

Теперь построим доверительный интервал для оценки истинного (генерального) значения величины .

Если генеральное стандартное отклонение не известно

(наш случай), то этот интервал строится по похожей формуле:

, с той поправкой, что коэффициент доверия рассчитывается с помощью распределения Стьюдента. В рамках курса теорвера я не рассказывал об этом распределении, и поэтому ограничусь технической стороной вопроса.

Значение можно найти с помощью таблицы значений распределения Стьюдента, в частности, популярна таблица, специально адаптированная для данной задачи*. И, согласно этой таблице, доверительной вероятности и объёму выборки соответствует коэффициент доверия:

* В стандартной же таблице приводятся значения для так называемого уровня значимости и числа степеней свободы .

Вычислим точность оценки:

Таким образом, искомый доверительный интервал:

– данный интервал с вероятностью накрывает истинное значение измеряемой величины .

Ответ:

Для самостоятельного решения:

На основании испытаний установлено, что в среднем для изготовления шавермы полупроводникового диода требуется секунд, а исправленное среднее квадратическое отклонение составляет секунд. Предположив, что время изготовления диода есть нормальная случайная величина, определить с надежностью доверительный интервал для оценки среднего времени изготовления диода

Краткое решение и ответ в конце урока – расчётный макет (Пункт 10б) – в помощь.

Итак, что главное в разобранных задачах? Главное, обратить внимание, генеральное ли нам дано отклонение или исправленное выборочное . От этого зависит, какую формулу нужно использовать, эту:
, где ,
или эту:
, где отыскивается с помощью распределения Стьюдента.

И быстренько более редкая задача:

Доверительный интервал для оценки
генеральной дисперсии и стандартного отклонения

Этот интервал можно построить несколькими способами, которые я постараюсь уместить буквально в пару экранов. И сейчас последует продолжение той же задачи об измерениях:

По равноточным измерениям найдено исправленное среднее квадратическое отклонение . Предполагая, что результаты измерений распределены нормально, построить доверительный интервал для оценки истинного значения (генерального стандартного отклонения) с надёжностью .

Обратите внимание, что для решения этой задачи нам не обязательно знать выборочную среднюю (хотя в Примере 23 мы её нашли).

Данный интервал с вероятностью (надёжностью) накрывает истинное значение . И если из всех частей неравенства извлечь корни, то получим соответствующий интервал для оценки генерального стандартного отклонения:

Значения известны, и осталось разобраться с нижним этажом. Во-первых, вычислим:

и теперь, по таблице критических значений распределения или с помощью расчётного макета (Пункт 11б) находим:

Способ второй. Другой, более простой подход состоит в построении симметричного интервала по формуле:
, где значение отыскивается по соответствующей таблице.

Согласно таблице, доверительной вероятности и объёму соответствует значение , таким образом:

В результате мы получили примерно такой же по размаху интервал. Для малых выборок может даже получиться , в таких случаях принимают ещё более грубую интервальную оценку:

Ответ: 1) , 2) .

Как и для распределения Стьюдента, при увеличении распределение хи-квадрат стремится к нормальному, и уже при можно использовать приближенную формулу:
, где коэффициент доверия определяется из знакомого лапласовского соотношения .

Точнее завершаю, и ради исследовательского интереса предлагаю продолжить вам – экзаменационный Пример 20:

В результате обработки экспериментальных данных объёма мы получили следующие выборочные характеристики: .

В предположении о нормальном распределении генеральной совокупности, с надёжностью определить доверительные интервалы:

1) для оценки неизвестной генеральной средней ;

2) для оценки генерального среднего квадратического отклонения двумя способами – с помощью распределения хи-квадрат: и приближённо, по формуле , где .

Краткое решение и примерный образец оформления в конце урока, который подошёл к концу. В следующей небольшой статье я разберу частную, но весьма популярную задачку по этой же теме – Оценка вероятности биномиального распределения, ну а если вам не терпится, то сразу к послеследующей статье.

До скорых встреч!

Решения и ответы:

Пример 22. Решение:

1) По условию, точность оценки равна и дисперсия .
Из формулы найдём коэффициент доверия:

Вычислим соответствующую доверительную вероятность:
– таким образом, с вероятностью 86,64% можно утверждать, что генеральная средняя отличается от менее чем на (т.е. находится в доверительном интервале от 90 до 96)

2) Для доверительной вероятности :
– этому значению функции Лапласа соответствует аргумент: .
Вычислим точность оценки:

Определим доверительный интервал:

– данный интервал с вероятностью 99% накрывает истинное значение .

Пример 24. Решение: доверительный интервал для оценки истинного значения измеряемой величины имеет вид:

Для заданного уровня доверительной вероятности и количества степеней свободы по таблице распределения Стьюдента находим: .

Вычислим точность оценки:
сек.

Таким образом, искомый доверительный интервал:

– данный интервал с вероятностью 99,9% накрывает истинное значение среднего времени изготовления одного диода.

Пример 26. Решение: вычислим исправленное среднеквадратическое отклонение:

1) Определим доверительный интервал , где .
Для уровня доверительной вероятности и объёма выборки по соответствующей таблице найдём .
Вычислим точность оценки:

Таким образом:

– с вероятностью данный интервал накроет генеральное среднее значение .

2) Найдём доверительный интервал для генерального стандартного отклонения .

а) С помощью распределения :

Вычислим и с помощью соответствующей функции Экселя (Пункт 11б) найдём:

Таким образом:

– искомый интервал, накрывающий генеральное значение с вероятностью .

б) Дадим интервальную оценку приближенно, с помощью формулы:

Коэффициент доверия найдём из соотношения . В данном случае:
, и с помощью таблицы или расчётного макета (Пункт 5*), выясняем, что .
Таким образом:

– искомый интервал.

Ответ:
1) ,
2) с помощью распределения и приближённо.

Автор: Емелин Александр

(Переход на главную страницу)

cкидкa 15% на первый зaкaз, при оформлении введите прoмoкoд: 5530-hihi5

Читайте также:

      

  • Нотариат история возникновения кратко
  •   

  • Леохар аполлон бельведерский кратко
  •   

  • Назначение мониторинга и прогнозирования чс кратко
  •   

  • Акционерное общество на английском кратко
  •   

  • Парашютная акробатика это кратко

В
статистике выделяют два основных метода
исследования — сплошной и выборочный.
При проведении выборочного исследования
обязательным является соблюдение
следующих требований: репрезентативность
выборочной совокупности и достаточное
число единиц наблюдений. При выборе
единиц наблюдения возможны ошибки
смещения
,
т.е. такие события, появление которых
не может быть точно предсказуемым. Эти
ошибки являются объектив­ными и
закономерными. При определении степени
точности выборочно­го исследования
оценивается величина ошибки, которая
может прои­зойти в процессе выборки
случайная
ошибка репрезентативности (
m)
является
фактической разностью между средними
или относительными величинами, полученными
при проведении выборочного исследования
и аналогичными величинами, которые были
бы получены при проведении исследования
на гене­ральной совокупности.

Оценка
достоверности результатов исследования
предусматривает определение:

1.
ошибки репрезентативности

2.
доверительных границ средних (или
относительных) величин в генеральной
совокупности

3.
достоверности разности средних (или
относительных) величин (по критерию t)

Расчет
ошибки репрезентативности

(mм)
средней арифмети­ческой величины
(М):

,
где σ
— среднее квадратическое отклонение; n
— численность выборки (>30).

Расчет
ошибки репрезентативности (mР)
относительной величины (Р):

,
где Р — соответствующая относительная
величина (рассчитанная, например, в %);

q
=100 — Ρ%
— величина, обратная Р; n
— численность выборки (n>30)

В
клинических и экспериментальных работах
довольно часто приходится использовать
малую
выборку,
когда
число наблюдений меньше или равно 30.
При малой выборке для расчета ошибок
репрезентатив­ности, как средних, так
и относительных величин,
число
наблюде­ний уменьшается на единицу,
т.е.

;
.

Величина
ошибки репрезентативности зависит от
объема выборки: чем больше число
наблюдений, тем меньше ошибка. Для оценки
достоверности выборочного показателя
принят следующий подход: показатель
(или средняя величина) должен в 3 раза
превышать свою ошибку, в этом случае он
считается достоверным.

83. Определение доверительных границ средних и относительных величин.

Знание
величины ошибки недостаточно для того,
чтобы быть уве­ренным в результатах
выборочного исследования, так как
конкрет­ная ошибка выборочного
исследования может быть значительно
больше (или меньше) величины средней
ошибки репрезентативности. Для
оп­ределения точности, с которой
исследователь желает получить ре­зультат,
в статистике используется такое понятие,
как вероят­ность безошибочного
прогноза, которая является характеристикой
надежности результатов выборочных
медико-биологических статистических
исследований. Обычно, при проведении
медико-биологических статистических
исследований используют вероятность
безошибочного прогноза 95% или 99%. В
наиболее ответственных случаях, когда
необходимо сделать особенно важные
выводы в теоретическом или практическом
отношении, используют вероятность
безошибочного прогноза 99,7%

Определенной
степени вероятности безошибочного
прогноза соот­ветствует определенная
величина предельной
ошибки случайной выборки (
Δ
— дельта)
,
которая определяется по формуле:

Δ=t
* m
, где t
— доверительный коэффициент, который
при большой выборке при вероятности
безо­шибочного прогноза 95% равен 2,6;
при вероятности безоши­бочного
прогноза 99% — 3,0; при вероятности
безошибочно­го прогноза 99,7% — 3,3, а при
малой выборке определяется по специальной
таблице значений t
Стьюдента.

Используя
предельную ошибку выборки (Δ),
можно определить до­верительные
границы
,
в которых с определенной вероятностью
безо­шибочного прогноза заключено
действительное значение статистичес­кой
величины,
характеризующей
всю генеральную совокупность (сред­ней
или относительной).

Для
определения доверительных границ
используются следующие формулы:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Справочник /
Лекторий Справочник /
Лекционные и методические материалы по статистике /
Ошибка репрезентативности и доверительный интервал для
генерального параметра

pdf

Конспект лекции по дисциплине «Ошибка репрезентативности и доверительный интервал для
генерального параметра»,
pdf

Файл загружается

Файл загружается

Благодарим за ожидание, осталось немного.

pdf

Конспект лекции по дисциплине «Ошибка репрезентативности и доверительный интервал для
генерального параметра»
.
pdf

txt

Конспект лекции по дисциплине «Ошибка репрезентативности и доверительный интервал для
генерального параметра», текстовый формат

Лекция 2. Ошибка репрезентативности и доверительный интервал для
генерального параметра
Выборочные характеристики, представляющие собой числа (точки на
шкале) называют точечными оценками (существуют также и интервальные
оценки). Оценки должны удовлетворять следующим требованиям: быть
состоятельными, эффективными, несмещенными. Только при удовлетворении
этих требований оценки хорошо представляют соответствующие параметры.
В математической статистике введено понятие статистической ошибки
или ошибки репрезентативности; она связана с точностью, с которой
выборочная оценка представляет, репрезентирует свой параметр.
Когда ошибка оценивания генерального параметра стремится к нулю при
возрастании объема выборки, т.е. значение оценки стремится к значению
параметра, то такая оценка называется состоятельной. Оценка называется
эффективной,
если
она
имеет
наименьшую
дисперсию
выборочного
распределения по сравнению с другими аналогичными оценками.
К примеру,
из трех показателей, описывающих положение центра
нормального распределения (средняя, медиана, мода), наиболее эффективной
является средняя арифметическая, наименее эффективной — мода.
Оценка
ожидание)
называется
ее
несмещенной,
выборочного
если
распределения
среднее
совпадает
(математическое
со
значением
генерального параметра. Выборочная средняя является несмещенной оценкой
генеральной средней, а тогда как выборочная дисперсия представляет собой
смещенную оценку.
Например, чтобы получить несмещенную оценку, надо при вычислении
выборочной дисперсии использовать формулу, где в знаменателе (N — 1):
D=S2=
1
2
( Xi  X )

N 1
Для понимания смысла этих требований нужно рассмотреть понятие
выборочного распределения оценок какого-либо параметра.
Рассмотрим
условный
пример
для
такого
понятия,
как
арифметическое среднее: пусть ГС представляет собой 5 результатов
выполнения некоторого психологического теста: 8 16 20 24 32:
=
8  16  20  24  32
= 20
5
Таким образом, 20 — это значение генерального параметра.
Заменим изучение генеральной совокупности изучением выборок объемом
n = 4. Рассмотрим все возможные варианты таких выборок:
1) 8
16 20 24
 = 17
2) 16 20 24 32
 = 23
3) 8
16 24 32
 = 20
4) 8
16 20 32
 = 19
Из нашего примера видно, что из 5 оценок средних лишь одна совпала
с параметром. Заранее мы не можем знать, как составить (отобрать) выборку,
чтобы оценка параметра по ней была близка к параметру.
Однако очевидно, что чем больше объем выборки, тем меньше вероятность
того, что  , определяемое по выборке, будет значительно отличаться от
генерального среднего (крайние случаи n=N-1 и n=2 ,т.е. N>>n) .
Когда
генеральная совокупность велика и, соответственно, число
возможных выборок велико, то совокупность выборочных оценок средних для
каждой
из
этих
концентрирующееся
выборок
вокруг
«концентрация» (дисперсия)
Дисперсия
образует
генерального
тем
выше,
нормальное
среднего,
чем
больше
распределение,
причем
эта
объемы выборок.
распределения средних имеет особое название, она именуется
ошибкой репрезентативности.
Выше речь шла о распределении выборочных средних.
Это же
рассуждение можно повторить для оценок дисперсии, моды, коэффициентов
корреляции и т.д.
В теории математической статистики доказано, что нормального
распределения при достаточном объеме выборки (на практике n  30),
стандартное отклонение среднего арифметического равно:
Sx =
S
N
; где
S — стандартное отклонение
N — объем выборки.
Эту величину называют также статистической ошибкой или ошибкой
репрезентативности, т.е. это средняя ошибка, которая допускается, когда 
рассматривается как генеральный параметр.
Для других параметров ошиб ки репрезентативности таковы:
Ошибка репрезентативности дисперсии:
Ss2=S2/ 2N
Ошибка репрезентативности стандартного отклонения
Ss=S/ 2N
Ошибка репрезентативности показателя асимметрии:
Sa= 6 / N
Ошибка репрезентативности показателя эксцесса:
Se= 24 / N
Теперь перейдем к понятию доверительного интервала, которое применяется
для любого параметра. Мы рассмотрим его для генеральной средней. По
известным выборочным характеристикам можно построить интервал, в котором
с той или иной степенью вероятности находится генеральное среднее. Понятие
доверительного интервала связано с понятием доверительной вероятности.
Согласно этому принципу, маловероятные события считаются практически
невозможными,
а
события,
вероятность
которых
близка
к
единице,
принимаются за почти достоверные. Обычно в психологии в качестве
доверительных используют вероятности р = 0,95 и р = 0,99. Это означает, что
при оценивании генерального параметра по известной выборочной оценке риск
ошибиться в первом случае — один раз на 20 испытаний, во втором случае 1 раз
на 100 испытаний.
С доверительной вероятностью связано понятие уровня значимости
 = 1- р
Геометрически — это площадь под нормальной кривой выборочного
распределения, выходящая за пределы той его части, которая соответствует
Р%, поскольку в сумме они соответствуют всей площади под кривой. Иначе
говоря,

означает площадь двух хвостов под кривой нормального
распределения. При при р = 0,95 и  = 0, 05 на каждый «хвост» приходится
по 2,5 % площади.
Вероятность того, что  будет находиться в пределах
доверительного интервала x — t SX     + t SX,
описывается
особой функцией, которая сведена в таблице (обычно это таблица 1 в
приложении учебников по математической статистике)
для р= 0,95
t=1,96
для р=0,99
t = 2,58
для p=0, 999 t =3,29
График нормальной кривой
Выбор того или иного уровня доверительной вероятности зависит от
исследователя, от его оценки ответственности за ошибочность выводов
относительно генерального параметра .
Пример: При измерении объема памяти у 100 испытуемых
получено среднее значение числа запоминаемых сигналов
было
= 9 и
стандартное отклонение S = 3. 27. Построить доверительный
интервал для генеральной средней .
Вычисления проводятся по формуле:
x — t SX     + t SX
9 — 1,96
3271
.
327
.
   92+1,96
100
100
или 9+ 0.196  3,27    9 + 1..96  3,27 или 8. 36    9.64.
Таким образом, с вероятностью р = 0.95 генеральный параметр 
находится в интервале 8.36 — 9.64.
95%

Статистика

Статистика

Курс : Статистика
Статистика В.М. Гусаров Москва, Юнити , 2003г
Статистика В.С. Мхиторян , Москва, Экономист, 2005г.
Статистика И.И. Елисеева
Статисти…

Смотреть все

Поделись лекцией и получи скидку!

Заполни поля, отправь лекцию и мы вышлем тебе скидку-промокод на Автор24

Предмет

Название лекции

Авторы

Описание

Другие Экономические предметы

  • Экономика

  • Менеджмент

  • Бухгалтерский учет и аудит

  • Управление персоналом

  • Статистика

  • Маркетинг

  • Экономика предприятия

  • Государственное и муниципальное управление

  • Финансовый менеджмент

  • Эконометрика

  • Финансы

  • Менеджмент организации

  • Бизнес-планирование

  • Управление проектами

  • Экономический анализ

  • Экономическая теория

  • Микро-, макроэкономика

  • Инновационный менеджмент

  • Логистика

  • Анализ хозяйственной деятельности

Доверительный интервал за 15 минут

Добрый день, уважаемые читатели!

Меня зовут Кирилл Мильчаков. Сегодня мы продолжаем наш разговор о биостатистике. Тема сегодняшней нашей беседы будет «Доверительный интервал». Что такое доверительный интервал? Вы наверняка встречались с ним в научной литературе. Доверительный интервал 95 %, либо сочетание символов ДИ и CI (confidence interval) 95 %. Что же означают эти 95 %? Какие он еще может принимать значения? И как его рассчитывать самостоятельно? Об этом обо всем сегодня мы и поговорим в этой статье.

Видео-версия статьи о доверительном интервале

Генеральная совокупность и выборочная совокупность

Прежде чем углубляться в тайны доверительного интервала, хотел бы вспомнить с вами 2 основных понятия статистической совокупности, с которыми чаще всего работают – это генеральная совокупность или выборочная совокупность или выборка.

Генеральная совокупность – это тот массив данных, о которых вы хотите сделать выводы.

Выборка является частью генеральной совокупности, которая участвует непосредственно в вашем эксперименте. Есть такое понятие как репрезентативность, сегодня мы не будем его касаться, главное запомнить, что выборка должна быть репрезентативной.

Если привести небольшой пример относительно генеральной совокупности и выборки, то можно вспомнить о простом случае из вашей жизни. Когда вы хотите узнать, достаточно ли посолен суп, вы берете ложку супа и пробуете его. Вам необязательно есть весь суп, чтобы понять, насколько он посолен. Ложка в данном случае является выборкой, по которой вы делаете вывод обо всей кастрюле супа. В данном случае кастрюля супа является генеральной совокупностью, а ложка супа является выборкой.

Итак, мы вспомнили с вами о 2 ключевых статистических совокупностях – о генеральной совокупности и выборочной совокупности. Теперь нужно вспомнить, что типы исследования, которые проводятся над генеральной совокупностью и выборочной совокупностью, называют по-разному. Над генеральной совокупностью проводятся так называемые сплошные исследования, над выборочной совокупностью – выборочные.

Теперь вспомним небольшие отличия между параметрами этих 2 совокупностей. Сегодня для того, чтобы понять, что такое доверительный интервал, нам понадобятся следующие вещи: во-первых, отличие средней арифметической в генеральной совокупности и в выборочной совокупности. В генеральной совокупности она имеет значок µ (мю), в выборочной – это x̅ (х с чертой) — это средние арифметические по каждому виду совокупности.

Далее нужно знать, что стандартное отклонение имеет значок выборочной – либо S, либо SD (standard deviation), а в случае генеральной совокупности оно носит название среднеквадратичного отклонения и обозначается буквой σ (сигма).

Приведем пример расчета доврительного интервала

Представьте чисто гипотетическую ситуацию, когда перед нами стоит задача исследований среднего роста марсианина. Для того, чтобы его узнать, было отправлено 3 экспедиции. Первой из них повезло больше всего: они смогли поймать каждого из 200 марсианин и померить его рост.

Как мы помним, по закону нормального распределения по оси Х находится величина изучаемого признака, либо варианта (в данном случае это рост в сантиметрах), а по оси Y – частота встречаемости какого-то признака (мы его обозначаем буквой П.

Итак, оказалось, что у всех 200 марсиан средний рост составил 40 сантиметров. Таким образом, первая экспедиция смогла провести так называемое сплошное исследование, так как поработала со всеми единицами наблюдения генеральной совокупности. Поэтому мы имеем право назвать этот параметр µ.

Однако, второй и третьей экспедиции повезло гораздо меньше. Они попали в самые плохо населенные участки Марса и смогли отобрать только 10 марсиан. В данном случае оказалось, что средний рост по их выборке составил всего 38 сантиметров в первом случае и 41 сантиметр во втором случае.

Что же делать? Да, у нас есть данные из самого полного исследования, которое относится к первой экспедиции. Но представьте, что ни одна бы из них не смогла бы поработать со всей совокупностью полностью, и у нас были бы данные только от второй и третьей экспедиции. Что же в этой ситуации делать? Видно, что никто 40 сантиметров в действительности не достиг: во второй экспедиции Б она равна 38 сантиметрам, а в экспедиции В – 41 сантиметр. То есть в реальности никто не достиг 40 сантиметров. Что же делать в данном случае?

И вот здесь на помощь к нам приходит доверительный интервал, точнее оценка параметра. Доверительный интервал является вторым этапом оценки параметра. Прежде чем строить доверительный интервал, нам нужно понять, насколько в принципе этот параметр наша средняя (x̅б, x̅в) может отличаться, ошибаться от реального параметра в генеральной совокупности. Насколько?

И тут нам помогает оценка параметра или нахождение ошибки репрезентативности. Ошибка репрезентативности обозначается mr или mx. Чаще я использую mr. Что же это значит? mr по-английски обозначается как standard error, по-русски она часто называется стандартная ошибка средней или ошибка репрезентативности. Как же она находится? А находится она следующим образом? Она учитывает стандартное квадратичное отклонение в генеральной совокупности и размер в выборке. От чего же зависит ошибка репрезентативности? А зависит она от 2 вещей: от среднеквадратичного отклонения в генеральной совокупности (я напоминаю, это насколько каждая варианта отличается от средней, о законе нормального распределения мы с вами поговорим в следующий раз) и от размера выборки или . То есть, таким образом, чем менее разбросан признак генеральной совокупности, и чем больше у нас размер выборки, тем меньше наша ошибка репрезентативности.

Итак, предположим, мы нашли нашу ошибку репрезентативности mr. В данном случае она составила 2,7 сантиметра. Но что же это нам дает? А дает нам это уже достаточно много. Теперь мы, зная, насколько в принципе наша выборка может ошибаться относительно генеральной совокупности, можем составить определенное предположение о том, где же находится реальный параметр – реальные 40 сантиметров генеральной совокупности на основании данных лишь нашей выборки.

Каким же образом это происходит? Мы провели точечную оценку нашего параметра. Дальше происходит второй этап построения доверительного интервала – это интервальная оценка параметра. Каким же образом строится этот интервал? А складывается он из 2 вещей: так называемой предельной ошибки +∆ и -∆. Формула нахождения предельной ошибки достаточно проста и составляет:

±∆ = t*mr

Для того, чтобы не залезать в критерий Стьюдента сегодня, я скажу лишь, что:

для доверительного интервала 95 % используется t=2,

для доверительного интервала 99 % используется t=3

и для доверительного интервала 68 % используется t=1.

Итак, после того, как мы нашли нашу предельную ошибку, мы можем построить доверительный интервал. Но для этого нам нужно самим задать тот доверительный интервал, который для нас подходит больше всего. Чаще всего в медицине используется вероятность ошибки 5 %, то есть доверительный интервал 95 % или вероятность ошибки 5 % (р=0,05, р=5 %).

Что же значат эти 95 %? А значат они следующее, что с 95%-ной вероятностью в нашем интервале лежит реальное значение, и лишь в 5 % случаев мы ошибаемся. То есть в нашем конкретном случае наша ошибка репрезентативности составила 2,7 сантиметра. Предельная ошибка отсюда будет равна чему? Именно 5,4 сантиметра, то есть доверительный интервал, так как здесь и плюс, и минус, то есть нам нужно ошибку умножить на 2, составил 10,8 сантиметров. А именно наши 38 см±5,4 см. Ширина всего доверительного интервала составляет 10,8 см. Напомню, что он складывается из положительной и отрицательной предельных ошибок вокруг нашей выборочной средней.

Итак, говоря о доверительном интервале, нужно сделать ряд важных выводов.

  • Во-первых, доверительный интервал относится к выборочной совокупности. Он показывает, насколько параметры из выборочной совокупности могут отличаться от реально существующих данных в генеральной совокупности. Насколько мы ошибаемся при формировании той или иной выборки, мы закладываем в так называемую ошибку репрезентативности, в ошибку средней и вокруг нее собственно и строим доверительный интервал.
  • Ширину доверительного интервала задает собственно сам исследователь, варьируя тот критерий t, который он принимает в качестве необходимого. Чаще всего применяется t=2, которое и соответствует ширине доверительного интервала 95 %. 95 % означает, что с 95%-ной вероятностью действительно вокруг выборочной средней существует определенный доверительный интервал, в который и попадает реально существующая средняя из генеральной совокупности. Этот доверительный интервал может быть либо уже, если t=1; либо шире, если t=3.
  • Доверительный интервал задается самостоятельно исследователем. Чаще всего он равен 95 %.

Если это видео оказалось Вам полезным, оно хотя бы немного раскрыло тайны доверительного интервала, ставьте лайки, подписывайтесь на наши рассылки и в комментариях пишите, какие темы по биостатистике вам бы были интересны для следующих выпусков. На этом я с вами прощаюсь. Меня зовут Кирилл. Пока!

Если Вам понравилась статья и оказалась полезной, Вы можете поделиться ею с коллегами и друзьями в социальных сетях:

Понравилась статья? Поделить с друзьями:
  • Значение ошибки аппроксимации должно быть
  • Значение ошибок на приборной панели бмв
  • Значение ошибки 277 в роблоксе
  • Значение ошибок на пассате б5
  • Значение ошибки 267 в роблоксе