Как найти предельную ошибку прогноза

Ошибка прогнозирования: виды, формулы, примеры

Ошибка прогнозирования — это такая величина, которая показывает, как сильно прогнозное значение отклонилось от фактического. Она используется для расчета точности прогнозирования, что в свою очередь помогает нам оценивать как точно и корректно мы сформировали прогноз. В данной статье я расскажу про основные процентные «ошибки прогнозирования» с кратким описанием и формулой для расчета. А в конце статьи я приведу общий пример расчётов в Excel. Напомню, что в своих расчетах я в основном использую ошибку WAPE или MAD-Mean Ratio, о которой подробно я рассказал в статье про точность прогнозирования, здесь она также будет упомянута.

В каждой формуле буквой Ф обозначено фактическое значение, а буквой П — прогнозное. Каждая ошибка прогнозирования (кроме последней!), может использоваться для нахождения общей точности прогнозирования некоторого списка позиций, по типу того, что изображен ниже (либо для любого другого подобной детализации):

Алгоритм для нахождения любой из ошибок прогнозирования для такого списка примерно одинаковый: сначала находим ошибку прогнозирования по одной позиции, а затем рассчитываем общую. Итак, основные ошибки прогнозирования!


MPE — Mean Percent Error

MPE — средняя процентная ошибка прогнозирования. Основная проблема данной ошибки заключается в том, что в нестабильном числовом ряду с большими выбросами любое незначительное колебание факта или прогноза может значительно поменять показатель ошибки и, как следствие, точности прогнозирования. Помимо этого, ошибка является несимметричной: одинаковые отклонения в плюс и в минус по-разному влияют на показатель ошибки.

Ошибка прогнозирования MPE

  1. Для каждой позиции рассчитывается ошибка прогноза (из факта вычитается прогноз) — Error
  2. Для каждой позиции рассчитывается процентная ошибка прогноза (ошибка прогноза делится на фактический показатель) — Percent Error
  3. Находится среднее арифметическое всех процентных ошибок прогноза (процентные ошибки суммируются и делятся на количество) — Mean Percent Error

MAPE — Mean Absolute Percent Error

MAPE — средняя абсолютная процентная ошибка прогнозирования. Основная проблема данной ошибки такая же, как и у MPE — нестабильность.

Ошибка прогнозирования MAPE

  1. Для каждой позиции рассчитывается абсолютная ошибка прогноза (прогноз вычитается из факта по модулю) — Absolute Error
  2. Для каждой позиции рассчитывается абсолютная процентная ошибка прогноза (абсолютная ошибка прогноза делится на фактический показатель) — Absolute Percent Error
  3. Находится среднее арифметическое всех абсолютных процентных ошибок прогноза (абсолютные процентные ошибки суммируются и делятся на количество) — Mean Absolute Percent Error

Вместо среднего арифметического всех абсолютных процентных ошибок прогноза можно использовать медиану числового ряда (MdAPE — Median Absolute Percent Error), она наиболее устойчива к выбросам.


WMAPE / MAD-Mean Ratio / WAPE — Weighted Absolute Percent Error

WAPE — взвешенная абсолютная процентная ошибка прогнозирования. Одна из «лучших ошибок» для расчета точности прогнозирования. Часто называется как MAD-Mean Ratio, то есть отношение MAD (Mean Absolute Deviation — среднее абсолютное отклонение/ошибка) к Mean (среднее арифметическое). После упрощения дроби получается искомая формула WAPE, которая очень проста в понимании:

Ошибка прогнозирования WAPE MAD-Mean Ratio

  1. Для каждой позиции рассчитывается абсолютная ошибка прогноза (прогноз вычитается из факта, по модулю) — Absolute Error
  2. Находится сумма всех фактов по всем позициям  (общий фактический объем)
  3. Сумма всех абсолютных ошибок делится на сумму всех фактов — WAPE

Данная ошибка прогнозирования является симметричной и наименее чувствительна к искажениям числового ряда.

Рекомендуется к использованию при расчете точности прогнозирования. Более подробно читать здесь.


RMSE (as %) / nRMSE — Root Mean Square Error

RMSE — среднеквадратичная ошибка прогнозирования. Примерно такая же проблема, как и в MPE и MAPE: так как каждое отклонение возводится в квадрат, любое небольшое отклонение может значительно повлиять на показатель ошибки. Стоит отметить, что существует также ошибка MSE, из которой RMSE как раз и получается путем извлечения корня. Но так как MSE дает расчетные единицы измерения в квадрате, то использовать данную ошибку будет немного неправильно.

Ошибка прогнозирования RMSE

  1. Для каждой позиции рассчитывается квадрат отклонений (разница между фактом и прогнозом, возведенная в квадрат) — Square Error
  2. Затем рассчитывается среднее арифметическое (сумма квадратов отклонений, деленное на количество) — MSE — Mean Square Error
  3. Извлекаем корень из полученного результат — RMSE
  4. Для перевода в процентную или в «нормализованную» среднеквадратичную ошибку необходимо:
    1. Разделить на разницу между максимальным и минимальным значением показателей
    2. Разделить на разницу между третьим и первым квартилем значений показателей
    3. Разделить на среднее арифметическое значений показателей (наиболее часто встречающийся вариант)

MASE — Mean Absolute Scaled Error

MASE — средняя абсолютная масштабированная ошибка прогнозирования. Согласно Википедии, является очень хорошим вариантом для расчета точности, так как сама ошибка не зависит от масштабов данных и является симметричной: то есть положительные и отрицательные отклонения от факта рассматриваются в равной степени.

Важно! Если предыдущие ошибки прогнозирования мы могли использовать для нахождения точности прогнозирования некого списка номенклатур, где каждой из которых соответствует фактическое и прогнозное значение (как было в примере в начале статьи), то данная ошибка для этого не предназначена: MASE используется для расчета точности прогнозирования одной единственной позиции, основываясь на предыдущих показателях факта и прогноза, и чем больше этих показателей, тем более точно мы сможем рассчитать показатель точности. Вероятно, из-за этого ошибка не получила широкого распространения.

Здесь данная формула представлена исключительно для ознакомления и не рекомендуется к использованию.

Суть формулы заключается в нахождении среднего арифметического всех масштабированных ошибок, что при упрощении даст нам следующую конечную формулу:

Ошибка прогнозирования MASE

Также, хочу отметить, что существует ошибка RMMSE (Root Mean Square Scaled Error — Среднеквадратичная масштабированная ошибка), которая примерно похожа на MASE, с теми же преимуществами и недостатками.


Это основные ошибки прогнозирования, которые могут использоваться для расчета точности прогнозирования. Но не все! Их очень много и, возможно, чуть позже я добавлю еще немного информации о некоторых из них. А примеры расчетов уже описанных ошибок прогнозирования будут выложены через некоторое время, пока что я подготавливаю пример, ожидайте.

Об авторе

HeinzBr

Автор статей и создатель сайта SHTEM.RU

Пример.
По территориям региона приводятся
данные за 199X
г.

Номер
региона

Среднедушевой
прожиточный минимум в день одного
трудоспособного, руб.,

Среднедневная
заработная плата, руб.,

1

78

133

2

82

148

3

87

134

4

79

154

5

89

162

6

106

195

7

67

139

8

88

158

9

73

152

10

87

162

11

76

159

12

115

173

Требуется:

  1. Построить линейное
    уравнение парной регрессии
    от.

  2. Рассчитать линейный
    коэффициент парной корреляции и среднюю
    ошибку аппроксимации.

  3. Оценить статистическую
    значимость параметров регрессии и
    корреляции с помощью
    -критерия
    Фишера и-критерия
    Стьюдента.

  4. Выполнить прогноз
    заработной платы
    при прогнозном значении среднедушевого
    прожиточного минимума,
    составляющем 107% от среднего уровня.

  5. Оценить точность
    прогноза, рассчитав ошибку прогноза и
    его доверительный интервал.

  6. На одном графике
    построить исходные данные и теоретическую
    прямую.

Решение

    1. Для расчета
      параметров уравнения линейной регрессии
      строим расчетную таблицу.

1

78

133

10374

6084

17689

149

-16

12,0

2

82

148

12136

6724

21904

152

-4

2,7

3

87

134

11658

7569

17956

157

-23

17,2

4

79

154

12166

6241

23716

150

4

2,6

5

89

162

14418

7921

26244

159

3

1,9

6

106

195

20670

11236

38025

174

21

10,8

7

67

139

9313

4489

19321

139

0

0,0

8

88

158

13904

7744

24964

158

0

0,0

9

73

152

11096

5329

23104

144

8

5,3

10

87

162

14094

7569

26244

157

5

3,1

11

76

159

12084

5776

25281

147

12

7,5

12

115

173

19895

13225

29929

183

-10

5,8

Итого

1027

1869

161808

89907

294377

1869

0

68,9

Среднее
значение

85,6

155,8

13484,0

7492,3

24531,4

5,7

12,84

16,05

164,94

257,76

;

.

Получено уравнение
регрессии: .

С увеличением
среднедушевого прожиточного минимума
на 1 руб. среднедневная заработная плата
возрастает в среднем на 0,89 руб.

    1. Тесноту линейной
      связи оценит коэффициент корреляции:

; .

Это означает, что
51% вариации заработной платы ()
объясняется вариацией фактора– среднедушевого прожиточного минимума.

Качество модели
определяет средняя ошибка аппроксимации:

.

Качество построенной
модели оценивается как хорошее, так как
не превышает 8-10%.

  1. Оценку значимости
    уравнения регрессии в целом проведем
    с помощью
    -критерия
    Фишера. Фактическое значение-критерия:

.

Табличное значение
критерия при пятипроцентном уровне
значимости и степенях свободы
исоставляет.
Так как,
то уравнение регрессии признается
статистически значимым.

Оценку статистической
значимости параметров регрессии проведем
с помощью
-статистики
Стьюдента и путем расчета доверительного
интервала каждого из показателей.

Табличное значение
-критерия
для числа степеней свободыисоставит.

Определим случайные
ошибки
,,:

;

;

.

Тогда

;

;

.

Фактические
значения
-статистики
превосходят табличное значение:

; ;,

поэтому
параметры
,ине случайно отличаются от нуля, а
статистически значимы.

Рассчитаем
доверительные интервалы для параметров
регрессии
и.
Для этого определим предельную ошибку
для каждого показателя:

;

.

Доверительные
интервалы

Анализ верхней и
нижней границ доверительных интервалов
приводит к выводу о том, что с вероятностью
параметрыи,
находясь в указанных границах, не
принимают нулевых значений, т.е. не
являются статистически незначимыми и
существенно отличны от нуля.

  1. Полученные оценки
    уравнения регрессии позволяют
    использовать его для прогноза. Если
    прогнозное значение прожиточного
    минимума составит:
    руб., тогда прогнозное значение заработной
    платы составит:руб.

    1. Ошибка прогноза
      составит:

.

Предельная ошибка
прогноза, которая в
случаев не будет превышена, составит:

.

Доверительный
интервал прогноза:

руб.;

руб.

Выполненный прогноз
среднемесячной заработной платы является
надежным ()
и находится в пределах от 131,66 руб. до
190,62 руб.

  1. В заключение
    решения задачи построим на одном графике
    исходные данные и теоретическую прямую
    (рис. 1):

HeinzBr

Автор статей и создатель сайта SHTEM.RU

Пример.
По территориям региона приводятся
данные за 199X
г.

Номер
региона

Среднедушевой
прожиточный минимум в день одного
трудоспособного, руб.,

Среднедневная
заработная плата, руб.,

1

78

133

2

82

148

3

87

134

4

79

154

5

89

162

6

106

195

7

67

139

8

88

158

9

73

152

10

87

162

11

76

159

12

115

173

Требуется:

  1. Построить линейное
    уравнение парной регрессии
    от.

  2. Рассчитать линейный
    коэффициент парной корреляции и среднюю
    ошибку аппроксимации.

  3. Оценить статистическую
    значимость параметров регрессии и
    корреляции с помощью
    -критерия
    Фишера и-критерия
    Стьюдента.

  4. Выполнить прогноз
    заработной платы
    при прогнозном значении среднедушевого
    прожиточного минимума,
    составляющем 107% от среднего уровня.

  5. Оценить точность
    прогноза, рассчитав ошибку прогноза и
    его доверительный интервал.

  6. На одном графике
    построить исходные данные и теоретическую
    прямую.

Решение

    1. Для расчета
      параметров уравнения линейной регрессии
      строим расчетную таблицу.

1

78

133

10374

6084

17689

149

-16

12,0

2

82

148

12136

6724

21904

152

-4

2,7

3

87

134

11658

7569

17956

157

-23

17,2

4

79

154

12166

6241

23716

150

4

2,6

5

89

162

14418

7921

26244

159

3

1,9

6

106

195

20670

11236

38025

174

21

10,8

7

67

139

9313

4489

19321

139

0

0,0

8

88

158

13904

7744

24964

158

0

0,0

9

73

152

11096

5329

23104

144

8

5,3

10

87

162

14094

7569

26244

157

5

3,1

11

76

159

12084

5776

25281

147

12

7,5

12

115

173

19895

13225

29929

183

-10

5,8

Итого

1027

1869

161808

89907

294377

1869

0

68,9

Среднее
значение

85,6

155,8

13484,0

7492,3

24531,4

5,7

12,84

16,05

164,94

257,76

;

.

Получено уравнение
регрессии: .

С увеличением
среднедушевого прожиточного минимума
на 1 руб. среднедневная заработная плата
возрастает в среднем на 0,89 руб.

    1. Тесноту линейной
      связи оценит коэффициент корреляции:

; .

Это означает, что
51% вариации заработной платы ()
объясняется вариацией фактора– среднедушевого прожиточного минимума.

Качество модели
определяет средняя ошибка аппроксимации:

.

Качество построенной
модели оценивается как хорошее, так как
не превышает 8-10%.

  1. Оценку значимости
    уравнения регрессии в целом проведем
    с помощью
    -критерия
    Фишера. Фактическое значение-критерия:

.

Табличное значение
критерия при пятипроцентном уровне
значимости и степенях свободы
исоставляет.
Так как,
то уравнение регрессии признается
статистически значимым.

Оценку статистической
значимости параметров регрессии проведем
с помощью
-статистики
Стьюдента и путем расчета доверительного
интервала каждого из показателей.

Табличное значение
-критерия
для числа степеней свободыисоставит.

Определим случайные
ошибки
,,:

;

;

.

Тогда

;

;

.

Фактические
значения
-статистики
превосходят табличное значение:

; ;,

поэтому
параметры
,ине случайно отличаются от нуля, а
статистически значимы.

Рассчитаем
доверительные интервалы для параметров
регрессии
и.
Для этого определим предельную ошибку
для каждого показателя:

;

.

Доверительные
интервалы

Анализ верхней и
нижней границ доверительных интервалов
приводит к выводу о том, что с вероятностью
параметрыи,
находясь в указанных границах, не
принимают нулевых значений, т.е. не
являются статистически незначимыми и
существенно отличны от нуля.

  1. Полученные оценки
    уравнения регрессии позволяют
    использовать его для прогноза. Если
    прогнозное значение прожиточного
    минимума составит:
    руб., тогда прогнозное значение заработной
    платы составит:руб.

    1. Ошибка прогноза
      составит:

.

Предельная ошибка
прогноза, которая в
случаев не будет превышена, составит:

.

Доверительный
интервал прогноза:

руб.;

руб.

Выполненный прогноз
среднемесячной заработной платы является
надежным ()
и находится в пределах от 131,66 руб. до
190,62 руб.

  1. В заключение
    решения задачи построим на одном графике
    исходные данные и теоретическую прямую
    (рис. 1):

Рис.
1.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Парная линейная регрессия и метод наименьших квадратов (МНК)

Краткая теория


Простейшей системой
корреляционной связи является линейная связь между двумя признаками — парная
линейная корреляция. Практическое значение ее в том, что есть системы, в
которых среди всех факторов, влияющих на результативный признак, выделяется
один важнейший фактор, который в основном определяет вариацию результативного
признака. Измерение парных корреляций составляет необходимый этап в изучении
сложных, многофакторных связей. Есть такие системы связей, при изучении которых
следует предпочесть парную корреляцию. Внимание к линейным связям объясняется
ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные
формы связей для выполнения расчетов преобразуются в линейную форму.

Уравнение парной линейной
корреляционной связи называется уравнением парной регрессии и имеет вид:

где

 –
среднее значение результативного признака

 при
определенном значении факторного признака

;

 – свободный
член уравнения;

 – коэффициент
регрессии, измеряющий среднее отношение отклонения результативного признака от
его средней величины к отклонению факторного признака от его средней величины
на одну единицу его измерения – вариация

, приходящаяся на единицу вариации

.

Параметры уравнения

 находят
методом наименьших квадратов (метод решения систем уравнений, при котором в
качестве решения принимается точка минимума суммы квадратов отклонений), то
есть в основу этого метода положено требование минимальности сумм квадратов
отклонений эмпирических данных

 от
выровненных

:

Для нахождения минимума
данной функции приравняем к нулю ее частные производные.

В результате получим
систему двух линейных уравнений, которая называется системой нормальных
уравнений:

Решая эту систему в общем
виде, получим:

Параметры уравнения парной
линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же
результат:

или

Если
коэффициент линейной корреляции

 уже
рассчитан, то легко может быть найден коэффициент

 парной
регрессии:

где

,

 – стандартные
отклонения.

Примеры решения задач


Задача 1

Имеются следующие данные о
цене на нефть

 (ден.
ед.) и индексе акций нефтяных компаний

 (усл.
ед.).

Цена на нефть (ден. ед.) 17,28 17,05 18,30 18,80 19,20 18,50
Индекс акций (усл. ед.) 537 534 550 555 560 552
  • Построить
    корреляционное поле.
  • Предполагая, что между
    переменными x и y существует линейная зависимость, найти уравнение линейной
    регрессии 

     

  • Оценить тесноту связи.

Решение

Построим корреляционное
поле, для этого отметим в системе координат  
6 точек, соответствующих данным парам значений этих признаков.

Корреляционное поле и линия регрессии

Расположение точек на
рисунке показывает, что зависимость между компонентами

 и

 двумерной дискретной случайной величины может
выражаться линейным уравнением регрессии

.

Составим
расчетную таблицу:

Расчетная вспомогательная таблица

 

 

 

 

 

1 17,28 537 298,5984 288369 9279,36
2 17,05 534 290,7025 285156 9104,7
3 18,3 550 334,89 302500 10065
4 18,8 555 353,44 308025 10434
5 19,2 560 368,64 313600 10752
6 18,5 552 342,25 304704 10212
Сумма 109,13 3288 1988,521 1802354 59847,06

Коэффициенты
уравнения регрессии

 можно найти методом наименьших квадратов,
решив систему нормальных уравнений:

На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:

ВКонтакте
WhatsApp
Telegram

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.

Подставляя
в систему уравнений числовые значения, получаем:

Решая
систему уравнений, получаем:

Уравнение
парной линейной регрессии:

Коэффициент линейной корреляции
вычислим по формуле:

Вывод

Таким
образом уравнение линейной регрессии, устанавливающее зависимость между ценой
на нефть и индексом акций имеет вид

 — с увеличением цены на нефть на 1 ден.ед.
цена акций увеличивается на 12,078 ед. Коэффициент корреляции очень близок к
единице — между исследуемыми величинами существует очень тесная связь.


Задача 2

По
территории региона приводятся данные за 2011 г.

Требуется:

    Построить линейное уравнение парной регрессии

     от

    .
    Рассчитать линейный коэффициент парной корреляции и среднюю ошибку
    аппроксимации.
    Оценить статистическую значимость параметров регрессии и корреляции с помощью

     –критерия Фишера и

     –критерия Стьюдента.
    Выполнить прогноз заработной платы

     при прогнозном значении среднедушевого
    прожиточного минимума

    , составляющем
    107% от среднего уровня.
    Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный
    интервал.
    На одном графике построить исходные данные и теоретическую прямую.

Решение

На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:

ВКонтакте
WhatsApp
Telegram

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.

Уравнение линейной парной регрессии

1)
Для расчета параметров уравнения линейной регрессии строим расчетную таблицу:

Получено
уравнение линейной регрессии

Вывод

С
увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная
заработная плата возрастает в среднем на 1.012 руб.

Коэффициент линейной корреляции

2)
Теснота линейной связи оценивается с помощью
коэффициента корреляции
:

Коэффициент
детерминации:

Вывод

Это
означает, что 69.2% вариации заработной платы

 объясняется вариацией фактора

 –среднедушевого прожиточного минимума.

Средняя ошибка аппроксимации

Качество
модели можно оценить с помощью средней ошибки аппроксимации:

Вывод

Качество
построенной модели оценивается как хорошее, так как средняя ошибка
аппроксимации не превышает 8-10%.

F-критерий

3)
Рассчитаем

 – критерий.

По таблице F-распределения Фишера-Снедекора, при уровне значимости α=0,05 и числе степеней свободы k1=1 и k2=12-2=10, критическое значение:

Вывод

 – гипотеза о статистической незначимости
уравнения регрессии отклоняется.

Статистическая значимость параметров регрессии

Оценку
статистической значимости параметров регрессии проведем с помощью

t–статистики Стьюдента
и путем расчета
доверительного интервала каждого из показателей.

Выдвигаем
гипотезу

 о статистически незначимом отличии показателей
от нуля:

  для числа степеней свободы

 и

 составит 2,23

На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:

ВКонтакте
WhatsApp
Telegram

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.

Определим
случайные ошибки

Тогда:

Фактическое значение превосходит

табличное значение t–статистики.
Нулевая
гипотеза отклоняется – то есть

 не случайно отличается от нуля, а
статистически значимо.

Фактическое значение превосходит

табличное значение t–статистики. Нулевая
гипотеза отклоняется – то есть

 не случайно отличается от нуля, а
статистически значимо.

Фактическое значение превосходит

табличное значение t–статистики. Нулевая
гипотеза отклоняется – то есть

 не случайно отличается от нуля, а
статистически значимо.

Рассчитаем
доверительные интервалы для параметров регрессии

 и

. Для этого
определим предельную ошибку для каждого показателя:

Доверительные
интервалы:

 или  

 или  

Точечный прогноз

4)
Полученные оценки уравнения регрессии позволяют использовать его для прогноза.
Если прогнозное значение прожиточного минимума составит

 руб., тогда прогнозное значение среднедневной
заработной платы составит:

Интервальный прогноз

5)
Ошибка прогноза составит:

Предельная
ошибка прогноза, которая в 95% случаев не будет превышена, составит:

Доверительный
интервал прогноза:

6) Построим исходные данные
и теоретическую прямую:

Корреляционное поле и прямая уравнения регрессии

Основной задачей при управлении запасами является определение объема пополнения, то есть, сколько необходимо заказать поставщику. При расчете этого объема используется несколько параметров — сколько будет продано в будущем, за какое время происходит пополнение, какие остатки у нас на складе и какое количество уже заказано у поставщика. То, насколько правильно мы определим эти параметры, будет влиять на то, будет ли достаточно товара на складе или его будет слишком много. Но наибольшее влияние на эффективность управления запасами влияет то, насколько точен будет прогноз. Многие считают, что это вообще основной вопрос в управлении запасами. Действительно, точность прогнозирования очень важный параметр. Поэтому важно понимать, как его оценивать. Это важно и для выявления причин дефицитов или неликвидов, и при выборе  программных продуктов для прогнозирования продаж и управления запасами.

В данной статье я представила несколько формул для расчета точности прогноза и ошибки прогнозирования. Кроме этого, вы сможете скачать файлы с примерами расчетов этого показателя.

Статистические методы

Для оценки прогноза продаж используются статистические оценки Оценка ошибки прогнозирования временного ряда. Самый простой показатель – отклонение факта от прогноза в количественном выражении.

В практике рассчитывают ошибку прогнозирования по каждой отдельной позиции, а также рассчитывают среднюю ошибку прогнозирования. Следующие распространенные показатели ошибки относятся именно  к показателям средних ошибок прогнозирования.

К ним относятся:

MAPE – средняя абсолютная ошибка в процентах

                                                                                         

где Z(t) – фактическое значение временного ряда, а   – прогнозное.

Данная оценка применяется для временных рядов, фактические значения которых значительно больше 1. Например, оценки ошибки прогнозирования энергопотребления почти во всех статьях приводятся как значения MAPE. 

Если же фактические значения временного ряда близки к 0, то в знаменателе окажется очень маленькое число, что сделает значение MAPE близким к бесконечности – это не совсем корректно. Например, фактическая цена РСВ = 0.01 руб/МВт.ч, a прогнозная = 10 руб/МВт.ч, тогда MAPE = (0.01 – 10)/0.01 = 999%, хотя в действительности мы не так уж сильно ошиблись, всего на 10 руб/МВт.ч. Для рядов, содержащих значения близкие к нулю, применяют следующую оценку ошибки прогноза.

MAE – средняя абсолютная ошибка

                                                                                                  .

Для оценки ошибки прогнозирования цен РСВ и индикатора БР корректнее использовать MAE.

После того, как получены значения для MAPE и/или MAE, то в работах обычно пишут: «Прогнозирование временного ряда энергопотребления с часовым разрешение проводилось на интервале с 01.01.2001 до 31.12.2001 (общее количество отсчетов N ~ 8500). Для данного прогноза значение MAPE = 1.5%». При этом, просматривая статьи, можно сложить общее впечатление об ошибки прогнозирования энергопотребления, для которого MAPE обычно колеблется от 1 до 5%; или ошибки прогнозирования цен на электроэнергию, для которого MAPE колеблется от 5 до 15% в зависимости от периода и рынка. Получив значение MAPE для собственного прогноза, вы можете оценить, насколько здорово у вас получается прогнозировать.

Кроме указанных методов иногда используют другие оценки ошибки, менее популярные, но также применимые. Подробнее об этих оценках ошибки прогноза читайте указанные статьи в Википедии.

ME – средняя ошибка

                                                                                                    

Встречается еще другое название этого показателя — Bias (англ. – смещение) демонстрирует величину отклонения, а также — в какую сторону прогноз продаж отклоняется от фактической потребности. Этот индикатор показывает, был ли прогноз оптимистичным или пессимистичным. То есть, отрицательное значение Bias говорит о том, что прогноз был завышен (реальная потребность оказалась ниже), и, наоборот, положительное значение о том, что прогноз был занижен. Цифровое значение показателя определяет величину отклонения (смещения).

MSE – среднеквадратичная ошибка

.

RMSE – квадратный корень из среднеквадратичной ошибки

.

.

SD – стандартное отклонение

                                                                                                                            

где ME – есть средняя ошибка, определенная по формуле выше.

Примечание. Примеры расчетов данных показателей представлены в файле Excel, который можно скачать, оставив электронный адрес в форме ниже. Скачать пример расчета в Excel >>>

Связь точности и ошибки прогнозирования

В начале этого обсуждения разберемся с определениями.

Ошибка прогноза — апостериорная величина отклонения прогноза от действительного состояния объекта. Если говорить о прогнозе продаж, то это показатель отклонения фактических продаж от прогноза.

Точность прогнозирования есть понятие прямо противоположное ошибке прогнозирования. Если ошибка прогнозирования велика, то точность мала и наоборот, если ошибка прогнозирования мала, то точность велика. По сути дела оценка ошибки прогноза MAPE есть обратная величина для точности прогнозирования — зависимость здесь простая.

Точность прогноза в % = 100% – MAPE, встречается еще название этого показателя Forecast Accuracy. Вы практически не найдете материалов о прогнозировании, в которых приведены оценки именно точности прогноза, хотя с точки зрения здравого маркетинга корректней говорить именно о высокой точности. В рекламных статьях всегда будет написано о высокой точности. Показатель точности прогноза выражается в процентах:

  • Если точность прогноза равна 100%, то выбранная модель описывает фактические значения на 100%, т.е. очень точно. Нужно сразу оговориться, что такого показателя никогда не будет, основное свойство прогноза в том, что он всегда ошибочен.
  • Если 0% или отрицательное число, то совсем не описывает, и данной модели доверять не стоит.

Выбрать подходящую модель прогноза можно с помощью расчета показателя точность прогноза. Модель прогноза, у которой показатель точность прогноза будет ближе к 100%, с большей вероятностью сделает более точный прогноз. Такую модель можно назвать оптимальной для выбранного временного ряда.  Говоря о высокой точности, мы говорим о низкой ошибки прогноза и в этой области недопонимания быть не должно. Не имеет значения, что именно вы будете отслеживать, но важно, чтобы вы сравнивали модели прогнозирования или целевые показатели по одному показателю – ошибка прогноза или точность прогнозирования.

Ранее я использовала оценку MAPE, до тех пор пока не встретила формулу, которую рекомендует Валерий Разгуляев

Примечание. Примеры расчетов данных показателей представлены в файле Excel, который можно скачать, оставив электронный адрес в форме. Скачать пример расчета в Excel >>>

Оценка ошибки прогноза – формула Валерия Разгуляева (сайт http://upravlenie-zapasami.ru/)

Одной из самых используемых формул оценки ошибки прогнозирования является следующая формула:

                                                                                                                 

где: P – это прогноз, а S – факт за тот же месяц. Однако у этой формулы есть серьезное ограничение — как оценить ошибку, если факт равен нулю? Возможный ответ, что в таком случае D = 100% – который означает, что мы полностью ошиблись. Однако простой пример показывает, что такой ответ — не верен:

вариант

прогноз

факт

ошибка прогноза

№1

4

0

100%

№2

4

1

300%

№3

1

4

75%

Оказывается, что в варианте развития событий №2, когда мы лучше угадали спрос, чем в варианте №1, ошибка по данной формуле оказалась – больше. То есть ошиблась уже сама формула. Есть и другая проблема, если мы посмотрим на варианты №2 и №3, то увидим, что имеем дело с зеркальной ситуацией в прогнозе и факте, а ошибка при этом отличается – в разы!.. То есть при такой оценке ошибки прогноза нам лучше его заведомо делать менее точным, занижая показатель – тогда ошибка будет меньше!.. Хотя понятно, что чем точнее будет прогноз – тем лучше будет и закупка. Поэтому для расчёта ошибки Валерий Разгуляев рекомендует использовать следующую формулу:

                                                                                                       

В таком случае для тех же примеров ошибка рассчитается иначе:

вариант

прогноз

факт

ошибка прогноза

№1

4

0

100%

№2

4

1

75%

№3

1

4

75%

Как мы видим, в варианте №1 ошибка становится равной 100%, причём это уже – не наше предположение, а чистый расчёт, который можно доверить машине. Зеркальные же варианты №2 и №3 – имеют и одинаковую ошибку, причём эта ошибка меньше ошибки самого плохого варианта №1. Единственная ситуация, когда данная формула не сможет дать однозначный ответ – это равенство знаменателя нулю. Но максимум из прогноза и факта равен нулю, только когда они оба равны нулю. В таком случае получается, что мы спрогнозировали отсутствие спроса, и его, действительно, не было – то есть ошибка тоже равна нулю – мы сделали совершенно точное предсказание.   

Визуальный метод – графический

Визуальный метод состоит в том, что мы на график выводим значение прогнозной модели и факта продаж по тем моделям, которые хотим сравнить. Далее  сравниваем визуально, насколько прогнозная модель близка к фактическим продажам. Давайте рассмотрим на примере. В таблице представлены две прогнозные модели, а также фактические продажи по этому товару за тот же период. Для наглядности мы также рассчитали ошибку прогнозирования по обеим моделям.  

                                               

По графикам очевидно, что модель 2 описывает лучше продажи этого товара. Оценка ошибки прогнозирования тоже это показывает – 65% и 31% ошибка прогнозирования по модели 1 и модели 2 соответственно.

                                                               

                                                                

Недостатком данного метода является то, что небольшую разницу между моделями сложно выявить — разницу в несколько процентов сложно оценить по диаграмме. Однако эти несколько процентов могут существенно улучшить качество прогнозирования и планирования пополнения запасов в целом.  

Использование формул ошибки прогнозирования на практике

Практический аспект оценки ошибки прогнозирования я вывела отдельным пунктом. Это связано с тем, что все статистические методы расчета показателя ошибки прогнозирования рассчитывают то, насколько мы ошиблись в прогнозе в количественных показателях. Давайте теперь обсудим, насколько такой показатель будет полезен в вопросах управления запасами. Дело в том, что основная цель управления запасами  — обеспечить продажи, спрос наших клиентов. И, в конечном счете, максимизировать доход и прибыль компании. А эти показатели оцениваются как раз  в стоимостном выражении. Таким образом, нам важно при оценке ошибки прогнозирования понимать какой вклад каждая позиция внесла в объем продаж в стоимостном выражении. Когда мы оцениваем ошибку прогнозирования в количественном выражении мы предполагаем, что каждый товар имеет одинаковый вес в общем объеме продаж, но на самом деле это не так – есть очень дорогие товары, есть товары, которые продаются в большом количестве, наша группа А, а есть не очень дорогие товары, есть товары которые вносят небольшой вклад в объем продаж. Другими словами большая ошибка прогнозирования по товарам группы А будет нам «стоить» дороже, чем низкая ошибка прогнозирования по товарам группы С, например. Для того, чтобы наша оценка ошибки прогнозирования была корректной, релевантной целям управления запасами, нам необходимо оценивать ошибку прогнозирования по всем товарам или по отдельной группе не по средними показателями, а средневзвешенными с учетом прогноза и факта в стоимостном выражении.

Пример расчета такой оценки Вы сможете увидеть в файле Excel.

Примечание. Примеры расчетов данных показателей представлены в файле Excel, который можно скачать, оставив электронный адрес в форме. Скачать пример расчета в Excel >>>

При этом нужно помнить, что для оценки ошибки прогнозирования по отдельным позициям мы рассчитываем по количеству, но вот если нам важно понять в целом ошибку прогнозирования по компании, например, для оценки модели, которую используем, то нам нужно рассчитывать не среднюю оценку по всем товарам, а средневзвешенную с учетом стоимостной оценки. Оценку можно брать по ценам себестоимости или ценам продажи, это не играет большой роли, главное, эти же цены (тип цен) использовать при всех расчетах.  

Для чего используется ошибка прогнозирования

В первую очередь, оценка ошибки прогнозирования нам необходима для оценки того, насколько мы ошибаемся при планировании продаж, а значит при планировании поставок товаров. Если мы все время прогнозируем продажи значительно больше, чем потом фактически продаем, то вероятнее всего у нас будет излишки товаров, и это невыгодно компании. В случае, когда мы ошибаемся в обратную сторону – прогнозируем продажи меньше чем фактические продажи, с большой вероятностью у нас будут дефициты и компания не дополучит прибыль. В этом случае ошибка прогнозирования служит индикатором качества планирования и качества управления запасами.

Индикатором того, что повышение эффективности возможно за счет улучшения качества прогнозирования. За счет чего можно улучшить качество прогнозирования мы не будем здесь рассматривать, но одним из вариантов является поиск другой модели прогнозирования, изменения параметров расчета, но вот насколько новая модель будет лучше, как раз поможет показатель ошибки прогнозирования или точности прогноза. Сравнение этих показателей по нескольким моделям поможет определить ту модель, которая дает лучше результат.

В идеальном случае, мы можем так подбирать модель для каждой отдельной позиции. В этом случае мы будем рассчитывать прогноз по разным товарам по разным моделям, по тем, которые дают наилучший вариант именно для конкретного товара.

Также этот показатель можно использовать при выборе автоматизированного инструмента для прогнозирования спроса и управления запасами. Вы можете сделать тестовые расчеты прогноза в предлагаемой программе и сравнить ошибку прогнозирования полученного прогноза с той, которая есть у вашей существующей модели. Если у предлагаемого инструмента ошибка прогнозирования меньше. Значит, этот инструмент можно рассматривать для применения в компании. Кроме этого, показатель точности прогноза или ошибки прогнозирования можно использовать как KPI сотрудников, которые отвечают за подготовку прогноза продаж или менеджеров по закупкам, в том случае, если они рассчитывают прогноз будущих продаж при расчете заказа.

Примечание. Примеры расчетов данных показателей представлены в файле Excel, который можно скачать, оставив электронный адрес в форме. Скачать пример расчета в Excel >>>

Если вы хотите повысить эффективность управления запасами и увеличить оборачиваемость товарных запасов, предлагаю изучить мастер-класс «Как увеличить оборачиваемость товарных запасов».

Источник: сайт http://uppravuk.net/  

Интервалы прогноза по линейному уравнению регрессии

Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение регрессии соответственного значения х. Такой прогноз ух называется точечным. Он не является точным, поэтому дополняется расчетом его стандартной ошибки, в результате чего получается интервальная оценка прогнозного значения:

Преобразуем уравнение регрессии:

Ошибка т. зависит от ошибки у и ошибки коэффициента ре-

грессии Ь, т.е.

Из теории выборки известно, что

Используя в качестве оценки а 2 остаточную дисперсию на одну степень свободы S 2 , получаем:

Ошибка коэффициента регрессии из формулы (1.20):

Таким образом, при х = хр получаем:

Как видно из формулы (1.31), величина т- достигает минимума при хр = х и возрастает по мере удаления хр от х в любом направлении (рис. 1.3). Для нашего примера эта величина составит:

Рис. 1.3. Доверительные границы прогноза при парной линейной регрессии При При хр = 4.

Для прогнозируемого значения у 95 %-ные доверительные интервалы при заданном хр определены выражением

т.е. прил:р = 4 у + 2,57х3,34 или у±8,58. Прихр = 4 прогнозное значение составит у* = —5,79 + 36,84 х 4 = 141,57. Это точечный прогноз.

Прогноз линии регрессии (1.32) лежит в интервале

ИНТЕРВАЛЫ ПРОГНОЗА ПО УРАВНЕНИЮ РЕГРЕССИИ

Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной (предсказание среднего значения), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения).

Замечание. Некоторые авторы различают такие понятия, как прогнозирование и предсказание. Если значение объясняющей переменной X известно точно, то оценивание зависимой переменной Y называется предсказанием. Если же значение объясняющей переменной X неизвестно точно, то говорят, что делается прогноз значения Y. Такая ситуация характерна для временных рядов. В данном случае мы не будем различать предсказание и прогноз.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.

а) Предсказание среднего значения. Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание . В данном случае значение является точечной оценкой . Тогда естественно возникает вопрос, как сильно может отклониться модельное значение , рассчитанное по эмпирическому уравнению, от соответствующего условного математического ожидания. Ответ на этот вопрос даётся на основе интервальных оценок, построенных с заданным уровнем значимости a при любом конкретном значении xp объясняющей переменной.

Запишем эмпирическое уравнение регрессии в виде

.

Здесь выделены две независимые составляющие: средняя и приращение . Отсюда вытекает, что дисперсия будет равна

. (5.53)

Из теории выборки известно, что

.

Используя в качестве оценки s 2 остаточную дисперсию S 2 , получим

. (5.54)

Дисперсия коэффициента регрессии, как уже было показано

. (5.55)

Подставляя найденные дисперсии в (5.41), получим

. (5.56)

Таким образом, формула расчета стандартной ошибки предсказываемого по линии регрессии среднего значения Y имеет вид

. (5.57)

Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере удаления от в любом направлении. Иными словами, больше разность между и , тем больше ошибка с которой предсказывается среднее значение y для заданного значения xp. Можно ожидать наилучшие результаты прогноза, если значения xp находятся в центре области наблюдений X и нельзя ожидать хороших результатов прогноза по мере удаления от .

Случайная величина

(5.58)

имеет распределение Стьюдента с числом степеней свободы n=n–2 (в рамках нормальной классической модели). Следовательно, по таблице критических точек распределения Стьюдента по требуемому уровню значимости a и числу степеней свободы n=n–2 можно определить критическую точку , удовлетворяющую условию

.

С учетом (5.46) имеем:

.

Отсюда, после некоторых алгебраических преобразований, получим, что доверительный интервал для имеет вид:

, (5.59)

где предельная ошибка Dp имеет вид

. (5.60)

Из формул (5.57) и (5.60) видно, что величина (длина) доверительного интервала зависит от значения объясняющей переменной xp: при она минимальна, а по мере удаления xp от величина доверительного интервала увеличивается (рис. 5.4). Таким образом, прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение xp объясняющей переменной X не выходит за диапазон ее значений по выборке (причем более точный, чем ближе xp к ). Другими словами, экстраполяция кривой регрессии, т.е. её использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям.

б) Предсказание индивидуальных значений зависимой переменной. На практике иногда более важно знать дисперсию Y, чем ее средние значения или доверительные интервалы для условных математических ожиданий. Это связано с тем, что фактические значения Y варьируют около среднего значения . Индивидуальные значения Y могут отклоняться от на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения Y должны включать не только стандартную ошибку , но и случайную ошибку S. Это позволяет определять допустимые границы для конкретного значения Y.

Пусть нас интересует некоторое возможное значение y0 переменной Y при определенном значении xp объясняющей переменной X. Предсказанное по уравнению регрессии значение Y при X=xp составляет yp. Если рассматривать значение y0 как случайную величину Y0, а yp – как случайную величину Yp, то можно отметить, что

,

.

Случайные величины Y0 и Yp являются независимыми, а следовательно, случайная величина U= Y0Yp имеет нормальное распределение с

и . (5.61)

Используя в качестве s 2 остаточную дисперсию S 2 , получим формулу расчета стандартной ошибки предсказываемого по линии регрессии индивидуального значения Y:

. (5.63)

(5.64)

имеет распределение Стьюдента с числом степеней свободы k=n–2. На основании этого можно построить доверительный интервал для индивидуальных значений Yp:

, (5.65)

где предельная ошибка Du имеет вид

. (5.66)

Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (см. рис. 5.4).

Пример 5.5. По данным примеров 5.1-5.3 рассчитать 95%-ый доверительный интервал для условного математического ожидания и индивидуального значения при xp=160.

Решение. В примере 5.1 было найдено . Воспользовавшись формулой (5.48), найдем предельную ошибку для условного математического ожидания

.

Тогда доверительный интервал для среднего значения на уровне значимости a=0,05 будет иметь вид

Другими словами, среднее потребление при доходе 160 с вероятностью 0,95 будет находиться в интервале (149,8; 156,6).

Рассчитаем границы интервала, в котором будет сосредоточено не менее 95% возможных объёмов потребления при уровне дохода xp=160, т.е. доверительный интервал для индивидуального значения . Найдем предельную ошибку для индивидуального значения

.

Тогда интервал, в котором будут находиться , по крайней мере, 95% индивидуальных объёмов потребления при доходе xp=160, имеет вид

Нетрудно заметить, что он включает в себя доверительный интервал для условного среднего потребления. â

ПРИМЕРЫ

Пример 5.65.По территориям региона приводятся данные за 199X г. (таб. 1.1).

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., x Среднедневная заработная плата, руб., y

1. Рассчитать линейный коэффициент парной корреляции, оценить его статистическую значимость и построить для него доверительный интервал с уровнем значимости a=0,05.

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F-критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.

Решение

1. Для определения степени тесноты связи обычно используют коэффициент корреляции:

,

где , – выборочные дисперсии переменных x и y. Для расчета коэффициента корреляции строим расчетную таблицу (табл. 5.4):

x y xy x 2 y 2 e 2
148,77 -15,77 248,70
152,45 -4,45 19,82
157,05 -23,05 531,48
149,69 4,31 18,57
158,89 3,11 9,64
174,54 20,46 418,52
138,65 0,35 0,13
157,97 0,03 0,00
144,17 7,83 61,34
157,05 4,95 24,46
146,93 12,07 145,70
182,83 -9,83 96,55
Итого 1574,92
Среднее значение 85,58 155,75 13484,00 7492,25 24531,42

По данным таблицы находим:

, , , ,

, , , ,

, .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость.

Для оценки статистической значимости коэффициента корреляции рассчитаем двухсторонний t-критерий Стьюдента:

,

который имеет распределение Стьюдента с k=n–2 и уровнем значимости a. В нашем случае

и .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Для значимого коэффициента можно построить доверительный интервал, который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n

Контрольные вопросы по эконометрике

Контрольные вопросы по эконометрике.

Каковы основные цели эконометрики?

    прогноз экономических и соц-экономических показателей, характеризующих состояние и развитие анализируемой системы. имитация различных возможных сценариев социально-экономического развития

Что понимают под спецификацией модели?

Это построение экономических моделей, т.е. представление экономических моделей в математической форме удобной для проведения эмпирического анализа

Что называется параметризацией?

Оценка параметров построенной модели, делающих выбранную модель наиболее адекватной реальным данным.

Проверка качества найденных параметров модели и самой модели в целом.

Что означает простая и множественная регрессии?

Простая регрессия представляет собой регрессию между двумя переменными – y и x, т. е. модель вида y=f(x).

Множественная регрессия представляет собой регрессию результативного признака с двумя и большим числом факторов, т. е. модель вида f=(x1,x2. xk)

Когда предпочтительна парная регрессия?

Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

Что понимается под ошибкой спецификации?

Это неправильно выбранная форма модели, недоучет какого-либо существенного фактора в уравнении регрессии, т. е. использование парной регрессии вместо множественной.

Какие основные источники ошибок эконометрических моделей?

Ошибки спецификации, ошибки выборки и ошибки измерения.

Какой вид имеет уравнение парной линейной регрессии?

МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений от теоретических минимальна:

или.

Какой экономический смысл имеет коэффициент парной линейной регрессии?

Показывает среднее изменение результата с изменением фактора на одну единицу.

Что такое регрессор?

Регрессор – (признак — фактор) – независимая, или объясняющая переменная (х).

Что такое результативный признак?

Результативный признак – зависимая переменная (у)

Какой смысл может иметь свободный член в парной линейной регрессии?

Формально a – значение y при x=0. Если x не имеет и не может иметь нулевого значения, то такая трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно при a 0. Интерпретировать можно лишь знак при параметре a. Если a> 0, то относительное изменение результата происходит медленнее, чем изменение фактора.

Чему равен свободный член, если все переменные в линейной модели взяты в отклонениях от средних значений?

Иногда линейное уравнение парной регрессии записывают для отклонений от средних значений: , где , . При этом свободный член равен нулю.

Какова связь между линейным коэффициентом корреляции и коэффициентом парной линейной регрессии?

При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции . Коэффициент регрессии показывает, на сколько единиц в среднем изменится У, когда Х увеличивается на одну единицу. Однако он зависит от единиц измерения переменных. Для исправления Кр. Как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Эта система использует в качестве единицы измерения переменной её среднее квадратическое отклонение s

Для оценки качества подбора линейной функции рассчитывается коэффициент детерминации как квадрат линейного коэффициента корреляции r2. Он характеризует долю дисперсии результативного признака y, объясняемую регрессией, в общей дисперсии результативного признака:

Величина коэффициента детерминации служит одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов, и, следовательно, линейная модель хорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака.

Каково среднее значение случайного отклонения при выполнении предпосылок МНК?

Выполнение предпосылок МНК – условие необходимое для получения несмещенных, состоятельных и эффективных оценок. И при их выполнении среднее значение случайного отклонения равняется нулю.

Что такое гомоскедастичность и гетероскедастичность?

Дисперсия случайных отклонений постоянна: .

Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью (непостоянством дисперсии отклонений)

Что такое автокорреляция случайных отклонений?

Отсутствие независимости случайных отклонений друг от друга.

Что означает несмещенность оценок параметров уравнения регрессии и их эффективность?

Несмещенность оценки означает, что математическое ожидание остатков равно нулю.

Баланс для сумм квадратов отклонений результативного признака. или Q = Qr + Qe, где Q – общая сумма квадратов отклонений зависимой переменной от средней, Qr и Qe – соответственно, сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтённых факторов.

Что происходит, когда общая СКО равна остаточной?

Когда общая СКО в точности равна остаточной, сумма квадратов, обусловленная регрессией равняется нулю. Фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и

В каком случае общая СКО равна факторной?

Общая СКО равна факторной, когда прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Что такое число степеней свободы?

Число степеней свободы (df-degrees of freedom)- это число независимо варьируемых значений признака.

Чему равны числа степеней свободы для различных СКО в парной регрессии?

Для общей СКО требуется (n-1) независимых отклонений, т. к. что позволяет свободно варьировать (n-1) значений, а последнее n-е отклонение определяется из общей суммы, равной нулю. Поэтому

Факторную СКО можно выразить так:

Эта СКО зависит только от одного параметра b,-поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и

Для определения воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы:

Таким образом, можем записать:

Из этого баланса определяем, что = n–2.

Как определяется статистика по Фишеру?

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза H0:b=0 о том, что коэффициент регрессии равен нулю и следовательно, фактор Х не оказывает влияния на результат У.

Как записываются основная и альтернативная гипотезы при проверке адекватности уравнения регрессии в целом?

, эта гипотеза говорит о том что уравнение регрессии не вносит существенного вклада в объяснение дисперсии зависимой переменой.

Как проверяются гипотезы при использовании статистики по Фишеру в парной регрессии?

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы:

Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим — критерий для проверки нулевой гипотезы, которая в данном случае записывается как

(18)

Если справедлива, то дисперсии не отличаются друг от друга. Для необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенности и различных числах степеней свободы. Табличное значение F — критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. При нахождении табличного значения F — критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы – числителя (она равна единице) и знаменателя, равная n-2.

Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного, т. е. Fфактич>Fтабл(б;1;n-2). В этом случае отклоняется и делается вывод о существенности превышения Dфакт над Dостат., т. е. о существенности статистической связи между y и x.

Если , то вероятность выше заданного уровня (например, 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между y и x. Уравнение регрессии считается статистически незначимым, не отклоняется.

Как F — статистика связана с коэффициентом детерминации в парной регрессии?

Величина F-критерия связана с коэффициентом детерминации

Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:

Как рассчитать критерий Стьюдента коэффициента парной линейной регрессии?

Чем больше кривизна линии регрессии, тем больше разница между R2 и r2. Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина (R2-r2) не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t-критерий Стьюдента:

. (56)

Здесь в знаменателе находится ошибка разности (R2-r2), определяемая по формуле:

. (57)

Если , то различия между показателями корреляции существенны и замена нелинейной регрессии линейной нецелесообразна.

33Какая связь между tb — и F – статистиками в парной линейной регрессии?

Существует связь между и :

Отсюда следует, что

33Как построить доверительный интервал для коэффициента парной линейной регрессии?

Доверительный интервал для b определяется как

,

где – рассчитанное (оцененное) по МНК значение коэффициента регрессии,

Стандартная ошибка коэффициента регрессии определяется по формуле:

, (20)

— остаточная дисперсия на одну степень свободы (то же, что и D­остат).

Интервалы прогноза по линейному уравнению регрессии

Чтобы обойти это затруднение, используется так называемое z-преобразование Фишера:

которое дает нормально распределенную величину z, значения которой при изменении r от –1 до +1 изменяются от -∞ до +∞.

В каком месте доверительный интервал прогноза по парной модели является наименьшим?

. (31)

Как видно из формулы, величина достигает минимума при и возрастает по мере удаления от в любом направлении.

Как классический МНК применяется к нелинейным моделям регрессии?

При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.

Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:

, (34)

к которой обычный МНК можно применять без всякой предварительной линеаризации.

Как преобразуется уравнение гиперболического типа для использования МНК?

Линеаризация уравнения (37) сводится к замене фактора z=1/x, и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z:

Как преобразуется уравнение экспоненциального типа, чтобы использовать МНК?

зависимости показательного (экспоненциального) типа, которые записываются в виде:

(40)

. (41)

Возможна и такая зависимость:

. (42)

В регрессиях типа (40) – (42) применяется один и тот же способ линеаризации – логарифмирование. Уравнение (40) приводится к виду:

. (43)

Замена переменной сводит его к линейному виду:

, (44)

где .

Как преобразуется степенная зависимость при использовании МНК?

Они используются для построения и анализа производственных функций. В функциях вида:

(48)

особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х. Преобразуя (48) путем логарифмирования, получаем линейную регрессию:

, (49)

где .

41Как преобразуется логистическая зависимость для применения МНК?

зависимость логистического типа:

. (52)

Графиком функции (52) является так называемая «кривая насыщения», которая имеет две горизонтальные асимптоты y=0 и y=1/a и точку перегиба , а также точку пересечения с осью ординат y=1/(a+b):

Уравнение (52) приводится к линейному виду заменами переменных .

42Где применяется квадратичная парабола в уравнениях регрессии и при каких условиях?

Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.

43Какие зависимости используются для кривых Филипса и кривых Энгеля?

Зависимости гиперболического типа имеют вид:

. (37)

Примером такой зависимости является кривая Филлипса, констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля. Другим примером зависимости (37) являются кривые Энгеля, формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае b 0, то при b 0 . По данным примера , что означает очень тесную зависимость затрат на производство от величины объема выпускаемой продукции.

Величина R находится в границах , и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии

45В чем особенность вычисления статистики Фишера для полиноминальных регрессии?

Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:

, (55)

где n-число наблюдений, m-число параметров при переменных х. Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, m=1, для полиномов (34) m=k, т. е. степени полинома. Величина m характеризует число степеней свободы для факторной СКО, а (n-m-1) – число степеней свободы для остаточной СКО.

источники:

http://megaobuchalka.ru/9/33835.html

http://pandia.ru/text/80/498/1346.php

Понравилась статья? Поделить с друзьями:
  • Как найти предельную ошибку выборочной средней
  • Как найти ошибку если недостача
  • Как найти ошибку если актив не равен пассиву
  • Как найти ошибку выборочного наблюдения
  • Как найти ошибку выборки формула