Ошибка в выборке может быть уменьшена - ErrorsMaster.ru - большая энциклопедия ошибок и их решений

Глава восемнадцатая.

СБОР ДАННЫХ:
РЕАЛЬНЫЕ ПРОЦЕДУРЫ И СИСТЕМАТИЧЕСКИЕ
ОШИБКИ

Одна из основных
проблем, с которой мы сталкиваемся при
маркетинговых исследованиях, — это
проблема сбора данных. На этой стадии
исследования используется персонал,
занятый полевым, телефонным или почтовым
опросом. В этой главе речь будет идти
главным образом о возможных ошибках
при проведении опросов и об их причинах.
Если вы будете осознавать потенциальные
источники ошибок, возникающих при сборе
данных, вы сможете надлежащим образом
оценивать исследовательскую информацию,
на основе которой должны приниматься
те или иные решения.

Влияние
и значение систематических ошибок

ОШИБКА
В ВЫБОРКЕ

Разность
между наблюдаемыми значениями
количественного признака и их долгосрочным
средним значением при повторении
измерений.

СИСТЕМАТИЧЕСКАЯ
ОШИБКА

Ошибка
исследования, не связанная с выборкой;
может быть вызвана концептуальными или
логическими ошибками, неправильной
интерпретацией ответов, а также
статистическими, арифметическими,
табуляционными, кодовыми или отчетными
ошибками.

Ошибки, возникающие
при обследовании, можно разделить на
два основных типа: ошибки
в выборке и
систематические
ошибки.
Концепция
ошибки в выборке
широко использовалась в главах 15, 16 и
17. Основой для ее рассмотрения была
концепция выборочного распределения
некой статистики, например выборочного
среднего, выборочной доли и тому подобное.
Само понятие выборочного распределения
неразрывно связано с понятием ошибки
в выборке. Названное распределение
существует благодаря тому, что различные
выборки, сформированные в соответствии
с принятым планом обследования, дают
разные оценки параметра. Статистика
меняется от выборки к выборке в силу
того, что в каждом случае выборочному
отбору подвергается лишь часть генеральной
совокупности. Соответственно мы можем
определить ошибку в выборке как «разность
между наблюдаемыми значениями
количественное» признака и их долгосрочным
средним значением при повторении
измерений». Как мы видели, ошибка в
выборке может быть уменьшена путем
увеличения объема выборки. Концентрация
распределения выборочной статистики
возле долгосрочного среднего значения
возрастает, а выборочная статистика
выравнивается при увеличении количества
наблюдений.

Систематические
ошибки
являются отражением ошибок иного рода,
которые, вообще говоря, могут возникать
и не при выборочных обследованиях. Они
подразделяются на случайные
и неслучайные.
Неслучайные систематические ошибки
имеют более тяжкие последствия. Случайные
ошибки дают оценки, отличные от истинного
значения; они могут приводить к отклонениям
и в большую, и в меньшую сторону и имеют
при этом случайный характер. Неслучайные
же систематические ошибки приводят к
односторонним отклонениям. Соответственно
для них характерна тенденция к смещению
выборочного значения относительно
параметра совокупности. Систематические
ошибки могут являться следствием
концептуальных или логических ошибок,
неправильной интерпретации ответов, а
также статистических, арифметических,
табуляционных, кодовых или отчетных
ошибок. Они столь вездесущи, что один
из авторов не смог сдержать своих чувств
и написал:

«Перечень
возможных бед и напастей с увеличением
наших познаний только расширяется.
Многолетняя работа в определенной
области позволяет приобрести известный
методологический опыт, который, к
сожалению, практически никогда не
становится доступным другим. Подлинной
уверенности в правильности выработанных
подходов нет и быть не может (выделено
нами)».

Систематические
ошибки не только вездесущи, но они и не
столь подконтрольны, как ошибки в
выборке. При увеличении объема выборки
ошибки в выборке уменьшаются. Сказать
то же самое о систематических ошибках
нельзя. В этом случае они могут как
уменьшаться, так и возрастать. Помимо
прочего, ошибки в выборке при использовании
вероятностных методов могут быть
оценены. В случае же систематических
ошибок, как направление, так, тем более,
и величина ошибки могут оказаться
совершенно непредсказуемыми.

Систематические
ошибки приводят к смещению выборочного
значения относительно параметра
совокупности, но в ряде случаев мы не
можем судить даже о том, к чему именно
они приведут, — к переоценке или к
недооценке параметра. Систематические
ошибки влияют и на достоверность
выборочных оценок. Вызванное ими смещение
может увеличить ошибку оценки определенных
статистик до такой степени, что оценка
доверительного интервала окажется
ошибочной.

Одно из обследований,
призванное оценить уровень накоплений
потребителей, проведенное Иллинойским
университетом, может служить наглядным
свидетельством сказанного. В ходе этого
обследования исследователи сравнивали
полученные от потребителей сведения
об их финансовых средствах и долгах с
известной информацией.

«Опытное
обследование неожиданно показало, что
систематические ошибки существуют не
только в теории, оказалось, что именно
они являются основной причиной замеченной
тенденции к занижению агрегированных
показателей…

Эта ошибка не
просто присутствовала в данных
обследования, в ряде случаев роль
систематических ошибок была столь
велика, что
определение доверительных интервалов
по известным формулам статистики теряло
всяческий смысл… Следует
особо отметить, что
при увеличении объема выборки величина
этой ошибки только возрастала (выделено
нами)».

В некоторых
ситуациях даже самые изощренные выборки
не могут избавить нас от систематических
ошибок.

«Значимость
полученных в ходе этого обследования
данных весьма специфична, они лишний
раз говорят о том, что исследователь
постоянно должен стремиться к выявлению
и устранению систематических ошибок.
Особенно критичными они становятся при
работе с широкомасштабными, хорошо
продуманными вероятностными выборками,
поскольку при увеличении эффективности
проектирования выборки и уменьшении
выборочной дисперсии, эффект систематических
ошибок усиливается. Поскольку
систематические отклонения практически
не зависят от объема выборки, мы
сталкиваемся с парадоксальной ситуацией:
чем эффективнее составлена выборка,
тем большую роль играют систематические
ошибки и тем меньшим смыслом обладают
вычисления по определению доверительного
интервала, в основе которых лежат обычные
формулы».

В случае обследования,
проведенного Иллинойским университетом,
мы могли определить систематическую
ошибку, поскольку в распоряжении
исследователей находились не только
результаты опроса, но и реальные данные,
отражающие финансовое положение
потребителей. Предположим, что мы не
обладаем подобными данными. Исследователи
смогут предположить, что полученные
ими ответы не совсем точны, но как они
смогут определить хотя бы направление
вызванного такими ошибками смещения?
То ли респонденты сознательно завышали
уровень своих сбережений, желая впечатлить
интервьюера, то ли занижали их, боясь,
что реальные цифры могут вызвать
повышенный интерес у сотрудников
Налогового управления. Предположим,
что сам факт неточности приведенных
сведений не вызывает у нас сомнений.
Возникает еще один вопрос: какова
величина этой «неточности»? Завышение
реальной суммы на 10000 долларов или ее
занижение на 2000? Или наоборот?

Как вы, вероятно,
уже начинаете осознавать, зачастую
проблема систематических ошибок
оказывается

центральной. Два
типа систематических ошибок, отсутствие
ответов одних и некорректные ответы
других участников обследования, могут
обратить результаты обследования
буквально в ничто. Наглядной иллюстрацией
этого является исследовательское окно
18.1. В результате специальных исследований,
проведенных Бюро переписей, выяснилось,
что такие систематические ошибки могут
в десять раз превышать ошибку выборки.
В этом результате нет ничего неожиданного.
Помимо прочего, оказалось, что
систематическая ошибка составляет
большую часть ошибки обследования, в
то время как случайная ошибка выборки
сведена к минимуму. Систематические
ошибки могут быть уменьшены, но уменьшение
их связано не столько с увеличением
объема выборки, сколько с использованием
специальных методов. Для того чтобы
исследователь имел такую возможность,
ему необходимо прежде всего осознавать
их причины.

ОШИБКА
НЕНАБЛЮДЕНИЯ

Систематическая
ошибка, возникающая вследствие неполучения
данных от ряда элементов, входящих в
обследуемую выборку.

Типы систематических ошибок

На рис. 18.1 представлены
основные типы систематических ошибок.
Они делятся на два основных типа:

ошибки, связанные
с неполучением данных, и ошибки наблюдения.
Ошибки ненаблюдения
возникают вследствие невозможности
получения данных от части элементов
обследуемой совокупности. Ошибки
ненаблюдения могут быть вызваны тем,
что часть обследуемой совокупности не
была представлена в выборке, или же
элементы, отобранные для включения в
выборку, не представили данных.
Ошибки наблюдений
возникают вследствие некорректной
информации, полученной от элементов
выборки, они могут возникнуть и на стадии
обработки данных или формулирования
итогового вывода. По ряду характеристик
они представляются еще более неприятными,
чем ошибки ненаблюдения. В случае
последних мы по крайней мере знаем, что
ошибки этого вида обусловлены неполным
охватом или неполучением данных. О
существовании же ошибок наблюдения мы
даже и не подозреваем. Само понятие
ошибки наблюдения основывается на
предположении о том, что для количественного
признака или признаков существует некое
«истинное» значение. Соответственно
ошибка наблюдения является разностью
объявленного и «истинного» значения.
Вы уже понимаете, что определение Ошибки
наблюдения ставит исследователя в
ужасно неудобное положение, поскольку
при этом он задается той самой величиной,
определение которой является целью
обследования.

ОШИБКА
НАБЛЮДЕНИЯ

Систематическая
ошибка, либо возникающая при обработке
данных или формулировании заключений,
либо являющаяся следствием некорректности
информации, получаемой от элементов
выборки.

ОШИБКИ НЕНАБЛЮДЕНИЯ

Как вы видите на
рис. 18.1, существуют два типа ошибок
ненаблюдения: ошибки неохвата и ошибки
неполучения данных. Любая из этих ошибок
может привести к существенным неточностям,
однако аналитик, знакомый с сутью
проблемы, может существенно уменьшить
возможную ошибку.

ОШИБКА
НЕОХВАТА

Систематическая
ошибка, являющаяся следствием того, что
определенные части или целые блоки
генеральной совокупности не были
включены в основу выборки.

Ошибки неохвата.
Неохват может стать источником серьезных
неточностей, при этом
ошибка неохвата относится
только к ошибочно выпавшим из рассмотрения
частям совокупности, но никак не к
частям, исключенным намеренно. Таким
образом, проблема неохвата имеет
отношение к основе выборки.

Например, при общем
обследовании ошибка неохвата может
возникнуть при использовании телефонного
справочника в качестве основы выборки.
Телефоны есть далеко не у всех семей, и
не все номера телефонов включены в
справочник. Помимо прочего, существует
целый ряд демографических отличий между
лицами, имеющими телефоны и не имеющими
их.

При почтовом
опросе, где основой выборки служит
рассылочная ведомость, ошибка неохвата
может быть следствием того, что рассылочная
ведомость не дает адекватного представления
о различных группах популяции. Опытные
исследователи знают, сколь редко подобные
ведомости бывают удачными, пусть даже
речь идет о весьма специфичных группах
населения (смотри табл. 18.1).

В тех случаях,
когда данные должны собираться методом
обхода квартир, респондентов сводят в
своеобразную территориальную выборку.
В этом случае основой выборки становится
скорее не список респондентов, а
определенные районы, кварталы или дома.
Тем не менее это не снимает проблемы
неполноты основы выборки. Городские
карты могут устареть, вследствие чего
районы новой застройки полностью выпадут
из рассмотрения. Помимо прочего,
инструкции, данные интервьюерам, могут
оказаться недостаточно детальными.
Указание «начните обследование с
северо-западной оконечности означенного
района, избрав начальный пункт случайным
образом и подвергая обследованию каждый
пятый жилой дом» может оказаться
неполным, если в этом районе существуют
многоквартирные дома. Практика показывает,
что при проведении обследования
интервьюеры предпочитают обходить
стороной ветхие или запущенные строения.
Вместе с тем интервьюеры предпочитают
общаться с максимально доступными
членами семей, что противоречит положению
инструкции о случайном характере опроса.
Все это приводит к недостаточному
представлению определенной части
популяции при одновременном избыточном
представлении другой, наиболее доступной
ее части.

Проблемы с основой
выборки существуют и при проведении
опросов в торговых центрах. С одной
стороны, здесь отсутствует список
элементов совокупности. С другой стороны,
попасть в число обследуемых могут только
те люди, которые привыкли совершать
здесь покупки, при этом чем чаще они это
делают, тем выше вероятность того, что
они станут респондентами. Именно по
этой причине при обследованиях такого
рода часто используются пропорциональные
выборки.

Тем не менее
использование пропорциональных выборок
не снимает проблем, связанных с ошибками
неохвата. Свобода же выбора респондентов
интервьюером буквально распахивает
двери для таких ошибок. «Недобор»
характерен как для лиц с самыми низкими,
так и для лиц с самыми высокими доходами.
Руководитель проекта может не осознавать
этого, поскольку исполнители зачастую
склонны к фальсификации результатов,
позволяющей скрыть это обстоятельство.
Чем более сложной и развитой будет такая
пропорциональная выборка, тем более
критичным становится названный момент.
Если некоторые элементы выборки будут
задаваться набором, состоящим из трех
или четырех признаков, интервьюер,
испытывающий в этой связи определенные
затруднения, может «немного слукавить»,
приписав требуемые характеристики тем,
кто ими не обладает.

Ошибка перебора
может возникать вследствие возникновения
повторов в сводке элементов выборки.
Единицы с множественными входами в
основу выборки, например семьи, имеющие
несколько телефонных номеров, имеют
более высокую вероятность включения в
выборку, чем единицы, соответствующие
только одной позиции списка. Впрочем,
для большинства обследований ошибки
неохвата представляют куда большую
опасность.

ОШИБКА
ПЕРЕБОРА

Систематическая
ошибка, возникающая вследствие повтора
позиций в сводке элементов выборки.

Ошибка неохвата
представляет проблему далеко не для
любого обследования. В ряде случаев
исследователь имеет в своем распоряжении
четкую, ясную и полную основу выборки.
Скажем, если администрация универмага
решит провести обследование покупателей,
приобретающих товары в кредит, проблем
с определением основы выборки у нее не
будет. Основа выборки, очевидно, будет
совпадать со списком таких кредитов по
открытым счетам. Возможны разве что
какие-то затруднения при распознавании
активных и неактивных счетов, но указанная
проблема может быть разрешена уже на
подготовительном этапе обследования.

—

Таблица
18.1

Количество		Цена (долл.)	Количество		Цена (долл.)
12900	Розничная продажа детской одежды	45/1000	135	Книжные клубы	85
800	Торговля баранками	85	6300	Издательства	45/1000
30200	Розничная продажа хлеба	45/1000	1725	Издательства (крупнейшие)	45/1000
2400	Хлебопеки	45/1000	850	Оптовые торговцы книгами	85
600	Балетные труппы	85	24000	Бухгалтерский учет	45/1000
2450	Владельцы воздушных шаров	45/1000	20100	Книжные магазины	45/1000
10500	Руководители оркестров	45/1000	588	Книжные магазины, сети	85
16100	Ипотеки, руководство	45/1000	3100	Книжные магазины, учебная литература	45/1000
4100	Ипотеки, фирмы	45/1000	3300	Книжные магазины, религ. литература	45/1000
13790	Банки главные офисы	45/1000	132	Ботанические сады	85
324	Банки с капиталом свыше 1 млрд.	85	2700	Ботаники	45/1000
538	Банки с капиталом свыше 500 млн.	85	2600	Розлив безалк. напитков	45/1000
1278	Банки с капиталом свыше 200 млн.	85	4600	Магазины женской одежды	45/1000
3582	Банки с капиталом свыше 75 млн.	45/1000	7500	Кегельбаны	45/1000
8835	Банки с капиталом свыше 25 млн.	45/1000	6000	Производство тары	45/1000
12400	Банки с капиталом свыше 10 млн.	45/1000	530	Советы бой-скаутов	85
13245	Банки с капиталом свыше 5 млн.	45/1000	2400	Производство хлебопекарной продукции	45/1000
200	Банки с капиталом менее 5 млн.	85	14500	Каменщики	45/1000
40100	Отделения банков	45/1000	8290	Магазины для новобрачных	45/1000
20000	Банковские кассиры	45/1000	30100	Работники радиовещания	45/1000
209600	Банковские служащие	45/1000	4798	Радиостанции СВ-диапазона	45/1000
66700	Банковские служащие, женщины	45/1000	4428	Радиостанции FM-диапазон	45/1000
3490	Сбербанки, кредитование	45/1000	1050	Телевизионные станции	85
16800	Сбербанки, кредитование, филиалы	45/1000	211000	Брокеры и агенты, страхование	45/1000
6000	Работники траст-отдела банков	45/1000	207200	Брокеры и агенты, страхование (офисы)	45/1000
11030	Работники отдела кредитования	45/1000	3600	Брокеры (бизнес)	45/1000
243	Судьи по делам о несостоятельности	85	300000	Брокеры и агенты недв., инд.	45/1000
8400	Поставщики продукции для салонов красоты	45/1000	170000	Брокеры и агенты недв. (офисы)	45/1000
64200	Парикмахерские	45/1000	47000	Брокеры, ценные бумаги, оф. представ.	45/1000
81900	Бары, закусочные	45/1000	28400	Брокеры, ценные бумаги, офисы	45/1000
2800	Школы моделей	45/1000	17000	Брокеры, ценные бумаги, оф. представ.	85/1000
200000	Салоны красоты	45/1000	276000	Строительные подрядчики	45/1000
315	Пчеловоды	85	53900	Стройматериалы, дилеры	45/1000
90	Пивовары	85	46600	Стройматериалы, оптовики	45/1000
11900	Поставщики пива	45/1000	31300	Уборка помещений и офисов	45/1000
37000	Ученые-бихевиористы	45/1000	13600	Установка противоуг. систем	45/1000
170	Бюро консультаций в сфере бизнеса	85	19000	Печи (жидкое и тв.), дилеры	45/1000
4000	Розлив и постановка прохлад. напитков	45/1000	9000	Автобусные компании (все)	45/1000
26000	Производство прохлад. напитков	45/1000	5200	Автобусные компании (заказы)	45/1000
11700	Продажа и ремонт велосипедов	45/1000	3550	Автобусные компании (междугор.)	45/1000
2500	Бильярдные и залы для игр в пул	45/1000	4700	Автобусные компании (админ.)	45/1000
1380	Компании Billion Dollar	85	3600	Профессиональные брокеры	45/1000
5700	Биохимики	45/1000	3100	Профессиональные экономисты	45/1000
23700	Биологи	45/1000	2000000	Профессиональные администраторы	договорная
3900	Центры контроля за рождаемостью	45/1000	200000	Проф. администр. (дом. адреса)	договорная
6400000	Семьи афро-американцев	договорная	60000	Проф. адм., макс. окл. (адреса)	50/1000
4600	Банки крови	45/1000	4600	Производство коммер. бланков	45/1000
3000000	Производственные рабочие	договорная	9300	Конторские машины, дилеры	45/1000
5250	Гавани (морские)	45/1000	1000000	Бизнесмены (адреса)	договорная
12350	Торговцы судами	45/1000	2000000	Бизнесмены (мелкий бизнес)	договорная
21 000	Снабжение судов	45/1000	525	Школы бизнеса (академические)	85
567400	Владельцы судов (тип, длина, мощность)	50/1000	2000	Школы секретарей	45/1000
10000	Верфи, строительство и ремонт судов	45/1000	3700	Торговые организации	45/1000
14000	Отделы образования	45/1000	4530	Публикации на тему торговли	45/1000
67700	Ремонт кузовов автомобилей	45/1000	20400	Мясные лавки	45/1000
5000	Паровое оборудование	45/1000	8900	Мясо, оптовые поставки	45/1000

Подобным же образом
общество взаимного кредита в некой
фирме вряд ли столкнется с ошибкой
неохвата при обследовании потенциальных
клиентов. Здесь целевой совокупностью
будут сотрудники фирмы; список же их,
по всей вероятности, не будет нуждаться
в уточнении, поскольку он лежит в основе
платежной ведомости.

Ошибки неохвата
ставят перед исследователем два вопроса:
(1) насколько они серьезны? (2) каким
образом возможно их уменьшить? Основная
проблема состоит в том, что их величина
может быть оценена только при сравнении
результатов выборочного обследования
с некими независимыми внешними
показателями. Внешний же показатель в
свою очередь может быть либо определен,
посредством дополнительной проверки
качества части результатов, либо получен
в ходе другого надежного обследования,
результаты которого не утратили своей
актуальности, например, последней
переписи населения. Возможность сравнения
результатов с результатами переписи
или обследования выборки большого
объема предполагает общность операционных
определений элементов выборки. Если
исследователь планирует проведение
таких сравнений, он должен учитывать
это обстоятельство при выборе обследуемых
объектов (например, квартир или индивидов).

Предположим, ошибка
неохвата весьма велика. Что должен
делать исследователь для того, чтобы
уменьшить ее влияние? Разумеется, самый
очевидный шаг состоит в улучшении
качества основы выборки. Улучшение это
может заключаться в обновлении карт, в
выборочной проверке качества и
репрезентативности ведомости и т. д.
Проблема отсутствия ряда элементов,
характерная для телефонных обследований,
может решаться путем набора случайных
цифр или дополнительными звонками, хотя
такой способ не дает адекватного
представления о лицах, не имеющих
телефона:

Несовершенная
основа выборки может быть улучшена лишь
до определенного предела. Когда этот
предел будет достигнут, исследователь
может попытаться уменьшить ошибку
неохвата посредством отбора элементов
выборки или уточнением результатов.
Скажем, при формировании выборки по
списку аналитики часто сталкиваются с
тем, что в нем содержатся повторы,
неподходящие элементы и пропуски. Первым
шагом, направленным на исправление
ситуации, должно стать обновление и
уточнение списка, для чего могут
использоваться дополнительные источники.
Впрочем, подобные меры могут привести
разве что к сокращению количества
пропусков, но никак не к выявлению
повторов или неприемлемых элементов.
При отборе элементов выборки неприемлемые
элементы должны исключаться из
рассмотрения. Не поддайтесь искушению
заменить неприемлемый элемент элементом,
следующим в списке за ним, поскольку
использование подобного приема может
оказать серьезное влияние на характер
выборки. Если отбор осуществляется
случайным образом, следует просто-напросто
перейти к следующему отобранному
случайным образом элементу. Если же
отбор производится систематически, при
появлении неприемлемых элементов
следует прежде всего отрегулировать
выборочный интервал.

Проблема повторов
обычно решается методом корректировки.
Обычно результаты получают вес обратный
вероятности попадания элемента в
выборку. При обследовании, базирующемся
на регистрационной ведомости автомобилей,
каждому респонденту будет задан вопрос:
«Сколько у вас машин?» Обладатель двух
машин получит весовой коэффициент 1/2,
обладатель трех машин соответственно
1/2 .

Выбор надлежащих
процедур отбора элементов корректировки
и отстройки, компенсирующей неадекватность
основы выборки, при проведении серьезных
выборочных обследований имеет особую
значимость и во многом определяется
квалификацией исследователя. Мы не
станем вдаваться в детали, отметим лишь
то, что ошибки неохвата:

1) относятся к
разряду систематических ошибок и потому
не входят в стандартные статистические
зависимости;

2) как правило, не
могут быть устранены посредством
увеличения объема выборки;

3) могут иметь
существенный размер;

4) могут быть
уменьшены (но не обязательно устранены)
при осознании их наличия посредством
улучшения основы выборки и принятия
ряда специальных мер, позволяющих до
определенной степени компенсировать
остаточное несовершенство основы.

Ошибки неполучения
данных. Другой возможный источник
систематического отклонения ненаблюдения
— ошибка
неполучения данных.
Она порождается отсутствием информации
о некоторых элементах, которые должны
были войти в состав выборки. Попытка
контакта с выделенным респондентом
может оказаться неудачной, — об этом
никогда нельзя забывать. Например, на
рис. 18.2 представлены различные исходы
предполагаемого телефонного контакта.
Количество этих исходов столь велико,
что даже условная оценка серьезности
проблемы неполучения данных может
оказаться весьма и весьма затруднительной.

ОШИБКА
НЕПОЛУЧЕНИЯ ДАННЫХ

Систематическая
ошибка, порождаемая отсутствием
информации о некоторых элементах,
которые должны были войти в состав
выборки.

ДОЛЯ
ОТВЕТИВШИХ

Отношение
количества проведенных с респондентами
интервью к количеству приемлемых
респондентов в выборке.

В конце семидесятых
несколько исследователей осознали, что
в практике маркетинговых исследований
не существует стандартной процедуры
для определения соотношения полученных
и неполученных ответов. Поскольку
различные исследовательские организации
использовали при определении показателя
неполучения данных разные определения
и методики, эта проблема не получала
точного и однозначного разрешения.
Пытаясь найти выход из этой ситуации,

аналитики провели
исследование, в котором участвовали
представители Совета исследовательских
организации Америки с (CASRO)
и ведущих заказчиков. Каждому участнику
обследования был выслан опросный лист,
на котором были представлены данные
трех реальных телефонных опросов по
контактам и ответам — выборки по
телефонному справочнику, выборки по
методу случайных чисел и списочной
выборки. Респондентов просили определить
долю ответивших, контактов, выполненных
работ и отказов для каждого из трех
обследований. (Ниже будут даны определения
для каждой из этих долей). Отличие
результатов друг от друга оказалось
разительным. В верхней части табл. 18.2
представлены необработанные данные
для выборки, основанной на телефонном
справочнике. Используя эти данные, одна
организация пришла к выводу, что
доля ответивших
(отношение количества интервью к
количеству контактов) составляет 12%, в
то время как другая организация нашла
ее равной 90%. Ответы других участников
опроса были столь же разноречивыми.
Всего 3 фирмы из 40 пришли к одному и тому
же ответу, но при этом они пользовались
различными определениями. В нижней
части табл. 18.2 представлены три наиболее
часто используемых определения, а также
определения, дающие минимальные и
максимальные значения доли ответивших.

Разнообразие
определений не только приводило к
множественности значений доли
неответивших, но и осложняло разрешение
проблемы, связанной с ошибкой неполучения
данных. Последняя могла зависеть как
от эффективности используемых методов,
так и от того, насколько удачно были
выбраны определения. Пытаясь оптимизировать
и стандартизировать практику обследований,
CASRO
предложил следующее стандартное
определение доли ответивших:

Главное условие
для правильного определения доли
ответивших — надлежащее использование
критерия приемлемости. В табл. 18.3 показан
порядок определения доли ответивших
при наличии и при отсутствии требования
приемлемости.

Неполучение данных
представляет проблему для любого
обследования, при котором оно возникает,
поскольку возникает закономерный
вопрос: не существует ли серьезных
отличий между ответившими и неответившими?
Естественно, мы не можем однозначно
ответить на этот вопрос, пусть даже
предыдущие обследования свидетельствуют
о том, что между представителями двух
этих групп не существует особой разницы.

Две главные причины
ошибки неполучения данных — это
отсутствие и отказ от интервью. Ошибки
неполучения данных могут возникать при
обследованиях, использующих личный,
телефонный или почтовый опросы. При
проведении почтовых опросов проблема
отсутствия подменяется проблемой
неполучения опросного листа. Опросный
лист может просто-напросто затеряться
на почте, и в этом случае систематическую
ошибку можно считать случайной (если
только этой потере не подлежат некие
фундаментальные причины, такие как
выбытие или смерть адресата; последние
приведут к появлению систематической
ошибки.

Отсутствие.
Данные о некоторых элементах выборки
могут отсутствовать, поскольку в момент
звонка интервьюера респондентов может
не оказаться дома. Опытные данные
показывают, что процент
отсутствия
растет со временем. Очевидно, многое
зависит от респондента и времени суток,
в которое совершается звонок. Замужние
женщины с маленькими детьми в течение
дня (речь не идет о выходных) оказываются
дома чаще, чем мужчины или бездетные и
незамужние женщины. Вероятность того,
что вам ответят, выше для семей с низким
достатком или для сельских семей. Этот
показатель подвержен сезонным и недельным
(рабочие дни/выходные) колебаниям. Мало
того, куда проще застать дома «ответственного
подростка», нежели нужного вам респондента,
соответственно проблема отсутствия
может оказаться действительно серьезной.

ОТСУТСТВИЕ

Систематическая
ошибка, возникающая вследствие неполучения
ответов от заранее определенных
респондентов, отсутствующих дома в
момент звонка регистратора.

Для
снижения эффекта отсутствия может быть
принят ряд мер. Например, при некоторых
обследованиях интервьюер может заранее
договориться с респондентом о времени
своего звонка. Этот подход будет особенно
эффективным при обследовании
административных работников, но может
оказаться неоправданным при обследовании
обычных потребителей. В последнем случае
принято использовать повторный звонок
(или повторные звонки), который должен
производиться в другой час. На деле
неполучение данных, обусловленное
отсутствием респондентов, имеет очень
большое влияние на точность большинства
обследований. Один ведущий эксперт
пришел к заключению, что небольшие
выборки с 4-6 повторными звонками
оказываются более эффективными, чем
большие выборки без повторных звонков,
если только процентное значение доли
ответивших существенно не превышает
нормальный уровень. Некоторые данные
свидетельствуют о том, что для осуществления
контакта с тремя четвертями выборки
семей необходимо совершить от 4 до 5
звонков (смотри табл. 18.3).

Альтернативой
прямому
повторному звонку
может являться модифицированная
попытка контакта.
Если после первой попытки контакта и
нескольких повторных звонков интервьюеру
так и не удастся вступить в контакт с
нужным лицом, он может послать ему
опросный лист с конвертом или оставить
этот лист у его двери. Если же отсутствие
обусловлено «отсутствием нужного лица»,
а не «отсутствием кого-либо дома»,
регистратор может узнать у домашних
время, когда респондент обычно бывает
дома.

Неопытные
исследователи наивно пытаются решить
проблему отсутствия посещением соседней
квартиры или звонком по номеру, следующему
в списке за нужным. Подобную тактику
следует признать крайне неудачной.

Интервьюер подменяет
«присутствующими» (которые могут
существенно отличаться от отсутствующих
по ряду характеристик) часть обследуемого
сегмента популяции. При этом доля
«присутствующих» увеличивается, но
проблема не разрешается, а лишь
усугубляется.

Доля отсутствующих
зависит как от искусности интервьюера,
так и от принятой процедуры первичных
контактов и повторных попыток контакта.
Соответственно ошибка отсутствия может
быть уменьшена до некоторой степени
надлежащим обучением персонала, при
котором особенное внимание должно
обращаться на повышение эффективности
повторных попыток контакта.

Указанная зависимость
доли отсутствующих от профессионализма
интервьюера позволяет ввести меру для
оценки и сравнения самих интервьюеров:
для этого определяется
доля контактов (К)

ДОЛЯ
КОНТАКТОВ

Мера,
используемая для оценки и сравнения
работы интервьюеров при установлении
ими контакта с избранными респондентами;
К
= отношению установленных контактов к
общему количеству приемлемых элементов
выборки, с которыми надлежит вступить
в контакт.

Доля контактов
может служить мерилом настойчивости
интервьюера. Сравнение работы интервьюеров
и принятие корректирующих мер может
производиться по соответствующим
контактным уровням.

Контролера может
заинтересовать причина низких контактных
уровней у тех или иных интервьюеров.
Возможно, интервьюер работает в зоне с
традиционно высокой долей отсутствующих,
например в районе, где проживают люди
с высоким уровнем доходов. При анализе
отчетов, в которых приводится время
попыток контакта, может быть выявлена
и обусловленность низких результатов
неадекватностью дополнительных процедур.
В любом случае организаторам обследования
имеет смысл провести дополнительное
обучение персонала (этим может заняться
и сам контролер). Доля контактов может
использоваться и для оценки потенциальной
ошибки неполучения данных, обусловленной
отсутствием респондентов.

Ошибка неполучения
данных, обусловленная отсутствием
респондентов, может быть учтена и в
схеме статистической корректировки
результатов Политца-Симмонса. Эта схема
строится не на повторных, а на единичных
попытках контакта с каждым членом
выборки в момент времени, определенный
случайным образом. При этом контакте
респонденту задается вопрос, находился
ли он (или она) дома в это же время в
течение пяти предыдущих дней. Пять
соответствующих ответов и время самого
интервью дают информацию о том, когда
же респондент бывал дома в течение шести
последних дней. Ответам каждого информанта
присваивается соответствующий
(вероятность нахождения дома может
сообщаться интервьюеру и самим
респондентом) обратный весовой
коэффициент: например, для информанта,
присутствовавшего дома в это время
только один раз, весовой коэффициент
будет равен 6. Идея, подлежащая этой
схеме, состоит в том, что люди, редко
бывающие дома, не получают при обследовании
должного представления. Соответственно
чем реже респондент бывает дома, тем
выше должен быть соответствующий ему
весовой коэффициент.

Отказы от интервью.
Почти всегда при проведении обследования
находятся люди, которые отказываются
принять в нем участие. В одном из самых
массированных исследований серьезности
этой проблемы «Ваш голос» принимали
участие 46 исследовательских фирм,
проведших почти 1,4 миллиона телефонных
и персональных интервью. Обследование
показало, что около 38% опрошенных
отказались от участия в опросе, причем,
количество людей, отказавшихся участвовать
в нем до проведения или в ходе
предварительного собеседования
составляло 86%. Остальные отказались от
участия непосредственно в ходе
обследования. Исследовательское окно
18.2 дает представление о динамике и
специфике отказов от участия в
обследовании.

ОТКАЗЫ
ОТ ИНТЕРВЬЮ

Систематическая
ошибка, возникающая вследствие того,
что часть респондентов отказывается
принимать участие в обследовании.

Доля
отказов
зависит, помимо прочего, от особенностей
респондентов, организаций, осуществляющих
финансовое обеспечение обследования,
обстоятельств контакта, темы обследования
и искусства интервьюера. На долю отказов
может повлиять даже культура данной
территории. Скажем, в некоторых
государствах, таких как Саудовская
Аравия, обследовать женщин практически
невозможно.

Имеет значение и
метод сбора информации. Опытные данные
свидетельствуют о том, что наиболее
эффективными являются персональные, а
наименее эффективными — почтовые методы
опроса. Телефонные интервью занимают
промежуточное положение.

Хотя существуют
особые техники, позволяющие вовлекать
в обследование отдельные группы
населения, в общем случае наименее
«отзывчивыми» оказываются женщины,
представители цветного населения и
лица с невысоким уровнем образования
и низким уровнем доходов.

На количество
отказов может повлиять и характер
организации, производящей обследование.
Многие люди определяют свое участие
или неучастие в опросе именно этим
обстоятельством»

Порой к отказу
приводят какие-то внешние обстоятельства.
Респондент может быть занят, может
испытывать усталость или чувствовать
себя не лучшим образом. На долю отказов
влияет и предмет исследования. Лица,
интересующиеся данным предметом, охотнее
принимают участие в опросе. В общем
случае действует следующий закон: более
щекотливые темы вызывают большее
количество отказов.

И наконец, сама
личность интервьюера может оказать
существенное влияние на количество
отказов. Его подход, манеры и даже
демографические характеристики могут
повлиять на решение потенциального
респондента.

Каким образом
возможно скорректировать такую ошибку?
Рекомендуется использование трех
стратегий:

1. Увеличение доли
первичных ответов.

2. Повторные попытки.

3. Экстраполяция
полученной информации.

Увеличение доли
первичных ответов.
Улучшение условий проведения интервью
и углубленное обучение интервьюеров —
очевидные пути увеличения доли ответивших;
однако особенности респондента могут
оказаться фактором, неподвластным
контролю исследователя. Целевая популяция
определяется поставленной задачей, и
популяция эта может содержать семьи с
различным образовательным уровнем и
уровнем доходов, культурой и профессиональной
принадлежностью и т. д. Тем не менее
поставленная нами цель вполне достижима.
Как будет показано далее, при рассмотрении
нами взаимодействия интервьюера—интервьюируемого
можно заранее задать «нужный» тип
интервьюера.

Надлежащему
сотрудничества может способствовать
и убеждение респондентов в ценности
проводимого обследования и важности
их участия в нем. Может сыграть свою
роль и предварительное уведомление.

Если идентификация
организации, финансирующей обследование,
может привести к уменьшению количества
ответивших, исследователям надлежит
либо скрыть эту информацию, либо
обратиться к профессиональной организации,
занимающейся проведением подобных
обследований. Именно по этой причине
некоторые компании, имеющие в своем
составе исследовательские департаменты,
пользуются услугами специализированных
исследовательских фирм.

Чем больше информации
о сути и цели обследования сообщают
интервьюеры потенциальным респондентам,
тем большей становится доля ответивших
как при персональном, так и при телефонном
обследовании. Гарантия конфиденциальности
также способствует увеличению доли
ответивших, так как многие участники
опроса не хотят, чтобы их ответы
ассоциировались с их именами. При
проведении почтовых обследований
позитивную роль может сыграть и
материальный стимул. Интересен тот
факт, что подобный же стимул не эффективен
при персональных опросах, если только
они не проводятся в торговых центрах.

Использование
одной и той же техники повышения уровня
сотрудничества может давать для различных
обследований существенно отличающиеся
друг от друга результаты. Просмотр
результатов различных обследований
проясняет картину, пусть роль побудительного
стимулирования и разнится от случая к
случаю. Это может быть отчасти обусловлено
как самим предметом обследования, так
и соответствующим ему временным периодом.
На рис. 18.3 показаны результаты одного
из самых массовых недавних исследований
техник стимулирования участия в
корреспондентских опросах. Средний
эффект от применения соответствующих
техник представлен взвешенным
коэффициентом корреляции для обследования,
где веса отражают объем различных
выборок, на которых основываются
отдельные корреляции. Чем выше корреляция
взвешенного среднего, тем более
эффективной является данная техника.
Приведенные на рис. 18.3 результаты
свидетельствуют о том, что самыми
успешными техниками повышения
эффективности почтовых опросов являются
использование поощрений, уведомление
о предстоящем опросе и повторные почтовые
отправления.

Повышение доли
ответивших путем повтора попытки
контакта. В
некоторых случаях причиной отказа
участвовать в обследовании могут стать
некие обстоятельства. Поскольку последние
могут оказаться изменчивыми или
временными, повторная попытка установления
контакта может привести к успешному
исходу и позитивно повлиять на общий
показатель доли ответивших. Если
респондент отказался от участия в
обследовании, сославшись на болезнь
или на усталость, вы вправе надеяться
на успешный исход повторной (аналогичной
или несколько видоизмененной) попытки.
При почтовом опросе эта попытка выразится
в отправке повторного почтового
отправления. Успех подобных мероприятий
во многом зависит от уровня компетентности
персонала.

Если же источником
ошибки, обусловленной неполучением
данных, является сам предмет исследования,
ситуация становится куда более сложной.
Обследование, не представляющее для
респондентов особого интереса или же
представляющееся им сомнительным,
скорее всего, будет сопровождаться
большим количеством отказов. Соответственно
исследователь должен использовать все
возможности для того, чтобы заинтересовать
респондента,— например, он может ввести
в опросный лист не относящиеся к делу
вопросы.

Если респондент
отказался от участия в персональном
или телефонном опросе не в силу неких
сложившихся в данный момент обстоятельств,
а по каким-то иным причинам, повторные
попытки окажутся не столь успешными.
Почтовый опрос в этом смысле является
исключением. Многие люди склонны отвечать
только на второй или даже третий запрос.
Разумеется, в таком случае необходимо
провести идентификацию лиц, не ответивших
на предыдущие запросы, или, что то же
самое, ответивших на них, нежелание же
подвергнуться таковой идентификации,
как уже отмечалось, заставляет многих
людей отвечать отказом. Таким образом,
идентификация респондентов, призванная
уменьшить одну составляющую ошибки
неполучения данных, может привести к
увеличению другой ее составляющей.
Альтернативный же подход, при котором
повторные почтовые отправления будут
разосланы всем участникам обследования,
будет раздражать иных респондентов и
может оказаться излишне дорогостоящим
для организации, проводящей обследование.

Коррекция
результатов, призванная учитывать
эффект неполучения данных.
Третья стратегия состоит в оценке
возможного эффекта, обусловленного
неполучением данных, и в соответствующей
коррекции результатов обследования.
Предположим, что при определении среднего
уровня доходов для некой популяции
регистратору удалось получить ответы
только части лиц, входящих в обследуемую
выборку
.
Долю неответивших обозначим.
Если
,
— средний
уровень доходов ответивших, а

— средний
уровень дохода не ответивших, общий
средний уровень будет равен

Разумеется, при
этом предполагается, что значение

известно или по крайней мере может быть
оценено. В ряде случаев для оценки этой
величины предпринимаются интенсивные
повторные попытки контакта с выборкой
нереспондентов. Указанные попытки могут
иметь форму видоизмененного повтора,
о котором говорилось ранее. Поскольку
же ситуация, при которой в ходе повторного
обследования будут получены ответы
всех респондентов, достаточно редка,
можно говорить только о приблизительной
оценке. Игнорирование первичного
неполучения информации эквивалентно
принятию того, что

равно
,
что обычно неверно.

Второй метод
корректировки результатов состоит в
отслеживании количества ответивших на
первичный запрос, на первый повтор,
второй повтор и т. д. По этим данным
определяется среднее значение
количественного признака (или другая
приемлемая статистика), после чего
производится сравнение подмножеств,
призванное ответить на вопрос, приводит
ли проблема неполучения ответа к
статистически значимым последствиям.
Если нет, среднее значение количественного
признака для нереспондентов принимается
равным аналогичному значению для
ответивших. Если же выявляется определенный
тренд, то возникает необходимость в
соответствующей экстраполяции
результатов. Данный метод особенно
ценен при проведении почтовых опросов,
при которых идентификация лиц, ответивших
на первый запрос, второй запрос и т. д.,
не вызывает особых трудностей.

Опыт, накопленный
в ходе предыдущих опросов, также может
служить основой для уменьшения эффекта
неполучения данных. Организации, часто
проводящие однотипные выборочные
обследования, сочтут этот подход наиболее
действенным. Ни один из названных методов
оптимизации не может быть назван
совершенным, однако лучше воспользоваться
любым из них, чем не использовать никакого
и уравнять характеристики нереспондентов
и респондентов. Именно это и происходит
в тех случаях, когда мы не пытаемся
ослабить эффект неполучения данных.

Частичное
неполучение данных.
До сих пор мы говорили о полном
неполучении данных. Частичное неполучение
данных,
которое также может приводить к
возникновению серьезных проблем, состоит
в том, что респондент, согласившийся
принять участие в опросе, не хочет или
не может ответить на некоторые вопросы
вследствие специфики их формы или
содержания или вследствие нежелания
обременять себя поиском нужной информации.
Как уже говорилось ранее, при разработке
опросных листов исследователи пытаются
сделать все возможное для того, чтобы
подобных проблем не возникало. Тем не
менее полностью исключить появление
таких вопросов невозможно.

Возможность
исправления ситуации во многом зависит
от размера частичного неполучения
данных. Здесь мы должны различать
катастрофическое или случайное, частичное
неполучение данных. Если слишком большое
количество вопросов остается без
ответов, последние теряют смысл, и мы
приходим к ситуации полного неполучения
данных от ряда респондентов. Если же
количество таких вопросов относительно
невелико, ответ остается осмысленным.
В любом случае при обработке результатов
варианты «не знаю» и «отсутствие ответа»
должны идти отдельными позициями. Этот
подход представляется оптимальным,
поскольку явлению частичного неполучения
данных в этом случае может быть дана
должная оценка. В некоторых случаях
недостающая информация по какому-то
пункту или пунктам может быть восполнена
путем анализа иных пунктов заполненного
опросного листа. Это относится прежде
всего к тем

случаям, когда
одной теме или предмету посвящено сразу
несколько вопросов. Полученные ответы
анализируются, и на этой основе заполняется
пропущенная позиция. Если подобная
согласованность отсутствует, возможно
прибегнуть к регрессивному
анализу,
посредством которого устанавливается
взаимосвязь нескольких показателей.
Отсутствующий пункт рассматривается
как целевой количественный показатель.
С помощью регрессивного анализа
устанавливается его априорная
функциональная зависимость от других
показателей (по результатам обследований,
в которых были получены ответы на все
вопросы). Установленная зависимость
позволяет неким образом оценить
недостающие ответы опросных листов.

Последний, третий
способ восполнения частичного неполучения
информации состоит в подстановке
среднего значения, определенного для
полученных ответов. Разумеется, при
этом мы исходим из предположения, что
лица, не ответившие на вопросы, ничем
не отличаются от лиц, ответивших на них.
Подобная подстановка среднего весьма
рискованна, — ею следует пользоваться
с большой осторожностью.

ДОЛЯ
ПОЛНЫХ ОТВЕТОВ

Мера
оценки и сравнения работы интервьюеров
по их умению получать от респондентов
всю требуемую информацию.

Доля ответивших
и доля полных ответов.
Подобно тому, как доля контактов может
использоваться для оценки и сравнения
работы регистраторов по количеству
отсутствующих респондентов, для сравнения
их работы по количеству отказов могут
использоваться два показателя: доля
ответивших R,
и доля полных
ответов С.
Как уже объяснялось ранее, доля ответивших
равна отношению количества ответивших
к общему количеству приемлемых
респондентов в выборке. Доля ответивших
может использоваться для оценки
определенных аспектов работы интервьюера.

Доля полных ответов
имеет существенно иное значение. Обычно
этот показатель используется для оценки
способности интервьюеров получать
ответы на ключевые вопросы обследования,
такие как уровень доходов респондента,
наличие у него долгов и тому подобное,
хотя его можно использовать и для оценки
всего обследования. Доля полных ответов
позволяет судить о полноте представленного
ответа.

ОШИБКИ НАБЛЮДЕНИЯ

Ошибки наблюдения,
определенные ранее, могут быть менее
очевидными, чем ошибки ненаблюдения,
вследствие чего наблюдатель может даже
не догадываться об их существовании.

ОШИБКИ
СБОРА

Систематическая
ошибка, возникающая при сборе данных.

Ошибки сбора.
Наиболее распространенной ошибкой
наблюдений является
ошибка сбора,
которая возникает уже после того, как
нужный индивид согласится принять
участие в обследовании. Вместо того
чтобы идти на полное сотрудничество,
он отказывается отвечать на одни и дает
неправильные ответы на другие вопросы
интервьюера. Такие ошибки принято
именовать соответственно ошибками
пропуска и
ошибками
свидетельства.
В предыдущей части мы рассматривали
ошибки пропуска и неполного получения
информации. Теперь мы хотим привлечь
ваше внимание к ошибкам свидетельства,
которые принято относить к ошибкам в
ответах.

При рассмотрении
ошибок в ответах следует понимать смысл
процедуры опроса. Во-первых, респонденту
надлежит понять суть вопроса. Во-вторых,
ему необходимо обдумать свой ответ.
Респондент пытается найти требуемую
информацию и восстанавливает в сознании
соответствующие факты, события и
ощущения. Он или она пытается неким
образом организовать свой ответ исходя
из этой информации. В-третьих, респондент
понимает, что его ответ должен быть
точным. В-четвертых, он должен
руководствоваться и иными соображениями:
стремлением произвести на интервьюера
должное впечатление и тому подобное. И
наконец, он должен вербализовать
результаты представленного ментального
процесса. Целью опроса является реализация
последней стадии. Нарушить же этот
процесс возможно на любом этапе,
следствием чего будет неточный ответ
или, что то же самое, ошибка в ответе.

Рис.
18.4.
Опрос — модель возникновения ошибок

Факторы, способные
вызвать ошибки в ответах, столь
многочисленны, что практически не
поддаются классификации. Тем не менее
при работе с ошибками сбора данных можно
воспользоваться схемой Кана— Кэннела
(рис. 18.4). Данная модель исходит из
нескольких предположений. Во-первых,
каждая личность имеет свойственные ей
характеристики и психологические
предпочтения, которые могут повлиять
на отношение к опросу. Некоторые
характеристики (такие, как возраст и
пол) очевидны, другие (такие, как
психологическое состояние) могут
оставаться неизвестными интервьюеру.
В любом случае интервьюер и респондент
вступают в определенную систему
взаимоотношении, обусловленных как
названными факторами, так и данными
непосредственного чувственного
восприятия. Во-вторых, интервью является
интерактивным процессом, детерминантами
которого являются как интервьюер, так
и респондент. Каждая из сторон отрабатывает
специфическое поведение другой стороны.
Заметьте, однако, что между поведенческими
блоками нет непосредственной связи.
Эта связь имеет более сложный характер.
«Поведение интервьюера и респондента
определяется восприятием поведения
противной стороны, когнитивной или
социально обусловленной реакцией и,
наконец, результирующим стимулом,
подлежащим той или иной модели поведения.
Только на этой стадии поведенческий
акт принимает свойственную ему
определенность, которая воспринимается
и отрабатывается вторым участником
взаимодействия».

Восприятие поведения
может быть неадекватным, точно так же
как неадекватным может быть само
восприятие сторон. И интервьюер, и
респондент должны сделать определенные
усилия, для того чтобы стало возможным
их полноценное общение в ситуации
опроса. На его результат влияет не только
специфика поведения участников интервью,
но и их характеристики, и психологические
особенности.

Модель взаимодействия
интервьюера-респондента имеет ряд
привлекательных особенностей. Во-первых,
она соответствует эмпирическим данным.
Во-вторых, она позволяет судить о том,
как можно было бы свести к минимуму
ошибки в ответах (а также ошибки
неполучения данных, вызванные отказами).
Данная модель приложима не только к
персональному, но и к телефонному и
почтовому методам опроса, что еще больше
повышает ее ценность. Приведем пример.
Специфическое восприятие данным
респондентом характеристик и модели
поведения телефонного интервьюера, вне
всяких сомнений повлияет на его,
респондента, ответы. Это касается как
личности самого интервьюера, так и
возможных подозрений респондента,
считающего истинные цели обследования
иными, сомневающегося в конфиденциальности
беседы и т. п. Факторы такого рода могут
свести все попытки интервьюера на нет,
причем ложность ответов будет уже
неслучайной.

Личные особенности
(характеристики).
Опытные данные свидетельствуют о том,
что личные особенности могут серьезно
повлиять на ответы. Если интервьюер и
респондент имеют много общего, их
взаимодействие становится куда более
легким и успешным. В первую очередь это
относится к таким очевидным характеристикам,
как национальность, возраст и пол, но
это же правило приложимо и к менее
очевидным особенностям: принадлежности
к определенному классу или группе
населения. Имеет смысл подбирать
интервьюера таким образом, чтобы он как
можно меньше отличался от респондента,
в этом случае вероятность позитивного
исхода интервью существенно возрастает.

К сожалению,
использовать этот принцип на практике
крайне сложно. В роли интервьюеров в
большинстве случаев выступают домохозяйки,
пытающиеся повысить доходы семьи.
Сказать, что в деятельности такого рода
принимают участи представители различных
групп и слоев населения, можно было бы
только с очень большой натяжкой. Каким
же образом исследователь может повлиять
на соответственные ошибки? Можно
определить степень изменчивости
интервьюеров, можно поменять график и
стиль их работы, но самым эффективным
способом, как уже было отмечено выше,
является подбор интервьюеров, принадлежащих
к различным социальным группам.

Психологические
факторы.
Опытные данные говорят о том, что
результаты работы интервьюеров имеют
явную обусловленность их взглядами,
позициями и стремлениями. Естественно,
подобную психологическую обусловленность
имеет любой человек. Возможно ли вообще
как-то контролировать эти факторы, и
если да, то как это сделать? Прежде всего
следует обратить особое внимание на
обучение персонала. Сами психологические
склонности интервьюеров некритичны,
поскольку этот психологический фактор
остается скрытым от респондента. Главное,
чтобы они не влияли на ход интервью и
соответственно не искажали бы ответов.

Именно по этой
причине большинство обследований
проводится по жесткой фиксированной
схеме, которой должны неукоснительно
придерживаться все интервьюеры.
Необходимо наличие ясной письменной
инструкции. Она должна четко определять
цель обследования и содержать описание
используемых материалов: опросных
листов, карт, нормативов и т. п. Должно
даваться развернутое описание процедуры
опроса, типы приемлемых формулировок,
способы и нормы проверок (если таковые
производятся). В инструкциях должны
задаваться количество и тип респондентов,
с которыми интервьюеру следует вступить
в контакт, а также временные рамки
обследования. Инструкции должны быть
упорядоченными и однозначными.

Важно, чтобы
содержание и язык инструкций были
доступны каждому интервьюеру. Эта цель
может быть достигнута в ходе занятий с
ними. В некоторых случаях имеет смысл
экзаменовать потенциальных интервьюеров
на предмет понимания ими цели обследования
:

и владения методами,
позволяющими получать объективные, не
обусловленные позицией самого интервьюера
ответы.

Поведенческие
факторы.
Биографические данные, мнения, позиции,
намерения респондента также могут
являться источником ошибок. Их наличие
или отсутствие зависит от характера
взаимодействия интервьюер—респондент.
Иными словами, ошибки такого рода
возникают непосредственно в ходе этого
взаимодействия.

К сожалению, опытные
данные говорят о том, что даже при
относительной простоте опросных листов
и жесткости правил проведения опроса
интервьюеры зачастую не соблюдают
требований инструкции, что влечет за
собой ошибки. В одном классическом
обследовании 15 интервьюеров, окончивших
колледж, производили опрос одного и
того же респондента, которому была дана
инструкция дать одинаковые ответы всем
пятнадцати интервьюерам. Все интервью
были записаны и впоследствии
проанализированы. Самой большой
неожиданностью стало количество
допущенных ошибок. Было сделано 66
неудачных попыток прояснить суть явно
неадекватных ответов дополнительными
вопросами; общее же количество ошибок
в расчете на одного респондента колебалось
между 12 и 36. При другом обследовании
было установлено, что «треть интервьюеров…
часто допускает ошибки и пренебрегает
требованиями действующей инструкции,
не умея ясно выразить суть основных
понятий, искажая их, сокращая вопросы
или не понимая ответов».

Три модели поведения
интервьюеров приводят к появлению
ошибок: (1) ошибки при формулировке
вопросов и неумение задавать уточняющие
вопросы, (2) ошибки при записи ответов,
(3) подтасовка данных.

Ошибки при
формулировке вопросов могут сопутствовать
вопросам любого типа, наиболее же острой
эта проблема становится при работе с
вопросами, допускающими различные
толкования, предполагающими продолжение
опроса. Разные интервьюеры будут задавать
разные уточняющие вопросы. Могут
отличаться как смысл, так и продолжительность
дополнительного опроса. Соответственно
различие ответов может вызываться как
«истинным» отличием позиций респондентов,
так и различием подходов при проведении
дополнительного опроса.

Немаловажное
значение имеет и то, как будет сформулирован
исходный вопрос. Интервьюеры склонны
перефразировать его, дабы сделать суть
вопроса более понятной для респондента.
При этом они могут «вчитывать» в него
собственное понимание или собственную
позицию, тем самым предрасполагая
респондента к тому или к иному ответу.

Как ни странно,
альтернативные вопросы сопряжены с
высокой вероятностью появления ошибки.
Эта ошибка может возникать, например,
вследствие того, что при постановке
вопроса интервьюер может сделать особый
акцент на одной из альтернатив. Небольшого
изменения тона достаточно для того,
чтобы изменить смысл всего вопроса. В
одном из недавних исследований,
посвященных проблеме ошибок интервьюеров
при формулировке вопросов, было
установлено, что в зависимости от типа
среднее количество ошибок, приходящихся
на один вопрос, составляет

• ошибки чтения
0,293;

• варианты
вербализации 0,116;

• уточняющие
вопросы 0,140;

• обратная связь
0,161.

Одна из главных
задач интервьюера — удержание внимания
и интереса респондента. Одновременно
интервьюер должен фиксировать
неоднозначные ответы респондента или
перепроверять их соответствие друг
другу. Одновременное решение двух этих
задач в ряде случаев может приводить к
ошибкам. Занятый своим делом интервьюер
может «не услышать» респондента. Причиной
этого может стать как неразборчивость
сказанного, так и сосредоточенность
интервьюера на чем-то ином. Последний
может услышать именно то, что он хотел
услышать, и воспринять именно то, что
он хотел воспринять. К ошибкам такого
рода склонен любой человек, их может
совершить каждый. Если же мы будем
слишком требовательными, работа может
показаться интервьюерам непосильной,
вследствие чего они откажутся от ее
исполнения.

Подтасовка данных
также может стать источником ошибки.
Эта подтасовка может относиться как ко
всему опросному листу, так и к отдельным
его пунктам. Фонд рекламных исследований
(АКР) порой проводит проверочные повторные
обследования выборок, уже подвергавшихся
обследованию. Сотрудники фонда хотят
убедиться в том, что опрос действительно
имел место, и что были заданы все нужные
вопросы. При проведении одного из таких
обследований оказалось, что 5,4% опросных
листов 33 различных обследований не
находят подтверждения, а 7,9% имеют не
менее двух серьезных противоречий. Даже
Бюро переписей, которое можно было бы
назвать самым скрупулезным и аккуратным
сборщиком информации в мире, постоянно
сталкивается со сфабрикованными
опросными листами. Исследовательское
окно 18.3 может служить иллюстрацией к
сказанному.

Большинство
коммерческих исследовательских фирм
проверяет достоверность 10-20 % опросных
листов путем проведения контрольного
почтового или телефонного опроса. При
этом проверяется следующее:

1. Метод опроса —
проверяется соответствие использованного
метода заданному (например, действительно
ли проводился персональный, а не
телефонный опрос).

2. Поставленные
вопросы — проверка того, не были ли
выпущены из рассмотрения важные вопросы
(демографического или классификационного
характера).

3. Демонстрация
продукции — проверка того, действительно
ли была произведена потребная для
проведения опроса демонстрация продукта
или информационного листа.

4. Знакомство
респондента с интервьюером — проверка
того, не занимался ли интервьюер опросом
своих знакомых или друзей.

5. Реакция на
проведение опроса — проверка «качества»
работы интервьюера.

Другой разновидностью
обмана, не являющейся ошибкой в ответах,
но серьезно влияющей на все систематические
ошибки, могут быть раздутые счета.
Интервьюер может указать завышенное
расстояние или завышенную продолжительность
обследования. Проблема эта имеет весьма
широкое распространение вследствие
специфики работы интервьюера. Прямой
контроль над интервьюером отсутствует,
оплачивается же его труд весьма скромно.
Оплата труда инспектора обычно зависит
от зарплаты интервьюера, чем выше
последняя, тем больше первая. Раздутые
счета отвлекают средства от других
статей обследования и снижают его
эффективность, поскольку стоимость
информации возрастает.

Как уже говорилось
ранее, ошибки в ответах сложнее поддаются
коррекции, чем ошибки неполучения
информации. Их знак и их величина
неизвестны, поскольку их невозможно
определить, не зная истинного значения.
Исследователю надлежит стремиться к
их недопущению, ибо они не поддаются
устранению. Источники ошибок могут быть
различными, соответственно различными
могут быть и меры их предотвращения.
Скажем, обучение позволяет сократить
количество ошибок при формулировании
вопросов и записи ответов. Подобным же
образом с подтасовкой данных можно
бороться надлежащим отбором персонала
и определением уровня оплаты интервьюеров
и системы контроля. Квалификация
интервьюера может оцениваться по
качеству его работы, ее стоимости, типам
ошибок, способности следовать инструкциям
и т. п. Мы не будем останавливаться на
этом вопросе, поскольку это потребовало
бы написания отдельной книги. Нам
достаточно помнить о существовании
ошибок в ответах, о причинах, их
порождающих, и об их деструктивном
характере. Модель взаимодействия
интервьюер—респондент способствует
наглядному представлению этих причин
и нахождению методов их предотвращения.

Офисные ошибки.
Систематические ошибки могут возникать
не только при сборе информации. Они
могут появляться при редактировании,
кодировании, составлении таблиц и
анализе данных. В большинстве случаев
эти ошибки могут быть устранены частично
или полностью введением надлежащего
контроля над процессом обработки данных.
Эти вопросы обсуждаются в главах,
посвященных анализу полученных
результатов.

Источник

Что такое Ошибка выборки?

Ошибка выборки — это статистическая ошибка, которая возникает, когда аналитик не выбирает выборку, которая представляет всю совокупность данных, а результаты, найденные в выборке, не представляют результаты, которые были бы получены для всей генеральной совокупности. Выборка — это анализ, выполняемый путем выбора ряда наблюдений из более широкой совокупности, и этот выбор может привести как к ошибкам выборки, так и к ошибкам, не связанным с выборкой.

Ключевые моменты

Ошибка выборки — это статистическая ошибка, которая возникает, когда аналитик не выбирает выборку, представляющую всю совокупность данных.
Таким образом, результаты, полученные в выборке, не представляют результаты, которые были бы получены для всей генеральной совокупности.
Ошибка выборки может быть уменьшена путем случайного выбора выборки и / или увеличения количества наблюдений.

Понимание ошибок выборки

Ошибка выборки — это отклонение значения выборки от истинного значения совокупности из-за того, что выборка не является репрезентативной для генеральной совокупности или каким-либо образом смещена. Даже рандомизированные выборки будут иметь некоторую ошибку выборки, поскольку это всего лишь приблизительная оценка генеральной совокупности, из которой она взята.

Ошибки выборки могут быть устранены при увеличении размера выборки, а также путем обеспечения того, чтобы выборка адекватно представляла всю генеральную совокупность. Предположим, например, что компания XYZ предоставляет услугу на основе подписки, которая позволяет потребителям вносить ежемесячную плату за потоковую передачу видео и других программ через Интернет.

Фирма хочет опросить домовладельцев, которые смотрят по крайней мере 10 часов программ в Интернете каждую неделю и платят за существующую службу потокового видео. XYZ хочет определить, какой процент населения заинтересован в более дешевой подписке. Если XYZ не продумает тщательно процесс выборки, могут возникнуть несколько типов ошибок выборки.

Примеры ошибок выборки

Ошибка спецификации совокупности означает, что XYZ не понимает конкретных типов потребителей, которые должны быть включены в выборку. Если, например, XYZ создает группу людей в возрасте от 15 до 25 лет, многие из этих потребителей не принимают решение о покупке услуги потокового видео, потому что они не работают полный рабочий день. С другой стороны, если XYZ соберет выборку работающих взрослых, которые принимают решения о покупке, потребители в этой группе могут не смотреть 10 часов видеопрограмм каждую неделю.

Ошибка выбора также приводит к искажению результатов выборки, и типичным примером является опрос, в котором участвует лишь небольшая часть людей, которые сразу же откликаются. Если XYZ попытается связаться с потребителями, которые изначально не ответили, результаты опроса могут измениться. Кроме того, если XYZ исключает потребителей, которые не отвечают сразу, результаты выборки могут не отражать предпочтения всего населения.

Учет ошибок, не связанных с выборкой

XYZ также хочет избежать ошибок , не связанных с выборкой , которые вызваны человеческой ошибкой, например ошибкой, допущенной в процессе опроса. Если одна группа потребителей смотрит только пять часов видеопрограмм в неделю и включена в опрос, это решение является ошибкой, не связанной с выборкой. Предвзятые вопросы — это еще один тип ошибок.

Источник

What Is a Sampling Error?

A sampling error is a statistical error that occurs when an analyst does not select a sample that represents the entire population of data. As a result, the results found in the sample do not represent the results that would be obtained from the entire population.

Sampling is an analysis performed by selecting a number of observations from a larger population. The method of selection can produce both sampling errors and non-sampling errors.

Key Takeaways

A sampling error occurs when the sample used in the study is not representative of the whole population.
Sampling is an analysis performed by selecting a number of observations from a larger population.
Even randomized samples will have some degree of sampling error because a sample is only an approximation of the population from which it is drawn.
The prevalence of sampling errors can be reduced by increasing the sample size.
In general, sampling errors can be placed into four categories: population-specific error, selection error, sample frame error, or non-response error.

Understanding Sampling Errors

A sampling error is a deviation in the sampled value versus the true population value. Sampling errors occur because the sample is not representative of the population or is biased in some way. Even randomized samples will have some degree of sampling error because a sample is only an approximation of the population from which it is drawn.

Calculating Sampling Error

The sampling error formula is used to calculate the overall sampling error in statistical analysis. The sampling error is calculated by dividing the standard deviation of the population by the square root of the size of the sample, and then multiplying the resultant with the Z-score value, which is based on the confidence interval.

Sampling Error

where:

score value based on the

confidence interval (approx

1.96

)

Population standard deviation

Size of the sample

begin{aligned}&text{Sampling Error}=Ztimesfrac{sigma}{sqrt{n}}\&textbf{where:}\&Z=Ztext{ score value based on the}\&qquad text{confidence interval (approx}=1.96)\&sigma=text{Population standard deviation}\&n=text{Size of the sample}end{aligned}

Sampling Error=Z×nσwhere:Z=Z score value based on the confidence interval (approx=1.96)σ=Population standard deviationn=Size of the sample

Types of Sampling Errors

There are different categories of sampling errors.

Population-Specific Error

A population-specific error occurs when a researcher doesn’t understand who to survey.

Selection Error

Selection error occurs when the survey is self-selected, or when only those participants who are interested in the survey respond to the questions. Researchers can attempt to overcome selection error by finding ways to encourage participation.

Sample Frame Error

A sample frame error occurs when a sample is selected from the wrong population data.

Non-response Error

A non-response error occurs when a useful response is not obtained from the surveys because researchers were unable to contact potential respondents (or potential respondents refused to respond).

Eliminating Sampling Errors

The prevalence of sampling errors can be reduced by increasing the sample size. As the sample size increases, the sample gets closer to the actual population, which decreases the potential for deviations from the actual population. Consider that the average of a sample of 10 varies more than the average of a sample of 100. Steps can also be taken to ensure that the sample adequately represents the entire population.

Researchers might attempt to reduce sampling errors by replicating their study. This could be accomplished by taking the same measurements repeatedly, using more than one subject or multiple groups, or by undertaking multiple studies.

Random sampling is an additional way to minimize the occurrence of sampling errors. Random sampling establishes a systematic approach to selecting a sample. For example, rather than choosing participants to be interviewed haphazardly, a researcher might choose those whose names appear first, 10th, 20th, 30th, 40th, and so on, on the list.

Examples of Sampling Errors

Assume that XYZ Company provides a subscription-based service that allows consumers to pay a monthly fee to stream videos and other types of programming via an Internet connection.

The firm wants to survey homeowners who watch at least 10 hours of programming via the Internet per week and that pay for an existing video streaming service. XYZ wants to determine what percentage of the population is interested in a lower-priced subscription service. If XYZ does not think carefully about the sampling process, several types of sampling errors may occur.

A population specification error would occur if XYZ Company does not understand the specific types of consumers who should be included in the sample. For example, if XYZ creates a population of people between the ages of 15 and 25 years old, many of those consumers do not make the purchasing decision about a video streaming service because they may not work full-time. On the other hand, if XYZ put together a sample of working adults who make purchase decisions, the consumers in this group may not watch 10 hours of video programming each week.

Selection error also causes distortions in the results of a sample. A common example is a survey that only relies on a small portion of people who immediately respond. If XYZ makes an effort to follow up with consumers who don’t initially respond, the results of the survey may change. Furthermore, if XYZ excludes consumers who don’t respond right away, the sample results may not reflect the preferences of the entire population.

Sampling Error vs. Non-sampling Error

There are different types of errors that can occur when gathering statistical data. Sampling errors are the seemingly random differences between the characteristics of a sample population and those of the general population. Sampling errors arise because sample sizes are inevitably limited. (It is impossible to sample an entire population in a survey or a census.)

A sampling error can result even when no mistakes of any kind are made; sampling errors occur because no sample will ever perfectly match the data in the universe from which the sample is taken.

Company XYZ will also want to avoid non-sampling errors. Non-sampling errors are errors that result during data collection and cause the data to differ from the true values. Non-sampling errors are caused by human error, such as a mistake made in the survey process.

If one group of consumers only watches five hours of video programming a week and is included in the survey, that decision is a non-sampling error. Asking questions that are biased is another type of error.

What Is Sampling Error vs. Sampling Bias?

In statistics, sampling means selecting the group that you will actually collect data from in your research.

Sampling bias is the expectation, which is known in advance, that a sample won’t be representative of the true population. For instance, if the sample ends up having proportionally more women or young people than the overall population.

Sampling errors are statistical errors that arise when a sample does not represent the whole population once analyses have been undertaken.

Why Is Sampling Error Important?

Being aware of the presence of sampling errors is important because it can be an indicator of the level of confidence that can be placed in the results. Sampling error is also important in the context of a discussion about how much research results can vary.

How Do You Find the Sampling Error?

In survey research, sampling errors occur because all samples are representative samples: a smaller group that stands in for the whole of your research population. It’s impossible to survey the entire group of people you’d like to reach.

It’s not usually possible to quantify the degree of sampling error in a study since it’s impossible to collect the relevant data from the entire population you are studying. This is why researchers collect representative samples (and representative samples are the reason why there are sampling errors).

What Is Sampling Error vs. Standard Error?

Sampling error is derived from the standard error (SE) by multiplying it by a Z-score value to produce a confidence interval.

The standard error is computed by dividing the standard deviation by the square root of the sample size.

The Bottom Line

Sampling error occurs when a sample drawn from a population deviates somewhat from that true population. Large sampling errors can lead to incorrect estimates or inferences made about the population based on statistical analysis of that sample.

In general, sampling errors can be placed into four categories: population-specific error, selection error, sample frame error, or non-response error. A population-specific error occurs when the researcher does not understand who they should survey. A selection error occurs when respondents self-select their participation in the study. (This results in only those that are interested in responding, which skews the results.) A sample frame error occurs when the wrong sub-population is used to select a sample. Finally, a non-response error occurs when potential respondents are not successfully contacted or refuse to respond.

Источник

Глава восемнадцатая.

СБОР ДАННЫХ:
РЕАЛЬНЫЕ ПРОЦЕДУРЫ И СИСТЕМАТИЧЕСКИЕ
ОШИБКИ

Влияние
и значение систематических ошибок

ОШИБКА
В ВЫБОРКЕ

СИСТЕМАТИЧЕСКАЯ
ОШИБКА

В некоторых
ситуациях даже самые изощренные выборки
не могут избавить нас от систематических
ошибок.

Как вы, вероятно,
уже начинаете осознавать, зачастую
проблема систематических ошибок
оказывается

ОШИБКА
НЕНАБЛЮДЕНИЯ

Типы систематических ошибок

На рис. 18.1 представлены
основные типы систематических ошибок.
Они делятся на два основных типа:

ОШИБКА
НАБЛЮДЕНИЯ

ОШИБКИ НЕНАБЛЮДЕНИЯ

ОШИБКА
НЕОХВАТА

ОШИБКА
ПЕРЕБОРА

Систематическая
ошибка, возникающая вследствие повтора
позиций в сводке элементов выборки.

—

Таблица
18.1

Количество		Цена (долл.)	Количество		Цена (долл.)
12900	Розничная продажа детской одежды	45/1000	135	Книжные клубы	85
800	Торговля баранками	85	6300	Издательства	45/1000
30200	Розничная продажа хлеба	45/1000	1725	Издательства (крупнейшие)	45/1000
2400	Хлебопеки	45/1000	850	Оптовые торговцы книгами	85
600	Балетные труппы	85	24000	Бухгалтерский учет	45/1000
2450	Владельцы воздушных шаров	45/1000	20100	Книжные магазины	45/1000
10500	Руководители оркестров	45/1000	588	Книжные магазины, сети	85
16100	Ипотеки, руководство	45/1000	3100	Книжные магазины, учебная литература	45/1000
4100	Ипотеки, фирмы	45/1000	3300	Книжные магазины, религ. литература	45/1000
13790	Банки главные офисы	45/1000	132	Ботанические сады	85
324	Банки с капиталом свыше 1 млрд.	85	2700	Ботаники	45/1000
538	Банки с капиталом свыше 500 млн.	85	2600	Розлив безалк. напитков	45/1000
1278	Банки с капиталом свыше 200 млн.	85	4600	Магазины женской одежды	45/1000
3582	Банки с капиталом свыше 75 млн.	45/1000	7500	Кегельбаны	45/1000
8835	Банки с капиталом свыше 25 млн.	45/1000	6000	Производство тары	45/1000
12400	Банки с капиталом свыше 10 млн.	45/1000	530	Советы бой-скаутов	85
13245	Банки с капиталом свыше 5 млн.	45/1000	2400	Производство хлебопекарной продукции	45/1000
200	Банки с капиталом менее 5 млн.	85	14500	Каменщики	45/1000
40100	Отделения банков	45/1000	8290	Магазины для новобрачных	45/1000
20000	Банковские кассиры	45/1000	30100	Работники радиовещания	45/1000
209600	Банковские служащие	45/1000	4798	Радиостанции СВ-диапазона	45/1000
66700	Банковские служащие, женщины	45/1000	4428	Радиостанции FM-диапазон	45/1000
3490	Сбербанки, кредитование	45/1000	1050	Телевизионные станции	85
16800	Сбербанки, кредитование, филиалы	45/1000	211000	Брокеры и агенты, страхование	45/1000
6000	Работники траст-отдела банков	45/1000	207200	Брокеры и агенты, страхование (офисы)	45/1000
11030	Работники отдела кредитования	45/1000	3600	Брокеры (бизнес)	45/1000
243	Судьи по делам о несостоятельности	85	300000	Брокеры и агенты недв., инд.	45/1000
8400	Поставщики продукции для салонов красоты	45/1000	170000	Брокеры и агенты недв. (офисы)	45/1000
64200	Парикмахерские	45/1000	47000	Брокеры, ценные бумаги, оф. представ.	45/1000
81900	Бары, закусочные	45/1000	28400	Брокеры, ценные бумаги, офисы	45/1000
2800	Школы моделей	45/1000	17000	Брокеры, ценные бумаги, оф. представ.	85/1000
200000	Салоны красоты	45/1000	276000	Строительные подрядчики	45/1000
315	Пчеловоды	85	53900	Стройматериалы, дилеры	45/1000
90	Пивовары	85	46600	Стройматериалы, оптовики	45/1000
11900	Поставщики пива	45/1000	31300	Уборка помещений и офисов	45/1000
37000	Ученые-бихевиористы	45/1000	13600	Установка противоуг. систем	45/1000
170	Бюро консультаций в сфере бизнеса	85	19000	Печи (жидкое и тв.), дилеры	45/1000
4000	Розлив и постановка прохлад. напитков	45/1000	9000	Автобусные компании (все)	45/1000
26000	Производство прохлад. напитков	45/1000	5200	Автобусные компании (заказы)	45/1000
11700	Продажа и ремонт велосипедов	45/1000	3550	Автобусные компании (междугор.)	45/1000
2500	Бильярдные и залы для игр в пул	45/1000	4700	Автобусные компании (админ.)	45/1000
1380	Компании Billion Dollar	85	3600	Профессиональные брокеры	45/1000
5700	Биохимики	45/1000	3100	Профессиональные экономисты	45/1000
23700	Биологи	45/1000	2000000	Профессиональные администраторы	договорная
3900	Центры контроля за рождаемостью	45/1000	200000	Проф. администр. (дом. адреса)	договорная
6400000	Семьи афро-американцев	договорная	60000	Проф. адм., макс. окл. (адреса)	50/1000
4600	Банки крови	45/1000	4600	Производство коммер. бланков	45/1000
3000000	Производственные рабочие	договорная	9300	Конторские машины, дилеры	45/1000
5250	Гавани (морские)	45/1000	1000000	Бизнесмены (адреса)	договорная
12350	Торговцы судами	45/1000	2000000	Бизнесмены (мелкий бизнес)	договорная
21 000	Снабжение судов	45/1000	525	Школы бизнеса (академические)	85
567400	Владельцы судов (тип, длина, мощность)	50/1000	2000	Школы секретарей	45/1000
10000	Верфи, строительство и ремонт судов	45/1000	3700	Торговые организации	45/1000
14000	Отделы образования	45/1000	4530	Публикации на тему торговли	45/1000
67700	Ремонт кузовов автомобилей	45/1000	20400	Мясные лавки	45/1000
5000	Паровое оборудование	45/1000	8900	Мясо, оптовые поставки	45/1000

1) относятся к
разряду систематических ошибок и потому
не входят в стандартные статистические
зависимости;

2) как правило, не
могут быть устранены посредством
увеличения объема выборки;

3) могут иметь
существенный размер;

ОШИБКА
НЕПОЛУЧЕНИЯ ДАННЫХ

ДОЛЯ
ОТВЕТИВШИХ

Отношение
количества проведенных с респондентами
интервью к количеству приемлемых
респондентов в выборке.

ОТСУТСТВИЕ

ДОЛЯ
КОНТАКТОВ

ОТКАЗЫ
ОТ ИНТЕРВЬЮ

Каким образом
возможно скорректировать такую ошибку?
Рекомендуется использование трех
стратегий:

1. Увеличение доли
первичных ответов.

2. Повторные попытки.

3. Экстраполяция
полученной информации.

ДОЛЯ
ПОЛНЫХ ОТВЕТОВ

Мера
оценки и сравнения работы интервьюеров
по их умению получать от респондентов
всю требуемую информацию.

ОШИБКИ НАБЛЮДЕНИЯ

ОШИБКИ
СБОРА

Систематическая
ошибка, возникающая при сборе данных.

Рис.
18.4.
Опрос — модель возникновения ошибок

• ошибки чтения
0,293;

• варианты
вербализации 0,116;

• уточняющие
вопросы 0,140;

• обратная связь
0,161.

5. Реакция на
проведение опроса — проверка «качества»
работы интервьюера.

Систематическая ошибка (bias) исследования — это фактор, который приводит к неверной оценке ассоциации между изучаемым воздействием и эффектом. Даже самое строгое планирование условий исследования не избавляет от влияния ошибок, связанных с принципом отбора пациентов, сбора, передачи и интерпретации информации. Вот почему в ходе оценки полученных результатов необходимо критически анализировать возможность того, что выявленные ассоциации связаны с влиянием систематической ошибки, и дать оценку вероятности такого объяснения. В отличие от вероятности случайности ассоциации, которая может получить количественную оценку, эффект влияния систематической ошибки трудно поддается оценке, а нередко может просто оказаться неучтенным. В этой связи ключевым моментом в планировании любого исследования является создание таких условий, в которых любое возможное влияние систематической ошибки было бы заранее принято во внимание и сведено к минимуму. Однако даже при соблюдении этих условий на этапе планирования, на заключительном этапе необходимо оценить: не могла ли систематическая ошибка все-таки закрасться в исследование, каков вероятный источник этой ошибки, в каком направлении она могла повлиять на полученные результаты?

Имеются многочисленные классификации систематических ошибок, однако принципиально можно выделить два вида, в рамках которых есть отдельные варианты.

Первый вид можно обозначить как ошибку отбора (selection bias), источник которой — принцип отбора субъектов для участия в исследовании.

Второй вид обозначается как обсервационная, или информационная, ошибка (observation or information bias), и данный вид систематической ошибки связан с оценкой информации, касающейся патогенного воздействия и его эффекта (Shadish W. R. [et al.], 2001; Rossi P. H. [et al.], 2004; Rothman K. J. [et al.], 2008; Straus S. E., 2011).

Ошибка отбора. Отбор индивидуумов для участия в большинстве аналитических исследований проводится с учетом имевшего место патогенного воздействия (в когортных исследованиях) либо имеющегося эффекта этого воздействия, например развившегося заболевания (в исследованиях типа «случай — контроль»). Принципиально важно, чтобы на этапе отбора пациентов изучаемое воздействие и изучаемый эффект этого воздействия не учитывались одновременно и не могли одновременно влиять на принятие решения об отборе пациентов для участия в исследовании. Несоблюдение этого условия является источником ошибки отбора. Ошибка отбора возможна, если в исследовании «случай — контроль» отбор испытуемых каким-то образом связан с имевшим место патогенным воздействием, а в ко-гортных исследованиях — с установленным фактом развития заболевания. Ошибка отбора представляет наибольшую опасность для исследований «случай — контроль» и ретроспективных когортных исследований, так как к началу тех и других уже имеется информация о патогенном воздействии и развитии заболевания. Напротив, ошибка отбора маловероятна при осуществлении проспективных когортных исследований, когда на начальной стадии имеется лишь информация о воздействии, но отсутствуют сведения о его эффекте (Кельмансон И. А., 2002).

Ошибку отбора могут спровоцировать многочисленные обстоятельства, влияющие на подход к отбору пациентов для участия в исследовании:

различия в медицинском наблюдении за отдельными лицами;
частота обращений пациентов за медицинской и психологической помощью;
качество диагностики и т. п.

Кроме того, в исследованиях типа «случай — контроль» причиной ошибки отбора могут быть различия в высказывании согласия участвовать в исследовании лиц, относящихся к двум сопоставляемым группам. Например, семьи, характеризуемые низким социальным статусом, по ряду причин могут с большей вероятностью отказаться от участия в исследовании в качестве контрольных наблюдений, если целью такого исследования является изучение ассоциации между социальным неблагополучием и риском какого-либо заболевания.

Обсервационная (информационная) ошибка возникает в связи с систематическими различиями в способах получения информации об имевшемся предполагаемом патогенном воздействии или развитии заболевания в сопоставляемых группах. Если собранные данные являются неполными или неточными и в сопоставляемых группах эта неточность варьирует, не исключена возможность выявления ложной ассоциации. В зависимости от источника происхождения различают несколько вариантов обсервационных ошибок:

Ошибка воспроизведения (recall bias) возникает:

когда лица, страдающие анализируемым заболеванием, способны воспроизвести информацию о предполагаемом патогенном воздействии в предшествующий период иначе, нежели лица, не страдающие этим заболеванием. Такая ситуация особо вероятна в исследованиях «случай — контроль»;
когда лица, подвергшиеся изучаемому воздействию, способны предоставить информацию о потенциальных последствиях этого воздействия иным образом, чем те обследуемые, которые не испытали на себе патогенного воздействия (в проспективных когортных исследованиях).

Естественно, сказанное относится не только к самим обследуемым, но и к их окружению: родителям, другим родственникам, медицинскому персоналу. Ошибка воспроизведения может приводить как к недооценке, так и к переоценке выраженности предполагаемой ассоциации в зависимости от того, как наличие патологического состояния у обследуемых лиц влияет на получаемую информацию.

Ошибка интервьюера (interviewer bias) возникает в связи с систематическими различиями в методике сбора, регистрации и интерпретации интервьюерами информации, полученной у отдельных участников исследования независимо от дизайна исследований:

В исследованиях «случай — контроль» возникает особая опасность: осведомленность интервьюера о наличии или отсутствии заболевания у обследуемых может способствовать большей склонности к поиску и обнаружению предшествующих патогенных воздействий у лиц, страдающих заболеванием.
В ретроспективных когортных исследованиях существует та же опасность осведомленности интервьюера и опасность информационной ошибки в форме ошибки интервьюера.
В интервенционных исследованиях может наблюдаться ошибка интервьюера, если не используется плацебо-контроль и слепой метод .

Источником систематической информационной ошибки в когортных исследованиях может послужить фактор потери обследуемых (loss to follow-up) в ходе динамического наблюдения , особенно если процент таких потерь существенно различается в зависимости от отношения обследуемых к изучаемому воздействию и его эффекту.

Еще одним вариантом информационной ошибки является неверная классификация (misclassification), при которой неверно оценивается факт имевшегося патологического воздействия или его эффекта. Ошибки классификации неизбежно возникают в ходе любого исследования, однако их опасность становится наиболее значимой, если наличие изучаемого патологического состояния у пациента в определенном направлении влияет на качество распознавания предшествовавшего патогенного воздействия, или, напротив, факт патогенного воздействия в определенном направлении влияет на распознавание патологического состояния, связанного с этим воздействием , Такая ситуация именуется дифференцированной ошибкой, которая может существенно искажать результаты исследования.

Важнейшим принципом, которым следует руководствоваться для предотвращения систематической ошибки, является тщательное планирование исследования. В некоторых случаях можно усмотреть ошибку в ходе исследования и принять меры к ее минимизации или устранению, однако при наличии ошибки отбора ее устранение может представляться маловероятным. Вот почему стадия планирования исследования является в этом отношении критичной.

Можно отметить несколько ключевых позиций, учет которых позволяет избежать систематических ошибок. В их числе принцип формирования обследуемой выборки, требования к источникам информации, методики сбора и анализа данных. Имеются многочисленные факторы, которые предопределяют, в какой мере подходы к формированию выборки повлияют на снижения вероятности систематической ошибки , Например, использование госпитальных контрольных наблюдений в исследованиях «случай — контроль» позволяет улучшить сопоставимость обследуемых с точки зрения их желания принять участие в исследовании, нивелировать влияние факторов, предопределивших выбор медицинского учреждения, куда были госпитализированы пациенты и где они были обследованы. Указанные обстоятельства позволят снизить вероятность ошибки, связанной с отказом пациентов от участия в исследовании, избежать ошибки отбора и воспроизведения , Для когортных исследований и клинических испытаний, когда принципиальна возможность следить за судьбами обследуемых в течение заданного промежутка времени, основой отбора нередко является наличие точных сведений о месте жительства и занятости испытуемых. Кроме того, включение в исследование тех лиц, которые имеют повышенный риск развития изучаемого заболевания, позволяет ожидать большей заинтересованности в сотрудничестве с исследователем и более регулярных контактах.

Во многих аналитических исследованиях методика сбора информации может оказать принципиальное влияние на полученные результаты. С практической точки зрения минимизировать влияние систематической информационной ошибки удается, если обеспечены:

создание специального инструментария сбора информации в форме тестов, опросников, стандартных бланков и т. п.;
разработка такого протокола исследования, который позволит оптимально использовать выбранный инструментарий. Независимо от того, какова методика исследования, она должна последовательно реализовываться в процессе сбора информации в каждой из сопоставляемых групп (Кельмансон И. А., 2002).

Инструментарий. Наиболее существенным резервом снижения влияния систематической ошибки является использование максимально стандартизованных и объективных методик. Если предметом исследования являются показатели артериального давления, информацию обеспечивают данные анкетирования пациентов и данные нескольких измерений, проведенных квалифицированным медицинским персоналом с соблюдением техники измерения; очевидно, второй способ является более объективным и, следовательно, более предпочтительным. Если же источником информации является опрос обследуемых, следует стремиться к максимальной точности формулировок вопросов и однозначности их интерпретации анкетируемыми.

Протокол. Важнейшим подходом к минимизации потенциальной ошибки является стремление к сбору информации «вслепую». Персонал, который осуществляет сбор данных или обследование пациентов, не должен быть осведомлен о том, испытал ли пациент изучаемое воздействие, если проводится проспективное когортное или интервенционное исследование. Персонал не должен быть осведомлен о том, имеется ли у пациента изучаемое заболевание, предполагаемый эффект воздействия, если изучается возможное влияние предшествовавшего патогенного воздействия в ходе исследования «случай — контроль» . Более того, весьма желательно, чтобы сами обследуемые лица, по возможности, были минимально осведомлены о том, каков их собственный статус в исследовании, а также о том, какова суть гипотезы исследования. Очевидно, пределы неосведомленности во многом определяются этическими соображениями. Хотя эффективность исследования «вслепую» является доказанной с точки зрения снижения риска систематической информационной ошибки, полное соблюдение этого принципа не всегда представляется возможным.

Регламентация. Не менее важным подходом, позволяющим снизить потенциальный риск информационной ошибки, является обучение персонала стандартной и строгой методике сбора данных, использование четко регламентированного протокола исследования. Иногда берутся на вооружение специальные приемы, позволяющие заподозрить нарушения протокола, несоблюдение идентичности подхода к сбору информации в двух сопоставляемых группах. Так, возможно сопоставление частоты, с которой лица, относящиеся к двум группам, указывают на наличие у них фиктивных переменных (dummy variables), никак не связанных ни с предполагаемым патогенным воздействием, ни с изучаемым заболеванием или, напротив, имеющих с ними доказанную, четко определенную связь.

Пример
При исследовании возможной ассоциации между приемом матерью транквилизаторов во время беременности и риском нарушений сна у ребенка первого года жизни можно попросить обследуемых женщин дать ответ на вопрос: принимали ли они во время беременности, кроме транквилизаторов, иные лекарственные препараты, в частности такие лекарства, для которых доказано отсутствие связи с последующим риском нарушений сна у ребенка. Например, можно попросить ответить на вопрос о приеме ими слабительных препаратов. Если сопоставление частоты употребления лекарственных препаратов во время беременности женщинами, дети которых имели нарушения сна, и женщин, дети которых не имели нарушений сна, выявит более частое использование транквилизаторов у женщин из первой группы, но не выявит различий в использовании слабительных, можно думать о том, что ассоциация действительно является значимой. Напротив, наличие достоверных различий между двумя сопоставляемыми группами в частоте использования и транквилизаторов и слабительных позволит заподозрить, что они связаны с влиянием ошибки воспроизведения или ошибки интервьюера. С другой стороны, в опросник можно было бы включить сведения о курении матери во время беременности — доказанном факторе риска нарушений сна у ребенка первого года жизни (Kelmanson I. A., 2009). Если в ходе исследования одновременно с выявлением ассоциации между использованием матерью транквилизаторов во время беременности и риском нарушений сна у ребенка будет также воспроизведена и доказанная ассоциация между курением матери во время беременности и риском нарушений сна у ребенка, это может послужить дополнительным аргументом в пользу валидности исследования.

Дублирующие вопросы. В опросник включают несколько вопросов, сформулированных по-разному, но принципиально направленных на поиск одной и той же ассоциации. Различия в выявленных ассоциациях, оцениваемых на основе ответов на дублирующие друг друга вопросы, могут навести на мысль о существовании систематической ошибки. Учет времени, потраченного интервьюером на беседу с пациентом, позволяет определить, не тратит ли интервьюер систематически больше или меньше времени на получение информации у представителей той или иной группы, что также может явиться источником систематической ошибки.

Наконец, может быть полезным включение в опросник шкалы, позволяющей интервьюеру дать собственную субъективную оценку того, насколько конкретный пациент адекватно воспринимает задаваемые ему вопросы и дает на них ответы. В дальнейшем субъекты с неудовлетворительными оценками качества своих ответов могут быть исключены из исследования или проанализированы отдельно.

Источник информации оказывает существенное влияние и на вероятность систематической ошибки. Сведения об имевшемся патогенном воздействии и о наличии заболевания могут быть получены в результате непосредственного опроса обследуемых лиц, анализа медицинской документации, статистики рождаемости и смертности, а также в результате непосредственного измерения интересующих показателей. Наиболее надежным источником информации следует признать медицинскую документацию, оформленную до начала исследования, как наименее подверженную влиянию субъективных оценок, связанных с целями и задачами исследования, и максимально свободную от влияния информационной ошибки. В то же время такие архивные документы могут не содержать сведений о ряде признаков, непосредственно интересующих исследователя. Более того, степень информационных пробелов может существенно различаться в отдельных сопоставляемых группах наблюдений.

Пример
Анализ архивных документов, относящихся к детям из отдельных категорий риска (недоношенные, маловесные, имеющие врожденные пороки развития и т. п.), убеждает в более пристрастном отношении медицинских работников к активному выявлению отягощающих моментов акушерско-гинекологического анамнеза, чем в случае рождения ребенка без явных клинических признаков патологии (Кельмансон И. А., 2002). Данный пример иллюстрирует необходимость по мере возможности использовать и сопоставлять различные источники информации.

Исследования, основанные на анализе медицинской документации, могут предполагать использование стационарных историй болезни, патологоанатомических протоколов, а также амбулаторных данных. Сведения, полученные с помощью опросников и анкетирования обследуемых субъектов, могут дополняться и верифицироваться данными анализа медицинской документации. Следует понимать, что потребность в верификации данных о наличии патогенного воздействия или заболевания во многом зависит от самой природы изучаемого заболевания. Все анализируемые воздействия и вероятные исходы этих воздействий должны иметь четкие критерии для их констатации. В случаях распознавания отдельных заболеваний (патологических состояний) нередко говорят о существовании принятого «золотого стандарта», и качество исследования во многом определяется тем, использовался ли этот стандарт для верификации диагноза. Нередко в качестве «золотого стандарта» выступают критерии, разработанные экспертами ВОЗ или иными авторитетными экспертами на основе консенсуса.

Несмотря на усилия избежать систематической ошибки на стадии планирования исследования, всегда существует вероятность ее наличия. Вот почему на стадии анализа и обсуждения полученных результатов требуется дать критическую оценку:

Какая ошибка и в какой мере могла повлиять на полученные результаты?
В каком направлении — маскирования истинной ассоциации или ее гиперболизации — систематическая ошибка могла повлиять на полученные результаты?
Какова возможная степень этого искажения?

Такие оценки не имеют количественного выражения и не могут быть проверены с использованием какого-то статистического критерия: они основаны лишь на здравом смысле и понимании конкретной клинической ситуации, сопряженной с исследованием.

Следует также иметь в виду, что отдельные варианты исследований в разной мере подвержены влиянию систематических ошибок конкретных видов:

— Исследования «случай — контроль». В максимальной степени возможна ошибка, связанная со следующими обстоятельствами:

сведения о статусе обследуемого в отношении наличия или отсутствия у него заболевания могут влиять на принятие решения в отношении имевшегося патогенного воздействия (ошибка воспроизведения);
сведения об имевшемся или отсутствовавшем патогенном воздействии могут повлиять на выявление распознаваемого заболевания (ошибка отбора) (Кельмансон И. А., 2002).

— Когортные исследования, Особую тревогу вызывает ошибка, связанная с потерями обследуемых в ходе динамического наблюдения .

— Интервенционные исследования. Вероятность обсервационной ошибки зависит во многом от характера сопоставляемых групп, использования плацебо и степени объективности оценки результатов.

В любом исследовании возможна ошибка классификации. При этом принципиально важно следующее:

дифференцированная ошибка может приводить как к занижению, так и к завышению реальной ассоциации;
недифференцированная ошибка приводит лишь к занижению ассоциации .

Источник

Обновлено: 09.06.2023

Статистическая методология исследования массовых явлений различает, как известно, два способа наблюдения в зависимости от полноты охвата объекта: сплошное и несплошное. Разновидностью несплошного наблюдения является выборочное, которое в условиях рыночных отношений в России находит все более широкое применение. Переход статистики РФ на международные стандарты системы национального счетоводства требует более широкого применения выборки для получения и анализа показателей СНС не только в промышленности, но и в других секторах экономики.

Под выборочным наблюдением понимается несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным способом. Выборочное наблюдение ставит перед собой задачу ‑ по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц.

К выборочному наблюдению статистика прибегает по различным причинам. На современном этапе появилось множество субъектов хозяйственной деятельности, которые характерны для рыночной экономики. Речь идет об акционерных обществах, малых и совместных предприятиях, фермерских хозяйствах и т.д. Сплошное обследование этих статистических совокупностей, состоящих из десятков и сотен тысяч единиц, потребовало бы огромных материальных, финансовых и иных затрат. Использование же выборочного обследования позволяет значительно сэкономить силы и средства, что имеет немаловажное значение.

Наряду с экономией ресурсов одной из причин превращения выборочного наблюдения в важнейший источник статистической информации является возможность значительно ускорить получение необходимых данных. Ведь при обследовании, скажем, 10% единиц совокупности будет затрачено гораздо меньше времени, а результаты могут быть представлены быстрее, и будут более актуальными. Фактор времени важен для статистического исследования особенно в условиях изменяющейся социально-экономической ситуации.

Реализация выборочного метода базируется на понятиях генеральной и выборочной совокупностей.

Генеральной совокупностью называется вся исходная изучаемая статистическая совокупность, из которой на основе отбора единиц или групп единиц формируется совокупность выборочная. Поэтому генеральную совокупность также называют основой выборки.

Отбор единиц в выборочную совокупность может быть повторным или бесповторным.

При повторном отборе попавшая в выборку единица подвергается обследованию, т.е. регистрации значений ее признаков, возвращается в генеральную совокупность и наравне с другими единицами участвует в дальнейшей процедуре отбора. Таким образом, некоторые единицы могут попадать в выборку дважды, трижды или даже большее число раз. И при изучении выборочной совокупности они будут рассматриваться как отдельные независимые наблюдения.

Отметим, что число единиц генеральной совокупности, участвующих в отборе, при таком подходе остается постоянным. Поэтому вероятность попадания в выборку для всех единиц совокупности на протяжении всего процесса отбора также не меняется.

На практике методология повторного отбора обычно используется в тех случаях, когда объем генеральной совокупности не известен и теоретически возможно повторение единиц с уже встречавшимися значениями всех регистрируемых признаков.

Например, при проведении маркетинговых исследований мы не можем сколько-нибудь точно оценить, какое число потребителей предпочитают стиральный порошок конкретной торговой марки, сколько покупателей предпочитают делать покупки именно в данном супермаркете и т.д. Поэтому возможно повторение совершенно идентичных единиц как по причине практически неограниченных объемов совокупности, так и вследствие возможной повторной регистрации. Предположим, при проведении обследования один и тот же покупатель может дважды прийти в магазин и дважды подвергнуться обследованию.

При выборочном контроле качества продукции объем генеральной совокупности также часто не определен, так как процесс производства может осуществляться постоянно, каждый день дополняя генеральную совокупность новыми единицами-изделиями. Поэтому в выборочную совокупность могут попасть два и более изделий с абсолютно одинаковыми характеристиками. Следовательно, и в этом случае при обработке результатов выборки необходимо ориентироваться на методологию, используемую при повторном отборе.

При бесповоротном отборе попавшая в выборку единица подвергается обследованию и в дальнейшей процедуре отбора не участвует. Такой отбор целесообразен и практически возможен в тех случаях, когда объем генеральной совокупности четко определен. Получаемые при этом результаты, как правило, являются более точными по сравнению с результатами, основанными на повторной выборке.

Как уже отмечалось выше, выборочное наблюдение всегда связано с определенными ошибками получаемых характеристик. Эти ошибки называются ошибками репрезентативности (представительности).

Ошибки репрезентативности обусловлены тем обстоятельством, что выборочная совокупность не может по всем параметрам в точности воспроизвести совокупность генеральную. Получаемые расхождения или ошибки репрезентативности позволяют заключить, в какой степени попавшие в выборку единицы могут представлять всю генеральную совокупность. При этом следует различать систематические и случайные ошибки репрезентативности.

Систематические ошибки репрезентативности связаны с нарушением принципов формирования выборочной совокупности. Например, вследствие каких-либо причин, связанных с организацией отбора, в выборку попали единицы, характеризующиеся несколько большими или, наоборот, несколько меньшими по сравнению с другими единицами значениями наблюдаемых признаков. В этом случае и рассчитанные выборочные характеристики будут завышенными или заниженными.

Случайные ошибки репрезентативности обусловлены действием случайных факторов, не содержащих каких-либо элементов системности в направлении воздействия на рассчитываемые выборочные характеристики. Но даже при строгом соблюдении всех принципов формирования выборочной совокупности выборочные и генеральные характеристики будут несколько различаться. Получаемые случайные ошибки могут быть статистически оценены и учтены при распространении результатов выборочного наблюдения на всю генеральную совокупность. Оценка ошибок выборочного наблюдения основана на теоремах теории вероятностей.

При дальнейшем рассмотрении теории и методов выборочного наблюдения используются следующие общепринятые условные обозначения:

N ‑ объем (число единиц) генеральной совокупности;

n ‑ объем (число единиц) выборочной совокупности;

‑ генеральная средняя, т.е. среднее значение изучаемого признака по генеральной совокупности (средняя прибыль, средняя величина активов, средняя численность работников предприятия и т.п.);

‑ выборочная средняя,
т.е. среднее значение изучаемого признака по выборочной совокупности;

М ‑ численность единиц генеральной совокупности, обладающих определенным вариантом или вариантами изучаемого признака (численность городского населения, численность сельского населения, количество бракованных изделий, число нерентабельных предприятий и т.п.);

р ‑ генеральная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, во всей генеральной совокупности (доля городского населения в общей численности населения, доля бракованной продукции в общем выпуске, доля нерентабельных предприятий в общей численности предприятий и т.п.); определяетcя как

m ‑ численность единиц выборочной совокупности, обладающих определенным вариантом или вариантами изучаемого признака;

w ‑ выборочная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, в выборочной совокупности,

‑ средняя ошибка выборки;

‑ предельная ошибка выборки;

‑ коэффициент доверия, определяемый в зависимости от уровня вероятности.

Ошибка выборки или отклонение выборочной средней от средней генеральной находится в прямой зависимости от дисперсии изучаемого признака в генеральной совокупности, и в обратной зависимости ‑ от объема выборки.

Таким образом среднюю ошибку выборки можно представить как

При проведении выборочного наблюдения дисперсия изучаемого признака в генеральной совокупности, как правило, не известна. В то же время, между генеральной дисперсией и средней из всех возможных выборочных дисперсий существует следующее соотношение:

В связи с тем, что на практике в большинстве случаев из генеральной совокупности в определенный момент времени производится только одна выборка, дисперсия изучаемого признака по этой выборке и используется при расчете ошибки.

Учитывая, что при достаточно большом объеме выборки отношение близко к 1, формула средней ошибки повторной выборки принимает следующий вид:

Где ‑ дисперсия изучаемого признака по выборочной совокупности.

При определении возможных границ значений характеристик генеральной совокупности рассчитывается предельная ошибка выборки, которая зависит от величины ее средней ошибки и уровня вероятности, с которым гарантируется, что генеральная средняя не выйдет за указанные границы.

Согласно теореме А.М. Ляпунова, вероятность той или иной величины предельной ошибки, при достаточно большом объеме выборочной совокупности, подчиняется нормальному закону распределения и может быть определена на основе интеграла Лапласа.

Значения интеграла Лапласа при различных величинах t табулированы и представлены в статистических справочниках.

При обобщении результатов выборочного наблюдения наиболее часто используются следующие уровни вероятности и соответствующие им значения t:

Таблица 10.1 ‑ . Некоторые значения t

Вероятность, р_i.	0,683	0,866	0,954	0,988	0,997	0,999
Значение t	1,0	1,5	2,0	2,5	3,0	3,5

Например, если при расчете предельной ошибки выборки мы используем значение t=2, то с вероятностью 0,954 можно утверждать, что расхождение между выборочной средней и генеральной средней не превысит двукратной величины средней ошибки выборки.

Теоретической основой для определения границ генеральной доли, т.е. доли единиц, обладающих тем или иным вариантом признака, является теорема Вернули. Согласно данной теореме вероятность получения сколь угодно малого расхождения между выборочной долей и генеральной долей при достаточно большом объеме выборки будет стремиться к единице. С учетом того, что вероятность расхождения между выборочной и генеральной долями подчиняется нормальному закону распределения, эта вероятность также определяется по функции F(t) при заданном значении t.

Процесс подготовки и проведения выборочного наблюдения включает ряд последовательных этапов:

Определение цели обследования.
Установление границ генеральной совокупности.
Составление программы наблюдения и программы разработки данных
Определение вида выборки, процента отбора и метода отбора
Отбор и регистрация наблюдаемых признаков у отобранных единиц.
Насчет выборочных характеристик и их ошибок.
Распространение полученных результатов на генеральную совокупность.

В зависимости от состава и структуры генеральной совокупности выбирается вид выборки или способ отбора.

К наиболее распространенным на практике видам относятся:

собственно-случайная (простая случайная) выборка;
механическая (систематическая) выборка;
типическая (стратифицированная, расслоенная) выборка;
серийная (гнездовая) выборка.

Отбор единиц из генеральной совокупности может быть комбинированным, многоступенчатым и многофазным.

Комбинированный отбор предполагает объединение нескольких видов выборки. Так, например, можно комбинировать типическую и серийную, серийную и собственно-случайную выборки. Ошибка такой выборки определяется ступенчатостью отбора.

Многоступенчатым называется отбор, при котором из генеральной совокупности сначала извлекаются укрупненные группы, потом ‑ более мелкие и так до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.

Многофазная выборка, в отличие от многоступенчатой, предполагает сохранение одной и той же единицы отбора на всех этапах его проведения; при этом отобранные на каждой стадии единицы подвергаются обследованию, каждый раз – по более расширенной программе.

Собственно-случайная (простая случайная) выборка заключается в отборе единиц из генеральной совокупности наугад или наудачу без каких-либо элементов системности.

Однако прежде чем производить собственно-случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования отдельных единиц и т.п. Следует также установить четкие границы генеральной совокупности таким образом, чтобы включение или не включение в нее отдельных единиц не вызывало сомнений. Так, например, при обследовании студентов необходимо указать, будут ли приниматься во внимание лица, находящиеся в академическом отпуске, студенты негосударственных вузов, военных училищ и т.п.; при обследовании торговых предприятий важно определиться, включит ли генеральная совокупность торговые павильоны, коммерческие палатки и прочие подобные объекты.

Технически собственно-случайный отбор проводят методом жеребьевки или по таблице случайных чисел.

Расчет ошибок позволяет решить одну из главных проблем организации выборочного наблюдения – оценить репрезентативность (представительность) выборочной совокупности.

Различают среднюю и предельную ошибки выборки. Эти два вида связаны следующим соотношением:

Величина средней ошибки выборки рассчитывается дифференцированно в зависимости от способа отбора и процедуры выборки.

Так, при собственно-случайном повторном отборе средняя ошибка определяется по формуле:

а при расчете средней ошибки собственно-случайной бесповторной выборки:

Расчет средней и предельной ошибок выборки позволяет определить возможные пределы, в которых будут находиться характеристики генеральной совокупности.

Например, для выборочной средней такие пределы устанавливаются на основе следующих соотношений:

где и ‑ генеральная и выборочная средняя соответственно;

‑ предельная ошибка выборочной средней.

Пример.

При проверке веса импортируемого груза на таможне методом случайной повторной выборки было отобрано 200 изделий. В результате был установлен средний вес изделия 30 г. при среднем квадратическом отклонении 4 г. С вероятностью 0,997 определите пределы, в которых находится средний вес изделия в генеральной совокупности.

Решение. Рассчитаем сначала предельную ошибку выборки. Так как при р = 0,997, t = 3, она равна:

Определим пределы генеральной средней:

или

Вывод: Следовательно, с вероятностью 0,997 можно утверждать, что средний вес изделий в генеральной совокупности находится в пределах от 29,16 г. до 30,84 г.

Пример 2.

В городе проживает 250 тыс. семей. Для определения среднего числа детей в семье была организована 2%-ная случайная бесповторная выборка семей. По ее результатам было получено следующее распределение семей по числу детей:

Таблица 10.2 ‑ Распределение семей по числу детей в городе N

С вероятностью 0,954 определите пределы, в которых будет находиться среднее число детей в генеральной совокупности.

Решение. В начале на основе имеющегося распределения семей определим выборочные среднюю и дисперсию:

Каждая единица при выборочном наблюдении должна иметь равную с другими возможность быть отобранной – это является основой собственнослучайной выборки.

Собственнослучайная выборка – это отбор единиц из всей генеральной совокупности посредством жеребьевки или другим подобным способом.

Принципом случайности является то, что на включение или исключение объекта из выборки не может повлиять любой фактор, кроме случая.

Доля выборки – это отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

Собственнослучайный отбор в чистом виде является исходным среди всех других видов отбора, в нем заключаются и реализуются основные принципы выборочного статистического наблюдения.

Два основных вида обобщающих показателей, которые используют в выборочном методе – это средняя величина количественного признака и относительная величина альтернативного признака.

Выборочная доля (w), или частность, определяется отношением числа единиц, обладающих изучаемым признаком m, к общему числу единиц выборочной совокупности (n):

Для характеристики надежности выборочных показателей различают среднюю и предельную ошибки выборки.

Ошибка выборки, ее еще называют ошибкой репрезентативности, представляет собой разность соответствующих выборочных и генеральных характеристик:

1) для средней количественного признака:

2) для доли (альтернативного признака):

Только выборочным наблюдениям присуща ошибка выборки

Выборочная средняя и выборочная доля – это случайные величины, принимающие различные значения в зависимости от единиц изучаемой статистической совокупности, которые попали в выборку. Соответственно ошибки выборки – тоже случайные величины и также могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок – среднюю ошибку выборки.

Средняя ошибка выборки определяется объемом выборки: чем больше численность при прочих равных условиях, тем меньше величина средней ошибки выборки. Охватывая выборочным обследованием все большее количество единиц генеральной совокупности, все более точно характеризуем всю генеральную совокупность.

Средняя ошибка выборки зависит от степени варьирования изучаемого признака, в свою очередь степень варьирования характеризуется дисперсией ? 2 или w(l – w) – для альтернативного признака. Чем меньше вариация признака и дисперсия, тем меньше средняя ошибка выборки, и наоборот.

При случайном повторном отборе средние ошибки теоретически рассчитывают по следующим формулам:

1) для средней количественного признака:

где ? 2 – средняя величина дисперсии количественного признака.

2) для доли (альтернативного признака):

Так как дисперсия признака в генеральной совокупности ? 2 точно неизвестна, на практике пользуются значением дисперсии S 2 , рассчитанным для выборочной совокупности на основании закона больших чисел, согласно которому выборочная совокупность при достаточно большом объеме выборки достаточно точно воспроизводит характеристики генеральной совокупности.

Формулы средней ошибки выборки при случайном повторном отборе следующие. Для средней величины количественного признака: генеральная дисперсия выражается через выборную следующим соотношением:

где S 2 – значение дисперсии.

Механическая выборка – это отбор единиц в выборочную совокупность из генеральной, которая разбита по нейтральному признаку на равные группы; производится так, что из каждой такой группы в выборку отбирается лишь одна единица.

При механическом отборе единицы изучаемой статистической совокупности предварительно располагают в определенном порядке, после чего отбирают заданное число единиц механически через определенный интервал. При этом размер интервала в генеральной совокупности равен обратному значению доли выборки.

При достаточно большой совокупности механический отбор по точности результатов близок к собственнослучайному Поэтому для определения средней ошибки механической выборки используют формулы собственнослучайной бесповторной выборки.

Для отбора единиц из неоднородной совокупности применяется так называемая типическая выборка, используется, когда все единицы генеральной совокупности можно разбить на несколько качественно однородных, однотипных групп по признакам, от которых зависят изучаемые показатели.

Затем из каждой типической группы собственнослучайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность.

Типическая выборка обычно применяется при изучении сложных статистических совокупностей.

Типическая выборка дает более точные результаты. Типизация генеральной совокупности обеспечивает репрезентативность такой выборки, представительство в ней каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. Поэтому при определении средней ошибки типической выборки в качестве показателя вариации выступает средняя из внутригрупповых дисперсий.

Серийная выборка предполагает случайный отбор из генеральной совокупности равновеликих групп для того, чтобы в таких группах подвергать наблюдению все без исключения единицы.

Поскольку внутри групп (серий) обследуются все без исключения единицы, средняя ошибка выборки (при отборе равновеликих серий) зависит только от межгрупповой (межсерийной) дисперсии.

Данный текст является ознакомительным фрагментом.

Продолжение на ЛитРес

Ошибки резидента

Ошибки резидента Относиться к ошибкам можно по-разному: можно бояться их совершить и переживать из-за каждой из них, можно радоваться своим ошибкам и кризисам, как указателям на пути к успеху и личным победам. Неизменно в ошибках только одно – за них приходится платить.

Формирование выборки

Формирование выборки Процедура выборки является неотъемлемым этапом проекта внутреннего аудита. Она подробно описана в различных источниках, посвященных теме аудита. Однако во многом такие описания носят академичный характер. Предлагаю заострить внимание на тех

Ошибки в инвестициях – это ошибки инвесторов

Ошибки в инвестициях – это ошибки инвесторов Сейчас я больше, чем когда бы то ни было, убежден в том, что все ошибки в инвестициях на самом деле ошибки инвесторов.Инвестиции не совершают ошибок. В отличие от инвесторов.Инвестирование – это выбор. Именно об этой

29. Определение необходимой численности выборки

29. Определение необходимой численности выборки Одним из научных принципов в теории выбороч–ного метода является обеспечение достаточного чи–сла отобранных единиц.Уменьшение стандартной ошибки выборки всег–да связано с увеличением объема выборки. Расчет

30. Способы отбора и виды выборки. Собственно случайная выборка

30. Способы отбора и виды выборки. Собственно случайная выборка В теории выборочного метода разработаны раз–личные способы отбора и виды выборки, обеспечи–вающие репрезентативность. Под способом отбора понимают порядок отбора единиц из генеральной со–вокупности.

31. Механическая и типическая выборки

31. Механическая и типическая выборки При чисто механической выборке вся ге–неральная совокупность единиц должна быть прежде всего представлена в виде списка единиц отбора, со–ставленного в каком-то нейтральном по отношению к изучаемому признаку порядке. Затем список

32. Серийная и комбинированная выборки

32. Серийная и комбинированная выборки Серийная (гнездовая) выборка – это такой вид формирования выборочной совокупности, когда в случайном порядке отбираются не единицы, подле–жащие обследованию, а группы единиц (серии, гнез–да). Внутри отобранных серий (гнезд)

33. Многоступенчатая, многофазная и взаимопроникающая выборки.

33. Многоступенчатая, многофазная и взаимопроникающая выборки. Особенность многоступенчатой выборки со–стоит в том, что выборочная совокупность формиру–ется постепенно, по ступеням отбора. На первой ступени с помощью заранее определенного спосо–ба и вида отбора

3. Определение необходимой численности выборки

3. Определение необходимой численности выборки Одним из научных принципов в теории выборочного метода является обеспечение достаточного числа отобранных единиц. Теоретически необходимость соблюдения этого принципа представлена в доказательствах предельных теорем

4. Способы отбора и виды выборки

4. Способы отбора и виды выборки В теории выборочного метода разработаны различные способы отбора и виды выборки, обеспечивающие репрезентативность. Под способом отбора понимают порядок отбора единиц из генеральной совокупности. Различают два способа отбора: повторный

36. Ошибки выборки

36. Ошибки выборки Собственнослучайная выборка – это отбор единиц из всей генеральной совокупности посредством жеребьевки или другим подобным способом. Принципом случайности является то, что на включение или исключение объекта из выборки не может повлиять любой фактор,

Лексические ошибки

Лексические ошибки 1. Неправильное использование слов и терминовОсновная масса ошибок в деловых письмах относится к лексическим. Недостаточная грамотность приводит не только к курьезной бессмыслице, но и абсурду.Отдельные термины и профессиональные жаргонные слова

5 Наши ошибки

5 Наши ошибки Мы настаиваем: выбранный курс рыночных реформ был верным. И они вовсе не потерпели неудачу, они только еще раз споткнулись. Но ошибки и упущения были. Это и наши ошибки, и ошибки руководства страны, которые мы не сумели предотвратить. Ошибки — во многом

Важность размера выборки

Важность размера выборки Как я уже говорил, люди склонны уделять слишком много внимания редким случаям возникновения какого-то феномена, несмотря на то что со статистической точки зрения из нескольких случаев невозможно извлечь много информации. Это – основная причина

Репрезентативные выборки

Репрезентативные выборки Репрезентативность наших тестов для целей предсказания будущего определяется двумя факторами:– Количество рынков: тесты, проводимые на различных рынках, будут, скорее всего, включать рынки с разной степенью волатильности типов

Размер выборки

Размер выборки Концепция размера выборки проста: для того чтобы делать статистически достоверные заключения, нужно иметь достаточно большую выборку. Чем меньше выборка, тем грубее выводы, которые можно сделать; чем выборка больше, тем выводы качественнее. Нет никакого

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
Юридические лица России (2,2 млн. на начало 2005 года)
Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:

Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Курс лекций по теории статистики

Калькулятор расчета ошибки и размера выборки (для простой случайной выборки)

Пояснения к полям:
Доверительная вероятность
Вероятность того, что доверительный интервал накроет неизвестное истинное значение параметра, оцениваемого по выборочным данным. В практике исследований чаще всего используют 95%-ую доверительную вероятность
Ошибка выборки (доверительный интервал)
Интервал, вычисленный по выборочным данным, который с заданной вероятностью (доверительной) накрывает неизвестное истинное значение оцениваемого параметра распределения.
Доля признака
Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют, необходимо использовать значение равное 50, при котором достигается максимальная ошибка.

Калькулятор расчета статистической значимости различий

Калькулятор позволяет проверить есть ли статистически значимая разница между долями признака, полученными из независимых выборок.
Например, если до начала рекламной кампании марку знали 55% респондентов, а по окончании – 60% — есть ли между этими долями статистически значимая разница, или же эта разница укладывается в ошибку выборки?
Примечание. Эта процедура может законно использоваться, только если обе выборки удовлетворяют следующему условию: произведения n*p и n*(1-p), где n=размер выборки а p=доля признака, должны быть не меньше 5.

Оставить свои комментарии по затронутой теме Вы можете на наших страницах в Facebook и Вконтакте.

Задача выборочного наблюдения — дать верное представление о сводных показателях всей совокупности факторов на основе некоторой их части, подвергнутой обследованию, т.е. определение характеристик генеральной совокупности по выборочным данным. Чаще других при выборочном наблюдении исследуется либо среднее значение того или иного признака у единиц совокупности (например, средняя урожайность, средняя заработная плата и т.д.), либо доля единиц обладающих тем или иным признаком, т.е. удельный вес определённых единиц в совокупности (например, доля орошаемых земель, доля отдельных пород деревьев в лесном массиве и т.д.).

Поскольку речь идёт о варьирующих признаках и изучают не всю совокупность единиц, а только их часть, то можно заранее сказать, что сводные показатели по этим признакам у части единиц совокупности почти никогда не будут абсолютно совпадать со сводными показателями всей статистической совокупности. Выборочные показатели, как правило, не совпадают с соответствующими показателями генеральной совокупности, а несколько отличаются от них в одну или другую сторону, т.е. при выборочном наблюдении всегда могут возникнуть ошибки, которые можно подразделить на ошибки регистрации и ошибки репрезентативности.

Ошибки регистрации при выборочном наблюдении, как и при сплошном, могут возникнуть по разным причинам: и по вине того, кто проводит наблюдение, и по вине отвечающего на те или иные вопросы, и от способа наблюдения. Но если тщательно провести подготовку кадров и продумать организацию проведения наблюдения, то в силу ограниченности выборочной совокупности (по сравнению с генеральной совокупностью) ошибки регистрации можно свести к минимуму или, во всяком случае, уменьшить их по сравнению с ошибками регистрации сплошного наблюдения.

Ошибка репрезентативности (представительства) свойственна лишь выборочному наблюдению и представляет собой величину возможных расхождений между показателями выборочной и генеральной совокупности.

Ошибки репрезентативности в свою очередь могут иметь случайный характер и систематический.

Систематическая ошибка — это ошибка, тенденциозно искажающая величину исследуемого признака в сторону её увеличения или уменьшения. Возникает она главным образом в результате нарушения случайности отбора.

Случайная ошибка — это ошибка, имеющая одинаковую величину вероятности в сторону уменьшения или увеличения изучаемого показателя; это ошибка, появление которой возможно в результате сущности содержания самого выборочного (не сплошного) наблюдения, в силу того, что исследуется часть, а не вся статистическая совокупность.

Определение величины случайных ошибок репрезентативности и является одной из главных задач теории выборочного метода. Их фиксирование позволяет судить о точности выборки, о возможности распространения выборочных характеристик на генеральную совокупность.

Случайные ошибки выборки определяются по формулам, разработанным на основе теории вероятностей и носят вероятностный характер.

3.2 Методы определения ошибки выборки

Возможные расхождения между характеристиками выборочной и генеральной совокупности измеряются средней ошибкой выборки u &. В математической статистике, которая лежит в основе всех расчётов показателей выборочных совокупностей, доказывается, что значения средней ошибки выборки определяются по формуле:

m- средняя ошибка выборки;

s2 генеральная дисперсия;

n — численность единиц выборочной совокупности.

Использование данной формулы предполагает, что известна генеральная дисперсия. Но при проведении выборочных исследований эти показатели, как правило, неизвестны. Применение выборочного метода как раз и предполагает определение характеристик генеральной совокупности.

На практике для определения средней ошибки выборки обычно используются дисперсии выборочной совокупности. Эта замена основана на том, что при соблюдении принципа случайного отбора дисперсия достаточно большого объёма выборки стремиться отобразить дисперсию в генеральной совокупности.

В математической статистике доказано следующее соотношение между дисперсиями в генеральной и выборочной совокупностях:

Из приведённой формулы видно, что дисперсия выборочной совокупности меньше дисперсии в генеральной совокупности на величину определяемую отношением:

Если n достаточно велико, то данное отношение близко к единице.

Например, при n = 100 оно равно 1,01, а при n = 500 оно равно 1,002. Поэтому с определённой долей погрешности формулу расчёта средней ошибки выборки можно представить в следующем виде.

Однако следует иметь в виду, что данная формула применяется для определения средней ошибки выборки лишь при повторном отборе. Поскольку при бесповторном отборе численность генеральной совокупности N в ходе выборки сокращается, то в формулу для расчёта n средней ошибки выборки включают дополнительный множитель. Формула средней ошибки выборки принимает следующий вид:

Для практики выборочных обследований важно, что средняя ошибка выборки применяется для установления предела отклонений характеристик выборки из соответствующих показателей генеральной совокупности. Лишь с определённой степенью вероятности можно утверждать, что эти отклонения не превысят величины t u, которая в статистике называется предельной ошибкой выборки.

Предельная ошибка выборки связана со средней ошибкой выборки u отношением:

При этом t как коэффициент кратности средней ошибки выборки зависит от вероятности, с которой гарантируется величина предельной ошибки выборки. Обычно в практике экономических исследований обычно ограничиваются значением t не превышающим двух трёх единиц.

Раздел: Экономика
Количество знаков с пробелами: 18349
Количество таблиц: 0
Количество изображений: 0

Ошибка выборки – это статистическая ошибка, которая возникает, когда аналитик не выбирает выборку, которая представляет всю совокупность данных, а результаты, найденные в выборке, не представляют результаты, которые были бы получены для всей генеральной совокупности. Выборка – это анализ, выполняемый путем выбора ряда наблюдений из более широкой совокупности, и этот выбор может привести как к ошибкам выборки, так и к ошибкам, не связанным с выборкой.

Ключевые моменты

Ошибка выборки – это статистическая ошибка, которая возникает, когда аналитик не выбирает выборку, представляющую всю совокупность данных.
Таким образом, результаты, полученные в выборке, не представляют результаты, которые были бы получены для всей генеральной совокупности.
Ошибка выборки может быть уменьшена путем случайного выбора выборки и / или увеличения количества наблюдений.

Понимание ошибок выборки

Ошибка выборки – это отклонение значения выборки от истинного значения совокупности из-за того, что выборка не является репрезентативной для генеральной совокупности или каким-либо образом смещена. Даже рандомизированные выборки будут иметь некоторую ошибку выборки, поскольку это всего лишь приблизительная оценка генеральной совокупности, из которой она взята.

Примеры ошибок выборки

Учет ошибок, не связанных с выборкой

Читайте также:

История педагогики кратко шпаргалка

Режим реки лена кратко

Особенности учета процентов по долговым обязательствам в целях налогообложения кратко

Карамзин мнение русского гражданина кратко

Африканская чума свиней кратко

Источник

Типы систематических ошибок

Что такое Ошибка выборки?

Ключевые моменты

Понимание ошибок выборки

Примеры ошибок выборки

Учет ошибок, не связанных с выборкой

What Is a Sampling Error?

Key Takeaways

Understanding Sampling Errors

Calculating Sampling Error

Types of Sampling Errors

Population-Specific Error

Selection Error

Sample Frame Error

Non-response Error

Eliminating Sampling Errors

Examples of Sampling Errors

Sampling Error vs. Non-sampling Error

What Is Sampling Error vs. Sampling Bias?

Why Is Sampling Error Important?

How Do You Find the Sampling Error?

What Is Sampling Error vs. Standard Error?

The Bottom Line

Типы систематических ошибок

Ошибки резидента

Формирование выборки

Ошибки в инвестициях – это ошибки инвесторов

29. Определение необходимой численности выборки

30. Способы отбора и виды выборки. Собственно случайная выборка

31. Механическая и типическая выборки

32. Серийная и комбинированная выборки

33. Многоступенчатая, многофазная и взаимопроникающая выборки.

3. Определение необходимой численности выборки

4. Способы отбора и виды выборки

36. Ошибки выборки

Лексические ошибки

5 Наши ошибки

Важность размера выборки

Репрезентативные выборки

Размер выборки

Выборка (Выборочная совокупность)

Репрезентативность выборки

Ошибка выборки (доверительный интервал)

Типы выборок

Курс лекций по теории статистики

Калькулятор расчета ошибки и размера выборки (для простой случайной выборки)

Калькулятор расчета статистической значимости различий

Ключевые моменты

Понимание ошибок выборки

Примеры ошибок выборки

Учет ошибок, не связанных с выборкой

Возможно, вам также будет интересно: