Элементов, которая охватывается экспериментом (наблюдением, опросом).
Характеристики выборки:
- Качественная характеристика выборки - что именно мы выбираем и какие способы построения выборки мы для этого используем.
- Количественная характеристика выборки - сколько случаев выбираем, другими словами объём выборки.
Необходимость выборки:
- Объект исследования очень обширный. Например, потребители продукции глобальной компании - огромное количество территориально разбросанных рынков.
- Существует необходимость в сборе вторичной информации.
Объём выборки
Объём выборки - число случаев, включённых в выборочную совокупность.
Выборки можно условно разделить на большие и малые, так как в математической статистике используются различные подходы в зависимости от объёма выборки. Считается, что выборки объёма больше 30 можно отнести к большим .
Зависимые и независимые выборки
При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми . Примеры зависимых выборок:
- пары близнецов,
- два измерения какого-либо признака до и после экспериментального воздействия,
- мужья и жёны
- и т. п.
В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми , например:
- мужчины и женщины ,
- психологи и математики .
Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.
Сравнение выборок производится с помощью различных статистических критериев :
- Критерий Пирсона (χ 2 )
- Критерий Стьюдента (t )
- Критерий Вилкоксона (T )
- Критерий Манна - Уитни (U )
- Критерий знаков (G )
- и др.
Репрезентативность
Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной. Выборка будет репрезентативной при обследовании большой группы людей, если внутри этой группы есть представители разных подгрупп, только так можно сделать верные выводы.
Пример нерепрезентативной выборки
- Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.
- Исследование с экспериментальной и контрольной группами с привлечением стратегии попарного отбора
- Исследование с использованием только одной группы - экспериментальной.
- Исследование с использованием смешанного (факторного) плана - все группы ставятся в разные условия.
Типы выборок
Выборки делятся на два типа:
- вероятностные
- невероятностные
Вероятностные выборки
- Простая вероятностная выборка:
- Простая повторная выборка. Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.
Процедура построения простой случайной выборки включает в себя следующие шаги:
1) необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;
2) определить предполагаемый объём выборки, то есть ожидаемое число опрошенных;
3) извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.
4) выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам
- Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информации с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения:
1) нередко сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.
2) результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределенная по большой географической территории, что значительно увеличивает время и стоимость сбора данных.
3) результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.
4) в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объёме выборки.
- Простая бесповторная выборка. Процедура построения выборки такая же, только карточки с номерами респондентов не возвращаются обратно в колоду.
- Систематическая вероятностная выборка. Является упрощенным вариантом простой вероятностной выборки. На основе списка генеральной совокупности через определённый интервал (К) отбираются респонденты. Величина К определяется случайно. Наиболее достоверный результат достигается при однородной генеральной совокупности, иначе возможны совпадение величины шага и каких-то внутренних циклических закономерностей выборки (смешение выборки). Минусы: такие же как и в простой вероятностной выборке.
- Серийная (гнездовая) выборка. Единицы отбора представляют собой статистические серии (семья, школа, бригада и т. п.). Отобранные элементы подвергаются сплошному обследованию. Отбор статистических единиц может быть организован по типу случайной или систематической выборки. Минус: Возможность большей однородности, чем в генеральной совокупности.
- Районированная выборка. В случае неоднородной генеральной совокупности, прежде, чем использовать вероятностную выборку с любой техникой отбора, рекомендуется разделить генеральную совокупность на однородные части, такая выборка называется районированной. Группами районирования могут выступать как естественные образования (например, районы города), так и любой признак, заложенный в основу исследования. Признак, на основе которого осуществляется разделение, называется признаком расслоения и районирования.
- «Удобная» выборка. Процедура «удобной» выборки состоит в установлении контактов с «удобными» единицами выборки - с группой студентов, спортивной командой, с друзьями и соседями. Если необходимо получить информацию о реакции людей на новую концепцию, такая выборка вполне обоснована. «Удобную» выборку часто используют для предварительного тестирования анкет.
Стратегии построения групп
Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности .
Рандомизация
Рандомизация , или случайный отбор , используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вуза , можно сложить бумажки с именами всех студентов вуза в шляпу, а затем достать из неё 100 бумажек - это будет случайным отбором (Гудвин Дж., с. 147)......
Попарный отбор
Попарный отбор - стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом - привлечением близнецовых пар (моно - и дизиготных).
Раздел II. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Тема 6. Выборочный метод. Вариационный ряд
И его характеристики
Математическая статистика занимается изучением закономерностей, которым подчиняются массовые явления, на основе результатов наблюдений.
Цель МС : создание методов сбора и обработки статистических данных для получения научных и практических выводов.
Методы математической статистики необходимы для решения двух задач :
1) указание методов сбора и группировки статистических сведений, полученных в результате экспериментов или наблюдений;
2) разработка методов анализа статистических данных (оценка функций и параметров распределения; проверка статистических гипотез; оценка зависимостей между случайными величинами).
Понятие о выборочном наблюдении и его теоретические свойства.
В практике статистических наблюдений различаются два вида наблюдений:
Сплошное, когда изучаются все объекты совокупности (перепись населения);
Выборочное, когда изучается часть случайно отобранных объектов (социологические исследования, охватывающие часть населения).
Теория выборочного наблюдения базируется на статистических закономерностях, которые формируются и обнаруживаются в массовых явлениях и процессах.
Закономерности, связанные со случайностями и лишь во множестве явлений проявляющиеся как закон, называются статистическими . Это свойство закономерностей связано с законом больших чисел. Математической основой закона больших чисел, да и статистической науки в целом, служит теория вероятностей, в котором изучаются случайные явления (события), имеющие устойчивую частность, а следовательно, и вероятность, что помогает выявлять закономерности при массовом повторении явлений.
Генеральная совокупность и выборка. Виды выборок.
Генеральной совокупностью называется совокупность всех объектов, подлежащих изучению, из которой производится выборка.
Выборочной совокупностью , или, выборкой , называется совокупность объектов, случайно отобранных из генеральной совокупности, подлежащих для непосредственного изучения.
Объем совокупности - число ее объектов. Генеральная совокупность может иметь и конечный и бесконечный объем (N), а выборочная – только конечный объем (n).
Пример . Из 2000 изделий отобрано для обследования 100 изделий, тогда объем генеральной совокупности , а объем выборки .
Выборочный метод – это метод исследования, при котором по выборке исследуются свойства генеральной совокупности. При этом выводы, полученные при изучении этой части, распределяются на всю совокупность объектов.
Виды выборок
Простая случайная выборка , образованная случайным выбором элементов без разделения генеральной совокупности на части.
Механическая выборка , в которую элементы из генеральной совокупности отбираются через определенный интервал. Так, если объем выборки должен составлять 10% от генеральной, то отбирается каждый 10 элемент.
Типическая выборка , в которую случайным образом отбираются элементы из типических групп, на которые по некоторому признаку разбивается генеральная совокупность. Например отбор деталей из продукции каждого станка, а не из общего количества.
Серийная выборка , в которую случайным образом отбираются не отдельные элементы, а целые группы совокупности (серии).
Повторной называют выборку, при которой отобранный объект после проведенного исследования возвращают в генеральную совокупность и он может быть отобран повторно.
Бесповторной называют выборку, при которой отобранный объект в выборку не возвращают в генеральную совокупность.
Репрезентативной (представительной) называется выборка, по которой можно судить об интересующем нас признаке всей генеральной совокупности. Условия репрезентативности выборки:
1) части выборки должны быть пропорциональны частям генеральной совокупности;
2) выборка должна наглядно демонстрировать все особенности изучаемого признака;
3) выборка должна быть достаточно объемной;
4) случайный отбор выборки.
Термин "выборка" имеет двоякое значение. Это и процедура отбора элементов исследуемого объекта, и совокупность элементов объекта, выбранных для непосредственного обследования
Совокупность всех элементов объекта социологического исследования называется генеральной совокупностью. Часть генеральной совокупности, отобранная для непосредственного изучения, определяется как выборочная совокупность, которую иногда называют выборкой. Выборочная совокупность будет репрезентативна (представительна), если она отражает структуру, существенные свойства и характеристики генеральной совокупности, т.е. представляет ее уменьшенную модель.
В зависимости от способов отбора единиц выборочной совокупности выборка- может быть случайной или неслучайной. Разновидностями случайного отбора является простая случайная или механическая выборка, гнездовая и стратифицированная.
Основой простой случайной (механической) выборки является список всех потенциальных респондентов, составляющих генеральную совокупность. Каждому из них присваивается порядковый номер, который переносится на отдельную карточку, Затем из общего числа этих карточек с номерами наугад, как в лотерее, отбирается необходимое количество, которое и будет составлять выборочную совокупности.
Наряду с указанными способами формирования выборочной совокупности, в данном виде выборки используется и систематический отбор. В этом случае отбор респондентов производится через определенный шаг, который определяется посредством деления численности всей генеральной совокупности на численность выборочной совокупности. Например, генеральная совокупность составляет 2 тыс. человек, а выборочная - 200. Следовательно, шаг при отборе респондентов будет равен 10. То есть каждый десятый из генеральной совокупности будет включен в выборочную совокупность. Если же генеральная совокупность имеет еще значительнее размеры, то для определения выборочной совокупности используется таблица случайных чисел.
В практике социологических исследований довольно распространен метод гнездового отбора, предполагающий отбор в качестве единиц исследования не отдельных респондентов, а группы людей (трудовые коллективы, бригады), с последующим сплошным их опросом. Репрезентативность гнездовой выборки обеспечивается максимальной схожестью состава групп.
При стратификационной выборке в генеральной совокупности выделяются страты (слои), характеризующиеся наибольшей однородностью.
Внутри каждой страты производится простая случайность (механическая) выборка.
Неслучайная выборка основана на сознательном и целенаправленном отборе единиц выборочной совокупности. Она представлена стихийным и квотным отборами, а также "методом основного массива".
Стихийный отбор применяется в основном в пилотажных исследованиях и предполагает отбор "первого встречного". Иллюстрацией данного метода могут служить почтовые опросы читателей периодической печати или опросы покупателей, приобретающих тот или иной вид товара. Поскольку в этом.случае затрудняется оценка репрезентативности выборки, выводы исследования распространяются лишь на опрошенную совокупность.
К стихийному отбору относится и метод "снежного кома", когда поиск одних респондентов осуществляется по подсказке других. Например, необходимо опросить по какой-либо проблеме 200 человек, но известны адреса лишь десяти человек, по подсказке которых продолжается поиск других респондентов до достижения необходимого объема выборочной совокупности.
Для осуществления квотного отбора необходима информация о ряде характеристик генеральной совокупности. Для каждой из них составляются квоты (часть, доля), отражающие в определенной пропорции все признаки генеральной совокупности. При таком отборе, например, учитывается процентное представительство мужчин, их возраст, образование, род занятий, семейное положение, этническая или территориальная принадлежность и т.д.
Квотную выборку целенаправленно формируют интервьюеры с соблюдением параметров квот. При создании квот главная задача для интервьюера заключается в том, чтобы были соблюдены условия случайного отбора, при которых каждый элемент генеральной совокупности имел бы равные шансы попасть в выборку.
Метод основного массива удобен в пилотажных исследованиях для выяснения какого-либо контрольного вопроса. При использовании данного метода объем выборочной совокупности составляет 60-70% от объема выборочной совокупности.
В формирований выборочной совокупности важную роль играет определение ее объема или численности. Объем выборки обусловлен степенью однородности или неоднородности генеральной совокупности, количеством характеризующих ее признаков. Чем более однороден состав генеральной совокупности, тем меньший объем выборки потребуется.
Тип выборки диктует специфику вычисления..объема выборочной совокупности для каждого ее вида по определенным формулам. Как правило, объем выборки, в зависимости от глубины исследования, его целей и задач, составляет 5-10% от генеральной совокупности.
Статистическая совокупность — множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.
Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .
Единица совокупности — каждая конкретная единица статистической совокупности.
Одна и та же статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.
Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.
В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.
Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.
Признак — это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .
Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).
Показатель — это обобщающая количественно качественная характеристика какого-либо свойства единиц или совокупности в целом в конкретных условиях времени и места.
Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.
Например, изучается зарплата:- Признак — оплата труда
- Статистическая совокупность — все работники
- Единица совокупности — каждый работник
- Качественная однородность — начисленная зарплата
- Вариация признака — ряд цифр
Генеральная совокупность и выборка из нее
Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .
Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.
Основные способы организации выборки
Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.
Существуют пять основных способов организации выборочного наблюдения:
1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;
2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;
3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );
4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);
5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .
Виды отбора
По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.
По методу отбора различают повторную и бесповторную выборку.
Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).
Основные характеристики параметров генеральной и выборочной совокупности
В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .
По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .
В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 1.
Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:
k n = n/N .
Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :
w = n n /n .
Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).
Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .
Таблица 1. Основные параметры генеральной и выборочной совокупностей
Ошибки выборки
При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).
Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).
Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.
Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).
Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .
Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .
Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:
т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.
Таблица 2. Средняя ошибка (m) выборочных средней и доли для разных видов выборки
Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;
Средняя из внутригрупповых дисперсий доли;
— число отобранных серий, — общее число серий;
,
где — средняя -й серии;
— общая средняя по всей выборочной совокупности для непрерывного признака;
,
где — доля признака в -й серии;
— общая доля признака по всей выборочной совокупности.
Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.
Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:
где
-
есть предельная ошибка выборки
, которая кратна величине средней ошибки выборки ,
а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .
В табл. 3 приведены формулы для вычисления предельной ошибки выборки.
Таблица 3. Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения
Распространение выборочных результатов на генеральную совокупность
Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).
Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.
Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:
Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.
Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:
Это означает, что с заданной вероятностью Р
, которая называется доверительным уровнем и однозначно определяется значением t
, можно утверждать, что истинное значение средней лежит в пределах от
,а истинное значение доли — в пределах от
При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:
Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .
Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .
Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .
Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.
Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.
При этом используют формулу:
где все переменные — это численность совокупности:
Необходимый объем выборки
Таблица 4. Необходимый объем (n) выборки для разных видов организации выборочного наблюдения
При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:
непосредственно определяется объем выборки n :
Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .
Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.
Практические примеры расчета
Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.
Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.
Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.
Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности
![]()
Дисперсия вычисляется по формуле из табл. 9.1.
![]()
Средняя квадратическая погрешность дня.
Ошибка средней вычисляется по формуле:
![]()
т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .
Достоверность среднего составила
![]()
Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.
Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.
Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.
Пример 2. Оценка вероятности (генеральной доли) р.
При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.
Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):
Предельная относительная ошибка выборки в % составит:
Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:
w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:
0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.
Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.
Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.
В табл. 5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.
Таблица 5. Распределение наблюдений по срокам появленияРешение. Средний срок выполнения заявок вычисляется по формуле:
Средний срок составит:
= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.
Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:
Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.
Дисперсия вычисляется по формуле
![]()
где х i - середина интервального ряда.
Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .
Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.
Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:
Таким образом, среднее значение равно:
т.е. его истинное значение лежит в пределах от 0 до 50 мес.
Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.
Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:
![]()
т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.
Выборка – это группа статистических
единиц, отобранная из большей группы, генеральной
совокупности. Изучая
выборку, мы надеемся сделать разумные заключения о генеральной совокупности.
Отличное определение
Неполное определение ↓
Выборка
процесс формирования выборочной совокупности. Этот процесс вне зависимости от того, используется схема одноступенчатого или многоступенчатого отбора (см. Одноступенчатая выборка и Многоступенчатая выборка), характеризуется такими признаками: 1) числом ступеней отбора; 2) типом выделенных объектов репрезентации на промежуточных ступенях отбора; 3) способом районирования выделенных на промежуточных ступенях отбора объектов репрезентации; 4) способом отбора объектов репрезентации и единиц наблюдения на каждой ступени; 5) объемом выборочной совокупности (количеством единиц наблюдения). Первые четыре признака описывают тип выборки, т. е. особенности процесса отбора единиц наблюдения, пятый (объем выборочной совокупности) позволяет различать выборку внутри самого типа по количеству единиц наблюдения. Две выборки считаются подобными только в том случае, если будут тождественны как все характеристики, описывающие структуру процесса формирования выборочной совокупности, так и наборы признаков, на основании которых происходит районирование объектов репрезентации на промежуточных ступенях отбора. Выборочная совокупность часть генеральной совокупности, объекты которой выступают в качестве основных объектов наблюдения. Эта часть генеральной совокупности выбирается по специальным правилам так, чтобы ее характеристики отражали свойства генеральной. Таким образом, исследуя часть генеральной совокупности, можно получить наиболее полное представление о всей совокупности в целом, что дает в свою очередь экономию времени, человеческих ресурсов и материальных затрат. В. с. должна отражать основные (с точки зрения целей исследования) свойства (признаки) генеральной совокупности. С учетом распределений этих признаков проектируется выборка и оценивается ее качество; их используют в таблицах сопряженности при анализе результатов в сочетании с признаками, представляющими основной интерес для исследователей. При этом подразумевается, что воспроизведение в выборке генеральных распределений контролируемых признаков обеспечивает ее репрезентативность и по признакам, не использованным в расчетах. Насколько это предположение соответствует действительности, в значительной степени зависит от специфики предмета исследования, от правильного решения проблемы взаимосвязи признаков описания объекта исследования и эмпирического объекта обследования.
Отличное определение
Неполное определение ↓







