Выборка

Выборка - это множество объектов, событий, образцов или совокупность измерений, с помощью определенной процедуры выбранных из статистической популяции или генеральной совокупности для участия в исследовании. Обычно размеры популяции очень велики, что делает принятие во внимание всех членов популяции непрактичным или невозможным. Выборка представляет собой множество или совокупность определенного объема, члены которой собираются и статистические характеристики вычисляется следующим образом, что в результате можно сделать выводы или экстраполяцию с выборки на всю популяцию или генеральную совокупность.


1. Математическое описание

В математических терминах, для данной статистической переменной X с выборочным распределением F, выборка объема n = 4,5 ... представляет собой совокупность n независимых измерений, показателям которой приписываются статистические вероятности.

Выборка представляет n экспериментов, в которых можно измерить ту же переменную. Например, если X представляет высоту индивидуума и мы измеряем n индивидуумов, X_i будет высотой i-того индивидуума. Отметьте, что выборка случайных переменных (т.е. набор измеримых функций) не должна быть смешанной с реализациями этих переменных (которые являются значениями, которые принимают эти случайные переменные). Иными словами, X_i - Функция, представляющая собой измерения в i-том эксперименте и x_i = X_i (\ omega) - Значение, которое мы фактически получаем, делая измерения.

Характеристикой положения для выборочного распределения выборочное среднее, а характеристиками рассеяния выборочного распределения - выборочные дисперсии. Числовой характеристикой выборки также размах ее значений.

Понятие выборки включает процесс того, как получаются данные (то есть, случайные переменные). Это необходимо делать таким образом, чтобы можно было сделать математический анализ выборок, как и получить статистические данные, рассчитанные на их основе, например выборочные средние, ковариацию выборок. Кроме того, такие статистические данные должны иметь место и для всей популяции.


2. Объем выборки

Объем выборки - число случаев, включенных в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30-35.

3. Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфный пару (т.е. когда одном случае из выборки X соответствует один и только один случай из выборки Y) для каждого случая в двух выборках (и эта взаимосвязь является важным для измеряемой на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:

  • пары близнецов
  • два измерения какого-либо признака до и после экспериментальной действия
  • мужья и жены
  • т.д.

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:

Соответственно, зависимые выборки всегда имеют одинаковый объем, а объем независимых может отличаться. Сравнение выборок производится с помощью различных статистических критериев:


4. Репрезентативность

Выборка может рассматриваться как репрезентативная или нерепрезентативна.

Справка: репрезентативная ( рус. репрезентативный , англ. representative , нем. repr?sentativ ) - Представительный, характерный, типичный для чего-либо. Напр., Репрезентативная выборка - совокупность случайных чисел, в которой определяется множество элементов выборки, характеризующий генеральную совокупность.

Если выборка представляет собой числовую переменную, например рост или возраст людей, тогда репрезентативность такой выборки определяют в зависимости ее наполненности и добротности.


4.1. Пример нерепрезентативной выборки

В США одним из самых известных исторических примеров нерепрезентативной выборки считается случай, произошедший во время президентских выборов в 1936 года [1]. Журнал "Литрери Дайджест", успешно прогнозировал события нескольких предыдущих выборов, ошибся в своих прогнозах, разослав десять миллионов пробных бюллетеней своим подписчикам, людям, выбранным по телефонной книгах всей страны, и людям из регистрационных списков автомобилей. У 25% бюллетеней (почти 2,5 миллиона) голосов, вернувшихся были распределены следующим образом:

  • 57% отдавали предпочтение кандидату- республиканцу Альфу Лэндону
  • 40% выбрали действующего на то время президента- демократа Франклина Рузвельта
    На действительных же выборах, как известно, победил Рузвельт, набрав более 60% голосов. Ошибка "Литрери Дайджест" заключалась в следующем: желая увеличить репрезентативность выборки, - поскольку им было известно, что большинство их подписчиков считают себя республиканцами, - они расширили выборку за счет людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли тогдашних реалий и впрямь набрали еще больше республиканцев: во времена Великой депрессии обладать телефонами и автомобилями могли себе позволить преимущественно представители среднего и верхнего класса (в большинстве республиканцы, а не демократы).

5. Виды плана построения групп из выборок

Выделяют несколько основных видов плана построения групп [2] :

  1. Исследования по экспериментальной и контрольной группами, которые ставятся в разные условия.
    • Исследования по экспериментальной и контрольной группами с привлечением стратегии попарного отбора
  2. Исследования с использованием только одной группы - экспериментальной.
  3. Исследования с использованием смешанного (фактора) плана - все группы ставятся в разные условия.

6. Стратегии построения групп

Отбор групп для их участия в медицинских и психологических экспериментах осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности [3].

6.1. Рандомизация

Рандомизация, или случайный отбор, используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вузов, можно составить бумажки с именами всех студентов вуза в шляпу, а затем достать из нее 100 бумажек - это будет случайным отбором (Гудвин Дж., с. 147).

6.2. Попарно отбор

Попарно отбор - стратегия построения групп выборки, при котором группы испытуемых состоят из субъектов / объектов, эквивалентных по значимым для эксперимента побочных параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом в случае психологических исследованиях - привлечением близнецовых пар (моно-и дизиготных).

6.3. Стратометрической отбор

Стратометрической отбор - рандомизация с выделением казней (или кластеров). При данном способе формирования выборки, генеральная совокупность делится на группы (страты), обладающие определенными характеристиками (в случае психологических исследований - пол, возраст, политические преимущества, образование, уровень доходов и др.)., и отбираются испытуемые с соответствующими характеристиками.


6.4. Приближенное моделирование

Приближенное моделирование - составление ограниченных выборок и обобщение выводов об этой выборку на широкую популяцию. Например, при участии в медицинском / психологическом исследовании студентов 2-го курса университета, данные этого исследования распространяются на "людей в возрасте от 17 до 21 года". Допустимость подобных обобщений крайне ограничена.