Одна из наиболее типичных задач статистики — сделать выводы о целом на основании данных о его части. Это целое называется генеральной совокупностью. Генеральная совокупность может представлять собой множество рыб в озере, множество изделий, выпущенных заводом за последний год, множество жителей, имеющих право голоса на ближайших выборах, или множество людей, страдающих от определенного заболевания.
Тщательное изучение генеральной совокупности возможно крайне редко. Опросить всех избирателей, чтобы узнать, за кого они будут голосовать на следующих выборах, нереально и также нереально опросить всех, кто болеет определенной болезнью, чтобы узнать, как подействовало новое лекарство. Конечно, если нас интересует прочность изготовленных изделий, которую нельзя определить, не разрушив изделие, то можно разрушить все произведенные изделия, чтобы определить прочность каждого, но такой подход не выглядит самым разумным.
Вместо этого изучается часть генеральной совокупности, которая называется выборкой. На основе результатов, полученных при изучении выборки, оцениваются характеристики генеральной совокупности. Правила вычисления вероятностей позволяют нам получить информацию о качестве этой оценки с помощью ряда понятий, в частности «доверительный интервал» и «предельная ошибка».
Очевидно, что наши выводы будут справедливы тогда и только тогда, когда выборка будет репрезентативной. Если она не является репрезентативной, то очевидно, что по ней нельзя будет сделать какие-либо выводы о генеральной совокупности. В некоторых источниках повышенное внимание уделяется математическим аспектам (так как использование непонятных математических терминов — эффектный, хотя и дешевый прием), а способ формирования выборки не указывается. Правильное формирование выборки — достаточно дорогостоящий процесс, но этот аспект крайне важен, так как именно он гарантирует корректность выводов.
Оценка параметров генеральной совокупности с помощью репрезентативной выборки.
Сколько рыб в озере? Сколько машин такси в городе?
Далее мы рассмотрим два примера оценки параметров генеральной совокупности, в частности ее размера, с помощью выборок.
Рыбы
Подсчитать, сколько всего рыб в озере, непросто, особенно если озеро большое, а вода в нем мутная. Тем не менее биологи знают, как решить эту задачу. Разумеется, для этого нужно использовать методы статистики. Очень часто используется так называемый метод двойного охвата, который заключается в следующем.
1. Нужно выловить некоторое количество рыб, пометить их и выпустить обратно в озеро. Разумеется, ловить рыбу нужно так, чтобы не поранить ее. Для этого рыбу можно оглушить электрическим током. Метка не должна влиять ни на подвижность рыбы, ни на ее выживаемость. Также необходимо, чтобы метка сохраняла длительную устойчивость к воздействиям среды.
2. Должно пройти некоторое время (порядка нескольких дней), чтобы помеченные рыбы распространились по всему озеру. Затем нужно заново выловить определенное количество рыб (именно в этом заключается суть метода двойного охвата), необязательно такое же, как в первый раз.
3. Нужно произвести расчеты: если в озере N рыб, а мы пометили М из них, то соотношение помеченных рыб к общему их числу равно M/N. Объем повторно взятой выборки, которую можно считать репрезентативной выборкой рыбы в озере, равен С. Из С выловленных рыб R помеченных. Разумно предположить, что доля помеченных рыб во второй выборке равна доле помеченных рыб в озере, иными словами,
Таким образом, примерное число рыб в озере N равно
Рассмотрим пример с конкретными числами.
Сначала вылавливается и помечается М рыб (их можно считать случайной выборкой из N рыб, обитающих в озере). В нашем случае М = 13.
Мы выжидаем некоторое время, чтобы помеченные рыбы равномерно распределились по всему озеру, и вылавливаем С рыб, из которых R имеют метку. В нашем случае С = 15, R = 3.
Произведем вычисления. Число рыб в озере примерно равно:
N = M·C/R = 15·15/3 = 75
Но что означает «примерно равно»? Если вы подсчитаете число рыб на рисунке в нашем примере, то увидите, что их всего 67. Следовательно, погрешность в расчетах составляет 12 %. Эта ошибка больше или меньше, чем следовало ожидать? Какова возможная величина ошибки при использовании этого метода?
Статистика отвечает на эти вопросы, используя разумные предположения и математические инструменты. Однако чтобы получить достаточно точный результат, мы можем прибегнуть к помощи небольшой компьютерной программы, моделирующей вылов рыбы из озера. Мы можем повторить вышеописанные действия произвольное число раз и на основе примерной оценки числа рыб, полученной при каждом моделировании, оценить величину ошибки и частоту, с которой они возникают.
Если мы будем использовать те же числа, что и в нашем примере, то увидим, что в 85 % случаев число помеченных рыб во второй выборке будет варьироваться от 2 до 5. Используя выведенную нами формулу, получим, что число рыб в озере лежит в интервале от 45 до 112. В 15 % случаев число рыб будет лежать вне этого интервала.
Распределение числа помеченных рыб в повторной выборке (моделирование было выполнено 10 000 раз).
Оценка числа рыб бывает чаще избыточной, чем недостаточной. Среднее оценочное значение 82 также больше фактического числа рыб в озере. В этом случае говорят, что оценка является смещенной и не отражает истинного значения оцениваемой величины.
Оценка существенно улучшится, если внести в формулу небольшие изменения. Проблема в том, что объяснить, почему следует внести именно эти поправки, достаточно сложно.
Выполнив расчеты с помощью этой формулы, получим, что если в повторной выборке встретилось 2 помеченных рыбы, то оценка общего числа равна 85, если число помеченных рыб равно 5, то оценка общего числа равна 42. Следовательно, в 85 % случаев оценка численности рыб будет лежать в интервале от 42 до 85. Кроме того, в 27 % случаев число помеченных рыб будет равно 3, что соответствует числу в 64 рыбы, и это очень близко к истинному значению. Эта оценка является несмещенной: если мы повторим вышеописанные действия множество раз, то средняя оценка будет совпадать с истинным значением.
Также можно ввести поправочные коэффициенты, если вы считаете, что вероятность вылова разных рыб отличается, метка влияет на выживаемость рыб или метка может стираться. Эта тема очень подробно изучена и описана в книгах по экологии. Также это прекрасный пример того, как статистика может решать задачи, которые кажутся крайне сложными или вовсе невозможными.
Такси
Подсчитать число такси в городе намного проще, чем количество рыб в озере. Можно начать с поиска этой информации в Интернете. Так, например, на сайте администрации крупного города может быть указано, что общее число выданных лицензий равно 10481. Каждая лицензия соответствует одному автомобилю. Задача решена.
Однако если эта информация недоступна в Интернете, можно воспользоваться методами статистики. Номер лицензии написан на каждом автомобиле такси. Максимально возможным номером является число выданных лицензий. Когда мы покупаем новый автомобиль, нам выдается новый номер (следующий за последним выданным), а номер старого автомобиля уничтожается.
Однако с номером лицензии такси дело обстоит иначе (возможно, с некоторыми исключениями): число лицензий фиксировано, и если кто-то хочет приобрести ее, то может купить только у одного из ее нынешних обладателей. Номер лицензии при этом не изменится. Это значительно упрощает подсчеты. Не пользуясь ни телефоном, ни Интернетом, постояв в центре города всего 10 минут, можно очень точно определить число такси в городе. Посмотрим, как это делается.
Допустим, мы выбрали из генеральной совокупности следующие значения: 8, 14, 22, 27 и 35. Попробуем оценить число элементов генеральной совокупности на основе этой выборки. Оно будет однозначно больше 25, так как выборка содержит число 35, и крайне маловероятно, что оно будет равно 1000, так как все пять случайно выбранных элементов генеральной совокупности достаточно невелики. Точная оценка будет примерно равной 40 или 50.
Первое правило для оценки числа элементов генеральной совокупности может быть таким: общее число элементов в два раза больше среднего значения минус 1. Например, если генеральная совокупность состоит из 10 элементов 1, 2, 3, 4, 5, 6, 7, 8, 9 и 10, то среднее значение будет равно 5,5, а общее число элементов — 2·5,5–1. Если x¯ — среднее значение генеральной совокупности из N последовательных чисел, начинающихся с 1, то всегда выполняется следующее соотношение:
N = 2x¯— 1
Если мы применим эту формулу к вышеприведенным данным о выборке, получим, что ее среднее значение равно 21,2, а примерное число элементов генеральной совокупности составит 2·21,2–1 41. Эта оценка очень близка к той, что мы предположили изначально.
Однако эта формула имеет один очень важный недостаток. Предположим, даны числа 3, 4, 6 и 15. Их среднее значение равно 7, а оценка общего числа элементов равна 13. Это очевидно неверно, так как выборка содержит число 15, следовательно, генеральная совокупность содержит минимум 15 элементов. Забавно, что результаты, полученные с помощью сложных методов, нередко противоречат элементарному здравому смыслу. Нужен иной способ. В действительности, чтобы определить общее число элементов совокупности в нашем примере, достаточно знать, сколько значений больше 35.
Достаточно разумный вариант — руководствуясь соображениями симметрии, предположить, что после последнего элемента находится столько же элементов, сколько перед первым. В нашем примере мы сложим 7 и 35 и получим примерное число элементов генеральной совокупности — 42. Этот метод неудобен тем, что мы не учитываем элементы, расположенные между элементами выборки. Между тем всегда следует использовать всю доступную информацию. Для этого мы добавим к последнему значению в выборке среднее расстояние между элементами выборки (первое расстояние будет равно числу элементов совокупности перед первым элементом выборки).
В нашем случае это среднее расстояние будет равно:
(7 + 5 + 7 + 4 + 7)/5 = 6
Следовательно, оценка общего числа элементов совокупности равна 41. Пусть х 1 , x 2 …, х n — значения, расположенные на 1, 2, n-м местах. В этом случае среднее расстояние, которое нужно прибавить, будет вычисляться по формуле:
Нетрудно видеть, что эта формула равносильна следующей:
(x n /n) — 1
Следовательно, более точную оценку общего числа элементов генеральной совокупности можно вычислить по формуле:
Насколько точна эта оценка? С помощью методов математической статистики можно доказать, что она является максимально точной из возможных. На языке специалистов такая оценка называется равномерно несмещенной оценкой с минимальной дисперсией.
Таким образом, нам достаточно записать номера лицензий 20 такси, прибавить к наибольшему из них его же значение, поделенное на 20, и вычесть 1. В нашем примере, если число лицензий равно 10481 и они пронумерованы последовательными числами, то в 95 % случаев оценка, выполненная по этой формуле, будет лежать в интервале от 9175 до 10990.
Очевидно, что этот метод подходит не только для подсчета числа такси в городах. Его также можно использовать, например, чтобы определить число участников массового забега, если всем им выданы последовательные номера. Службы разведки в прошлом посредством похожих методов оценивали вооружение врага. Мы знаем, что оружие имеет табельный номер, поэтому достаточно каким-то образом заполучить лишь несколько единиц, чтобы оценить общее количество оружия.
Какова доля домохозяйств, подключенных к Интернету?
Сначала нужно уточнить определения: что мы будем считать домохозяйством и подключением к Интернету. Нет смысла производить подробные расчеты, если нам неизвестно точное значение используемых понятий.
В одном газетном заголовке утверждалось, что половину сигарет выкуривают люди с психическими расстройствами. Это звучало так, будто половина курильщиков — ненормальные, что выглядит явным преувеличением. Однако в тексте заметки под психическим расстройством понималась зависимость от какого-либо вещества, поэтому не половину, а почти все сигареты выкуривают люди, страдающие от никотиновой зависимости, следовательно, имеющие «психическое расстройство». Многие слова, которые мы произносим в повседневной жизни, неоднозначны. Одно из таких слов — «семья». Что такое семья? Муж, жена и их дети? А если вместе с ними живут бабушка и дедушка, их следует считать членами семьи? Достаточно странно определять принадлежность человека к семье по тому, в каком доме он живет. Семью можно понимать и в более широком смысле, как, например, на свадьбах, где «семья невесты» и «семья жениха» насчитывают по несколько десятков гостей.
* * *
ОЦЕНКА ВЫИГРЫШНОЙ КОМБИНАЦИИ НАЦИОНАЛЬНОЙ ЛОТЕРЕИ
Нам прекрасно известно, что все числа национальной лотереи выпадают с одинаковой вероятностью. Но что можно сказать о среднем значении чисел выигрышной комбинации? 7 января 2010 года выигрышная комбинация испанской национальной лотереи состояла из следующих чисел: 19, 24, 25, 38, 43 и 49, их среднее значение равно 33. В субботу, 9 января, выпали числа 13, 26, 29, 30, 31 и 43; их округленное среднее значение равно 29. Все ли средние значения выпадают с одинаковой вероятностью или некоторые из них встречаются чаще, чем другие?
Определенные средние значения действительно встречаются чаще, поскольку, как мы объяснили в предыдущей главе, средние значения подчиняются закону нормального распределения. На следующей гистограмме представлено среднее значение чисел выигрышных комбинаций всех лотерей, начиная с 17 октября 1985 года и заканчивая 31 декабря 2009 года:
Средние значения чисел в выигрышных комбинациях.
Среднее значение будет с намного большей вероятностью лежать между 20 и 30, чем между 5 и 15. Почему бы нам не выбирать только те комбинации, в которых среднее значение чисел лежит в промежутке от 20 до 30? Ведь таких комбинаций намного больше, и вероятность того, что одна конкретная комбинация окажется выигрышной, всегда одинакова. Иными словами, если в розыгрыше участвует 1000 номеров, то какое число выпадет с большей вероятностью: лежащее в интервале от 500 до 550 или же число, лежащее вне этого интервала? Очевидно, что с большей вероятностью выпадет число вне этого интервала, но это не означает, что конкретное число внутри этого интервала выпадет с меньшей вероятностью, чем конкретное число вне этого интервала.
* * *
Равносильны ли понятия «дом» и «домохозяйство»? Очевидно, нет, так как если в доме никто не живет, он не является домохозяйством. Домохозяйством также нельзя считать дом, где кто-то живет только по выходным или в сезон отпусков. Является ли домохозяйством квартира, где живут студенты в течение учебного года? Связаны ли понятия «домохозяйство» и «семья»? Следовательно, необходимо четко сформулировать, что такое домохозяйство.
Определение подключения к Интернету представляет меньше трудностей, так как способ подключения, будь то ADSL-модем или оптический кабель, не имеет значения. Однако некоторые домохозяйства используют незащищенное беспроводное соединение соседей или бесплатное подключение из соседней библиотеки или кафе. Следует ли считать, что эти домохозяйства подключены к Интернету, или же нужно учитывать только тех, кто платит за подключение?
ДОМОХОЗЯЙСТВО , социально-экон. ячейка, объединяющая людей отношениями, возникающими при организации их совместного быта: ведении общего домашнего хозяйства, совместном проживании и т. д. В отличие от семьи, отношения родства или свойства между членами одного Д. необязательны: оно может включать жильцов, пансионеров, прислугу и других, а также состоять из одного человека, живущего самостоятельно.Словарное определение понятия «домохозяйство».
Будем считать домохозяйством дом или квартиру, где большую часть года проживает один или несколько человек, связанных родственными отношениями. Будем предполагать, что домохозяйство подключено к Интернету, если подключение находится под его контролем и может быть отключено или подключено в любой момент.
Если мы возьмем выборку в 1000 из 100000 домохозяйств и в нашей выборке 51,9 % домохозяйств будут подключены к Интернету, значит ли это, что точно таким же будет процент для всей генеральной совокупности? Очевидно, что это необязательно так. Если мы сформируем другую выборку, также случайным образом, то результат, вероятно, будет отличаться, например он может быть равен 50,7 или 52,3 %.
По этой причине в представление результатов подобных исследований входит не только примерное значение, но и предельная ошибка. Например, результат оценки может быть равен (51,9 ± 2,3) %. Эти 2,3 %, которые мы прибавляем и вычитаем, и называются предельной ошибкой средней величины. Это означает, что мы получили конкретное значение, но не можем быть до конца уверены, что доля генеральной совокупности точно равна этому числу. Теория вероятностей позволяет определить точность, с которой произведена оценка, и вычислить предельную ошибку средней величины (исходные значения подчиняются закону биномиального распределения: мы анализируем конкретное домохозяйство и можем получить один из двух результатов — домохозяйство подключено к Интернету либо нет).
Интервал, покрывающий данную величину с заданной надежностью, называется доверительным интервалом. Можно ли гарантировать, что истинное значение будет находиться в границах этого интервала? Опять-таки этого гарантировать нельзя. Предельная ошибка средней величины рассчитывается для определенного уровня надежности. Как правило, надежность принимается равной 95 %. Это означает, что используемый нами метод позволяет найти истинное значение (в данном случае истинную долю домохозяйств, подключенных к Интернету) в 95 % случаев. Однако мы не можем знать, действительно ли истинное значение находится в границах найденного интервала в нашем конкретном случае. Это аналогично тому, что найденный нами интервал нам бы сообщил человек, который говорит правду в 95 % случаев: ему вполне можно доверять, но абсолютную точность этого результата гарантировать нельзя.
Иллюстрация понятия доверительного интервала.
Можно рассчитать доверительные интервалы с надежностью 99 % или 99,9 %. Обычно это не делается, поскольку, учитывая размер выборки, с ростом надежности доверительный интервал расширяется, и нет никакого смысла говорить, что искомая доля лежит в интервале (51,9±40)%: это можно сказать, не проводя вообще никаких вычислений. Если мы хотим повысить надежность оценки, сохранив при этом предельную ошибку на прежнем уровне, то единственным выходом будет увеличение размера выборки (деньги решают множество проблем, и эту в том числе).
«Партия А опережает партию В на 3,6 пункта»
За подобными заголовками в прессе обычно следует примерно такой текст: «Согласно исследованию, проведенному центром X, если бы выборы состоялись сегодня, партия А опередила бы партию В на 3,6 пункта. Три месяца назад ее преимущество было на полпункта меньше. Данные подтверждают, что популярность партии А растет».
В примечаниях к этой статье, помимо прочего, упоминается, что предельная ошибка равна ±4,3 %. Поверхностный анализ этих данных показывает, что преимущество партии А вовсе не столь очевидно. Если в пользу партии А проголосовали 41,6 % опрошенных, то при данной предельной ошибке оценка лежит в интервале от 37,1 % до 46,1 %. Если в пользу партии В проголосовало 38 %, то границами доверительного интервала будут 33,3 % и 42,5 %. Следовательно, в соответствии с результатами опроса можно утверждать, что рейтинг партии А равен 39 %, партии В — 40 %. Нет никаких сомнений в том, что если три месяца назад преимущество партии А было на полпункта меньше (по результатам опроса, а не в реальности), это не является доказательством роста популярности партии А.
Вопрос на миллион
Очень часто при проведении исследований возникает вопрос: каким должен быть размер выборки, чтобы результатам можно было доверять? Ответ на этот вопрос зависит от нескольких параметров.
1. От желаемой точности результатов, иными словами от допустимой предельной ошибки. Если мы хотим получить результат с предельной ошибкой 1 %, размер выборки должен быть больше, чем при предельной ошибке в 4 %.
2. От желаемой надежности результата. Если нас устроит надежность 80 %, размер выборки будет меньше, чем для надежности в 95 %.
3. От истинного значения оцениваемой доли. На первый взгляд это может показаться странным, но размер выборки действительно зависит от истинного значения оцениваемой доли. Если в генеральной совокупности отсутствует вариация (100 % элементов совокупности равны между собой), для оценки значения будет достаточно одного элемента совокупности. Если, например, все шары в мешке белые или все черные, достаточно вытащить всего один шар, чтобы определить цвет всех шаров. Чем больше вариация, тем больше необходимый размер выборки. В наименее благоприятном случае объем выборки должен равняться 30 % генеральной совокупности. Мы предполагаем, чему равно искомое значение доли. Предпочтительнее дать этой величине оценку сверху. Если нам ничего не известно о генеральной совокупности либо мы придерживаемся консервативных методов, то можно предположить, что искомый объем выборки равен 50 % от генеральной совокупности. Если нам известно, что искомая доля меньше (например, доля домохозяйств, в которых есть факс), то можно предположить, что их доля равна 20 % (фактическое значение гарантированно будет меньше).
4. От размера генеральной совокупности. Если генеральная совокупность мала (допустим, менее 100000 единиц), а допустимая погрешность также невелика (1–2 %), с ростом размеров генеральной совокупности нам потребуется выборка большего размера. Однако для больших генеральных или для погрешности измерения в 5 % и выше влияние размера выборки будет практически незаметным. Эта тема является источником множества недоразумений, и далее мы расскажем о ней более подробно.
* * *
РАЗМЕР ВЫБОРКИ
Приведем формулу, связывающую все величины, необходимые для определения размера выборки:
где:
z α/2 — значение, связанное с уровнем надежности. При надежности в 95 % (используется чаще всего) это значение равно 1,96. Иногда используется значение 2, соответствующее надежности 95,5 %.
р — оцениваемая доля;
q = 1 — р ;
Е — предельная ошибка;
N — размер генеральной совокупности.
* * *
Теперь вам понадобится только редактор электронных таблиц — с его помощью легко проверить, как будет изменяться размер выборки при увеличении надежности или допустимой погрешности. Также нетрудно видеть, как на размер выборки влияют различные переменные. Можно построить таблицу, подобную той, что приводится ниже, которая уже содержит все необходимые данные.
Таблица, содержащая размеры выборки для надежности в 95 % в наименее благоприятном случае, когда p = q = 0,5.
Сюрприз! Размер выборки почти не зависит от величины генеральной совокупности
Существует несколько весьма распространенных предположений о размере выборки, которые тем не менее полностью ошибочны. Например, результаты опросов иногда ставятся под сомнение, так как «выборка нерепрезентативна, потому что не охватывает даже 10 % совокупности». Подобные цифры, как, например, 10 % в этом случае, выбираются произвольно. Профессор Роберто Беар из Universidad del Valle в Кали (Колумбия) объясняет истинное положение вещей на нескольких наглядных примерах.
Нужно ли солить суп?
Мы готовим суп в небольшой кастрюле и, чтобы определить, готов ли он, пробуем его из ложки. Если к нам пришли гости и мы готовим суп в большой кастрюле, значит ли это, что суп нужно пробовать из большой ложки? Разумеется, нет. Мы используем одну и ту же ложку и пробуем суп одинаково, не важно, готовится ли он в маленькой кастрюле или в большой. Размер выборки не зависит от величины генеральной совокупности.
Однако вне зависимости от размера кастрюли нужно как следует перемешать суп, чтобы любая выборка содержала одну и ту же информацию. Перед тем как попробовать суп, важнее тщательно размешать его, а не взять ложку побольше. Это очевидно для всех. Также очевидно, что если мы не размешаем суп, то это не исправить, взяв ложку побольше. Если выборка нерепрезентативна, то увеличение ее размера не решает проблему.
Какая у меня группа крови?
Чтобы безошибочно определить группу крови человека, достаточно всего одной капли, так как все капли крови человека одинаковы. Однородность совокупности и в этом случае намного важнее размера выборки. И у новорожденного весом чуть больше 2,5 кг, и у его отца, который может весить больше 100 кг, на анализ берется один и тот же объем крови.
Однако связь между размером выборки и величиной генеральной совокупности можно оценить не только интуитивно, но и с помощью формулы. Если генеральная совокупность невелика, с увеличением ее размера объем выборки быстро возрастает, однако затем, начиная с определенного значения, он практически не меняется.
* * *
ЛЕВШИ ЖИВУТ МЕНЬШЕ (ИЛИ НЕТ?)
4 апреля 1991 года на первой странице газеты Washington Post была опубликована статья об исследовании, согласно которому левши в среднем живут на 9 лет меньше правшей. В исследовании использовались данные о продолжительности жизни левшей и правшей в двух округах штата Калифорния. Правши часто доживали до преклонного возраста, а среди левшей долгожителей было намного меньше.
Новость имела значительный эффект, и вскоре появились объяснения этому результату: якобы левши более подвержены определенным заболеваниям и чаще получают серьезные травмы. Одной из причин этому может быть тот факт, что все устройства, которые мы используем ежедневно, предназначены для правшей. Из-за этого левши чаще получают серьезные травмы, попадают в несчастные случаи и, как следствие, живут существенно меньше.
Однако в феврале 1993 года в журнале American Journal of Public Health была опубликована обширная статья, подкрепленная множеством источников, и всё сразу встало на свои места: разницу в продолжительности жизни можно объяснить разницей в распределении возраста левшей и правшей. В начале XX века левшей переучивали держать ручку, ложку и так далее в правой руке, поэтому на момент проведения исследования число пожилых левшей было крайне невелико. Следовательно, до преклонного возраста доживали немногие левши — не потому, что они умирали раньше, а потому, что их переучивали и они становились правшами. Эта статья не попала на передовицы газет, подтвердив правило, согласно которому наибольшее внимание приковывают удивительные и неожиданные новости. Этот пример показывает, как просто порой бывает найти правдоподобную причину той или иной закономерности. Вспомним хотя бы об аналитиках, которые объясняют, почему биржевые индексы падают или растут.
* * *
Для предельной ошибки в 3 % и надежности в 95 % из генеральной совокупности объемом 10 000 элементов достаточно выбрать всего 1000. Начиная с этого значения требуемый объем выборки практически не увеличивается. Для генеральной совокупности из 100 000 элементов потребуется выборка в 1056 элементов, для совокупности из 1000 000 — 1066 элементов, для 50 000 000 — 1068 элементов. И для небольшого города, и для всей страны размер выборки будет одинаков.
Соотношение между размером генеральной совокупности и размером выборки для предельной ошибки в 3% и надежности 95 %.
Но при этом выборка обязательно должна быть репрезентативной. Если суп хорошо перемешать, не имеет значения, из какой ложки мы будем его пробовать.
Сила случая
Иногда в статьях, описывающих результаты опросов, приводятся расчеты погрешности, но не указывается, как формировалась выборка, либо, напротив, приведены все необходимые пояснения, так что очевидно, что выборка производилась не случайным образом. Все математические правила и законы, на которых основаны эти вычисления, выполняются только при условии, что выборка является случайной. В противном случае погрешность будет рассчитана неверно вне зависимости от того, насколько внимательно вы произвели все необходимые подсчеты.
Оптимальный способ формирования случайной выборки таков: нужно взять перечень всех представителей генеральной совокупности, случайным образом выбрать определенное число людей, связаться с ними и назначить встречу. Проблема в том, что этот способ ведет к большим затратам. Можно выбрать не людей, а дома, но в этом случае днем мы не застанем тех, кто работает, а вечером они вряд ли согласятся ответить на наши вопросы. Кроме того, если опрос можно производить только вечером, его проведение потребует длительного времени.
Преимущество полностью случайных выборок в том, что они позволяют получить очень точные оценки с помощью традиционных статистических методов. Их единственным недостатком является высокая затратность. Существуют и другие способы, каждый из которых имеет свои преимущества и недостатки. Можно использовать районированную выборку; в этом случае генеральная совокупность разделяется на области, после чего выборки берутся из каждой области. Этот вид выборки наиболее эффективен, если вариация значений между областями невысока.
Также можно использовать серийную выборку. Ее принцип заключается в том, что выбираются не отдельные люди, а этажи или подъезды, после чего опрашиваются все жильцы. Это дешевле, чем опрашивать отдельных людей, проживающих далеко друг от друга. Компании, специализирующиеся на проведении опросов, знают, как достичь требуемой достоверности экономически выгодным способом. Однако при любых обстоятельствах важно обеспечить репрезентативность выборки, в противном случае фиаско неизбежно.
Опрос, который изменил все опросы: Лэндон против Рузвельта
На выборах президента США в 1936 году кандидатом от республиканской партии был Альф Лэндон, кандидатом от демократической партии — Франклин Делано Рузвельт. Уважаемый и влиятельный журнал того времени The Literary Digest, который публиковал точные прогнозы о результатах прошлых выборов, провел крупнейший в истории предвыборный опрос. По почте было разослано примерно 10 миллионов анкет. Адреса были взяты из списков автовладельцев и из телефонных справочников. Было получено 2300 000 ответов, из которых следовало, что победу одержит Лэндон, а соотношение голосов составит 3 к 2 в его пользу.
Выборы выиграл Рузвельт, причем с заметным перевесом: он получил 60,8 % голосов. Причиной ошибки стало формирование прогноза на основе нерепрезентативной выборки. В 1936 году автомобили и домашние телефоны были доступны только обеспеченным людям, которые в большинстве своем голосовали за республиканцев. Крупномасштабный опрос завершился не менее масштабным провалом. В то же время компании, незадолго до того основанной Джорджем Гэллапом, удалось предсказать итог выборов, опросив менее 3000 человек, но обеспечив репрезентативность выборки. Урок не прошел даром: теперь опросы больше не проводятся методом «грубой силы», а имя компании Гэллапа стало своеобразным знаком качества.
Жеребьевка при призыве в армию
При формировании выборки или выборе единственного числа случайным образом нужно уделять особое внимание деталям, так как в противном случае могут возникнуть непредвиденные трудности. Среди специалистов широко известен случай, произошедший в армии США в разгар войны во Вьетнаме.
Во время призыва в 1970 году впервые использовалась жеребьевка: в ящик было помещено 366 капсул, каждая из которых соответствовала определенному дню года. Сначала в ящик поместили 31 капсулу по числу дней в январе, затем — 29 по числу дней в феврале и так далее. Капсулы перемешали и начали вытаскивать из ящика по очереди. Сначала призвали тех, кто родился в день, указанный на первой капсуле, затем — на следующей и так далее.
Однако из-за того, что, по-видимому, капсулы плохо перемешали, возникла проблема. Капсулы, соответствующие дням декабря, остались лежать сверху, и их доля в результатах жеребьевки оказалась намного больше, чем можно было бы ожидать при действительно случайном выборе. Капсулы, соответствующие дням января, лежали на дне и были вытащены ближе к концу жеребьевки, поэтому во Вьетнам отправилось намного больше молодых людей, рожденных в декабре, чем рожденных в январе. Средства массовой информации обратили на это внимание, но никаких изменений предпринято не было. В следующем году система была изменена и жеребьевка проводилась действительно случайным образом.
В Европе, в частности в Испании, произошел похожий случай. В 1997 году 165 342 юноши достигли призывного возраста, но армии требовалось меньше призывников. 16442 человека оказались «лишними», поэтому была проведена жеребьевка, чтобы определить, кто не подлежит призыву. Каждому призывнику был присвоен номер. Суть жеребьевки состояла в том, что случайным образом определялся один номер, и от призыва освобождался призывник с этим номером, а также 16441 человек, следующий за ним. Однако случайное число в интервале от 1 до 165 342 было выбрано некорректно. Сначала из лотерейного барабана, в котором находилось всего два шара с номерами 0 и 1, был взят шар, определяющий, в каком интервале находится число. Если выпадал ноль, число бралось из интервала от 1 до 99999, если выпадала единица, число бралось из интервала от 100000 до 165342. Выпал шар с номером 1. Далее из второго барабана, где находились шары с номерами от 0 до 9, был взят второй шар под номером 8. Так как этот номер соответствовал числу, превышающему 180 000, из барабана было извлечено еще несколько шаров, пока не выпал шар с номером, не превышающим 6.
Была ли допущена ошибка? Разумеется. Вероятность выпадения числа в интервале от 1 до 99999 была той же, что и вероятность выпадения числа от 100000 до 165342, однако первый интервал содержит больше значений, чем второй, из-за чего для одних призывников вероятность избежать призыва равнялась 8,2 %, для других — 12,6 %, что на 50 % больше.
«Неформальные» опросы
Профессиональная ассоциация разослала своим членам письма с анкетами, содержавшими вопросы о работе и годовом доходе. Целью исследования было получить данные, которые затем можно было бы использовать при переговорах о размере заработной платы. Участникам требовалось указать тип компании, в которой они работают (международная, семейная, крупная, мелкая, с большими традициями, недавно основанная и так далее), сферу деятельности, должность, время работы на этой должности, в компании, в сфере деятельности вообще и, наконец, величину заработной платы и премий. Участникам опроса также были высланы конверты с обратным адресом для отправки заполненных анкет по почте. Было отправлено 5 000 анкет и получено 357 ответов. Надежность выводов составила 95 %, погрешность — 5 %.
Если вы сверитесь со справочной таблицей, содержащей размеры выборок, то увидите, что размер выборки является корректным. Проблема в том, что эта выборка не является случайной. Следовательно, результаты опроса ошибочны. Если отвечают только желающие, то такую выборку нельзя считать случайной. Возможно, что участники опроса, занимающие высокие посты, очень заняты, постоянно находятся в командировках и не имеют времени на участие в опросах. В опросе также не примут участие те, кто поздно возвращается с работы, мало зарабатывает или временно не имеет работы и не хочет возвращаться к этой теме, а также те, структура зарплаты которых не соответствует ни одному из вариантов, предлагаемых в анкете. Таким образом, выборка не является случайной. Значит, мы не можем использовать математические методы, корректные только для случайных выборок.
Это же справедливо и для анкет постояльцев отелей, в которых можно оставить отзыв о качестве обслуживания. Эти анкеты заполняют только те постояльцы, которые особенно недовольны обслуживанием, либо те, кто хочет выразить благодарность в письменном виде (а также, возможно, те, у кого достаточно времени на заполнение анкеты). Информация, полученная из этих анкет, поможет определить положительные и отрицательные моменты, но ее нельзя использовать для получения статистических данных, отражающих мнение клиентов в среднем.
Если мы выйдем на улицу с микрофоном в руке и камерой на плече, чтобы опросить жителей, а затем представим их мнение в эфире с комментарием «мы вышли на улицы, чтобы узнать, что думают жители о…», это сделает нашу телепрограмму динамичной и интересной, но не поможет узнать истинное мнение горожан в целом.
Да или да? Значение формулировок вопросов
Формулировки вопросов, порядок их следования и даже ударение на отдельные слова может повлиять на результат опроса. Если мы косвенно указываем, какой ответ является «правильным», участник опроса, скорее всего, ответит именно то, что мы хотим услышать.
Когда автор этой книги и его коллега читали курс лекций по статистике для всех желающих, мы провели опрос среди слушателей, чтобы показать, как формулировки вопросов влияют на результат. Мы сказали, что хотим узнать мнение аудитории о новом законе, касающемся финансирования политических партий, и раздали всем опросные листы. Все листы выглядели одинаково, но в половине листов формулировка одного из вопросов была изменена.
Две формулировки одного и того же вопроса о финансировании политических партий.
Почти все опрошенные ответили «да» вне зависимости от того, какая из двух анкет им была выдана. То есть некоторые согласились с тем, что «крупные финансовые группы не должны вкладывать значительные суммы денег», другие — с тем, что «компании и организации должны иметь возможность вкладывать средства». Как вы видите, предпочтения составителей опроса могут повлиять на формулировки вопросов, что в свою очередь отразится на результатах. Следовательно, важно понимать, в чем заключается вопрос и как именно следует его задать. Также наряду с результатами опроса следует всегда приводить точные формулировки вопросов.
Звонит телефон, но вас нет дома. Телефонные опросы
Проведение опросов по телефону — самый простой и удобный способ, хотя очевидно, что и он имеет определенные недостатки. Телефон доступен практически всем, кто проживает в более или менее развитых районах, но молодежь предпочитает пользоваться мобильными телефонами. Очевидно, что их номеров нет в справочниках и они не войдут в число участников опроса.
Нужно определить, повлияет ли на результаты опроса тот факт, что в выборку не войдут те, у кого нет домашнего телефона. Также имеет значение, в какое время будет производиться опрос, кого мы будем опрашивать и как будем заменять тех, кто не пожелает участвовать в опросе. Если мы не уделим должного внимания этим моментам, выборка будет недостаточно репрезентативной, что приведет к серьезным ошибкам.
Частный случай: предвыборные опросы
Предвыборные опросы — один из наиболее популярных способов применения статистики (о котором, однако, не все отзываются положительно). Эти опросы стоят особняком, так как приковывают очень большой интерес общественности. К тому же, в отличие от других случаев, в итоге нам становится известно истинное значение величины, которую мы хотим оценить. Проблема заключается в том, что, помимо традиционных сложностей с формированием случайной выборки, существуют и другие непростые моменты. Рассмотрим некоторые из них.
Избиратели постепенно изменяют свой выбор
Предвыборные опросы проводятся за несколько дней или даже недель до того, как пройдут выборы. В некоторых странах результаты таких опросов запрещено публиковать в течение определенного периода времени до выборов (в Испании этот срок равен одной неделе). Таким образом, экстраполяция выполняется дважды: в первый раз — когда мы экстраполируем результаты по выборке на всю генеральную совокупность, во второй — когда предполагаем, что в день выборов результаты будут теми же, что и в день опроса.
Однако в это время партии проводят предвыборную кампанию, проходят дебаты между кандидатами, могут происходить события, о которых кандидаты выскажутся определенным образом… Все это может повлиять на мнение избирателей, особенно тех, кто в момент опроса еще не определился с выбором.
За кого голосуют те, кто не определился?
Избиратели, которые не определились с выбором, представляют проблему для организаторов предвыборных опросов. Их доля нередко составляет от 20 до 50 % опрошенных. В этом случае их мнение определяется по результатам ответов на вопросы вида «Какой партии вы симпатизируете больше?», или «Программа какой партии вам ближе?», или «За какую партию вы голосовали на прошлых выборах?». Эксперт пытается предсказать, за какую партию проголосует участник опроса, который сам пока еще не знает этого.
Очевидно, что отнесение голосов не определившихся избирателей в пользу той или иной партии имеет очень большое значение. Эта задача лежит преимущественно в области социологии и политики, а не статистики.
* * *
КАК ПОЛУЧИТЬ КОНФИДЕНЦИАЛЬНУЮ ИНФОРМАЦИЮ И НЕ ПОСТАВИТЬ ОПРАШИВАЕМОГО В НЕЛОВКОЕ ПОЛОЖЕНИЕ
Когда мы задаем вопросы, которые считаются неэтичными, или же вопросы личного характера, участники опроса редко отвечают искренне. Однако существуют способы получить эту информацию и в то же время сохранить секрет опрашиваемого. Например, допустим, что неудобный ответ — «да». Чтобы участник опроса мог ответить на вопрос безбоязненно, можно действовать так.
1. Опрашиваемый достает карту из колоды. Половина карт — красные, половина — черные. Участник опроса никому не показывает карту и возвращает ее на место.
2. Если он вытянул красную карту, он отвечает «да», если черную — он отвечает на поставленный вопрос.
Очевидно, что если он ответит «да», то мы никак не сможем узнать, что произошло на самом деле: возможно, участник опроса вытянул красную карту либо он действительно ответил «да» на неудобный вопрос.
Если мы опросим 1000 человек и 612 ответят «да», примерно 500 из них ответят так потому, что они вытянули красную карту, поэтому их ответы следует исключить. Из остальных 500, которые действительно ответили на вопрос, 112 ответили положительно, следовательно, доля ответивших «да» составит 112/500 = 22,4 %.
* * *
Недостаточно откровенные ответы на вопросы
Формулировки вопросов и порядок их следования также имеют очень большое значение. Написание четких и понятных вопросов, которые не наводят на мысль о «правильном» ответе, — непростая задача. Вопросы должны быть составлены грамотно, а сотрудники, проводящие опрос, должны быть хорошо обученными и мотивированными (читай — высокооплачиваемыми).
Иногда опросы дают возможность свободного ответа, что делает ответы участников относительно правдоподобными, а число «неопределившихся» уменьшается, так как часть из них, возможно, на самом деле просто предпочитают не распространяться о своем мнении.
От процента голосов к числу кресел в парламенте
Во многих случаях по-настоящему важен не процент голосов, полученный партией на выборах, а число кресел, которое эта партия займет в парламенте. Системы, по которым это число рассчитывается в зависимости от процента полученных голосов (как, например, метод д’Ондта), усложняют расчеты. Например, в избирательном округе, где голосованием распределяется пять мест в парламенте, определенная партия получила 32 % голосов, предельная ошибка составила 3 %, надежность — 95 %. Проблема в том, что если партия получит 31 % голосов, то получит одно кресло, если 33 % — два кресла. Эта разница очень важна, но ее нельзя точно определить с помощью данных, которыми мы располагаем.
Другая проблема заключается в том, что существует минимальный процент голосов (например, 5 %), дающий право занять места в парламенте. Если, допустим, за какую-то партию проголосовало 4,6 % избирателей, то нельзя точно сказать, имеет ли она право занять место в парламенте. Результат этой партии также повлияет на число кресел, которое будет распределяться между остальными.
Тем не менее законы статистики выполняются
При проведении предвыборных опросов точно спрогнозировать результат будущих выборов мешают многие факторы, которые не всегда относятся к статистике (не говоря уже о манипуляциях и заинтересованности организаторов опроса). Было бы полезно определить, насколько часто результаты крупных предвыборных опросов оказываются ошибочными и какова величина ошибки. Как правило, об ошибочных прогнозах говорят больше, чем о точных, подобно тому как в СМИ больше внимания уделяется плохим новостям. Даже в научных кругах более наглядными и показательными считаются именно те случаи, когда прогноз оказывался неточным.
Также могут существовать (и существуют) опросы, результаты которых формируются на основе мнений заинтересованных лиц. Цель таких опросов — повлиять на предпочтения избирателей. Хорошим показателем надежности результатов может служить опыт и авторитет организации, проводившей исследование, а также указание на источник, в котором опубликованы результаты опроса. Чтобы охарактеризовать подлинную надежность результатов, одного лишь статистического показателя в 95 % не всегда бывает достаточно.