Глава 5. Что лучше? Что эффективнее? Как формировать выборки для ответов на подобные вопросы. «Том13. Абсолютная точность и другие иллюзии. Секреты статистики»

Статистику необходимо использовать тогда, когда для ответа на вопрос нужно собрать и проанализировать данные. К таким вопросам относятся, например, вопросы об эффективности вакцины или лекарства, о прочности нового способа сварки и другие.

Как правило, сбор данных — трудоемкая и дорогостоящая операция. Следует тщательно продумать, каков оптимальный способ решения этой задачи, позволяющий потратить минимум ресурсов. Кроме того, почти никогда не удается получить все необходимые данные и нужно знать, как извлечь из них максимальную выгоду. Не стоит забывать и о вариации данных, которые не подчиняются строгим математическим законам, и при одних и тех же исходных данных результаты могут различаться.

Если нужно ответить на вопрос, снижает ли регулярный прием определенной дозы аспирина вероятность инфаркта, это можно сделать на основе рассуждений о действии аспирина на организм, однако во многих случаях реальность преподносит немало сюрпризов. Точнее всего на этот вопрос можно ответить, если собрать экспериментальные данные. Нужно сформировать две группы людей, обладающих как можно более схожими признаками, одной группе прописать аспирин, другой — нет, после чего сравнить результаты. Нам известно, что не все участники исследования одинаковы, поэтому реакция на аспирин у них будет различаться. Нужно учесть все эти факторы и сделать корректные выводы, указав степень их надежности. Именно этим и занимается статистика.

Крупномасштабное исследование: вакцина против полиомиелита

Возможность сделать прививку и обезопасить себя от инфекционного заболевания, вне всяких сомнений, стала одним из решающих этапов в борьбе с болезнями, помогла улучшить здоровье людей и повысить ожидаемую продолжительность жизни.

Однако для каждого заболевания требуется особая вакцина, и найти ее иногда бывает непросто. Лабораторные тесты, тесты на животных, на добровольцах помогают собрать достаточно информации об эффективности вакцины. Однако прежде чем одобрить и рекомендовать ее к массовому применению, нужно тщательно проверить, скомпенсируют ли ее преимущества затраты и неизбежные риски. Здесь на сцену выходит статистика.

В 1954 году было проведено масштабное исследование по оценке эффективности вакцины против полиомиелита (вакцины Солка, созданной эпидемиологом Джонасом Солком). Оно очень подробно описано в книге Statistics: A Guide to the Unknown, где рассказывается о 29 случаях применения статистики в самых разных областях. Каждая глава написана специалистом, глубоко разбирающимся в соответствующей теме. Глава об анализе эффективности вакцины написана профессором Чикагского университета Полом Мейером.

Полиомиелит и его особенности

Благодаря эффективности прививок полиомиелит исчез практически полностью, но еще не так давно он входил в число самых опасных болезней. Им болели преимущественно дети, многие оставались парализованы или всю жизнь страдали от серьезных осложнений болезни. Кроме того, масштабные эпидемии полиомиелита возникали неожиданно. Что любопытно, от них в большей степени страдали социальные группы с лучшими условиями жизни, а наиболее бедные страны и слои населения оказывались практически не затронутыми. Причиной этому был тот факт, что в менее благополучных слоях населения дети заражались раньше, когда они еще находились под защитой иммунитета матери, поэтому вирус не приводил к развитию заболевания. Кроме того, у детей вырабатывался иммунитет к полиомиелиту. Дети, жившие в более благоприятных условиях, заболевали позже, когда их уже не защищал материнский иммунитет. Борьбе с этой болезнью способствовал и тот факт, что сам президент Рузвельт переболел полиомиелитом и всячески поддерживал исследования в этой области.

В начале 1950-х годов руководство системы здравоохранения США посчитало, что новая вакцина, созданная Джонасом Солком, является эффективной, что было доказано исследованиями, проведенными в небольших масштабах. Однако перед тем как рекомендовать массовое применение вакцины, требовалось получить неопровержимые доказательства ее эффективности и отсутствия негативных побочных эффектов. Было решено провести эксперимент, ставший самым крупным в истории системы здравоохранения.

Контрольная группа

Допустим, что результаты испытаний нового лекарства от определенной болезни показывают, что любой, кто принял это лекарство, излечивается за 7 дней. Можно ли говорить об эффективности этого лекарства?

Возможно, вам кажется, что если все заболевшие излечиваются, то лекарство и в самом деле эффективно. Однако на самом деле эксперимент не доказывает этого. Возможно, что если бы испытуемые не принимали никакого лекарства, то излечились бы за тот же срок. Более того, возможно, что без принятия лекарства болезнь проходит за 2–3 дня, в противном случае на ее лечение уходит 5–6 дней. По этой причине для доказательства эффективности нового лекарства или вакцины формируется репрезентативная выборка из числа тех, кому предназначено лекарство. Затем выборка разделяется на две группы случайным образом. Это обеспечивает отсутствие системных различий между представителями той и другой группы. Далее лекарство получают пациенты лишь из одной группы. Путем сравнения с пациентами второй группы анализируется эффект от нового лекарства. Группа, которая не получает никакого лечения, называется контрольной группой.

В случае с полиомиелитом регулярно отмечались непредсказуемые колебания числа заболевших. Например, в 1952 году, когда произошла наиболее серьезная вспышка полиомиелита за период с 1930 по 1956 год, в США заболело порядка 60000 человек; в 1953-м — всего лишь около 35000, на 42 % меньше. Если бы в 1953 году была испытана новая, абсолютно неэффективная вакцина, можно было бы предположить, что она эффективна, так как число заболевших существенно снизилось. Этот случай был не единственным: в 1932 году по сравнению с предыдущим годом число заболевших уменьшилось более чем наполовину. Это же произошло в 1936, 1938, 1942, 1947 и 1956 годах.

Столь же неудачной была бы попытка привить всех детей в одном регионе, например в штате Нью-Йорк, и не привить детей, например, в Чикаго, так как болезнь распространялась неравномерно и крупная вспышка заболевания могла произойти в конкретном штате именно в этом году. Было необходимо разделить всех испытуемых на две равные группы, находящиеся в абсолютно равных условиях. Одной группе вводилась бы вакцина, вторая группа являлась бы контрольной.

Две «наиболее похожие» группы: плацебо и двойной слепой метод

Если некоторые люди получают лекарство (принимают ежедневно по одной таблетке или получают разовый укол, как в случае с вакциной Солка), а другие не получают ничего, то первые будут убеждены, что лекарство имеет определенный эффект, и отметят некоторое улучшение, даже если лекарство не будет обладать никаким эффектом. Этот феномен называется эффектом плацебо. Несомненно, именно он является причиной успеха многих видов так называемой альтернативной медицины, когда заболевание проходит как бы само собой.

В случае с полиомиелитом ребенок либо подвержен заболеванию, либо нет, и можно подумать, что ощущения пациента не будут зависеть от того, получил он прививку или нет. Однако не все варианты течения болезни являются тяжелыми или имеют осложнения. Если у ребенка, получившего прививку, обнаруживаются симптомы, сходные с симптомами полиомиелита, то и родители, и врач посчитают, что ребенок вряд ли мог заразиться, ведь он получил прививку! То есть если у ребенка действительно была легкая форма полиомиелита, ее можно перепутать с другой болезнью, и этот случай заболевания окажется незарегистрированным. Напротив, члены группы, не получившей вакцину, будут обращать больше внимания на любые симптомы, так как будут чувствовать себя незащищенными. Если у них обнаружатся признаки заболевания, эти случаи будут изучены и диагностированы более тщательно. В результате может возникнуть ошибочное представление о том, что в группе, не получившей прививок, отмечено больше случаев болезни.

Чтобы избежать положительного воздействия эффекта плацебо только на группу, получавшую лечение, все испытуемые получают внешне одинаковое лекарство. Они не знают, принимают они настоящее лекарство или им дают нейтральные таблетки того же вкуса и цвета, что и настоящие, — эти таблетки и называются плацебо. Более того, сам испытуемый не знает, к какой группе он принадлежит (в случае с полиомиелитом нужно, чтобы об этом не знал ни ребенок, ни его родители), а врач, который проводит лечение, не знает, какое лекарство принимает пациент — настоящее или плацебо. Это делается не потому, что врачам нельзя доверять, а для того чтобы избавиться от возможных стереотипов. Так, если ребенок получает настоящее лекарство и врач замечает признаки улучшения, он несколько преувеличит их, а если врачу известно, что ребенок получает плацебо, то он будет больше обращать внимание на отрицательные, а не на положительные симптомы.

* * *

ЗНАЧИМЫЕ И ВАЖНЫЕ РАЗЛИЧИЯ

При сравнительном анализе самое главное — определить, являются ли наблюдаемые различия значимыми или нет. Именно в этом заключается цель всех статистических тестов. Может показаться, что это противоречит здравому смыслу, но если различия являются значимыми, то это не означает, что они важные.

Различия называются значимыми, когда считается, что они не являются случайными, и два рассматриваемых способа лечения действительно дают разные результаты. Однако мы можем быть уверены, что они действительно дают разные результаты, даже если эта разница будет незаметна на практике.

Например, эксперимент может показать, что один клей приклеивает лучше другого, но разница между ними практически незаметна. Может случиться, что из-за недостаточного объема данных или значительной вариации результатов различия будут очень большими, но при этом они будут вызваны случайными факторами. Иными словами, в таком случае нельзя сказать, что один клей действительно лучше другого.

* * *

Чтобы этого не произошло, подобные исследования проводятся так, чтобы ни пациент, ни врач не знали, кто принимает настоящее лекарство, а кто — плацебо. Именно поэтому этот метод называется двойным слепым методом. Однако и при формировании контрольной группы, получающей плацебо, также присутствуют определенные трудности. Одна из их — сложность организации эксперимента. В случае с вакциной Солка требовалось приготовить инъекции с вакциной, идентичные тем, что содержали только соляной раствор. Далее их нужно было пронумеровать и проконтролировать, инъекцию какого типа получает пациент. При этом ни персонал, вводивший инъекцию, ни лечащий врач не должны были знать, какой именно препарат вводится пациенту.

Еще одна проблема лежит в области этики. Некоторые полагали, что неразумно вводить детям соляной раствор вместо вакцины, которая, как считалось, была достаточно эффективной. В качестве альтернативы было предложено вводить вакцину детям, которые учились во втором классе, а учеников первого и третьего класса использовать в качестве контрольной группы. В этом случае нарушался основной принцип двойного слепого метода, однако примерно в половине штатов, где проводился эксперимент, был использован именно этот способ. В остальных штатах контрольные группы получали плацебо.

Необходимость в выборке очень большого размера

Доля заболевших составляла всего 50 человек на 100 000. Ожидалось, что применение вакцины позволит сократить число заболевших вдвое. Очевидно, что проведение экспериментов с малыми группами было невозможным. Если бы, например, мы ввели вакцину 1000 детей, а еще 1000 использовали в качестве контрольной группы, то, скорее всего, ни в одной группе не было бы ни одного заболевшего и эксперимент не имел бы смысла. Если бы численность каждой группы составляла 10 000 человек, могло случиться так, что в контрольной группе заболели 5 человек, в группе получивших вакцину — 2 человека. Эта разница столь мала, что ее можно назвать случайной (отвергнуть нулевую гипотезу о том, что доля заболевших в каждой группе одинакова, в этом случае нельзя). Было необходимо, чтобы численность групп составляла несколько сотен тысяч человек, чтобы результаты можно было считать достоверными. Требовался крупномасштабный эксперимент.

Результаты

Эффективность вакцины полностью подтвердилась. В вакцинированной группе число заболевших было в два с лишним раза меньше, чем в группе, которой вводилось плацебо. Использованное в эксперименте p-значение имело порядок 10-9. Иными словами, вероятность того, что число заболевших в обеих группах случайно оказалось бы одинаковым, равнялась 1 на миллиард.

Результаты в тех регионах, где в качестве контрольных групп использовались школьники старших и младших классов, оказались аналогичными. Все были довольны тем, как был проведен эксперимент, ведь результаты оказались даже лучше, чем ожидалось. Число заболевших среди вакцинированных оказалось заметно меньше, но если бы в эксперименте не использовалась контрольная группа, которой вводилось плацебо, эксперимент не помог бы окончательно развеять все сомнения, а его результаты можно было бы трактовать по-разному.

Роль статистики. Полиомиелит в наши дни

Вакцина Солка позволила совершить шаг вперед в борьбе с полиомиелитом, но результаты ее использования все еще были не вполне удовлетворительны, и через несколько лет на смену ей пришла другая, более эффективная вакцина. Перед началом массового применения были должным образом проведены необходимые статистические исследования. Сегодня полиомиелит практически исчез. В настоящее время вспышки полиомиелита отмечаются всего в четырех странах мира: Нигерии, Индии, Пакистане и Афганистане. Всемирная организация здравоохранения, ЮНИСЕФ и другие международные организации предпринимают усилия по борьбе с полиомиелитом в этих странах. По их оценкам, очень скоро перестанут отмечаться новые случаи этого заболевания. Через три года после того, как это произойдет, будет официально объявлено об исчезновении полиомиелита.

Аспирин и инфаркты

В 1983 году в США было проведено крупномасштабное исследование для оценки влияния аспирина на сердечно-сосудистые заболевания. Анализ малых групп показал, что прием аспирина может снизить вероятность повторного сердечного приступа. Однако не было никаких доказательств того, что этот положительный эффект аспирина распространяется на всех.

Для участия в эксперименте было приглашено 261 248 врачей мужского пола старше 40 лет, данные о которых были взяты из реестра Американской медицинской ассоциации. 59 285 человек выразили согласие участвовать в эксперименте. Из их числа следовало исключить людей со сложной историей болезни, тех, кто уже принимал аспирин, а также тех, у кого наблюдались побочные эффекты от аспирина. В итоге был отобран 22 071 врач. Все они были здоровы и не находились в группе риска. Им было предписано принимать по 325 мг аспирина (или плацебо) раз в два дня.

Одновременно с исследованием влияния аспирина был изучен эффект бета-каротина (химического соединения, которое в нашем организме преобразуется в витамин А) при определенных типах рака. Испытуемые были случайным образом разделены на четыре группы: члены первой группы принимали аспирин и бета-каротин, второй группы — аспирин и плацебо бета-каротина, третьей группы — плацебо аспирина и бета-каротин, четвертой группы — плацебо аспирина и плацебо бета-каротина.

Лекарства, которые принимали четыре группы участников эксперимента. Все таблетки выглядели одинаково. Звездочкой отмечены таблетки-плацебо.

Несмотря на строгие критерии отбора участников эксперимента, они отличались по возрасту, истории болезни, характеру, некоторые из них курили. Следовательно, требовалось очень внимательно разделить участников эксперимента на четыре группы случайным образом, так как только таким способом можно было гарантировать общую схожесть групп по составу. Можно возразить, что большинство людей, находившихся в предынфарктном состоянии, случайным образом попали в одну из групп. Однако, согласно теории вероятности, если распределение проводилось действительно случайным образом, то вероятность подобного исхода в большой группе ничтожна.

Так как состав всех четыре групп схож и все испытуемые находились под влиянием одинаковых внешних условий, существенные различия в результатах групп, выходящие за рамки случайного отклонения, объясняются только разным действием принимаемых лекарств. Именно такова логика экспериментов, в которых сравнивается действие различных лекарств на случайной выборке.

Использовался двойной слепой метод, то есть ни пациенты, ни лица, наблюдающие за ними, не знали, какое лекарство принимает тот или иной пациент. Наблюдательный комитет анализировал результаты каждые полгода. Хотя изначально планировалось, что эксперимент продлится семь лет, спустя пять лет после его начала он был прекращен: положительный эффект аспирина оказался столь существенным, что было принято решение как можно скорее оповестить об этом и участников эксперимента, и всех врачей страны.

В группу, получавшую аспирин, входили те, кто принимал аспирин и бета-каротин, а также те, кто принимал аспирин и плацебо бета-каротина. Группа плацебо включала две оставшиеся подгруппы. Статистическое исследование показывает, что если бы аспирин не имел никакого положительного эффекта (вероятность инфаркта в обеих группах была бы одинаковой), то вероятность того, что подобная разница в результатах случайна, имела бы порядок 2 на 100000. Следовательно, разумно предполагать, что аспирин снижает вероятность инфаркта.

Новость о результатах эксперимента появилась на первой полосе газеты New York Times и привлекла большое внимание средств массовой информации. Эксперимент по анализу воздействия бета-каротина продолжался в течение запланированного времени. Автору не удалось найти информации о результатах этого эксперимента. Скорее всего, они были негативными. Согласно известной на данный момент информации, прием бета-каротина не только не снижает вероятность заболевания раком, но и увеличивает ее для курильщиков.

Однако аспирин — тоже не панацея. Считается, что он препятствует образованию скоплений тромбоцитов и образуется меньше сгустков крови. Но это тоже таит в себе опасность. Исследования показали, что в группе, принимавшей аспирин, наблюдался небольшой (не статистически значимый) рост случаев смертности от эмболии. Поэтому решение о регулярном приеме аспирина следует принимать взвешенно. Нужно следовать рекомендациям врача, который оценит индивидуальные особенности, преимущества и недостатки приема аспирина в каждом конкретном случае.

Табак и рак легких

С тем, что курение вредит здоровью, сегодня согласны практически все, но эта точка зрения была распространена не всегда. Теперь нам известно, какие именно вещества, содержащиеся в табачном дыме, могут вызвать рак. Также известно, как эти вещества превращают здоровые клетки в раковые, — это было показано с помощью опытов на животных. Но, как и во многих других случаях, статистические данные указывали, что ситуация не столь однозначна и требуются более подробные исследования.

Данные, которые были получены в 1950-х, свидетельствовали, что курильщики чаще болеют раком легких, чем некурящие. Но чтобы однозначно подтвердить это, требовались более тщательные исследования.

Чтобы подтвердить связь между курением и возникновением рака легких и других заболеваний, было проведено семь масштабных исследований (одно в Великобритании, одно в Канаде, пять в США). Число испытуемых составляло от 34000 до 448000 человек. По сути, все исследования проводились по одной и той же схеме: лицам, выбранным для участия в исследовании, высылались анкеты. Требовалось указать, сколько сигарет человек выкуривал сейчас и в прошлом, а также основные демографические данные. Была создана система, гарантирующая, что в случае смерти участника опроса этот факт регистрировался, а также указывалась причина смерти.

Эти исследования позволили узнать, какое влияние оказывает возраст, в котором человек начал курить, вид и число выкуриваемых сигарет, а также заболевания, которым подвержены те, кто бросил курить. Один из выводов исследования заключался в том, что частота заболевания раком легких среди курильщиков в 11–20 раз выше, чем среди некурящих.

Возможен встречный аргумент (его выдвинул в том числе Фишер): данные исследований показывают, что раком легких чаще болеют курильщики, но это не доказывает, что причиной этого заболевания является именно табак. Можно предположить, что курильщики в целом более нервные и беспокойные, и именно эти черты характера, из-за которых они начали курить, являются причиной определенных заболеваний. Быть может, те, кто подвержен табачной зависимости, имеют определенную генетическую особенность, из-за которой (а не из-за курения) они чаще болеют раком легких.

Эти аргументы можно выдвинуть потому, что проведенные исследования не являются экспериментами в полном смысле этого слова, как было в случае с испытаниями вакцины против полиомиелита или при изучении действия аспирина по профилактике сердечных заболеваний. В этих случаях участники эксперимента случайным образом делились на две группы, экспериментальную и контрольную, так чтобы все возможные различия между ними являлись следствием изучаемого явления. Считалось, что причиной любых существенных различий между двумя группами является именно изучаемое явление. Однако исследования воздействия табака не были экспериментальными: две группы, курильщики и некурящие, уже были сформированы, и ученые лишь наблюдали за развитием событий. Нельзя было заставить курить некурящих или уговорить заядлых курильщиков бросить курить. С теоретической точки зрения в идеальном исследовании курить должны все, но половина испытуемых, выбранная случайным образом, должна курить обычный табак, а другая половина — некое совершенно безвредное вещество, по вкусу и остальным свойствам идентичное табаку.

Производители сигарет могли бы заявить, что только такое исследование является корректным, и были бы правы. Однако оно настолько же корректно, насколько и нереализуемо на практике. Все же доступные данные однозначно указывают, что табак — важный фактор возникновения рака легких и мочевого пузыря, сердечно-сосудистых и других заболеваний. Связь между раком легких и употреблением табака была отмечена во множестве исследований, выполненных в различных странах и условиях. Это устраняет возможную предрасположенность к этим заболеваниям определенной группы людей. Кроме того, известно, какие именно вещества, содержащиеся в табачном дыме, могут вызывать рак. Гипотеза о генетической предрасположенности не объясняет роста числа заболеваний среди женщин, которые начали курить, и среди некурящих, постоянно находящихся рядом с курильщиками. Эти факты не всегда были очевидны, и обнаружить их помогла именно статистика.

Случайный отбор и влияние различных факторов

При разработке экспериментов для сравнения различных лекарств, катализаторов химической реакции и так далее наиболее важный момент — получить два множества данных, которые отличаются единственной переменной, изучаемой в эксперименте. При проведении подобных экспериментов в медицине могут сравниваться два лекарства или выясняться эффект от приема лекарства по сравнению с плацебо, как в случае с вакциной полиомиелита или при анализе действия аспирина по предотвращению инфарктов. Как вы уже видели, ключевой вопрос — как разделить участников исследования на две максимально похожие группы. Парадоксально, но наилучшие результаты достигаются при формировании групп случайным образом. В этом случае любые значимые различия между группами (то есть те, которые нельзя объяснить случайными событиями) объясняются различным воздействием изучаемого фактора на обе группы. Однако если помимо изучаемого фактора на группы действуют и другие факторы, то нельзя сказать, что именно является причиной различий в результатах групп.

Рассмотрим пример. Одной из классических книг по проведению экспериментов является Statistics for Experimenters Бокса, Хантера и Хантера, где объясняется, как нужно провести эксперимент, чтобы сравнить степень износа различных материалов, из которых изготавливается подошва молодежной обуви. Если в эксперименте участвует всего 10 молодых людей, их можно разделить случайным образом на две группы по 5 человек: члены одной группы получат обувь с подошвой из материала А, члены второй группы — обувь с подошвой из материала В. По прошествии определенного времени (например, полугода) нужно измерить износ подошв на всех парах обуви и провести соответствующий статистический анализ (в этом случае будет использоваться так называемый t-критерий Стьюдента для независимой выборки).

Естественно, что группы следует формировать случайным образом. Не стоит просить подростков выстроиться в шеренгу и выдавать первым пяти обувь с подошвой из материала А, последним пяти — обувь с подошвой из материала В: те, кто встал в шеренгу первыми, больше бегают и двигаются, поэтому быстрее износят обувь.

Однако этот способ сбора данных имеет один недостаток. Износ подошвы зависит не только от материала (именно это мы анализируем в ходе эксперимента), но и от самого подростка: некоторые из них больше бегают и будут даже играть в футбол в этой обуви, другие будут бегать меньше. Некоторые, возможно, почти не будут надевать выданную обувь, так как она им не понравится или они побоятся порвать ее, и подошвы не износятся.

Так как на износ подошвы влияет не только материал, из которого она изготовлена, но и другие факторы, то мы не сможем определить, какой именно фактор будет причиной возможных различий. Может случиться так, что по вине посторонних факторов различий наблюдаться не будет, но в действительности подошвы из анализируемых материалов будут изнашиваться по-разному.

Как справиться с этой проблемой? Нужно выдать каждому подростку один ботинок с подошвой из первого материала, другой — с подошвой из другого материала. В этом случае все возможные отличия в износе подошвы будут вызваны исключительно различными свойствами материалов и никаким другим фактором. В этом случае сравниваются не средние значения в обеих группах, а износ подошв обоих ботинок каждого подростка. Если одна подошва в среднем изнашивается больше другой (не имеет значения, насколько сильно они изнашиваются, важна лишь разница между ними), это вызвано различием в свойствах материалов.

Для сравнения средних значений выборок, сформированных таким образом, используется так называемый t-критерий Стьюдента для парных выборок.

Очевидно, что не следует изготавливать из материала А подошву только правых ботинок, а из материала В — подошву левых ботинок, так как, возможно, подошвы на одной ноге в среднем изнашиваются больше. Этого можно избежать, если чередовать материалы случайным образом (например, бросать монету для каждой пары обуви, и если выпадает решка, то из материала А изготавливается подошва правого ботинка).

Таким образом, ожидается, что если обувь на конкретной ноге изнашивается больше, при чередовании материалов случайным образом возможное влияние этого фактора будет устранено.

* * *

УИЛЬЯМ СИЛИ ГОССЕТ , ОН ЖЕ «СТЬЮДЕНТ»

Любой, кто хотя бы немного изучал статистику, непременно сталкивался с распределением Стьюдента, которое используется даже чаще, чем нормальное распределение, или с t-критерием Стьюдента для сравнения средних значений.

Стьюдент — это псевдоним, которым подписывал свои работы Уильям Сили Госсет (1876–1937) , внесший огромный вклад в статистику. Всю свою жизнь он проработал на пивоваренном заводе Guinness в Дублине.

В начале XX века, когда Госсет окончил курсы математики и химии в Университете Оксфорда, компания Guinness перешла в руки юного наследника, который решил отойти от традиционных способов изготовления пива и воспользоваться помощью ученых в разработке новых, более совершенных способов пивоварения. Одним из тех, кто был принят на работу, был Стьюдент. Он быстро понял, как важно использовать методы статистики при сравнении различных рецептов приготовления пива. Было необходимо изучить влияние сырья, характеристики которого существенно варьировались и были подвержены воздействию факторов окружающей среды. Требовалось проводить эксперименты, но их число всегда было недостаточным, и нужно было делать выводы на основе небольшого объема доступных данных. До того времени считалось, что использованные выборки всегда были достаточно велики, чтобы по ним можно было точно оценить параметры генеральной совокупности. Однако при работе с малыми выборками оценки были неточными, и ими нельзя было руководствоваться. Госсет занялся поисками решения этой задачи и опубликовал свои выводы под псевдонимом Стьюдент, поскольку сотрудникам компании запрещалось публиковать статьи с результатами своих исследований.

Существует несколько версий того, как и почему Госсет выбрал себе такой псевдоним. По одной из версий, в компании Guinness стало известно об увлечении Госсета математикой уже после его смерти, однако другие источники указывают, что в компании знали о том, что он публикует статьи, а псевдоним Стьюдент предложил сам директор. По-видимому, целью Госсета было не сохранить в секрете разрабатываемые им теории, а скрыть от конкурентов, что Guinness использует статистические методы для улучшения качества продукции.

* * *

Выбор материала случайным образом не ведет к дополнительным затратам и позволяет исключить влияние прочих известных и даже неизвестных факторов. Похожим примером является анализ износа различных видов покрытия, которое наносится на стекла очков. Если одной группе людей раздать очки с одним покрытием, другой — с другим покрытием и по прошествии некоторого времени измерить его износ, то на степень износа очевидно повлияет не только материал, но и то, как люди ухаживали за очками, факторы окружающей среды и другие причины.

Следовательно, как и при анализе материала для подошв, наилучшим вариантом будет раздать всем очки, в которых на одно стекло будет нанесено одно покрытие, на второе стекло — другое покрытие (разумеется, это невозможно, если цвета покрытия отличаются). Стоит ли выбирать покрытие случайным образом или же можно всегда использовать покрытие А для правых стекол, покрытие В — для левых?

Ученые, проводившие подобные эксперименты, говорят, что мы всегда начинаем протирать очки с одного и того же стекла. Тот, кто сначала чистит правое стекло, всегда чистит первым именно его, а то стекло, которое протирается первым, как правило, будет чище. Поэтому всегда лучше производить выбор случайным образом.

Сделайте это сами

Существуют городские легенды (кто знает, возможно, это не просто легенды), которые можно проверить с помощью статистики. Рассмотрим несколько примеров.

Помогает ли чайная ложка удержать газ в бутылке шампанского?

Некоторые люди считают, что если опустить ложку в горлышко бутылки шампанского, то из нее не будет выходить газ (или по крайней мере он будет выходить медленнее, чем из открытой бутылки) и вино дольше сохранит свой вкус. Как развеять сомнения? Попробовать, то есть провести эксперимент.

Эта задача похожа на задачу о дегустаторе чая. Можно попросить кого-нибудь попробовать шампанское из бутылки, в горлышко которой положили ложку, затем из бутылки с открытым горлышком. Мы уже знаем, что одного бокала из каждой бутылки недостаточно. Нужно налить минимум три бокала из одной бутылки и столько же — из другой. Бутылки должны быть полностью одинаковыми и должны храниться в одинаковых условиях. Единственная разница должна состоять в том, что в горлышко одной бутылки положили ложку.

Вероятность случайно угадать все три бокала из бутылки, в горлышко которой положили ложку, равна 5 % (напомним, что три предмета из шести можно выбрать 20 разными способами, лишь один из которых является правильным). Чтобы снизить вероятность случайного угадывания, нужно предложить дегустатору больше бокалов, но следует учесть, что после определенного числа бокалов он уже не сможет четко различать вкус шампанского.

Можно дать попробовать шампанское нескольким людям, но нужно быть внимательным: в этом случае вероятность случайного угадывания возрастет. Если вероятность того, что один человек точно укажет все три бокала, равна 5 %, то вероятность того, что один из пяти человек верно определит все три бокала, будет равна примерно 40 %, и сделать какие-то точные выводы будет нельзя.

Очевидно, что можно использовать прибор, измеряющий содержание газа в вине, и получить абсолютно точный результат. Однако не стоит забывать, что прибор может указать на различия, которые будут неощутимы на вкус, а между тем именно они представляют для нас интерес. Следовательно, вопреки показаниям прибора, класть ложку в горлышко бутылки не имеет смысла. По этой же причине не стоит доверять проведение эксперимента дегустатору вина, способному определять его вкус с исключительной точностью.

Умеете ли вы выбирать дыни?

Задача о выборе спелой дыни еще больше похожа на задачу о дегустаторе чая. Некоторые люди утверждают, что умеют выбирать спелую дыню по весу, на звук и так далее. Чтобы определить, так ли это на самом деле, можно выбрать пять дынь случайным образом и предложить знатоку выбрать из них одну, по его мнению, самую спелую. Далее нужно взять по одной дольке из каждой дыни и снова предложить выбрать самую спелую, но теперь уже на вкус. Разумеется, в обоих случаях знаток должен указать одну и ту же дыню. Недостаток этого эксперимента заключается в том, что вероятность случайного угадывания равна 1/5 (20 %), следовательно, результат будет ненадежным. Однако вероятность случайного угадывания в двух случаях из двух составляет всего 4 %, в трех случаях из трех — 8 %, что крайне маловероятно, если знаток действительно не умеет выбирать спелые дыни.

Будут ли цветы стоять дольше, если добавить в воду аспирин?

По-видимому, аспирин полезен не только для человека. Достаточно распространено мнение, что цветы будут стоять дольше, если добавить в воду аспирин. Чтобы проверить это экспериментально, можно взять два букета по 20 цветов (лучше если все цветы будут разными, то есть выбрать по две розы, две гвоздики, две маргаритки и так далее). Далее нужно поставить букеты в вазы и убедиться, что они находятся в абсолютно одинаковых условиях. Единственное различие будет заключаться в том, что в воду в одной вазе мы добавим немного аспирина, в другой — нет.

Если эффект от аспирина отсутствует, вероятность того, что первым завянет определенный цветок, равна 50 %. Следовательно, крайне маловероятно, что во всех 20 случаях дольше простоят цветы в той вазе, куда был добавлен аспирин. Вероятность случайного совпадения равна вероятности выпадения решки 20 раз подряд при 20 бросках монеты. Применив правило «и» (см. главу 2), получим: 0,520 = 9,5·10-7 (порядка одной миллионной). Если цветы в вазах с аспирином будут стоять дольше, это будет очевидно доказывать эффективность аспирина.

Вероятность того, что цветы в воде, куда был добавлен аспирин, будут стоять дольше минимум в 19 случаях, равна 2 на 10000; минимум в 15 случаях — порядка 2 %; в 14 случаях — почти 6 %. Следовательно, неудивительно, что цветы будут стоять дольше в воде, куда был добавлен аспирин, в 14 случаях и менее, даже если аспирин не оказывает абсолютно никакого эффекта. Приняв вероятность ошибки равной 5 % (эта величина называется уровнем значимости), аспирин следует считать эффективным, если цветы будут стоять дольше минимум в 15 случаях из 20.

Этот эксперимент очень прост, и в нем не учитывается, на сколько дольше сохраняется один цветок по сравнению с другим — на день, два дня или на неделю. Можно использовать и другие показатели, например критерий Уилкоксона, в котором учитывается разница во времени для каждой пары цветов. Однако важнее, чтобы эксперимент был проведен корректно, а его выводы не экстраполировались на другие случаи, нежели какой именно критерий мы выберем.

Действительно ли дорогие батарейки работают дольше?

Когда мы покупаем бытовую технику, то помимо прочих факторов учитываем и ее внешний вид. Однако при покупке батареек единственный важный параметр — это время их работы.

Любопытно проанализировать разницу в ценах между одинаковыми батарейками в зависимости от марки или магазина, где они были куплены. Обычные батарейки с напряжением 1,5 В от известных производителей могут стоить в два раза дороже батареек, купленных в дешевом супермаркете (и это совсем не значит, что там продаются только плохие батарейки). Также верно и то, что в последнее время известные производители предлагают различные скидки, и разница в цене уже не столь велика — рынок диктует свои правила.

Правда ли, что дорогие батарейки работают дольше? И если они действительно работают дольше, то выгоднее ли покупать их? Иными словами, компенсирует ли разница во времени работы разницу в цене? Чтобы ответить на эти вопросы, нужны данные. Необходимо тщательно продумать алгоритмы сбора данных и проанализировать их нужным образом, чтобы получить достоверный результат. Иначе говоря, нужно использовать методы статистики. Задачу непросто решить по следующим причинам.

* * *

КАК РАЗДЕЛИТЬ 20 МЫШЕЙ НА ДВЕ РАВНЫЕ ГРУППЫ СЛУЧАЙНЫМ ОБРАЗОМ?

Допустим, мы хотим провести эксперимент на лабораторных мышах, чтобы сравнить, как различные диеты (обозначим их А и В) влияют на выносливость. У нас есть 20 мышей приблизительно одного возраста, их остальные характеристики также примерно равны. Мы делим их на две группы по 10 и кормим мышей каждой группы в соответствии с определенной диетой. По прошествии нескольких месяцев мы проводим эксперимент: помещаем мышей в воду и замеряем, сколько времени они смогут удержаться на поверхности, после чего вытаскиваем их из воды. Эксперимент показывает, что мыши, которых кормили по диете В, более выносливы, чем те, которых кормили по диете А: разница во времени, в течение которого мыши удерживались на поверхности воды, является статистически значимой и однозначно свидетельствует в пользу диеты В. Кажется, вы совершили открытие. Но как именно вы поделили мышей на группы? Разумеется, случайным образом: вы засовывали руку в клетку и «случайным образом» доставали 10 мышей по очереди. Эти мыши составили группу А, те, что остались в клетке, — группу В.

Что-то не так? Разумеется. Мыши были разделены на группы не случайным образом. Когда мы достаем мышей из клетки, то, скорее всего, сначала мы достанем самых медленных, то есть самых слабых. Эти мыши образуют группу А, мыши из которой по итогам эксперимента оказались менее выносливыми. Но почему эти мыши оказались более медленными? Причина в диете или в том, что мы изначально собрали более медленных мышей в одной группе? Определить это нельзя. Вывод: важно гарантировать, что принцип формирования групп полностью случаен, например с помощью случайных чисел, бумажек или другим похожим способом. Если группы были сформированы не случайно, эту ошибку очень трудно исправить.

* * *

1. Время работы и дорогих, и дешевых батареек варьируется. Их нельзя сравнивать по одной, так как время их работы гарантированно будет отличаться (если измерения будут проводиться с достаточной точностью), но это не означает, что если одна батарейка конкретного типа работает дольше, то и все батарейки этого типа будут в среднем работать дольше.

2. Если мы сформируем выборку батареек каждого типа и сравним среднее время работы по выборкам, то разница между средними значениями по выборкам также не будет однозначно свидетельствовать в пользу тех или иных батареек. Если обе группы будут состоять из батареек одной и той же марки, то и в этом случае среднее время работы в каждой группе будет различаться. Необходимо, чтобы разница во времени работы была статистически значимой.

3. Батарейки используются в разных устройствах и в разных режимах. Может оказаться так, что в одних устройствах они будут работать одинаковое время, в других — разное.

4. Измерить время работы батареек непросто. Мы не можем непрерывно день и ночь наблюдать за работой устройства.

Можно выбрать определенное устройство и сравнить время работы для выборки дорогих и дешевых батареек. Можно подключить батарейку к лампочке и часам (электронные часы в этом случае не подходят) так, как показано на рисунке. Когда батарейка разрядится, стрелки часов остановятся, и мы сможем точно определить время работы батарейки. Нужно производить наблюдения минимум 1 раз в 12 часов, но в этих условиях батарейки проработают недолго.

Схема электрической цепи для измерения времени работы батарейки.

Для анализа полученных данных всегда рекомендуется использовать их графическое представление. Для небольшого объема данных, как в этом случае (например, для 10 батареек каждого типа), достаточно точечной диаграммы. Может случиться, что различия будут незаметны или диаграмма не позволит сделать однозначные выводы. Статистические тесты помогут нам подтвердить начальные предположения: результаты тестов не могут противоречить диаграмме.

Графическое представление трех возможных ситуаций.

Для анализа полученных данных подобным образом можно использовать t-критерий Стьюдента для независимых выборок. Это очень просто сделать с помощью Excel: нужно лишь указать, в каких ячейках находятся данные (первые два параметра функции «11 ЕСТ»), «хвосты» (третий параметр) и вид критерия (четвертый параметр функции).

Третий параметр зависит от альтернативной гипотезы (нулевая гипотеза заключается в том, что различия отсутствуют). Если она такова, что более дорогие батарейки работают дольше (предположить это вполне логично), значение этого параметра будет равно 1. Если же альтернативная гипотеза заключается в том, что дорогие батарейки работают дольше или меньше, значение этого параметра будет равно 2.

Четвертый параметр, вид критерия, указывает, являются ли выборки парными. Если выборки не парные, как в нашем примере, вариацию можно считать одинаковой в обеих выборках. Если графическое представление данных подобно указанному на точечных диаграммах выше, нетрудно заметить, что вариация одинакова. Если у вас возникли сомнения, можно указать, что вариация отличается, однако это почти не повлияет на результат.

Получение p -значения для t -критерия Стьюдента с помощью Excel .

В сомнительной ситуации, подобной той, что изображена на третьей диаграмме, по результатам теста p-значение равно 0,02 (нет смысла приводить его с такой точностью, как это делается в Excel). Как вы уже знаете, это означает, что если бы батарейки и того и другого типа в среднем работали одинаково, то разница, полученная по результатам эксперимента, была бы вызвана исключительно случайными факторами всего в 2 % случаев.

Действительно ли пакеты с водой отпугивают мух?

Пластиковые пакеты, наполненные водой, — популярное средство для отпугивания мух (в Интернете упоминается, что этот способ используют везде, от Латинской Америки до Таиланда). Некоторые люди считают, что это средство работает, другие сомневаются.

Любопытно, что те, кто верит в эффективность этого средства, приводят совершенно разные доводы: кто-то указывает, что луч света, проходящий через пакет с водой, раскладывается в спектр, и это сбивает с толку мух, так как их глаза устроены особым образом. Другие считают, что мухи не приближаются к воде, потому что знают: если они намокнут, то не смогут летать. Кто-то полагает, что пакеты с водой, напротив, используют в магазинах, так как они притягивают мух и те не мешают покупателям.

Помогают ли пакеты с водой против мух или нет? Не вдаваясь в анализ причин и следствий, на этот вопрос можно ответить с помощью грамотно проведенного эксперимента. Однако провести его непросто. Нужно будет подсчитать число мух в комнате, где есть пакеты с водой, и в комнате, где их нет. Нужно выставлять пакеты с водой в определенные дни, выбранные случайным образом, и всякий раз подсчитывать число мух в помещении.

Сосчитать мух нелегко, хотя нам могут помочь высокие технологии: некоторые фотоаппараты можно настроить так, что они будут делать снимок через заданные промежутки времени. Если делать снимки хорошим фотоаппаратом в комнате с белыми стенами, то мы сможем подсчитать число мух относительно точно. Однако этот метод обладает еще одним недостатком: если одни мухи вылетают из комнаты, а другие — влетают, это нельзя определить с помощью фотографий. Для подсчета мух в комнате также можно использовать липкую ленту.

Читатель наверняка сможет предложить и другие способы. Верно одно: если мы не получим данные с помощью грамотно проведенного эксперимента, то не узнаем, насколько эффективны пакеты с водой против мух.

Название книги

Том13. Абсолютная точность и другие иллюзии. Секреты статистики

Грима Пере

Глава 5

Что лучше? Что эффективнее? Как формировать выборки для ответов на подобные вопросы