Правдоподобие
Статистика — это цифры, а потому она кажется нам холодной и жесткой. Есть ощущение, что она отражает факты, которые нам дала сама природа, и наше дело всего лишь их найти. Но важно помнить, что собирают статистические данные люди, и никто иной. Люди выбирают, что считать, как считать, какими результатами делиться, какими словами их описывать и как интерпретировать числа. Статистика — это не факты, это интерпретация. И ваша интерпретация может быть такой же хорошей (равно как и такой же плохой), как и та, что вам предлагает другой человек.
Числа не всегда верны, и для начала проще всего быстренько проверить их на правдоподобие. Даже если они прошли проверку, у вас могут возникнуть вопросы трех типов: как данные были собраны, как они были интерпретированы и как представлены графически. Ответы на них помогут вам сформулировать правильные выводы.
Вы можете проверить (в большинстве случаев это возможно), правдоподобен ли факт, в уме или на оборотной стороне конверта. Не принимайте все на веру, попытайтесь разобраться.
Когда мы проводим подобную проверку, точность цифр не очень важна, как бы парадоксально это ни звучало. Достаточно просто здравого смысла: если Берт говорит, что хрустальный бокал упал со стола на ковер и не разбился, это кажется правдоподобным. Если Эрни скажет, что бокал упал с высоты 40-этажного здания на тротуар, не разбившись, это уже будет неправдоподобно. Тут вам помогут знания о том, как устроен мир, а также элементарный жизненный опыт. Подобным же образом, если кто-то вам скажет, что ему 200 лет, или что он постоянно выигрывает в рулетку в Лас-Вегасе, или что он может пробежать 40 миль за час, — все это будет маловероятно и очень неправдоподобно.
Что вы скажете о следующем заявлении?
Все 35 лет после того, как в Калифорнии перестал действовать закон о марихуане, число курильщиков марихуаны удваивается с каждым годом.
Звучит правдоподобно? Давайте разберемся, но с чего же начать? Предположим, что 35 лет назад в Калифорнии был только один курильщик марихуаны — конечно, очень заниженная оценка (в 1982 году по всей стране было полмиллиона арестов за курение марихуаны). Если ежегодно удваивать это число на протяжении 35 лет, получим 17 миллиардов человек — это больше, чем население всего земного шара. (Попробуйте подсчитать сами, и вы увидите, что ежегодное удвоение в течение 21 года приведет вас к числу больше миллиона: 1; 2; 4; 8; 16; 32; 64; 128; 256; 512; 1024; 2048; 4096; 8192; 16 384; 32 768; 65 536; 131 072; 262 144; 524 288; 1 048 576.) Таким образом, это утверждение не то чтобы неправдоподобно — оно попросту невозможно. К сожалению, не у всех получается мыслить четко и ясно, когда речь заходит о числах: многие их просто боятся. Но, как видите, для подобных подсчетов хватит и школьного уровня арифметики плюс здорового скепсиса.
Вот еще один пример. Вас только что взяли в отдел продаж по телефону, и вам нужно обзванивать ничего не подозревающих (и, без сомнения, раздраженных) потенциальных клиентов. Ваш босс, пытаясь вас мотивировать, говорит:
Наш лучший специалист продавал тысячу товаров в день.
Правдоподобно ли это? Попробуйте сами набрать телефонный номер — самое меньшее вам понадобится пять секунд. Плюс еще пять секунд на то, чтобы дозвониться. Теперь давайте предположим, что каждый звонок действительно заканчивается продажей, — это, понятное дело, не очень реалистично, но давайте представим идеальный вариант, чтобы посмотреть, что получится. Добавьте десять секунд: вы проговорите предложение о продаже, а потенциальный клиент его примет. Затем еще 40 секунд, чтобы узнать у него адрес и записать номер кредитной карточки. Это дает один звонок в минуту (5 + 5 + 10 + 40 = 60 секунд), или 60 продаж в час, или 480 продаж за очень напряженный восьмичасовой рабочий день, без перерывов. Так что тысяча товаров, проданных за день, — это нереально, даже при самом оптимистичном раскладе.
Некоторые утверждения оценивать сложнее. Вот, например, заголовок из журнала Time за 2013 год:
Людей с мобильными телефонами больше, чем тех, у кого есть туалет [4] .
И как быть с таким утверждением? На ум приходят, с одной стороны, жители развивающихся стран, не имеющие водопровода, а с другой стороны — те многочисленные жители процветающих стран, у кого больше одного мобильного телефона. Кажется, что заявление вполне правдоподобно, — это не означает, однако, что мы должны его принять. Скорее, мы не можем отвергать его просто потому, что оно нелепо. Нам потребуются другие техники для его оценки, но тест на правдоподобие оно прошло.
Иногда нельзя оценить, правдиво ли утверждение, не проведя собственного исследования. Да, конечно, газеты и сайты в интернете должны бы делать это за вас, но так бывает не всегда — вот тогда статистика идет вразнос. Несколько лет назад было очень распространено вот такое утверждение, основанное на статистических данных:
Каждый год в США от анорексии умирает 150 тысяч девушек и молодых женщин [5] .
Хорошо, давайте проверим, насколько этот факт правдоподобен. Согласно данным американских Центров по контролю и профилактике заболеваний, ежегодное количество смертей девушек и молодых женщин в возрасте от 15 до 25 от всех видов заболеваний — 8500. Добавьте сюда женщин от 25 до 45 — показатель все равно достигнет только 55 тысяч. Количество случаев смерти от анорексии за год не может превышать в три раза количество всех смертей.
В своей статье для журнала Science Луи Поллак и Ганс Вайс сообщили, что с момента образования Communication Satellite Corp.
…расходы на телефонные разговоры снизились на 12 тысяч процентов [8] .
Если расходы уменьшаются на 100 %, они падают до нуля (и не важно, какими они были изначально). Если же расходы падают на 200 %, это значит, что кто-то платит вам ту же самую сумму, которую когда-то платили вы ему, чтобы получить его продукт. Снижение на 100 % случается крайне редко, а снижение на 12 тысяч процентов кажется и вовсе маловероятным. В статье в профессиональном издании Journal of Management Development утверждалось, что количество клиентских жалоб сократилось на 200 % в результате перехода компании на новую политику поддержки клиентов.
Писатель Дэн Кеппел даже назвал свою книгу Get What You Pay For: Save 200 % on Stocks, Mutual Funds, Every Financial Need («Получите то, за что вы платите: экономьте 200 % на бирже, инвестиционных фондах открытого типа, на любой финансовой потребности»). У Кеппела есть степень MBA. Ему следует лучше разбираться в вопросе. Конечно, чтобы аккуратно сравнивать проценты, их нужно брать от одного и того же базового показателя. Нельзя вернуться к изначальному уровню зарплаты, сокращенной на 50 %, увеличив на 50 % вашу новую, более низкую зарплату.
Проценты кажутся простыми и логичными, но иногда они могут и запутать. Если процентная ставка увеличивается с 3 до 4 процентов, то она увеличивается на 1 процентный пункт, или на 33 % (так как увеличение на 1 процентный пункт отсчитывается от базового показателя 3; это увеличение на 1/3 = 0,33 от 3). Если же процентная ставка упадет с 4 до 3 процентов, то она уменьшится на 1 процентный пункт. При этом она уменьшится не на 33 %, как в предыдущем случае, а на 25 %, потому что уменьшение на 1 процентный пункт отсчитывается от базового показателя 4 (1 — это 1/4, или 25 %, от 4). Исследователи и журналисты не всегда щепетильны в этом вопросе и не видят порой разницы между процентными пунктами и процентами, но вы не должны их путать.
The New York Times сообщила о закрытии текстильной фабрики в Коннектикуте и ее переезде в Вирджинию. Причиной такого решения стали возросшие расходы на сотрудников. По сведениям газеты, «фонд заработной платы, все виды компенсации сотрудникам, а также пособие по безработице в Коннектикуте в 20 раз выше, чем в Вирджинии». Правдоподобно ли это? Если бы это было так, вы бы, наверное, ожидали массового исхода в Вирджинию — все компании, а не только эта фабрика, захотели бы переехать, и вы бы уже знали об этом. На самом деле все это неправда, и Times пришлось опубликовать опровержение. Как же такое могло произойти? Дело в том, что журналистка просто неправильно прочла отчет компании. Один показатель — пособие по безработице — на самом деле обходился компании в 20 раз дороже в Коннектикуте, чем в Вирджинии, но с учетом остальных показателей в Коннектикуте все расходы на содержание штата были в целом выше в 1,3 раза, а не в 20 раз. У автора статьи не было образования в сфере бизнес-администрирования — и мы не вправе ожидать этого. Чтобы отследить такого рода ошибку, нужно просто спокойно все обдумать. Это под силу каждому (а журналистка и ее редакторы просто обязаны были это сделать).
В Нью-Джерси одобрили новую законодательную инициативу, согласно которой матери, находящиеся на социальном обеспечении, не получали никаких дополнительных льгот. Некоторые члены законодательного органа посчитали, что женщины в Нью-Джерси специально рожали детей, чтобы увеличить ежемесячное пособие, получаемое от государства. Через два месяца законодатели заявили, что им удалось решить этот вопрос, так как уровень рождаемости снизился на 16 %. Вот что писала New York Times:
Всего два месяца спустя государство опубликовало данные о том, что количество новорожденных детей у женщин, уже находящихся на социальном обеспечении, уменьшилось на 16 % [15] . Власти поздравляют себя с потрясающими результатами, которых они добились в такие короткие сроки.
Обратите внимание, что учитывались не беременности, а количество родов. Что же здесь не сходится? Так как беременность длится девять месяцев, никакие изменения за последние два месяца нельзя связывать напрямую с законом. Скорее всего, тут свою роль играют обычные колебания рождаемости (ведь известно, что уровень рождаемости — дело сезонное).
Есть в этом вопросе и другие неточности, которые нельзя обнаружить простой проверкой на правдоподобие:
…с течением времени эти 16 % сократились до 10 %. Дело в том, что государству стало известно о родах, о которых не сообщалось ранее. Оказалось, что многие роженицы не считали нужным сообщить о своих новорожденных детях, так как их социальные дотации на период ухода за ребенком никак не увеличивались [16] .
Вот вам пример того, с какими проблемами можно столкнуться, собирая статистические данные: оказывается, мы учитываем не всех людей, хотя думаем, что охвачены все. Одни ошибки в рассуждениях заметить проще, другие сложнее, но со временем мы лучше научимся их распознавать. Для начала давайте взглянем на простой инструмент, который часто используют неверно.
С помощью круговой диаграммы легко представить себе процентные соотношения — то, каким образом распределены разные части единого целого. Например, вы хотите узнать, какой процент школьного бюджета тратится на зарплаты учителям, на учебные материалы, на ремонт. Или же вам хочется выяснить, какая часть денег, ассигнованных на учебные материалы, идет на естественные науки, язык, физкультуру, музыку и т. д. Главное правило круговых диаграмм — сумма процентов во всех секторах должна быть равна 100. Представьте себе пирог: ведь круговая диаграмма — не что иное, как пирог, поделенный на кусочки. Если девять человек хотят разделить его поровну, мы не можем порезать его на восемь частей. И тут ничего нельзя поделать.
Fox News, однако, это не смутило, и они опубликовали вот такую диаграмму:
Главное правило круговых диаграмм: сумма процентов во всех секторах должна быть равна 100. (Fox News, 2010)
Можно легко объяснить, как такое могло произойти. У избирателей есть возможность отдать свой голос более чем за одного кандидата. Однако в таком случае нельзя представлять результаты в виде круговой диаграммы.
Чехарда со средними
Среднее значение может быть весьма полезно, да и разобраться с ним проще, чем с круговой диаграммой. Оно позволяет нам охарактеризовать огромное количество информации одним-единственным числом. Например, мы хотим узнать среднее благосостояние людей в комнате, чтобы понять, принесет ли встреча с ними какую-нибудь пользу нашим фандрайзерам или менеджерам по продажам. Другой пример: мы хотим узнать среднюю цену на бензин, чтобы оценить, во сколько обойдется поездка на машине из Ванкувера в Банф. Однако средние могут быть обманчиво сложными.
Есть три вида средних, и они могут выражаться разными числами. Поэтому те, кто всерьез занимается статистикой, избегают слова «среднее», отдавая предпочтение другим, более точным терминам, как то: среднее арифметическое, медиана или мода. И только так. Иногда все эти величины совпадают, но чаще они различаются. Если вам встретилось слово «среднее», оно, как правило, означает «среднее арифметическое», но нельзя быть в этом абсолютно уверенным.
Чаще других из этих трех встречается среднее арифметическое; оно равно сумме всех данных, поделенной на их количество. Например, среднее благосостояние всех людей, находящихся в комнате, будет равно их общему благосостоянию, поделенному на количество человек. Если в комнате находится десять человек, состояние каждого из которых оценивается в 100 тысяч долларов, то общее богатство составит миллион. Отсюда легко вычислить среднее арифметическое (даже доставать калькулятор не нужно): 100 тысяч долларов. А если состояние каждого присутствующего будет варьироваться от 50 тысяч до 150 тысяч долларов, но общее количество будет по-прежнему миллион, то среднее арифметическое по-прежнему будет 100 тысяч долларов (потому что мы просто разделим миллион на десять, не принимая во внимание, сколько денег на счете у каждого).
Медиана — это число в середине упорядоченного набора чисел (статистики называют его выборкой): половина данных находится ниже этого значения, а половина выше. Как вы помните, смысл среднего значения в том, чтобы охарактеризовать весь объем данных одним-единственным числом. Медиана лучше с этим справляется, если некоторые из ваших данных уж очень отличаются от большинства, статистики называют такие значения выбросами.
Представим себе комнату, в которой находятся девять человек; состояние восьмерых из них равно примерно 100 тысяч долларов, а один находится на грани банкротства, его долг равен 500 тысячам долларов. Вот что у нас получится:
Человек 1: –500 тыс. долл.
Человек 2: 96 тыс. долл.
Человек 3: 97 тыс. долл.
Человек 4: 99 тыс. долл.
Человек 5: 100 тыс. долл.
Человек 6: 101 тыс. долл.
Человек 7: 101 тыс. долл.
Человек 8: 101 тыс. долл.
Человек 9: 104 тыс. долл.
Теперь складываем все показатели и получаем общую сумму в 299 тысяч долларов. Разделим это число на общее количество участников, девять, и получится, что среднее арифметическое равно 33 222 долларам. Создается, однако, впечатление, что среднее арифметическое — не лучший способ охарактеризовать данные о присутствующих. Смею предположить, что фандрайзер не захочет наносить им визит, если среди них найдется человек с показателем-выбросом, который тянет вниз всю группу. В этом и заключается вся трудность работы со средним арифметическим: оно слишком чувствительно к выбросам.
Медиана здесь равна 100 тысячам долларов: четверо зарабатывают меньше этой суммы, а четверо — больше. Мода равна 101 тысяче долларов — это та цифра, которая появляется намного чаще других. И медиана, и мода в этом конкретном примере оказываются гораздо показательнее.
Можно по-разному использовать средние, особенно если вы хотите, чтобы кто-то увидел в ваших данных то, что нужно вам.
Давайте представим, что вы с двумя друзьями запустили стартап — небольшую компанию, в которой работают пять человек. Сейчас конец года, вы собираетесь подвести финансовые итоги и рассказать сотрудникам, как у компании идут дела, чтобы они почувствовали удовлетворение от долгих часов, проведенных в офисе, и от холодной пиццы, съеденной за это время. А еще вы хотите привлечь инвесторов. Скажем, четверо сотрудников — все программисты — за год заработали по 70 тысяч долларов, а один — офис-менеджер — 50 тысяч. Это даст среднее арифметическое зарплат, равное 66 тысячам долларов в год: сумма (4 × 70 000) + (1 × 50 000), поделенная на 5. Вы и двое ваших друзей принесли домой по 100 тысяч долларов — это ваша зарплата. Следовательно, общая сумма выплаченных зарплат составит (4 × 70 000) + (1 × 50 000) + (3 × 100 000) = 630 тысяч долларов. Кроме того, пусть ваша компания принесла 210 тысяч долларов чистого дохода, который вы разделили поровну между собой и соучредителями в качестве бонусов, это дает каждому из вас по 100 тысяч + 70 тысяч. Как вы им об этом сообщите?
Вы могли бы сказать:
средняя зарплата сотрудников составляет 66 тысяч долларов;
средняя зарплата + прибыль владельцев составляет 170 тысяч долларов.
И хотя это правда, вряд ли новость понравится кому-нибудь, кроме вас и вашей мамы. Если ваши подчиненные прознают об этом, то решат, что им существенно недоплатили. А потенциальные инвесторы сочтут, что учредителям платят слишком много. Поэтому вы можете оформить отчет по-другому:
средняя зарплата сотрудников составляет 66 тысяч долларов;
средняя зарплата владельцев составляет 100 тысяч долларов;
прибыль: 210 тысяч долларов.
Для потенциальных инвесторов это выглядит убедительнее, тем более что им можно и не говорить о том, что вы поделили прибыль между совладельцами. А сотрудникам последнюю строку можно и вовсе не показывать. Каждый из четырех программистов будет думать, что он на хорошем счету и его ценят, так как зарабатывает он больше, чем большинство. Единственный, кто будет не очень доволен, — ваш офис-менеджер. Но ведь девушка и раньше понимала, что программисты зарабатывают больше нее. Теперь представим: вы чувствуете, что перегружены работой, и хотите уговорить ваших партнеров, которые не сильны в критическом мышлении, что вам нужно нанять еще сотрудников. Вы можете поступить так же, как в таком случае делают многие компании, и заявить о «прибыли на одного сотрудника», поделив прибыль компании, равную 210 тысячам долларов, на пятерых:
средняя зарплата сотрудника: 66 тысяч долларов;
средняя зарплата владельцев: 100 тысяч долларов;
годовая прибыль на одного сотрудника: 42 тысячи долларов.
Теперь вы можете заявить, что 64 % зарплаты, которую вы выплачиваете своим сотрудникам (42 000 / 66 000), возвращаются к вам в виде прибыли, и это означает, что в итоге, получив прибыль, вы должны будете выплатить только 36 % их зарплат. Конечно, эти данные не свидетельствуют о том, что, наняв еще сотрудников, вы увеличите прибыль. Но в глазах того, кто не очень силен в критическом мышлении, это выглядит как весомый довод для увеличения штата.
А что, если вы хотите выглядеть невероятно честным и справедливым работодателем и показать, что разница между вашей прибылью и зарплатой ваших сотрудников довольно разумна? Возьмите прибыль в 210 тысяч долларов и разделите часть этой суммы, 150 тысяч долларов, в качестве бонуса между собой и своими партнерами. Об оставшихся 60 тысячах вы скажете позже, что это и есть «прибыль». На этот раз подсчитайте среднюю зарплату, включив в эти подсчеты себя и своих партнеров вместе с бонусами:
средняя зарплата: 97 500;
средняя прибыль владельцев компании: 20 тысяч.
А теперь повеселимся по-настоящему:
общие выплаты зарплат плюс бонусы: 840 тысяч;
зарплаты: 780 тысяч;
прибыль: 60 тысяч.
Теперь все выглядит разумно, правда? Из всей суммы в 840 тысяч долларов, включающей зарплату и прибыль, только 60 тысяч, или 7 %, составили личную прибыль владельцев. Ваши сотрудники будут думать, что вы безупречны, — кто станет обвинять владельца компании в том, что он присвоил 7 %? По сути, это ведь не так уж много: 7 % делится между владельцами компании поровну, и каждый получает по 2,3 %. Да тут даже возразить нечего!
А можно придумать и кое-что получше. Представьте, что в первый год существования вашей компании у вас были только сотрудники, работавшие неполный день. Они зарабатывали по 40 тысяч в год. На второй год у вас были только сотрудники, работавшие полный день. И они получали 66 тысяч, о которых говорилось выше. В таком случае вы со всей уверенностью можете заявить, что в среднем заработок каждого сотрудника увеличился на 65 %. Вы — великий предприниматель! Правда, вы замалчиваете тот факт, что сравниваете две несопоставимые вещи: работу на неполный и полный рабочие дни. Могу сказать, что в этом вы не первый: американская корпорация по производству стали U. S. Steel додумалась до этого еще в 1940-х годах.
В уголовном судопроизводстве то, как представлена информация, т. е. фрейминг, оказывает сильное воздействие на мнение присяжных относительно виновности подсудимого. Хотя математически эти два утверждения эквивалентны, фраза: «Вероятность того, что обнаруженная на месте преступления кровь совпадет с кровью подозреваемого, если только это действительно не его кровь, составляет всего 0,1 %» (один к тысяче) гораздо убедительнее, чем заявление: «Кровь одного человека из каждой тысячи жителей Хьюстона тоже соответствует найденной».
Средние часто используют для того, чтобы рассказать о результатах, например «один брак из X случаев заканчивается разводом». Но это не означает, что статистика применима к вашей улице, к вашему бридж-клубу или к вашему знакомому. Брак либо закончится разводом, либо нет, но нужно знать определенные факторы уязвимости, чтобы предсказать, кто действительно разведется, а кто нет.
Еще один пример: вы можете прочитать, что один из пяти новорожденных детей — китаец. Вы подмечаете, что у шведского семейства, живущего на вашей улице, уже есть четверо детей, а сейчас они ждут пополнения. Но это не означает, что в семье родится маленький китаец. Среднее значение вычислено по всем рождениям в мире, а не в конкретной семье, в конкретном доме, в конкретном районе или даже стране.
Будьте осторожны со средними, а также с тем, как их интерпретируют. Один из способов ввести в заблуждение, используя средние, — усреднять данные по выборкам из несопоставимых совокупностей. Этот способ может привести к абсурдным выводам, как то:
В среднем у каждого человека одно яичко [18] .
Этот пример наглядно показывает разницу между средним арифметическим, медианой и модой. Так как женщин в мире несколько больше, чем мужчин, медиана и мода будут равны нулю, в то время как среднее арифметическое будет близко к единице (возможно, оно будет равно 0,98 или около того).
Кроме этого, нужно быть внимательным и помнить, что среднее ничего не говорит о размахе значений. Средняя годовая температура в Долине Смерти в Калифорнии равна 25 °C, что считается комфортным. Но размах может быть просто убийственным, с колебанием температуры от –9 до 57 °C, — факт, зафиксированный приборами.
Или… Я мог бы вам сказать, что в среднем благосостояние сотни людей, находящихся в комнате, составляет колоссальную сумму: 350 миллионов долларов. Вы, наверное, думаете: вот бы отправить туда моих лучших менеджеров по продажам. Но в комнате могут находиться Марк Цукерберг (его состояние оценивается в 25 миллиардов долларов) и 99 бедняков. Таким образом, средний показатель может размыть разницу в важных показателях.
Если вы работаете со средними, остерегайтесь еще бимодального распределения. Вспомните, мода — это то значение, которое встречается чаще всего. Во многих наборах данных — биологических, физических, социальных — у распределения может быть два или больше пиков. А это значит, что два или больше показателей встречаются чаще других.
Например, подобный график может отображать сумму, потраченную на обеды в неделю (ось X), и количество людей, потративших такую сумму (ось Y). Представьте, что вы изучали две группы людей: детей (левый горб) — они покупают школьные обеды — и руководителей компаний (правый горб) — они ходят в дорогие рестораны. Среднее арифметическое и медиана в данном случае — это числа где-то между этими двумя горбами, и они ничего не скажут нам о том, что происходит на самом деле, — ведь во многих случаях среднее арифметическое и медиана отражают ту сумму, которую никто не тратит. Подобный график говорит лишь о том, что в вашем примере имеет место неоднородность — вы сравниваете яблоки с апельсинами. В таком случае лучше сразу сказать, что вы имеете дело с бимодальным распределением, и сообщить о двух модах. А еще лучше разделить группу на две подгруппы и собрать статистические данные для каждой.
Будьте осторожны, когда будете делать выводы об отдельных людях и о группах, основываясь на средних данных. Тут можно легко наткнуться на определенные подводные камни, которые даже получили собственные названия: «экологическая ошибка» и «ошибка исключения». Экологическая ошибка возникает, если мы делаем выводы об отдельном элементе, основываясь на совокупных данных (таких как средняя величина группы), а ошибка исключения — если делать все ровно наоборот.
Представьте себе, например, два маленьких городка, в каждом из которых живет всего по сотне человек. Девяносто девять жителей города А зарабатывают по 80 тысяч долларов в год, а на земле одной женщины было найдено месторождение нефти, и теперь она одна получает 5 миллионов долларов в год. В городе Б живут 50 человек, которые зарабатывают по 100 тысяч долларов в год, а также 50 человек, которые получают по 140 тысяч долларов. Средний арифметический доход в городе А составляет 129 тысяч долларов, а в городе Б — 120 тысяч долларов. И хотя средняя величина доходов города А больше, в 99 случаях из 100 доход любого жителя города Б, которого вы выберете наугад, будет выше дохода любого случайно выбранного жителя города А. Экологическую ошибку совершают те, кто считает, что если выбрать наугад человека из группы с более высоким средним доходом, то следует ожидать, что и у него доход будет выше. Самое замечательное в этом примере то, что в городе А выше среднее арифметическое, а мода выше в городе B (так бывает не всегда).
Вот еще один пример: считается, что состоятельные люди скорее проголосуют за республиканца, но, как показывает практика, более состоятельные штаты обычно голосуют за демократов. Дело в том, что общая картина благосостояния жителей процветающих штатов может быть немного перекошена из-за суперсостоятельных индивидуумов. Во время президентских выборов 2004 года за кандидата от Республиканской партии Джорджа Буша проголосовали 15 самых бедных штатов, а за кандидата от Демократической партии Джона Керри — девять из 11 самых состоятельных. Если же изучить вопрос более детально, мы увидим, что за Буша отдали голоса 62 % тех, чей годовой доход составляет более 200 тысяч долларов, а за Керри — 36 % голосующих, зарабатывающих в год 15 тысяч долларов или меньше.
Чтобы понять, что такое ошибка исключения, давайте представим себе: вы прочли, что машины марки Volvo считаются самыми надежными, и решили купить такой автомобиль. По дороге в офис этой компании вы проходите мимо механика Volvo и парковки, заполненной машинами этой марки, которые ждут, пока их отремонтируют. Если вы измените свое решение о покупке машины этой марки, основываясь на том, что только что увидели, значит, вы по небольшому числу исключительных данных формируете выводы о целой группе. Никто ведь не говорил, что Volvo вообще не нуждается в ремонте, — скорее речь шла о следующем: вероятность того, что им может понадобиться техническая поддержка, гораздо меньше (отсюда и набившее оскомину предупреждение, которым заканчивается любой рекламный ролик, что «каждая машина индивидуальна»). Обратите внимание, что на вас оказывают огромное влияние и другим образом: единственное место, где должны стоять машины Volvo, требующие ремонта, — автосервис Volvo. Ваш «базовый показатель» сдвинулся, и вы не можете уже считать этот пример случайным.
Сейчас, когда вы уже эксперт по средним, вас не удивит заявление, что 100 лет назад наши предки жили меньше, чем мы сегодня. Возможно, вы читали, что продолжительность жизни в наше время сильно увеличилась. Продолжительность жизни тех, кто родился в 1850 году, была 38 лет для мужчин и 40 для женщин, а у тех, кто родился в 1990-м, она составляет 72 года и 79 лет соответственно. Таким образом, возникает распространенное заблуждение, что в XIX веке было не так много людей в возрасте 50 и 60 лет, потому что они просто не доживали до этого возраста. На самом деле, конечно, доживали — просто детская смертность была такой высокой, что смещала средний показатель. Если человеку удавалось преодолеть возрастной рубеж в 20 лет, то жил он долго. В 1850 году 50-летняя белая женщина могла бы дожить до 73 с половиной лет, а женщина 60 лет — и до 77. По сравнению с 1850-ми годами сейчас продолжительность жизни 50- и 60-летних значительно увеличилась, лет на десять, и произошло это во многом благодаря более качественному здравоохранению.
Но так же, как и в примере с комнатой, полной людей с совершенно разными доходами, изменение средней продолжительности жизни за последние 175 лет отражает большие изменения в структуре населения. В то время уровень детской смертности был гораздо выше, что и снижало среднюю продолжительность жизни. Вот вам парадокс: средний ребенок никогда не рождается в средней семье. Почему? Из-за того, что рассматриваются разные группы. (Я здесь использую понятие «среднее» вместо «среднее арифметическое» из уважения к прекрасной работе, написанной по этой теме Джеймсом Дженкинсом и Терреллом Тьютеном, которые использовали это понятие в заголовке.)
Теперь давайте представим, что вы прочли, будто среднее число детей в семье, живущей где-то в пригороде, равно трем. Скорее всего, вы сделаете вывод, что в среднем у ребенка должно быть двое братьев и сестер. Но это заключение будет неверным. Та же логическая ошибка возникает в случае, если мы спросим, посещает ли средний студент колледжа колледж среднего размера, получает ли средний сотрудник среднюю зарплату или растет ли среднее дерево в среднем лесу. В чем же дело?
Во всех этих случаях меняется точка отсчета — та группа, которую мы изучаем. Когда подсчитывают среднее количество детей в семье, выборка состоит из семей. Независимо от того, большие это семьи или маленькие, все равно это будут семьи. А когда подсчитывают среднее количество братьев и сестер у одного ребенка, выборка состоит из детей. Учитывается каждый ребенок в большой семье; таким образом, количество детей в каждой семье сильно влияет на средний показатель количества братьев и сестер. Иными словами, семья с десятью детьми считается один раз в средней семейной статистике, но десять раз в статистике, отражающей количество братьев и сестер у одного ребенка. Предположим, что в одном районе этой гипотетической общины живут 30 семей. У четырех из них нет детей, в шести — по одному ребенку, в девяти — по два, и в 11 семьях воспитывается по шестеро детей. В среднем в каждой семье по три ребенка, потому что нужно разделить 90 (общее количество детей) на 30 (общее количество семей).
Но давайте посмотрим на среднее число братьев и сестер у одного ребенка. Мы часто допускаем ошибку, думая, что если в среднем в семье по три ребенка, то у каждого из них должно быть двое братьев или сестер. Но в семьях с одним ребенком на каждого из шести детей приходится ноль братьев и сестер. В семьях с двумя детьми на каждого из 18 детей приходится по одному брату или сестре. В семьях с шестью детьми на каждого из 66 детей приходится пять братьев и сестер. У 90 детей, выходит, 348 братьев или сестер. Следовательно, хотя средний ребенок воспитывается в семье с тремя детьми, на 90 детей приходится 348 братьев и сестер, или в среднем приблизительно четыре брата или сестры на ребенка.
Семей | Детей в семье | Всего детей | Братьев и сестер | |
4 | 0 | 0 | 0 | |
6 | 1 | 6 | 0 | |
9 | 2 | 18 | 18 | |
II | 6 | 66 | 330 | |
Всего | 30 | 90 | 348 |
Среднее количество детей на семью: 3,0
Среднее количество братьев и сестер на ребенка: 3,9
Четыре семьи, в которых нет детей
Шесть семей с одним ребенком — шесть детей, у которых ноль братьев и сестер
Девять семей, в которых два ребенка, — 18 детей, у которых один брат или сестра
11 семей с шестью детьми — 66 детей, у которых пять братьев и сестер
А теперь давайте рассмотрим пример с колледжами. В Соединенных Штатах множество крупных колледжей (например, колледж в штате Огайо или в штате Аризона), где учится более 50 тысяч студентов. Есть также и не такие большие колледжи, где учится менее 3 тысяч студентов (например, Кеньон-колледж или Уильямс-колледж). Если мы включим в наши подсчеты еще и школы, то получим, что в колледже среднего размера учится 10 тысяч студентов. Но если подсчитать количество студентов, то получится, что средний студент ходит в колледж, где учится более 30 тысяч студентов. Это происходит потому, что при подсчете студентов мы получим гораздо больше данных из крупных школ. Схожим образом можно сделать вывод, что средний человек не живет в среднем городе, а средний гольфист не делает среднее число ударов для прохождения площадки с 18 лунками.
Во всех этих примерах меняется изучаемая группа, а потому меняется знаменатель при вычислении среднего арифметического. Рассмотрим еще один пример асимметричного распределения вроде того, с которым мы встретились, обсуждая детскую смертность: средний инвестор не получает средний доход.
В одном исследовании средний доход от инвестиции 100 долларов на срок 30 лет составил 760 долларов, или 7 % в год. Но 9 % инвесторов потеряли деньги, а огромному числу инвесторов, 69 %, не удалось достигнуть показателя среднего дохода. Так случилось потому, что среднее арифметическое было смещено из-за нескольких человек, заработавших больше среднего. На графике, предложенном ниже, среднее арифметическое смещено вправо благодаря тем счастливчикам, которым удалось заработать состояние.
Доходность инвестиции в 100 долларов через 30 лет. Обратите внимание: большинство людей получили доход меньше среднего арифметического, а немногие счастливчики — в пять раз больше среднего.
Махинации с осями координат
Человеческий мозг не развит настолько, чтобы обрабатывать большие объемы информации в виде текста, зато наши глаза автоматически ищут шаблоны и схемы в данных, представленных визуально. Самый точный, хотя и не самый простой для трактовки способ представить числовую информацию — составить таблицу, включив в нее все имеющиеся данные. Но для большинства людей сложно — если не сказать невозможно — обнаружить в этом массиве информации какие-то закономерности или тенденции, поэтому мы полагаемся на схемы и графики. Последние бывают двух видов: они либо показывают каждую точку данных (как в графике рассеяния), либо каким-то образом преобразуют данные, обобщают их, фокусируясь при этом, например, только на средних или медианах.
Есть много способов использовать графики для манипуляции и искажения данных. Но человек, которому свойственна осторожность, постарается не попасть впросак.
Необозначенные оси координат
Основной способ манипуляции с помощью статистических графиков — не обозначать оси координат. Если оси никак не названы, вы можете выдумать что угодно. Вот пример, взятый с плаката, который один студент-исследователь показывал на конференции. Выглядел этот график таким образом (я его просто перерисовал):
Что все это значит? Из текста, приведенного на самом постере (а вовсе не на этом графике), нам известно, что специалисты исследуют активацию головного мозга пациентов, страдающих шизофренией (Ш). А что же такое КЗЗ? Нам не говорят, но из контекста — КЗЗ постоянно сравнивают с Ш — мы можем предположить, что это означает «контроль за здоровьем». Кажется, между КЗЗ и Ш должна быть разница, но… эм-м-м… на оси Y отмечены числа, и… единицы измерения могут быть какими угодно! Что мы видим? Результаты теста, уровни активации мозга, количество активированных зон мозга? Количество стаканчиков пудинга Jell-O, которые съели испытуемые, или количество фильмов с Джонни Деппом, которые они посмотрели за последние шесть недель? (Справедливости ради, исследователь позже опубликовал свои заключения в экспертном журнале и исправил все недочеты, на которые ему указали.)
В следующем примере график отображает брутто-продажи одного издательства, за исключением данных с платформы Kickstarter.
Как и в предыдущем примере (хотя в данном случае мы говорим об оси X), отмечены числа, но нам не сообщают, что они обозначают. Хотя в данном случае это и так очевидно: мы предполагаем, что 2010, 2011 и т. д. относятся к календарному или финансовому году, а тот факт, что линия между годами не гладкая, говорит о том, что данные отслеживаются ежемесячно (но, не имея нормальных подписей, мы это можем только предполагать). Оси Y нет совсем, поэтому мы не знаем, что конкретно тут замеряется (это проданное количество экземпляров или доллары?), а также не знаем, что означает каждая из горизонтальных линий. График может отражать рост продаж как с пяти центов до пяти долларов за год, так и с 50 миллионов до 500 миллионов долларов за год. Но не нужно беспокоиться — график сопровождало очень полезное примечание: «Это был еще один великолепный год». Думаю, нам просто нужно поверить им на слово.
Усеченная вертикальная ось
Продуманный график четко показывает наиболее значительные крайние точки всего множества. Это особенно важно, если вы документируете текущие или проектируемые количественные изменения и хотите, чтобы читатели сделали правильные выводы. Если вы отражаете в графике уровень преступности, смертности, рождаемости, дохода — или любое иное количественное множество, которое может принимать нулевое значение, — тогда ноль должен быть минимальной точкой отсчета. Но если ваша цель — посеять панику или ужас, начните свой график поближе к нижней границе значений, это подчеркнет разницу, которую вы пытаетесь выделить, потому что наш глаз привлекает разница, показанная на графике, а настоящий ее размер остается незамеченным.
В 2012 году Fox News показали приведенный ниже график, чтобы показать, что могло бы случиться, если бы снижение налогов, задуманное Бушем, не состоялось.
Этот график создает визуальное впечатление, что размер налогов возрос бы, и намного: столбик справа в шесть раз выше столбика слева. Но кто захочет платить в шесть раз больше? Если на график посмотрит человек, который панически боится цифр (или просто взглянет на него мельком), он может и не рассмотреть оси и не заметить, что речь идет о разнице между налоговой ставкой в 35 % и 39,6 %. А это значит, что если налоги не снижать, то они вырастут всего на 13 %, а не на 600 %, как показано на картинке (увеличение процентных пунктов на 4,6 составляет 13 % от 35 %).
Если бы ось Y начиналась с нуля, мы бы обязательно заметили эти 13 %:
Разрыв вертикальной и горизонтальной осей
[29]
Представьте себе город, в котором за последние десять лет уровень преступности неуклонно растет на 5 % в год.
Вроде бы ничего необычного. А теперь представьте, что вы занимаетесь продажами домашних сигнализаций и хотите немного напугать потенциальных клиентов, чтобы продать им свой товар. Используя все те же данные, просто прервите график по оси X. Это исказит действительность и волшебным образом обманет покупателей:
При взгляде на этот график создается впечатление, что уровень преступности сильно увеличился. Но вам-то лучше знать. Разрыв оси X вмещает цифры за пять лет в такой же промежуток, на который раньше приходилось два года. Неудивительно, что мы видим существенное увеличение. Это большой недочет в построении графика, но большинство читателей не утруждают себя разглядыванием осей, для них сойдет и так.
И вам совсем не нужно ограничивать свою креативность и довольствоваться разрывом оси X — вы можете добиться того же эффекта, разорвав и ось Y тоже, а потом скрыть содеянное, не прерывая линии. Вот посмотрите, как мы сделаем разрыв оси Y:
Конечно, это нечестно. Большинство читателей смотрят только на кривую и не замечают, что по вертикальной оси сначала отметки сделаны с интервалом в 40 сообщений о преступлении, а после числа 200 между соседними помещается только по восемь сообщений. Нам все еще весело?
По-хорошему, мы должны взять первый график с нормальными осями. Желая критически оценить данные, вы, возможно, захотите спросить, какие факторы повлияли на отбор и изображение данных.
Одно из объяснений может быть таким: рост преступности наблюдается в каком-то конкретном районе, известном своей неспокойной обстановкой, — а по всему городу уровень преступности уменьшается. Возможно, полиция и местная общественность просто решили, что в этом конкретном районе очень сложно навести порядок, и потому прекратили обеспечивать там соблюдение законов. Город же в целом достаточно безопасное место — может, даже безопаснее, чем когда бы то ни было, а преступность растет из-за одного злачного района.
Другой вариант: сводя воедино самые разные жалобы на преступников к одному показателю, мы упускаем одно серьезное соображение. Возможно, количество серьезных преступлений снизилось практически до нуля и, располагая большим количеством времени, полиция с особым рвением принялась выписывать штрафы за переход улицы в неположенном месте.
Может, желая понять, что же такое на самом деле статистика, будет логично спросить: «А как изменилось в этот промежуток времени население в этом городе?» Если оно увеличивалось больше, чем на 5 % за год, уровень преступности, измеряемый числом преступлений на одного жителя, на самом деле должен был снизиться, из расчета коэффициента преступности на человека. Мы можем проиллюстрировать свою мысль, отметив количество преступлений, приходящихся на 10 тысяч жителей этого города:
Как выбрать правильный масштаб и ось
[30]
Вас нанял на работу местный риелтор, который хочет, чтобы вы составили график изменений цены на дома в вашем районе за последние десять лет. Цены устойчиво растут на 15 % в год.
Если вы хотите встревожить людей по-настоящему, почему бы тогда не изменить ось X, чтобы включить годы, по которым у вас нет данных? Добавив дополнительные показатели на оси X, как показано на рисунке, вы увеличите наклон кривой, изменив масштаб по оси X следующим образом:
А теперь обратите внимание, как легко такой график обманывает ваш глаз (на самом деле, конечно, мозг). И вот вы уже делаете два неверных вывода: первый — что когда-то, около 1990 года, цена на дом, должно быть, была очень низкой, а второй — что к 2030 году она будет такой высокой, что лишь немногие смогут позволить себе покупку. А значит, лучше бы купить дом уже сейчас!
Оба графика искажают реальную ситуацию: кажется, что темп роста увеличивается, в то время как он (темп) остается постоянным. На первом графике рост в 15 % кажется в два раза больше на оси Y в 2014 году, нежели в 2006-м. Многое меняется с постоянной скоростью: зарплаты, цены, уровень инфляции, численность популяции, число заболевших. Если же вы наблюдаете постоянный рост (или снижение) чего-либо, наиболее точно данные отобразить можно на логарифмической шкале. Она устроена так, что постоянное изменение на одно и то же число процентов изображается равными промежутками по оси Y. А постоянная годовая скорость изменений потом выглядит как прямая линия, посмотрите:
Двойная ось Y, внушающая страх
Тот, кто строит график, может легко скрыть любую ложь, предвидя, что большинство тех, кто его увидит, не будут всматриваться очень уж пристально. Благодаря этому можно легко заставить огромное количество людей поверить в самые невероятные вещи. Возьмем, например, нижеприведенный график, на котором отражена ожидаемая продолжительность жизни курильщиков и тех, кто не курит, в возрасте 25 лет.
График проясняет две вещи: опасность, которой подвергается курильщик, увеличивается со временем, и потому есть большая вероятность, что он умрет раньше того, кто не курит.
Разница невелика для возраста 40 лет, но риск не дожить до 80 лет для курильщика увеличивается более чем вдвое — с менее чем 30 % до более 60 %. Это честный и точный способ представить данные графически. Но представьте, что вы 14-летний курильщик, который хочет уговорить родителей разрешить ему курить. В таком случае этот график вам не поможет. Придется покопаться в своем мешке с реквизитом фокусника и выудить оттуда двойную ось Y. Справа появится еще одна ось, числа на ней совсем не такие, как слева, и относятся лишь к тем, кто не курит. Как только вы это сделаете, график будет выглядеть вот так:
Теперь все выглядит так, словно вероятность умереть от курения у вас такая же, как и по любой другой причине. Не курение будет источником ваших бед — а ваш возраст! Самая большая сложность с такими графиками, в которых используются двойные оси Y, заключается в том, что вы всегда можете разметить вторую ось любым удобным для себя способом.
В журнале Forbes, весьма авторитетном издании, внушающем доверие, приводится очень похожий график, отражающий связь расходов на учащихся средней школы и их баллов по тесту SAT . Это очень распространенный в США стандартизированный тест для приема в высшие учебные заведения.
На графике все выглядит так, словно увеличение расходов на ученика (черная кривая) никоим образом не влияет на увеличение баллов по SAT (серая кривая). Некоторые оппозиционно настроенные политиканы могут утверждать, что это деньги налогоплательщиков, выброшенные на ветер. Теперь вы понимаете, что выбор разметки для второй оси Y (по правой стороне) ничем не обоснован. Если бы вы были школьным администратором, то, возможно, просто взяли бы те же самые данные, изменили разметку на оси справа — и готово! Налицо увеличение расходов, которое обеспечивает более качественное образование (как следует из увеличения баллов за тест!).
Этот график, однако, отображает принципиально другую историю. Какой из них не лжет? Чтобы это понять, нужно измерить, насколько меняется одна переменная при изменении другой. Для этого есть показатель, известный как корреляция. Корреляции варьируются от –1 до 1. Корреляция 0 означает, что одна переменная совсем не связана с другой. Корреляция –1 означает, что, когда одна переменная идет вверх, другая абсолютно синхронно идет вниз. Корреляция 1 означает, что, когда одна переменная идет вверх, вторая делает то же самое, тоже абсолютно синхронно. Кажется, первый график иллюстрирует корреляцию 0, второй — ту, что очень близка к 1. Фактическая корреляция для этого набора данных равна 0,91 — и это очень сильная корреляция. Повышенные расходы на студентов, по крайней мере в этом наборе данных, ассоциируются с лучшими показателями при выполнении тестов SAT.
С помощью корреляции можно также оценить, в какой степени результат объясняется с помощью представленных переменных. Корреляция 0,91 говорит о том, что мы можем объяснить 91 % студенческих баллов за тест SAT, посмотрев на количество школьных расходов на каждого студента. А значит, можем понять, насколько расходы объясняют разнообразие баллов SAT.
Осенью 2015 года в США во время заседания комитета Конгресса развернулась полемика, касающаяся графиков с двойной осью Y. Джейсон Чаффец представил график, отображающий две услуги, предоставляемые организацией Planned Parenthood, — аборты, а также скрининг и профилактику рака:
Конгрессмен пытался донести мысль, что за семилетний период организация Planned Parenthood увеличила количество абортов (против чего он выступал) и снизила количество скринингов рака и профилактических процедур. Planned Parenthood этого не отрицала, но из-за искаженного графика кажется, что количество абортов превышает количество процедур, связанных с лечением рака. Возможно, тот, кто составлял график, чувствовал за собой вину и поэтому привел не только линии, но и актуальные числовые данные. Давайте посмотрим внимательнее. Количество абортов, сделанных за 2013 год (и на этом график заканчивается), равно 327 тысячам. А медицинских услуг, связанных с диагностированием и лечением рака, было оказано почти в три раза больше, 935 573. (Кстати, подозрительно, почему данные по абортам выражаются округленными числами, а те, что касаются рака, так точны.) Тут у нас особенно коварный случай: подразумевается, что на графике две оси Y, но обе они не изображены!
Если построить график как следует, получится вот так:
Мы видим, что количество абортов увеличилось очень незначительно, если сравнивать с сокращением услуг по диагностированию и лечению рака.
Есть еще кое-что, что вызывает подозрения в оригинальном графике: редко когда можно встретить столь ровные линии. Такое ощущение, что составитель графика просто взял данные за два определенных года, 2006-й и 2013-й, и сравнил их, соединив прямой линией. Возможно, два этих года были выбраны специально, чтобы усилить разницу. А может, в промежутке между 2007-м и 2012-м существовали большие колебания — нам это неизвестно. Ровные линии создают впечатление идеальной линейной (прямая линия) функции, что маловероятно.
Подобные графики не всегда отображают правдивые истории. Есть ли что-нибудь, что могло бы объяснить приведенные данные, помимо рассказа о том, что Planned Parenthood хочет провести как можно больше абортов (и в то же время позволяет людям умирать от рака)? Посмотрите на второй график. В 2006 году организация Planned Parenthood провела 2 007 271 исследование раковых опухолей и сделала 289 750 абортов, что примерно в семь раз меньше. К 2013 году эта разница сократилась, но количество раковых исследований все равно было примерно в три раза больше.
У Сесиль Ричардс, президента Planned Parenthood, имеется на этот счет объяснение: изменение медицинских норм при оказании некоторых услуг по предотвращению и лечению рака, например пап-мазка, сократило количество людей, которым был рекомендован скрининг. Другие изменения, например само отношение к абортам, изменение возрастной структуры населения, а также возросшее количество людей, имеющих доступ к альтернативным методам лечения, — повлияли на эти цифры, поэтому представленные данные не доказывают, что Planned Parenthood поддерживает аборты, хотя и не исключено, что так оно и есть.
Возможные уловки при сообщении данных
Вы раздумываете, стоит ли покупать акции компании, производящей безалкогольные напитки, и вдруг натыкаетесь на график, представляющий годовой отчет компании по продажам:
Выглядит многообещающе — продажи Peachy Cola постоянно растут. Пока что все идет хорошо. Но давайте припомним, как устроен наш мир, — и постараемся извлечь из этих знаний какую-нибудь пользу. Итак, мы знаем, что конкуренция на рынке безалкогольных напитков огромна. Продажи компании растут, но, возможно, не так быстро, как у конкурентов. Как потенциальному инвестору вам важно сравнить продажи Peachy Cola с продажами других компаний — ее продажи могут расти незначительно, в то время как рынок развивается особенно стремительно, а конкуренты зарабатывают больше, чем Peachy Cola. И как видно на этом графике с двойной осью Y, это, возможно, не сулит производителям ничего хорошего.
И хотя те, кто составляет недобросовестные графики, могут в корыстных целях как угодно менять шкалу на оси справа, сам по себе график с двойной осью Y нельзя считать предосудительным, потому что обе оси Y представляют разные вещи, которые не могут быть отображены на одной оси. В случае с организацией Planned Parenthood ситуация была иной: на том графике мы видели один показатель — количество проведенных процедур — на двух разных осях. И хотя они там отражали одно и то же, график был искажен, потому что шкалы на осях были разными. Сделано это было в целях манипуляции нашим восприятием.
Было бы также полезно посмотреть на прибыль от продаж Peachy Cola: вполне может оказаться, что благодаря производству и распространению компания зарабатывает больше на более низком объеме продаж. Тот факт, что кто-то предъявляет вам статистику или показывает график, еще не означает, что все это относится к делу. Наша всеобщая задача заключается в том, чтобы получить релевантную информацию и игнорировать те сведения, которые никакого значения не имеют.
Предположим, вы работаете в отделе по связям с общественностью в компании, производящей какого-то рода устройства — назовем их фрабезоиды. На протяжении последних нескольких лет эту продукцию охотно покупали, и продажи сильно выросли. Компания расширилась, построила новые объекты, увеличила штат сотрудников, и всем повысили зарплату. Однажды босс заходит в ваш кабинет с угрюмым выражением лица и говорит, что получил последние результаты продаж: количество проданных фрабезоидов упало на 12 % по сравнению с предыдущим кварталом. Президент компании планирует провести большую пресс-конференцию и поговорить о будущем: как это всегда бывает, он намерен продемонстрировать большой график, отображающий положение дел. Если станет известно о снижении продаж, покупатели могут подумать, что фрабезоиды не так уж желанны, — и это приведет к дальнейшему снижению продаж.
Что вы делаете? Если вы честно отобразите данные по продажам за последние четыре года, ваш график будет выглядеть следующим образом:
Кривая, идущая вниз, — это проблема. Если бы только был способ сделать так, чтобы она снова пошла вверх!
И такой способ есть — график кумулятивных продаж. Вместо графика квартальных продаж составьте график кумулятивных продаж — он отражает общее число продаж на текущий момент.
Как только продается хоть один фрабезоид, кривая идет вверх, как мы видим на этом графике:
Если присмотреться, можно увидеть, что в последний квартал дела шли не так гладко: хотя в этот период кривая по-прежнему идет вверх, происходит это не так резко. Это-то и поможет вам понять, что продажи упали. Но нашему мозгу сложно уловить подобные нюансы (то, что в математике называется первой производной, — вычурное словечко для наклона линии). Итак, при взгляде на график кажется, что дела компании идут в гору, а вы меж тем заставили огромное количество потребителей поверить в то, что фрабезоиды — по-прежнему самая желанная покупка.
Так же поступил и Тим Кук, CEO компании Apple, во время своей последней презентации по продажам iPhone.
© 2013 Die Verge, Vox Media Inc. ()
Отображение на графике несущественных данных
В мире столько всего происходит, что всегда находится место совпадениям. Количество зеленых грузовиков на дороге может увеличиваться одновременно с вашей зарплатой; когда вы были ребенком, количество телешоу могло увеличиваться так же, как и ваш рост. Но это не означает, что одно есть причина другого. Статистики называют это корреляцией.
Известно, что корреляция не подразумевает причинность, однако об этом правиле часто забывают в рассуждениях. Для ошибок такого рода в формальной логике есть две формулировки.
1.-Post hoc, ergo propter hoc. Данное логическое заблуждение возникает из уверенности в том, что если один факт (Y) произошел после второго (X), значит, X стал причиной Y. Обычно люди чистят зубы до того, как пойти утром на работу. Но чистка зубов не есть причина, по которой они идут на работу. В данном случае все может быть наоборот.
2.-Cum hoc, ergo propter hoc. Это логическое заблуждение состоит в том, что из совпадения по времени двух фактов заключают, что один должен быть причиной второго. Тайлер Виджен, студент юридического факультета Гарвардского университета, написал книгу и создал сайт, где собрал примеры странных совпадений — корреляций, например таких:
Эти данные можно интерпретировать четырьмя разными способами: 1) смерть в бассейне вызывает выход нового фильма с Николасом Кейджем; 2) выход фильмов с Николасом Кейджем становится причиной смерти в бассейне; 3) некий третий фактор (который еще не установлен) влияет на оба показателя; 4) показатели никак не связаны между собой, и корреляция — чистой воды совпадение. Если мы не отделим корреляцию от причинности, то сможем со всей уверенностью заявить, что график Виджена «доказывает» посильную помощь Ника Кейджа в предотвращении всех этих смертей в бассейне. И нам остается только поддерживать образовавшуюся тенденцию, чтобы актер и дальше развивал свою удивительную способность, которую он с блеском продемонстрировал в 2003 и 2008 годах.
В некоторых случаях между показателями, кажущимися взаимосвязанными, нет никакой настоящей связи: факт их корреляции — просто совпадение. В других же случаях можно найти между ними случайную связь, а то и состряпать более-менее разумную историю, которая подстегнула бы к поиску новых данных.
Мы можем исключить первое объяснение, так как на создание и выпуск фильма требуется время, поэтому пик смертности от утопления не мог вызвать пик популярности Ника Кейджа в том же году. Как насчет второго пункта? Возможно, люди настолько проникаются сюжетом остродраматических фильмов Кейджа, что не помнят себя и, как следствие, тонут. Возможно, по той же причине увеличивается и количество автомобильных аварий, а также травм, полученных в результате работы с тяжелым оборудованием. Мы не найдем ответов на эти вопросы, пока не проанализируем больше данных.
Что же насчет третьего фактора, который влияет на оба показателя? Можно предположить, что влияние оказывает экономика государства: чем более она развита, тем больше инвестиций идет в досуг — выпускается больше фильмов, люди чаще ездят в отпуск, ходят плавать. Если это так, то ни одна из ситуаций, частоту которых описывает график, — выход фильма Ника Кейджа и утопление — не бывает причиной другой. Свою роль тут сыграл третий фактор — экономика, — он и приводит к изменениям в обоих случаях. Статистики называют это третьим фактором x. И подобных случаев множество.
Вероятнее всего, эти две ситуации совсем никак не взаимосвязаны. А если присмотреться и хорошенько подумать, то мы обязательно обнаружим, что здесь одновременно изменяются два не связанных друг с другом показателя.
Продажи мороженого увеличиваются одновременно с ростом числа людей в шортах. Нельзя сказать, что один из фактов — причина второго. Третий фактор x, который на самом деле влияет на оба факта, — это повышение температуры летом. Количество телешоу, выпущенных в эфир в то время, когда вы были ребенком, возможно, коррелировало с вашим ростом, но несомненно, что причиной одинакового изменения обоих показателей стал общий период времени, когда: а) телевидение расширяло свой рынок и б) вы росли.
Как же тогда понять, в каких случаях корреляция указывает на причинность? Во-первых, можно провести контролируемый эксперимент. Во-вторых, включить логику. Но будьте внимательны — тут легко утонуть в трясине пустословия: это дождь вчера вынудил людей надеть дождевики? Или причиной стало желание не намокнуть, появляющееся, когда идет дождь?
Эту идею хорошо представил Рэнделл Манро в своем веб-комиксе xkcd: разговаривают две фигурки, очевидно, студенты колледжа. Один говорит, будто раньше думал, что корреляция подразумевает причинность. Потом, правда, походил на занятия по статистике и теперь уже так не думает. На что второй студент отвечает: «Кажется, занятия сделали свое дело». А первый ему на это: «Да, может быть».
Обманчивые иллюстрации
Инфографика в большом почете у разных ловкачей и пройдох, которым нужно сформировать мнение аудитории, и полагаются они на то, что большинство людей не станут вникать в то, что выглядит убедительно. Вот, например, посмотрите на этот рисунок. Возможно, с его помощью кто-то хотел напугать вас и заставить думать, что быстро растущая инфляция съедает все ваши с таким трудом зарабатываемые деньги:
Выглядит страшновато, правда? Но присмотритесь. Ножницы отрезают не 4,2 % от банкноты, а около 42 %. Когда ваша визуальная система сталкивается с логической, первая всегда выходит победителем, если только вы не приложите усилий, чтобы переломить это предубеждение. Точная инфографика выглядела бы похоже, но производила бы менее сильный эмоциональный эффект:
Интерпретация и фрейминг
Иногда статистические данные собраны и описаны как следует, а вот переданы неверно, потому что тот, кто передавал, — не важно, будь то журналист или адвокат, — не специалист в этом вопросе. И ошибки он допускает либо потому, что сам не понял, либо потому, что не осознавал, что малейшее изменение в формулировке может привести к изменению в смысле.
Часто у тех, кому хочется использовать статистику, в штате нет статистиков, и в поиске ответов на свои вопросы они попадают к тем, у кого нет соответствующей компетенции. Корпорации, правительственные учреждения, некоммерческие организации, семейные бакалейные лавочки — все они пользуются статистическими данными о продажах, клиентах, тенденциях, сетях снабжения. Некомпетентность может проявиться на любой стадии: во время проведения эксперимента, сбора данных, анализа или интерпретации.
Иногда бывает так, что публикуемые статистические данные нерелевантны. Если вы пытаетесь убедить своих акционеров, что дела вашей компании идут в гору, то, возможно, стоит предложить статистические данные по годовым продажам и показать уверенно растущие цифры. Но если рынок, на котором представлен ваш продукт, растет и развивается, от вас будут ждать увеличивающихся продаж. Инвесторов и аналитиков волнует, изменилась ли ваша доля на рынке. Но как сделать отчет более привлекательным, если эта доля уменьшается, потому что налетели конкуренты и теперь уводят ваших клиентов? Ответ прост: не предоставлять релевантную статистику по доле на рынке — вместо этого покажите статистику продаж. Продажи-то растут! Значит, все хорошо!
Финансовые показатели из заявлений на ипотеку 25-летней давности, вероятно, не сильно помогут в построении модели риска сегодня. Любая модель поведения потребителей на сайте устаревает очень быстро. Статистические данные о прочности бетона, использованного для эстакад, возможно, уже не релевантны для мостов (отличия могут быть вызваны влажностью и иными факторами, даже в случае, если в обоих инженерных проектах использовался один и тот же бетон).
Все вы наверняка слышали фразы типа «Четверо стоматологов из пяти рекомендуют зубную пасту Colgate». И это правда. Рекламное агентство, стоящее за этим существующим на протяжении многих лет слоганом, хочет донести до вас мысль, что стоматологи предпочитают Colgate всем другим брендам. Но это не так. Комитет рекламных стандартов Великобритании изучил утверждение слогана и счел его нечестным. Выяснилось, что в ходе опроса стоматологи могли рекомендовать более одной зубной пасты. И, как оказалось, самого крупного конкурента Colgate рекомендовали почти так же часто, как и Colgate (деталь, которую вы никогда не найдете в рекламе этой пасты).
Мы говорили о фрейминге, обсуждая средние, еще раз мы его коснулись, говоря о графиках. Манипуляция фреймами предоставляет бесконечное количество способов заставить кого-нибудь верить в то, чего на самом деле нет. А нужно всего лишь остановиться и подумать о том, что вам говорят. Представители C-SPAN уверяют, что их сеть «доступна» в 100 миллионах домов. Но это не означает, что 100 миллионов людей смотрят C-SPAN. Это даже не означает, что его смотрит хотя бы один человек.
Манипуляции с фреймами могут оказывать влияние на общественный порядок. Изучение результатов переработки мусора на самых разных улицах Лос-Анджелеса показывает, что одна конкретная улица перерабатывает в 2,2 раза больше, чем любая другая. Но прежде чем городской совет даст жителям этой улицы награду за их старания в области сохранения города зеленым, давайте зададимся вопросом: что может так сильно влиять на это количество? Как вариант, на этой улице проживает в два раза больше человек, чем на других, — возможно, потому что она длиннее, возможно, потому что на ней больше многоквартирных домов. Измерение объемов переработки мусора на уровне улицы нельзя считать релевантным показателем, если только все улицы не идентичны. Наиболее точные статистические данные можно получить либо по квартирам (замерить объемы переработки для каждой семьи), либо по каждому жителю — что даже лучше, потому что большие семьи потребляют больше, чем те, где народу меньше. Поэтому, проводя эксперимент, нужно учитывать не только объем собранного материала для переработки, но и количество людей, живущих на улице. И именно это и будет настоящим фреймом для статистика.
В 2014 году Los Angeles Times сообщила об объемах воды, которая используется в городе Ранчо-Санта-Фе, расположенном в засушливой Калифорнии. «Ежедневное потребление воды домашними хозяйствами в этом районе вышло в среднем почти в пять раз больше, чем в прибрежных районах Южной Калифорнии в сентябре. Из-за этого Санта-Фе теперь называют самым большим насосом в штате». «Домашнее хозяйство» в данном случае — нерелевантный фрейм для этого статистического результата. Фрейм «на душу населения» подошел бы гораздо лучше. Возможно, у жителей Ранчо-Санта-Фе большие семьи, что автоматически означает большую потребность в воде для душа, туалета, мытья посуды. Другой подходящий фрейм — использование воды из расчета на акр. Дома, расположенные в Ранчо-Санта-Фе, как правило, обладают большими придомовыми территориями. Может, в целях пожарной безопасности, может, по каким-то иным причинам гораздо целесообразнее держать землю засаженной зеленой растительностью, а на земельных участках в Ранчо-Санта-Фе на один акр потребляют не больше воды, чем в любом другом месте штата.
На самом деле в материалах New York Times можно найти кое-какую информацию по этому вопросу: «Чиновники, отвечающие за государственные водные ресурсы, запретили сравнивать потребление воды на душу населения в разных районах. По их словам, они ожидают, что в более состоятельных районах с большими земельными участками потребление будет выше».
Проблема со статьей заключается в том, что в ней фреймят данные, чтобы те выглядели так, словно жители Ранчо-Санта-Фе используют воды больше, чем им положено. Но данные, которые приводит газета, — как и в случае с переработкой мусора в Лос-Анджелесе, описанном выше, — не говорят об этом ни слова.
Указание пропорций, а не фактических цифр часто помогает построить верный фрейм. Представим, что вы работаете в компании, занимающейся продажами потоковых конденсаторов, и отвечаете за реализацию товара в Северо-Западном регионе. Ваши продажи сильно увеличились, но все равно еще недотягивают до результатов вашего соперника Джека, отвечающего за Юго-Западный регион. Вряд ли это справедливо — его территория не только больше географически, на ней живет и больше народу. Бонусы в вашей компании зависят от того, покажете ли вы начальству, что успешны в продажах.
Представьте начальству свой отчет о продажах в зависимости от площади или населения региона, в котором работаете. Иными словами, вместо того чтобы рисовать график продаж потоковых конденсаторов, покажите количество, приходящееся на душу населения в этом регионе или на квадратную милю. В обоих случаях, возможно, вы обойдете своего соперника.
Судя по сообщениям в новостях, 2014 год принес наибольшее количество смертей в результате авиакатастроф: 22 падения самолета и 992 человеческие жертвы. Но сегодня путешествия на самолете стали безопаснее, чем когда-либо. А так как и летают теперь намного чаще, это число, 992 погибших, говорит о значительном уменьшении числа смертей на миллион пассажиров (или миллион миль). На рейсе крупной авиакомпании вероятность погибнуть составляет один на пять миллионов. Гораздо выше риск погибнуть при других обстоятельствах: переходя дорогу или жуя бутерброд (смерть от того, что человек поперхнулся или отравился, вероятнее в тысячу раз). Здесь очень важны базовые показатели сравнения. Эти статистические данные растянуты во времени на целый год — год авиаперелетов, год перекусов бутербродами (в результате чего можно либо поперхнуться, либо отравиться). Поменяв базовый показатель, можно рассматривать каждый отдельный вид деятельности (перелет, жевание) на часовом промежутке времени — и это изменит статистику.
Разница, которая не играет роли
К статистике часто прибегают, когда хотят понять, есть ли разница между двумя вещами: двумя разными удобрениями, лекарствами, манерами преподавания, суммами зарплат (например, сравниваются мужчины и женщины, выполняющие один и тот же вид работ). Сравниваемые показатели могут отличаться друг от друга по-разному. Между ними может быть фактическая разница. На вашу выборку могут влиять мешающие факторы, не имеющие ничего общего с исследуемым вопросом. В ваших измерениях могут быть ошибки. А может и быть случайное отклонение — оно возникает то в одной, то в другой части уравнения, в зависимости от того, когда вы с ним работаете. Задача исследователя — найти стабильные, воспроизводимые разницы, и мы пытаемся отделить их от экспериментальных ошибок.
Будьте, однако, осторожны с тем, каким образом новостные СМИ используют слово «значимый», потому что для статистиков это не означает «заслуживающий внимания». В статистике это слово связано с тем, что данные были получены в результате статистических процедур, например проверки по критерию Стьюдента и критерию хи-квадрат, регрессионного анализа и метода главных компонент (их сотни). Статистический уровень значимости представляет в количественной форме, насколько легко результаты объясняются чистой случайностью. При большом количестве наблюдений даже самые незначительные отклонения бывает сложно объяснить в рамках используемой статистической модели. Не критерии определяют, что заслуживает внимания, а что нет, — тут нужны человек и его оценка.
Чем больше у вас наблюдений в двух группах, тем вероятнее вы найдете между ними разницу. Допустим, мы изучаем ежегодные эксплуатационные расходы на два разных автомобиля, Ford и Toyota, располагая данными о содержание десяти машин каждой марки. Давайте предположим, что средние расходы на Ford на восемь центов в год больше. Возможно, статистически это будет незначительно, и, понятное дело, разница в восемь центов в год не станет учитываться при выборе машины — она слишком мала, чтобы из-за этого еще переживать. Но если посмотреть на содержание 500 тысяч автомобилей, эта разница уже станет статистически значимой. При этом она не будет иметь никакого значения в реальной жизни. Еще один пример: новое средство от головной боли может быть статистически лучше, поскольку быстрее решает проблему, но если всего на 2,5 секунды, то кому какая разница?
Интерполяция и экстраполяция
Вы входите в свой сад и видите 10-сантиметровый одуванчик. Сегодня вторник. Через пару дней, в четверг, вы снова смотрите на него — его высота 15 сантиметров. Какой была его высота в среду? Наверняка мы не знаем, потому что не замеряли в этот день (в среду вы застряли в пробке, возвращаясь домой из питомника, где купили средство от сорняков). Но вы можете предположить: возможно, в среду высота одуванчика была 12,5 сантиметра. Это чистой воды интерполяция: вы берете два крайних значения и оцениваете величину между ними.
Какого размера будет этот одуванчик через шесть месяцев? Если он вырастает на 2,5 сантиметра в день, то можно сказать, что через полгода (примерно 180 дней) его высота составит 450 сантиметров, или четыре с половиной метра. В данном случае вы прибегли к экстраполяции. Но скажите, видели ли вы когда-нибудь такой большой одуванчик? Вероятно, нет: они ломаются под собственным весом, погибают от других естественных причин, их вытаптывают или обрабатывают средством от сорняков. Интерполяция — не идеальная техника, но если сравнить два этих способа, то она даст более точную оценку. Экстраполяция предполагает больше риска, потому что вы оцениваете величину, выходящую за диапазон наблюденных значений.
Время, необходимое, чтобы кофе в чашке остыл до комнатной температуры, определяется по законам физики (на него влияют многие факторы, например атмосферное давление, форма чашки). Если изначально температура чашки была 63 °C, со временем она опустится следующим образом:
Время, прошедшее с начала эксперимента, мин. | Температура, °C |
0 | 63 |
1 | 60 |
2 | 57 |
3 | 54 |
Каждую минуту ваш кофе теряет три градуса. Если бы вы включили промежуточные члены в ряд известных вам величин — скажем, захотели узнать температуру кофе ровно посредине между двумя замерами, — интерполяция оказалась бы довольно точной. Но если вы будете экстраполировать, есть вероятность получить абсурдный ответ, например что ваш кофе через полчаса замерзнет.
При экстраполяции не берут в расчет ограничения, накладываемые физикой: температура кофе не может упасть ниже температуры комнаты. Также не учитывается тот факт, что скорость, с которой кофе остывает, уменьшается тем быстрее, чем ближе температура кофе к комнатной. В дальнейшем график охлаждения выглядит следующим образом:
Обратите внимание, что крутизна кривой, соответствующая первым десяти минутам, не сохраняется — кривая становится все более пологой. Для экстраполяции особенно важны две вещи: наличие большого количества наблюдений, охватывающих большой промежуток, и понимание самой сути процесса.
Точные и верные цифры
Когда мы сталкиваемся с точными цифрами, то обычно полагаем, что они к тому же еще и верны, но это не одно и то же. Если я скажу: «Сегодня многие люди покупают электромобили», — вы подумаете, что я строю догадки. Если я скажу: «16,39 % продаж новых автомобилей составляют электрокары», — вы решите, что я точно знаю, о чем говорю. И в этот момент вы спутаете два таких понятия, как «точные» и «верные» цифры. Возможно, я все выдумал. Может, я опросил только небольшую группу людей возле дилерского центра электрокаров.
Вспомните упомянутый мною ранее заголовок Time, в котором говорилось, что на свете гораздо больше людей, у которых есть телефоны, нежели тех, у кого есть туалеты. Нельзя сказать, что это неправдоподобно, но это явное искажение того, что было обнаружено в результате исследования ООН. На самом деле в докладе ООН говорилось, что людей, у которых имелся доступ к мобильным телефонам, больше, нежели тех, у кого был доступ к туалетам, что существенно меняет картину. Одним мобильным телефоном могут пользоваться десятки людей. Отсутствие санитарных условий, конечно, огорчительно, но заголовок построен таким образом, что вы начинаете думать, будто в мире больше мобильных телефонов, нежели туалетов. А ведь эта информация не подтверждается данными.
Доступ — одно из тех слов, которые вас должны насторожить, когда вы встречаете их в статистике. Люди, имеющие доступ к медицинскому обслуживанию, возможно, просто живут рядом с медцентром, но это не означает, что им дадут там консультацию или что они имеют достаточно денег, чтобы заплатить за лечение. Как вы уже знаете, телевизионный канал C-SPAN доступен в 100 миллионах домов, но это не означает, что во всех 100 миллионах его смотрят. Я бы мог заявить, что 90 % людей в мире имеют «доступ» к «Путеводителю по лжи», потому что 90 % населения земного шара живут на расстоянии не больше 40 километров от интернета, железных или автомобильных дорог, взлетно-посадочных полос, портов или маршрутов собачьих упряжек.
Мухи отдельно, котлеты отдельно
Отличный способ жульничать с помощью статистики — сравнивать отличающиеся друг от друга вещи (данные, совокупности, типы продуктов) и при этом делать вид, что разницы между ними нет. Но, как гласит известное выражение, «мухи отдельно, котлеты отдельно».
Если использовать этот сомнительный метод, то можно прийти к такому заявлению: «Находиться на военной службе во время открытого конфликта (например, во время войны в Афганистане) гораздо безопаснее, нежели в тылу». Ход рассуждения будет таким: в 2010 году погибло 3482 американских военнослужащих. Исходя из общего числа военнослужащих — а их 1 431 000 человек, — получим 2,4 смертельных случая на тысячу человек. На территории Соединенных Штатов количество смертей в 2010 году составило 8,2 на тысячу человек. Иными словами, находиться на службе в военной зоне в три с лишним раза безопаснее, чем жить в Соединенных Штатах.
Давайте разберемся. Выборки очень разные, поэтому их нельзя сравнивать «в лоб». В действующей армии служат молодые здоровые солдаты, в их распоряжении питательные обеды и хорошее медицинское обслуживание. Население Соединенных Штатов весьма разнообразно: здесь проживают и старики, и больные, и гангстеры, и наркоманы, и любители погонять на мотоциклах, и любители игры в «ножички», а также огромное количество тех, у кого нет ни питательных обедов, ни медицинского обслуживания. Смертность среди этих людей высока, где бы они ни находились. А действующие военнослужащие не все находятся в зоне военных действий — некоторые проходят службу на безопасных базах, сидят в офисах Пентагона или же на призывных пунктах в торговых центрах районного масштаба.
Новостной журнал U.S. News & World Report как-то опубликовал статью, в которой приводилось соотношение демократов и республиканцев начиная с 1930-х годов. Проблема в том, что за это время принципиально поменялась сама процедура формирования выборки. В 1930-х и 1940-х респондентов отбирали в личном разговоре, а также с помощью адресных списков, созданных на основе телефонных справочников. К 1970-м опросы стали делать исключительно по телефону. В начале XX века при формировании выборки скорее учитывали тех, у кого был стационарный телефон, то есть людей с достатком, а они — во всяком случае, в то время — имели обыкновение голосовать за республиканцев. К 2000-м перешли на мобильные телефоны, из-за чего произошел явный перекос в сторону молодежи, отдававшей свои голоса, как правило, за демократов. Мы на самом деле не знаем, изменилась ли пропорция демократов и республиканцев с 1930-х годов, так как выборки не поддаются никакому сравнению. Нам кажется, мы изучаем одно, а на самом деле — другое.
Похожая проблема возникает, когда говорят о снижении уровня смертности в результате мотоциклетных аварий по сравнению с тем, что было три десятилетия назад. Сейчас в сводках упоминается больше трехколесных мотоциклов, а в прошлом столетии доминировали двухколесные модели; можно вспомнить тот факт, что когда-то шлемы были не обязательны, сейчас же их наличие в большинстве штатов оговаривается законом.
Остерегайтесь меняющихся выборок, когда делаете выводы! Журнал U.S. News & World Report (да, снова он) сообщил, что за прошедший 20-летний период увеличилось число врачей, при этом средняя зарплата значительно снизилась. Что же из этого следует? Вы можете сделать вывод, что сейчас не лучшее время, чтобы обучаться профессии врача, потому что их теперь пруд пруди (а избыточное предложение на рынке стало причиной снижения зарплаты). Возможно, это и так, но в защиту этого утверждения нет ни одного доказательства.
Вполне правдоподобно звучит заявление, что благодаря сужению специализации и росту технологий, наблюдаемым на протяжении последних 20 лет, у врачей появилось больше профессиональных возможностей — как следствие, на рынке стало больше доступных вакансий, особенно на фоне увеличения общего числа врачей. Так что же насчет снижения зарплаты? Возможно, дело в увольнении пожилых специалистов, которых заменили более молодые, согласные — в силу отсутствия опыта — на более низкую зарплату. Но и таких доказательств тоже нет. Важная составляющая статистической грамотности — понимать, что некоторые данные, подобно тем, что мы рассмотрели в этом примере, просто нельзя интерпретировать.
Иногда вот такая путаница с котлетами и мухами происходит от сравнения противоречивых подвыборок — потому что вы проигнорировали какую-то деталь, сочтя ее неважной. Например, отбирая пробы кукурузы на поле, обработанном новым удобрением, вы можете не обратить внимания на то, что некоторые початки получали больше солнца, а некоторые — больше воды. Или при исследовании влияния потока машин на частоту проведения ремонтных работ от вашего внимания может ускользнуть тот факт, что на определенных улицах больше водостоков, чем на других, и потому там чаще возникает необходимость ремонтировать асфальтовое покрытие.
Говорят, что происходит объединение выборок, когда данные о разнородных объектах соединяют в одну категорию, как в случае с яблоками и грушами. Если вас интересует количество шестеренок, выпущенных с дефектом, можно объединить данные по разным их видам и получить необходимые вам цифры в зависимости от того, какую цель вы преследуете.
Допустим, вам интересно сравнить сексуальное поведение детей в возрасте 10–12 лет и подростков постарше. То, каким образом вы объедините данные, может существенно повлиять на то, как люди их потом воспримут. Если перед вами стоит задача найти деньги на создание образовательных и консультационных центров, можно заявить нечто вроде: «70 % школьников в возрасте от 10 до 18 лет ведут половую жизнь». Нас не удивляет, что в этой категории 17- или 18-летние школьники, — но десятилетки! Такие заявления могут повергнуть в шок их бабушек и дедушек, которых придется отпаивать валерьянкой. Но ведь понятно же, что в общей категории, к которой отнесли и десятилетних детей, и 18-летних подростков, оказались и те, кто ведет половую жизнь, и те, кто нет. Гораздо правильнее было разбить всех участников исследовании на группы, объединив по возрасту и имеющемуся у них жизненному опыту: например, 10–11 лет, 12–13, 14–15, 16–18.
Но и это не единственная проблема. Что вообще имеется в виду под словосочетанием «вести половую жизнь»? Какой конкретно вопрос задавали школьникам?
И вообще, действительно ли опрашивали школьников? Может статься, на все эти вопросы отвечали родители. На полученные данные могли повлиять разные факторы. Слова «вести половую жизнь» можно понимать по-разному. И ответы могут разниться в зависимости от того, как понимать вопрос. Ну и, конечно, респонденты не обязательно говорили правду.
Или вот еще пример: допустим, вы захотели поговорить о безработице как об общей проблеме, но тут возникает риск объединения в одной выборке людей с самым разным жизненным опытом. Некоторые безработные физически недееспособны; другие были уволены по объективной причине, например потому что были пойманы с поличным во время кражи или потому что пришли на работу в нетрезвом виде. Кто-то хотел бы работать, но ему не хватает квалификации; кто-то отбывает срок; кто-то больше не хочет работать, потому что снова начал учиться, ушел в монастырь или находится на иждивении. Когда статистику используют, чтобы повлиять на государственную политику, собрать деньги на какое-то дело или чтобы выпустить газету с заголовком поярче, нюансы часто опускают. А ведь именно они порой кардинально меняют дело.
Эти нюансы часто говорят сами за себя. Люди теряют работу по разным причинам. Вероятность того, что алкоголик или вор станет безработным, может быть в четыре раза выше, чем в случае с любым другим человеком. И подобные детали часто теряются при объединении выборок. Учитывая эти факторы в своем анализе данных, вы четко увидите, кто безработный и почему, а это, в свою очередь, может привести к разработке более качественных обучающих программ или к открытию дополнительных центров анонимных алкоголиков в том городе, где эти организации необходимы.
Если в разных центрах, изучающих поведение людей, используют для вещей разные определения, а для их измерения разные методы, то статистические данные будут очень разнородными, несравнимыми. Например, вы хотите определить количество пар, живущих вместе, но не зарегистрировавших свои отношения, — тогда в вашем распоряжении данные, уже собранные разными государственными агентствами. Но варьирующиеся определения могут привести к проблеме с категоризацией: что означает «жить вместе»? Определяется ли это количеством проведенных вместе ночей в неделю? Или тем, где находятся личные вещи живущих вместе людей? А может, тем, где они получают почту? Некоторые органы государственной власти юридически признают однополые пары, другие — нет. Если вы соберете данные в разных местах и разными методами, ваша статистика окажется почти бессмысленной. Если методология записи, сбора и замера данных сильно варьируется в отношении ключевых моментов, то в итоге статистические данные будут отражать не то, что видится в них вам.
Последние исследования показали, что уровень безработицы среди молодежи в Испании составил 23 %, — и это поразительно. В отчете в одну группу были объединены люди, которые при других обстоятельствах оказались бы в разных: тут были и студенты, не заинтересованные в поиске работы, и те, кого только что уволили, и те, кто находился в поисках работы.
Для отслеживания безработицы в Соединенных Штатах существует шесть разных индексов (обозначенных U1–U6), которые отражают разные интерпретации понятия «безработный». Сюда относятся те, кто ищет работу, и те, кто еще учится и не ищет, и те, кому интересна работа на полный рабочий день, при том что они работают только неполный, и т. д.
В газете USA Today за июль 2015 года сообщалось, что уровень безработицы упал до 5,3 % и что это был «самый низкий уровень начиная с апреля 2008 года». Более компетентные источники, включающие агентство Associated Press, журнал Forbes и газету New York Times, называли свою причину очевидного снижения: многие безработные просто бросили попытки найти работу и потому чисто технически уже не могли считаться рабочей силой.
Объединение выборок, однако, не всегда приводит к неверным выводам. Вы можете объединить результаты учеников школы обоих полов, особенно если нет никаких доказательств того, что эти результаты на самом деле разные. Таким образом вы можете увеличить размер выборки (и получить более устойчивую оценку того, что изучаете). Интерпретацию затрудняют только слишком широкое определение категории (как в случае с сексуальной активностью школьников, о которой мы говорили ранее) или противоречивые определения (как с парами, живущими вместе). Если объединить выборки правильно, это поможет сделать правильный анализ данных.
Предположим, вы работаете в штате Юта. Один крупный производитель детской одежды подумывает о том, чтобы переехать в ваш штат. И вам в голову приходит мысль указать ему на высокий уровень рождаемости в Юте. Таким образом вы рассчитываете привлечь его внимание. Для этого вы заходите на сайт и размещаете сведения о рождаемости:
Юта выглядит лучше, чем Аляска, Вашингтон, Монтана, Вайоминг, Северная и Южная Дакота и небольшие штаты Северо-Востока. Но вряд ли можно сказать, что количество рождений там зашкаливает, особенно по сравнению с Калифорнией, Техасом, Флоридой и Нью-Йорком. Но погодите-ка, та карта, которую вы составили, показывает общее число рождений, а оно обязательно тем больше, чем больше население штата. Вместо этого вы могли бы составить карту с количеством новорожденных на тысячу жителей:
Это не помогает. Юта выглядит так же, как и остальные штаты. Что же делать? Поменяйте цвет! Вы можете поиграть с количеством величин в каждой категории — я имею в виду те полоски в самом низу, от серого до совсем черного. Удостоверившись, что уровень рождаемости Юты отображен отдельной категорией, вы заставите эти данные выделяться на фоне остальных.
Конечно, это стало возможно только потому, что у штата Юта действительно самый высокий уровень рождаемости — ненамного, но все же. Выбрав для него «корзину» отдельного цвета, вы заставили его выделяться.
Если бы вы захотели сделать то же самое с остальными штатами, вам пришлось бы прибегнуть к трюкам иного рода, например показать, сколько детей рождается на квадратную милю или на магазин сети Walmart, — и таким образом получить функцию от чистого дохода. Дайте волю фантазии, прикиньте разные варианты — и вы cможете привести аргументы в пользу любого из 50 штатов.
А как же правильно изобразить такие данные? Это вопрос спорный, но, пожалуй, одним из нейтральных способов будет объединение данных так, чтобы по 20 % штатов попали в одну из пяти категорий, каждая из которых отмечена своим цветом:
Другой вариант — сделать «корзины» одинакового размера:
Такой вид статистического обмана — использование категорий разных размеров на всех картограммах, кроме последней, — часто появляется в гистограммах. На приведенной ниже диаграмме показан средний процент числа подач 50 лучших игроков Главной лиги бейсбола в сезоне 2015 года:
Итак, предположим, что вы игрок, средний коэффициент результативности отбивания которого равен 0,330, — и этот факт определяет вас во вторую по высоте категорию. Настало время раздачи бонусов, и вы не хотите, чтобы у вашего руководства нашлись хоть какие-нибудь причины отказать вам в премии в этом году, — вы уже купили Tesla. Поэтому просто измените ширину «корзин», объединив свои результаты с результатами двух игроков, чей коэффициент результативности равен 0,337, — и вот вы уже среди лучших игроков. Сомкните строй столбцов (в «корзине» 0,327 больше нет бэттеров), сделав разрыв оси X, который могут заметить лишь немногие.
Обманчивое разделение на группы
В противоположность объединению выборок можно использовать разделение на группы, чтобы заставить кого-то поверить в то, чего на самом деле нет. Чтобы, например, заявить, что X — это главная причина Y, мне нужно просто разделить все остальные причины на более мелкие подгруппы.
Предположим, вы производите очистители воздуха и проводите кампанию, чтобы доказать, что респираторные заболевания — основная причина смерти в Соединенных Штатах, значительно превосходящая по частоте, например, заболевания сердечно-сосудистой системы или рак. Если говорить честно, то на сегодняшний день основная причина смерти в США — болезни сердца. По данным Центров по контролю и профилактике заболеваний в стране в 2013 году смерть в основном наступала по следующим причинам:
болезни сердца: 611 105;
рак: 584 881;
хронические заболевания нижних дыхательных путей: 149 205.
Даже если отбросить тот неприятный факт, что домашние очистители воздуха не сильно защищают от хронических респираторных заболеваний, эти данные не станут убедительным доводом для вашей компании. Вам бы, конечно, хотелось спасать более 100 тысяч жизней в год, но тот факт, что вы сумели справиться с третьей по важности причиной смерти, не сильно поможет вашей рекламной кампании. Хотя постойте! Ведь болезнь сердца — это не одно заболевание, их несколько:
острая ревматическая лихорадка и хроническое ревматическое заболевание сердца: 3260
гипертоническая болезнь сердца: 37 144
острый инфаркт миокарда: 116 793
сердечная недостаточность: 65 120
И так далее. Подобным же образом разбейте на подгруппы виды рака — и дело в шляпе! Заболевания нижних дыхательных путей становятся причиной смерти номер один. И вот вы уже заработали свой бонус. Некоторые производители продуктов питания использовали эту стратегию, чтобы скрыть количество жиров и сахаров, содержащихся в их продуктах.
Как собирают данные
Помните, во вступлении к этой части книги было написано, что именно люди собирают статистические данные. Это они решают, что считать и как потом быть с результатами. В процессе сбора данных может возникнуть множество ошибок и перекосов, а это, в свою очередь, может привести миллионы людей к неправильным выводам. И хотя большинство из нас никогда не будут собирать данные, научиться критически думать об этом довольно легко и доступно каждому.
Данные получают самыми разными способами: изучая записи (например, касающиеся рождаемости и смерти, предоставленные государственным ведомством, больницей или церковью), проводя исследования и опросы, делая наблюдения (например, считая электрические автомобили, проносящиеся мимо на пересечении Основной улицы с Третьей) или путем умозаключений (если продажи подгузников ползут вверх, значит, вероятно, растет уровень рождаемости). Перекосы, неточности и откровенные ошибки могут появиться на любом этапе. Важно время от времени задаваться вопросами: «А мы и правда можем узнать об этом?» или «Откуда им это известно?»
Формирование выборки
Астрогеологи собирают образцы камней с лунной поверхности — они не исследуют Луну полностью. Исследователям не нужно разговаривать с каждым конкретным избирателем, чтобы понять, кто из кандидатов выбился в лидеры гонки, или вести подсчет всех, кто заходит в приемный покой, чтобы понять, как долго пациенту приходится ждать приема. Это было бы непрактично и слишком дорого. Специалисты используют выборки и на их основании строят оценки. Если выборки сделаны правильно, то оценка может быть в высшей степени точной. В случае с подсчетом голосов, например, узнать, каковы настроения в стране (а это примерно 234 миллиона человек в возрасте старше 21 года), можно, опросив 1067 человек. Биопсии 1/1000 органа достаточно для диагностирования рака.
Однако надо помнить, что выборка должна быть репрезентативной. А это бывает в случае, когда каждый человек или предмет в изучаемой группе имеет равные шансы быть выбранным. Если это не так, то ваша выборка окажется нерепрезентативной (перекошенной). Если рак обнаружен только в одной части органа, а вы делаете пробы на другой, то он не будет диагностирован. Если же он затронул лишь малую часть органа, а вы взяли 15 проб в этом месте, то вы можете сделать вывод, что весь орган покрыт раковыми клетками, хотя это совсем не так.
Мы не всегда знаем наперед — даже со всеми возможностями биопсии или опросами общественного мнения, — в каком интервале меняется изучаемый показатель. Если бы все элементы в совокупности были одинаковыми, то для выборки было бы достаточно одного из них. Будь у нас множество генетически идентичных людей с одинаковым внутренним миром и жизненным опытом, мы могли бы узнать все что угодно обо всех, просто изучив одного из них. Но каждая группа неоднородна, ее члены отличаются друг от друга, поэтому формировать выборку нужно очень аккуратно, чтобы точно знать, что мы охватили все возможные различия, которые имеют значение (потому что не каждое из них имеет значение). Например, мы знаем: если лишить человека кислорода, он умрет. В этом отношении люди друг от друга не сильно отличаются (хотя и отличаются по времени, которое они могут протянуть без кислорода). Но если я хочу узнать, сколько килограммов человек может поднять в технике жима лежа, начинаются различия — придется измерить показатель у большой группы самых разных людей, чтобы определить диапазон его изменения и стабильное среднее арифметическое. Я бы хотел опросить высоких и низких, полных и худых, мужчин и женщин, детей, бодибилдеров, домоседов, людей, принимающих анаболики, и трезвенников. Есть, наверное, и другие факторы, которые имеют значение, например сколько часов человек спал накануне тестирования, сколько времени прошло с момента последнего приема пищи, в гневе он или спокоен и т. д. Кроме того, есть вещи, которые мы вообще не считаем важными: кто был в тот день авиадиспетчером в аэропорту Сен-Юбер в Квебеке; обслужили ли случайно взятого посетителя в ресторане Абердина в тот день вовремя или нет. Это влияет на другие показатели, которые мы исследуем (латентный сексизм в индустрии авиаперевозок; удовлетворение посетителей в ресторанах Северо-Западного региона), но не на жим лежа.
В задачу статистика входит составление списка того, что имеет значение для получения репрезентативной выборки. Следует избегать наметившейся тенденции, когда переменные выбираются такие, чтобы было легко их идентифицировать или собирать по ним данные, — ведь бывает так, что значимые показатели не очевидны или их сложно измерять. Как говорил Галилео Галилей, следует измерять то, что измеримо, и делать измеримым то, что таковым не является. Некоторые наиболее творческие прорывы в науке оказались возможны потому, что были предложены способы измерить важные показатели, которые раньше измерять не умели.
Однако даже измерение и попытки контролировать переменные, о которых вы знаете, могут стать проблемой. Предположим, вы хотите изучить существующие на данный момент мнения об изменении климата в Соединенных Штатах. Вам выделили небольшую сумму денег, чтобы вы наняли помощников и купили статистическую программу для вашего компьютера. Так случилось, что вы живете в Сан-Франциско и поэтому решаете провести исследование здесь. У вас уже сложности: Сан-Франциско — нерепрезентативный город для всей остальной части Калифорнии, не говоря уже о Соединенных Штатах в целом. Понимая это, вы принимаете решение провести свой опрос в августе, поскольку, по результатам исследований, это самый пик туристического сезона и люди со всей страны едут в Сан-Франциско, так что (думаете вы) вы сможете изучить все многообразие мнений.
Но подождите: можно ли считать тех, кто приедет в Сан-Франциско, репрезентативной выборкой? Ведь вы будете учитывать только людей, которые могут себе позволить поездку, и тех, кто хочет провести свои каникулы в городе, вместо того чтобы, скажем, ехать в национальный парк (может даже случиться так, что вы невольно отдадите предпочтение либералам, так как Сан-Франциско известен своим либерализмом).
И тогда вы решаете, что не можете позволить себе исследовать мнение всех американцев и правильнее будет сконцентрироваться на жителях Сан-Франциско. Вы отправляете своих помощников на Юнион-сквер, где они будут останавливать прохожих и задавать им интересующие вас вопросы. Вы проводите инструктаж: вам нужны люди разных возрастов, этнической принадлежности, по-разному одетых, с татуировками и без них — короче говоря, вас интересует срез общества, самые его разные представители. Но у вас по-прежнему проблема: ведь вы вряд ли встретите на улице людей, прикованных к постели, молодых мам с маленькими детьми, тех, кто работает по сменам и отсыпается днем, а также сотни тысяч жителей Сан-Франциско, которые по каким-то причинам не придут в тот день на Юнион-сквер — в ту часть города, которая славится дорогими магазинами и ресторанами. Если вы отправите своих помощников в район Мишн-дистрикт, это поможет решить проблему социально-экономического статуса опрашиваемых, но не решит остальных ваших проблем. Выборка должна пройти такой тест: все ли представители группы имеют равные шансы попасть в нее? Очевидный ответ: нет.
В таком случае вы делаете стратифицированную случайную выборку. Это значит, что вы делите всю группу на страты или подгруппы, представляющие интерес, и набираете людей из них, соблюдая пропорцию по отношению к совокупности. Если вы проведете исследование, касающееся изменения климата, и обнаружите, что мнения не имеют ничего общего с расовыми категориями, вам не нужно будет создавать группы, основанные на расе. К тому же делать какие-то предположения насчет расы может быть затруднительно или оскорбительно — а что вы будете делать с людьми смешанной расы? Поместите их в одну категорию или другую, а может, создадите для них отдельную? И что же потом? Появится категория для американцев, рожденных в браках, где один родитель — афроамериканец, а второй — представитель европейского типа или латиноамериканец, в браках, где смешана восточноазиатская и иранская кровь, и т. д.? В таком случае категории могут стать слишком узкими, и это только затруднит ваше исследование. Другая сложность: вам хочется, чтобы опрашиваемые были разного возраста, но ведь бывает, что люди стесняются говорить, сколько им лет. Вы можете выбирать тех, кому явно за 40 или явно меньше, но при этом пропустите тех, кому около 38 или кто едва разменял пятый десяток.
Чтобы решить проблему с теми, кто отсутствует в течение дня, вы просто можете ходить по домам и разговаривать с каждым, кто откроет дверь. Но, опять же, если вы будете так ходить в дневное время, то упустите тех, кто на работе. Если вы будете ходить так по вечерам, то не учтете любителей клубной жизни, тех, кто работает посменно, тех, кто ходит в церковь на ночные службы, киноманов и тех, кто часто ходит в рестораны. А как, создав страты, вы получите случайную выборку в рамках ваших подгрупп? Все вышеописанные проблемы актуальны и по сей день — выделение подгрупп не решает той проблемы, что даже в рамках подгруппы вам нужно будет получить репрезентативное разнообразие других факторов, которые могут повлиять на ваши данные. Видимо, нам придется собрать все имеющиеся на Луне камни, чтобы провести качественный анализ пород.
Но не спешите сдаваться. Стратифицированная случайная выборка лучше нестратифицированной. Если вы наугад отберете несколько студентов для изучения полученного ими академического опыта, то, возможно, получите выборку студентов, которые учатся в крупных государственных вузах, — в случайную выборку, скорее всего, попадут именно они, потому что таких большинство. Вам известно, что студенческая жизнь в маленьких частных гуманитарных вузах складывается совершенно по-другому, поэтому вам нужно удостовериться, что в вашей выборке есть и такие студенты, — и в вашу стратифицированную выборку попадут студенты из учебных заведений самых разных размеров.
«Опросив каждую птичку, встретившуюся на тротуаре за пределами этого здания, мы пришли к заключению, что птицы предпочитают бейглы!»
Следует отличать случайную выборку от удобной — когда вы просто опрашиваете своих знакомых или людей на улице, которые кажутся вам подходящими. Без случайности выборки ваш опрос может оказаться предвзятым.
Именно из-за формирования выборок сбор данных может превратиться в бесконечную битву за отсутствие предвзятости. И исследователи побеждают не всегда. Всякий раз, читая в газете, что 71 % британцев отдают чему-то предпочтение, мы должны спрашивать себя: «Да, но 71 % каких именно британцев?»
Прибавьте к этому тот факт, что вопросы, которые мы задаем людям, — лишь выборка всех возможных вопросов, которые мы могли бы задать. Так же как их ответы, в свою очередь, могут быть всего лишь выборкой тех неоднозначных мнений и жизненного опыта, которыми они обладают. Что еще хуже, они могут понимать или не понимать, что мы спрашиваем, а пока они отвечают, их может что-то отвлекать. И гораздо чаще, чем хотелось бы тем, кто проводит опросы общественного мнения, люди намеренно дают неправильный ответ. Ведь люди — существа социальные; многие стараются избегать столкновений или хотят угодить и потому отвечают так, чтобы соответствовать ожиданиям. С другой стороны, есть ведь и такие члены общества, которые лишены избирательных прав или придерживаются нонконформистских взглядов и потому будут отвечать неискренне, примеряя маску этакого бунтаря, просто чтобы узнать, каково это — шокировать и бросать вызов.
Получить непредвзятую выборку не так-то просто. Когда вы держите в руках статистические данные, спросите себя: «А какой перекос мог получиться в этой выборке? Не смещена ли она?»
Выборка дает нам оценки чего-либо, и почти всегда они отличаются от истинного значения, сильно или не очень. Это называется погрешностью. Воспринимайте ее как цену, которую вы платите, чтобы не выслушивать каждого человека в группе или чтобы не изучать каждый отдельный камень на Луне. Конечно, ошибки могут возникнуть, даже если вы действительно поговорили с каждым, — так случается из-за дефектов измерительного аппарата. Погрешность не имеет ничего общего с неточностями в самом исследовании — скорее она отражает степень ошибки в самом процессе отбора данных для анализа. Но давайте на мгновение забудем об этом, поскольку есть еще один вид измерений, который сопровождает любую строго собранную выборку: доверительный интервал.
Погрешность показывает, насколько близки полученные результаты к истинным значениям, а доверительный интервал — это степень уверенности в том, что оценка не выходит за пределы этой погрешности. Например, в стандартном опросе, предполагающем выбор из двух возможностей, случайная выборка из 1067 взрослых американцев даст погрешность в 3 % в любую сторону (напишем ±3 %). Значит, если опрос покажет, что 45 % американцев поддерживают кандидата А, а 47 % — кандидата Б, истинное значение будет приблизительно между 42 и 48 % для А и между 44 и 50 % для Б. Обратите внимание, что получившиеся промежутки пересекаются. Это означает, что разница в 2 % между кандидатом А и кандидатом Б находится в рамках погрешности: мы не можем сказать, что один из них на самом деле опережает другого, и потому сложно пока предсказать исход гонки.
Насколько мы уверены в том, что погрешность равна 3 %, а не больше? Мы находим доверительный интервал. В приведенном мной примере рассматривался интервал с уровнем доверия 95 %. Это означает, что если бы мы проводили голосование сто раз при использовании тех же самых выборочных методов, в 95 случаях из этих 100 полученный интервал содержал бы истинное значение. В 5 случаях из 100 истинное значение выходило бы за полученные рамки. При этом доверительный интервал не говорит нам, насколько сильно оно за них выходит: разница могла бы быть как большой, так и маленькой; для ответа на этот вопрос придется прибегать к другим статистическим методам.
Уровень доверия можно установить такой, какой хочется, но обычно это 95 %. Чтобы сузить доверительный интервал, можно сделать одно из двух: либо при заданном уровне доверия увеличить размер выборки, либо для заданного размера выборки уменьшить уровень доверия. В случае с фиксированным размером выборки изменение уровня доверия с 95 до 99 увеличит размер интервала. В большинстве случаев дополнительные расходы или неудобства того просто не стоят, тем более что уже на следующий день или на следующей неделе под влиянием внешних факторов респонденты могут поменять свое мнение.
Обратите внимание, что для очень больших совокупностей — как, например, население США — нам нужно сделать очень маленькую выборку, меньше 0,0005 %. Но для совокупностей поменьше — например, в случае с корпорацией или школой — доля попавших в выборку должна быть больше. В компании, штат которой составляет 10 000 сотрудников, нам бы пришлось отобрать 964 (почти 10 %), чтобы получить 3 %-ную погрешность с уровнем доверия в 95 %, а в компании, где работает 1000 сотрудников, из них нужно отобрать 600 (60 %).
Допустимая погрешность и доверительный интервал применимы к выборкам любого рода, не только к людям: можно отслеживать количество электромобилей в городе, злокачественных клеток в поджелудочной железе или ртути в рыбе, которую продают в супермаркете. Допустимая погрешность и размер выборки, представленные на графике ниже, указаны для доверительного интервала в 95 %.
В конце книги вы найдете формулу, по которой можно подсчитать погрешность, а кроме того, существует множество онлайн-калькуляторов. Если вы видите, что статистический результат приведен, а погрешность не указана, можете подсчитать ее самостоятельно, просто выяснив количество людей, участвовавших в опросе. Вы увидите: такое случается на каждом шагу, а докладчик или организация, проводившая опрос, не предоставляет эту информацию. Это похоже на график без осей — можно легко обманывать с помощью статистики, просто не сообщая погрешность или доверительный интервал. Вот так, например: мой пес по кличке Шедоу занимает лидирующую позицию на выборах губернатора от штата Миссисипи, у него 76 % голосов. (С не указанной в докладе погрешностью в ±76 %. Голосуйте за Шедоу!!!)
Смещение выборки из-за правила отбора
Пытаясь получить случайную выборку, исследователи иногда допускают ошибки в оценке, имеет ли каждый человек или предмет равные шансы попасть в выборку.
В 1936 году во время выборов президента США была допущена вопиющая ошибка. Журнал The Literary Digest проводил опрос, из которого заключил, что на выборах республиканец Альф Лэндон победит тогдашнего президента, члена Демократической партии Рузвельта. The Literary Digest не построил случайную выборку, а опросил тех, кто читал журналы, имел автомобиль или пользовался телефоном. Общепринятое объяснение, процитированное позже во многих научных и популярных статьях, звучало так: в 1936 году такой принцип отбора увеличил долю состоятельных респондентов, а они чаще голосовали за кандидата-республиканца. На самом деле, согласно опросу, проведенному Джорджем Гэллапом в 1937 году, это общепринятое объяснение было неверно — владельцы автомобилей и телефонов гораздо охотнее поддержали бы Рузвельта. Дело в том, что у сторонников Рузвельта просто было меньше шансов принять участие в опросе. Гэллап обнаружил нерепрезентативность выборки, он провел свой собственный опрос, построив случайную выборку, и потому смог верно предсказать результат выборов. Так родилось понятие «опрос Гэллапа». И оно стало золотым стандартом проведения опросов политического мнения до 2012 года, когда произошла ошибка с определением будущего победителя президентских выборов в США. Как было выявлено в ходе расследования, во время формирования выборки были допущены грубые ошибки, по иронии судьбы связанные с опросом пользователей телефонной связи.
Так же, как телефонные опросы в 1930-е и 1940-е смещали выборку в сторону состоятельных людей, в этот раз выборка сместилась в сторону более пожилых респондентов. Опрос по телефону основан на том, что те, у кого есть телефоны, хорошо отображают мнение всего населения в целом. Однако это не обязательно: многие сотрудники Кремниевой долины используют для общения интернет-приложения, поэтому телефонная выборка может попросту не учитывать тех, кто пользуется высокими технологиями.
Если вы хотите схитрить с помощью статистики и замести следы, находите средний рост, опрашивая людей рядом с баскетбольным полем, узнавайте средний доход, проводя опросы возле центра занятости, оценивайте заболеваемость раком в стране, делая выборку рядом с плавильным заводом. Если вы сами не расскажете, как именно отбирали данные для анализа, никто и не узнает.
Смещение выборки из-за отказа участников
Те, кто хочет поучаствовать в исследовании, и те, кто не выражает особого желания, различаются по многим другим аспектам, например по политическим взглядам, характеру, достатку. Схожим образом те, кто откликается на объявление о наборе добровольцев для участия в эксперименте, могут иметь предвзятое мнение относительно того предмета, который вас интересует. Если вы стараетесь привлечь для исследования «среднего» человека, то можете сместить выборку, сообщив заранее тему опроса. Скажем, исследование сексуальной ориентации будет иметь смещение скорее в сторону тех, кто готов рассказать об этом открыто, нежели тех, кто скромен и придерживается пуританских взглядов. При изучении мнений, касающихся политики, выборка будет смещена в сторону респондентов, расположенных поговорить на эту тему. Поэтому многие опросники, анкеты и исследования никогда не объявляют заранее тему опроса либо просто камуфлируют истинную цель исследования несколькими незначительными вопросами, в ответе на которые исследователь совсем не заинтересован.
Те, кто отвечают на все вопросы до конца, сильно отличаются от тех, кто останавливается раньше времени. Некоторые респонденты попросту не хотят ничего отвечать. Это может создать необъективную картину, когда типы тех людей, которые отвечают, и тех, кто не желает, отличаются. В результате возникает особый тип смещения выборки, который называется ошибкой пропущенных данных.
Допустим, вы работаете в Гарвардском университете и хотите показать, что выпускники вашего учебного заведения, как правило, получают большие зарплаты уже через два года после окончания вуза. Вы рассылаете анкету выпускникам. И уже на этой стадии возникают сложности: те, кто переехал куда-то, не известив об этом университет, те, кто сейчас в тюрьме, или те, кто стал бездомным, попросту не получат ваши вопросы. А среди тех, кто на них ответит, большую часть, скорее всего, составят успешные люди, благодарные университету за то, что он для них сделал, а не те, кто в итоге потерял работу и теперь обижен на жизнь. Те, чьего мнения вы не учитываете, вносят свою лепту в ошибку пропущенных данных. Иногда данные при этом искажаются систематически.
Если ваша цель — показать, что образование, полученное в стенах Гарварда, напрямую обуславливает последующую высокую зарплату, то такое исследование поможет вам убедить большинство. Но критическое мышление, присущее отдельным людям, подскажет им, что тех, кто учится в Гарварде, ни в коем случае нельзя назвать средними представителями: это, как правило, выходцы из семей с высоким доходом, а данный показатель коррелирует с зарплатой выпускника. Студенты Гарварда отличаются предприимчивостью и энергией. Они могли бы заработать столько же и в том случае, если бы посещали колледж с репутацией похуже или вовсе бы не получили образования (Марк Цукерберг, Мэтт Деймон и Билл Гейтс — финансово успешные люди, которые когда-то вылетели из Гарварда).
Если вы просто не можете охватить какой-то сегмент совокупности, например военных, расквартированных за рубежом, бездомных или тех, кто находится в больнице или ином лечебном учреждении, смещение выборки будет называться ошибкой неполного охвата, потому что некоторые члены совокупности из которой вы намеревались сделать выборку, находятся вне зоны досягаемости, и поэтому их нельзя выбрать. Если вы пытаетесь подсчитать, сколько в банке мармеладных конфет красного, оранжевого или желтого цветов, то, возможно, не сумеете добраться до дна. Биопсия некоторых органов часто ограничена тем местом, где хирург может сделать забор материала, а оно, возможно, не репрезентативно относительно всей совокупности клеток. В психологических исследованиях подопытными часто становятся студенты последнего курса, хотя, строго говоря, они не могут быть репрезентативны относительно общей совокупности. В США наблюдается огромное разнообразие представителей разных систем ценностей, мнений и политических взглядов, люди различаются жизненным опытом и образом жизни. И хотя было бы ошибкой заявить, что все студенты одинаковы, такой же ошибкой было бы сказать, что они точно соответствуют остальной части совокупности.
Смещение выборки из-за ответов
Иногда во время опроса люди могут откровенно лгать. Выпускница Гарварда может преувеличить сведения о своих доходах, просто чтобы выглядеть более успешной или сообщить о том, сколько она должна была заработать, если бы не обстоятельства. Точно так же она может и преуменьшить цифры, и тогда Ассоциация выпускников Гарварда не будет ждать от нее больших пожертвований. Подобные хитрости могут смещать выборку, а могут и никак на нее не влиять. Среднее арифметическое, которое мы получаем в итоге в нашем исследовании относительно зарплат выпускников Гарварда, — это всего лишь среднее значение, выведенное из тех сведений, которые они предоставили, а не из их реальной зарплаты. У богачей вообще может не быть четкого представления о своем ежегодном доходе, потому что он не ограничивается зарплатой — тут еще много других источников дохода, которые разнятся от года к году, например доход от вложений, дивиденды, бонусы, роялти и пр.
Представьте, что вы спрашиваете у своих респондентов, списывали ли они на экзамене или пытались ли когда-нибудь уйти от налогов. Они могут не поверить, что ваше исследование абсолютно конфиденциально, и не захотят говорить откровенно. (Подобная проблема существует в США и с иммигрантами: невозможно оценить, сколько из них нуждаются в медицинском обслуживании или стали жертвами преступлений. Многие из них боятся обращаться в больницу или в полицию, так как опасаются, что за ними придут иммиграционные службы.)
Вот еще пример: вы хотите узнать, какого рода журналы читают люди. Можно просто спросить их об этом. Но ведь может быть и так, что они захотят произвести на вас хорошее впечатление. Или станут приписывать себе более тонкий вкус, которым в действительности не обладают. Вы можете обнаружить, что людей, заявляющих, будто они читают New Yorker или The Atlantic, намного больше, нежели вы предполагали исходя из продаж. А тех, кто читает Us Weekly и The National Enquirer, намного меньше. Респонденты не всегда честны во время опросов. И вы, выходит, изучаете не то, что люди читают, а их снобизм.
И тогда у вас рождается план: вы думаете отправиться прямиком к ним домой и посмотреть, что за журналы лежат у них в гостиной. Но искажения есть и здесь: вы не узнаете, что люди читают, — то, что вы увидите в гостиной, скорее расскажет вам о том, какие издания люди не выбрасывают после прочтения или что выкладывают на виду, желая произвести впечатление. Узнать, какие журналы они читают, сложнее, чем подсчитать те журналы, которые они покупают (или выкладывают). Но это очень важное разграничение, особенно для тех, кто занимается рекламой.
Как определить, отождествляет ли себя человек с несколькими расами? Если бы он вырос в общине, где живут люди определенной расы, то вряд ли был бы склонен думать о себе как о представителе нескольких рас. А если бы столкнулся с дискриминацией, у него было бы больше склонности к такому отождествлению. Мы могли бы точно определить смешение рас, но не факт, что люди расскажут об этом так, как нам бы того хотелось.
Отсутствие единого стандарта
Все измерения должны быть стандартны. Должны существовать прозрачные, воспроизводимые, точные способы сбора данных, чтобы все, кто проводит исследования, формировали выборки одинаково. Возьмем шкалу Глисона — она весьма условна, а значит, вы можете получить разные заключения от разных патологов и, следовательно, диагностировать разные степени рака (образец ткани предстательной железы изучается под микроскопом и оценивается по шкале Глисона от двух до десяти — на основе этих данных можно высчитать вероятность развития рака). Психиатры расходятся во мнении относительно одного пациента: есть ли у него шизофрения или нет. Статистики не согласны с тем, что составляет суть психического феномена. Патология, психиатрия, парапсихология и другие сферы стараются создать определенные процедуры, проведение которых приводило бы к определенным результатам. Но почти все тесты дают неоднозначные ответы, из-за чего возникает несогласованность в диагнозах специалистов. Если вас попросят взвеситься, вы будете это делать в одежде или без нее, оставив кошелек в кармане или вытащив его? Если вам нужно будет проверить температуру стейка на гриле, вы остановитесь на одном результате или померяете температуру несколько раз и вычислите среднее значение?
Ошибки в измерениях
Участники опроса могут неправильно понять вопрос интервьюера; поставить не там галочку в анкете; дать не тот ответ, который собирались. Ошибки в измерениях могут возникнуть в любой научной дисциплине. По сообщениям физиков Conseil Européen pour la Recherche Nucléaire (Европейский совет по ядерным исследованиям, ЦЕРН), им удалось измерить скорость нейтрино, которая оказалась больше скорости света, — факт, который мог занять достойное место среди величайших открытий последнего столетия. Позже, однако, ученые признали, что в их измерениях был обнаружен недочет.
Ошибки измерения возникают, когда мы пытаемся выразить что-либо количественно. Президентские выборы, проходившие в 2000 году в Америке, свелись к ошибке измерения (и неверному фиксированию намерений избирателей): у разных комиссий, занимавшихся подсчетом голосов, получились разные результаты. Отчасти так вышло из-за отсутствия согласованности в способе подсчета бюллетеней — но даже когда ясность была внесена, результаты все равно были неоднозначными.
Или вот еще пример. Всем известно, что когда мы подсчитываем монетки в банке с мелочью, то всякий раз получаем разные результаты. Если встать на весы в ванной три раза подряд, мы получим разные результаты. Измеряя длину комнаты, мы можем каждый раз получать новые цифры. И это объяснимо: пружины в ваших весах — несовершенное в плане механики устройство. Пользуясь сантиметром, вы всякий раз держите его по-разному, он каждый раз располагается немного по-разному или просто недостаточно длинный, чтобы можно было измерить всю комнату, — и вам приходится помечать место на полу и делать измерения в два или три приема, что только увеличивает вероятность ошибки. Даже сам инструмент, с помощью которого вы проводите измерение, может быть неточным (конечно, у измерительных приборов есть класс точности, и чем дороже прибор, тем этот класс выше). Напольные весы в ванной могут иметь погрешность в несколько десятков граммов, а у почтовых весов она составляет унцию (почти 30 граммов).
Во время переписи населения США в 1960 году было зафиксировано 62 молодых женщины в возрасте от 15 до 19, у которых было по 12 детей и больше, а также огромное количество 14-летних вдов. Здравый смысл уверяет нас, что не может такого быть, уж очень это все необычно. Видно, кто-то тут ошибся. Наверное, кто-то из респондентов случайно или специально отметил не ту графу, чтобы поскорее закончить с трудоемким опросом. А может, проказливые участники опроса навыдумывали диковинных историй, а исследователи и не заметили.
В 2015 году профессиональный клуб по американскому футболу New England Patriots был обвинен в обмане, так как якобы приспустил свои мячи, чтобы их было легче ловить. Защищаясь, представители клуба заявили, что была допущена ошибка измерения. Давление в мячах обеих команд, Patriots и Indianapolis Colts, в тот день проверяли в перерыве после первой половины матча. Первыми проверяли мячи команды Patriots. Мячи Colts пролежали дольше в теплой раздевалке, из-за чего нагрелись, и потому давление в них было выше. Суд федерального округа принял эту информацию, равно как и другие показания, к сведению и заявил, что не видит в поступках команды злонамеренности.
Ошибки в измерениях возникают и тогда, когда ваш измерительный инструмент — весы, рулетка, анкета или тест — не предназначен для того, что вы собирались измерить, например когда вы рулеткой меряете толщину человеческого волоса или предлагаете респонденту анкету с вопросами о депрессии, когда на самом деле изучаете вопрос мотивации. Подсчитать кандидатов, получивших финансовую поддержку от избирателей, совсем не то же самое, что знать, как последние проголосуют, — ведь многие поддерживают сразу нескольких кандидатов.
Огромное количество чернил уже было потрачено на исследования, предполагавшие показать одно, но показавшие в результате другое. Тест на IQ — как раз из тех, что чаще всего получает неверную трактовку. Его используют, чтобы оценить умственные способности человека, как будто это какое-то одно качество. На самом деле, конечно, это не так — способности проявляются в самых разных формах: ориентировании в пространстве, знании искусства, математики и т. д. Как известно, в тестах на IQ есть некий перекос в сторону белых людей среднего класса. По результатам такого теста мы хотим понять, насколько человек подходит для усвоения определенной школьной программы или выполнения работы. Тесты на IQ могут предсказывать успешность испытуемых в таких ситуациях, но, вероятно, не потому, что человек с высоким IQ гораздо умнее, а потому, что у него много других преимуществ (экономических, социальных), которые и выявил тест.
Если в основе статистических данных, которые вы держите в руках, лежит исследование, постарайтесь выяснить, какие вопросы задавались, и посмотрите, достаточно ли они разумны и непредвзяты. Постарайтесь также понять, как проводили измерение исследуемого предмета и был ли тот, кто собирал данные, достаточно квалифицирован.
Определения
То, как понятия определяются и распределяются по категориям, влияет на статистические данные, которые вы получите в результате. С этой проблемой часто сталкиваются в естественных науках, например когда диагностируют стадию рака или описывают количество осадков. А в общественных науках такое случается, когда у респондентов спрашивают об их мнении или опыте.
Был ли сегодня дождь в Большом Сент-Луисе? Все зависит от того, что вы называете дождем. Если упала одна-единственная капля на территории в 8846 квадратных миль, входящих в состав Большого Сент-Луиса (согласно Административно-бюджетному управлению США), можно ли сказать, что шел дождь? Сколько капель должно упасть, над какой по размеру территорией и за какой период, чтобы мы считали, что в этот день выпали осадки?
В зависимости от выбранного рабочего определения у Бюро статистики труда США есть два разных способа замерить уровень инфляции: личные потребительские расходы (ЛПР) и индекс потребительских цен (ИПЦ) могут давать разные результаты. Если вы сравниваете два года или два региона страны, вам, конечно, нужно убедиться, что вы в обоих случаях используете один и тот же индекс. Если же вы просто хотите продемонстрировать, как сильно изменилась инфляция в последнее время, то, будь вы недобросовестным пользователем статистики, вы выбрали бы из двух тот, что производит большее впечатление, а не тот, что кажется более подходящим, — вы бы руководствовались пониманием их различий.
Или вот еще пример: что значит «бездомный»? Это тот, кто спит на тротуаре или в машине? Ведь у человека, может, и есть дом, но он не хочет туда идти. А как быть с женщиной, которая временно живет у подруги, потому что потеряла свою квартиру? Или с семьей, которая продала свой дом и теперь живет несколько недель в отеле, ожидая, пока в новом доме закончится ремонт? Или со сквоттером, который счастливо живет на заброшенном складе? При сравнении такого явления, как бездомность, в разных городах и штатах мы будем иметь дело с разными — с юридической точки зрения — определениями. И даже если они будут стандартизированы, то могут отличаться от того, что вы вкладываете в это понятие. Отсюда и невозможность решить проблему в больших городах — мы просто не понимаем, кто подходит под этот критерий.
Всякий раз, сталкиваясь с новостным репортажем, в котором упоминаются новые исследования, нужно быть внимательным с определениями, которые получили те или иные элементы исследования, и решать для себя, приемлемы ли они и разумны ли. Это особенно важно, когда речь идет о таких острых темах, как аборты, брак, война, изменения климата, минимальная заработная плата, жилищная политика.
Нет ничего более политизированного, чем политика. Любое определение можно перекрутить и переиначить согласно тем целям, которые вы преследуете. Представьте, что кандидат на какой-то политический пост нанял вас, чтобы собрать информацию о своем оппоненте, Алисии Флоррик. Если только ей не удалось покорить сердца абсолютно всех избирателей, они так и будут чем-нибудь недовольны. Вам нужно задать вопрос: «Есть ли что-нибудь, с чем вы не согласны или чего вы не одобряете в ее словах и поступках, даже при условии, что вы ее поддерживаете?» Теперь почти у всех найдутся хоть какие-нибудь претензии, и вы сможете ответить своему работодателю: «81 % опрошенных не одобряют действия Флоррик». Вы собрали данные по одной детали (пусть это было всего лишь небольшое недовольство) и создали некий массив однотипных жалоб, назвав его на новый лад — «неодобрение». А что, звучит почти справедливо.
Непостижимые и непроверяемые вещи
Термин GIGO («Garbage in — garbage out») был придуман первыми компьютерщиками и означает «Мусор на входе — мусор на выходе». Было время, когда пользователи слепо верили всему, что выдавал компьютер, потому что это выглядело чем-то точным и несомненным. Если статистика складывается из неаккуратно собранных данных, измерений, предположений, недопониманий, упрощений и неверных оценок, то и результат будет соответствующим.
Многое из того, что мы читаем, должно вызывать подозрения. Задайте себе вопрос: возможно ли вообще, чтобы кто-нибудь знал об этом? В газетах пишут о количестве суицидов, совершенных подростками нетрадиционной ориентации: геями и лесбиянками. Да ни одна из подобных статистических выкладок не имеет никакого веса, особенно если принять во внимание тот факт, что довольно сложно определить, наступила ли смерть в результате самоубийства и был ли человек геем. Точно так же, с некоторым подозрением, стоит относиться и к сообщениям о количестве смертей, наступивших в результате голода в отдаленных районах, или о количестве жертв геноцида во время гражданской войны, а также к информации об убитых и раненых во время военных операций США в Ираке и Афганистане.
Один издатель хвастается, что у его журнала 2 миллиона читателей. Но откуда он это знает? А он и не знает. Он предполагает, что некоторую часть купленных номеров потом дают почитать кому-то еще, — он называет эту часть долей вторичных читателей. Он предполагает, что каждый номер журнала, который закупила библиотека, читается определенным числом людей. То же касается книг, а также их электронных версий. Конечно, тут нельзя обобщать, все зависит от книги. Многие купили книгу Стивена Хокинга A Brief History of Time. Говорят, что это самая покупаемая книга за последние 30 лет. Но также говорят, что очень немногие дочитывают ее до конца. Вероятно, немногие дают ее почитать, потому что кажется престижным просто иметь ее в своей гостиной. Но сколько же на самом деле читателей у журнала? Сколько людей действительно слушают подкаст? Нам это неизвестно. Мы знаем, сколько экземпляров было продано или загружено, и на этом все (хотя новые технологии в области электронных книг могут изменить этот давно устоявшийся статус-кво).
В следующий раз, прочитав о том, что в среднем житель Новой Зеландии использует зубную нить 4,36 раза в неделю (цифра, которую я только что выдумал, но она вполне может оказаться правдивой, как и любая другая оценка), спросите себя: «А как автор статьи об этом узнал? На какие данные он ссылается?» Если бы в ванных комнатах стояли скрытые камеры, это было бы одно. Но ведь, скорее всего, об этом рассказывали сами люди, отвечая на вопросы анкеты, и сообщали они только то, что помнят, — или то, что считают правдой, потому что уж так мы устроены.
Вероятности
Вы мне поверили, когда я сказал, что, вероятно, лишь немногие отдали почитать свой экземпляр книги A Brief History of Time? Я очень вольно использовал термин, как делают многие, но тема математической вероятности апеллирует к пределам наших сведений о мире и простирается от поведения субатомных частиц, например кварков и бозонов, до правдоподобности сообщений о скором конце света; от людей, участвующих в государственной лотерее, до тех, кто пытается предсказывать погоду (две вещи, которые могут иметь схожие шансы на успех).
Вероятности позволяют нам представить будущие события в цифрах и помогают принимать практические решения. Без них мы можем поддаться обаянию пустых анекдотов и забавных историй. Может, вы слышали, что кто-нибудь говорил: «Я не буду пристегиваться в машине, потому что слышал историю, когда парень погиб из-за того, что был пристегнут. Он оказался в собственной машине, как в ловушке, и не смог из нее выбраться. Если бы он не был пристегнут, то остался бы жив».
Да, конечно, но мы не можем делать выводы из одной или двух историй. Каковы относительные риски? Хотя есть несколько таких случаев, когда ремень безопасности стоил человеку жизни, все же без него вероятность смертельного исхода гораздо выше. Вероятность помогает нам взглянуть на ситуацию с помощью цифр.
Мы используем слово «вероятность» по-разному, чтобы обозначить разные вещи. Очень легко запутаться, считая, что человек имеет в виду одно, тогда как на самом деле он думает совсем другое. Подобное заблуждение может привести к тому, что сделанные нами выводы окажутся неверными.
В основе одного из видов вероятности — классической — лежит идея симметрии и равной вероятности: у игрового кубика шесть граней, у монеты — две стороны, у колеса рулетки — 38 слотов (это в США — в Европе 37). Если исключить производственный брак или жульничество, в результате которого можно фальсифицировать желаемый результат, то все исходы равновозможны. То есть вероятность выкинуть на кубике конкретное число равна одной шестой; вероятность выпадения решки при подбрасывании монеты равна одной второй; в случае с игрой в рулетку вероятность любого слота — 1/38 или 1/37.
Классическая вероятность ограничена подобного рода структурами, в которых уже все четко определено и задано. В классическом случае мы знаем точно параметры системы и поэтому можем подсчитать вероятность для каждого возможного случая. Второй вид вероятности возникает потому, что в повседневной жизни мы часто хотим знать вероятности событий, которые не включены в такую симметричную схему. Нам интересно, какова вероятность того, что лекарство поможет пациенту или что клиенты предпочтут один сорт пива другому. В этом случае нам нужно сначала оценить параметры системы, потому что изначально они не заданы.
Чтобы определить, что же собой представляет второй тип вероятности, мы делаем наблюдения или проводим эксперименты, а также считаем, сколько раз получился желаемый результат. Это так называемая частотная, или статистическая, вероятность. Мы назначаем лекарство группе пациентов и смотрим, скольким из них станет лучше, — это эксперимент, и вероятность того, что лекарство сработает, определяется как доля людей, которым оно помогло (мы основываемся на частоте случаев с желаемым результатом). Если провести такой эксперимент на большом количестве людей, результат будет очень близок к истинной вероятности, так же, как при опросах общественного мнения.
И классическая, и частотная вероятность имеют дело с повторяющимися, воспроизводимыми событиями, а также с долей случаев, которые приводят к определенному исходу в практически неизменных условиях (некоторые бескомпромиссные теоретики настаивают на том, что условия должны быть абсолютно идентичными, но я думаю, что они заходят слишком уж далеко, потому что в пределе Вселенная никогда не бывает абсолютно одинаковой, всегда есть случайные вариации). Когда вы проводите опрос общественного мнения среди случайных людей, то делаете это в идентичных условиях, даже если одних людей вы опрашиваете сегодня, а других завтра (конечно, при условии, что в этом промежутке не произойдет ничего такого, что могло бы изменить их точку зрения). Когда свидетельница в суде дает показания и говорит, что ДНК подозреваемого совпадает с ДНК крови, найденной на пистолете, она использует частотную вероятность, потому что скорее принимает в расчет те фрагменты ДНК, которые совпадают, нежели те, которые различаются. Когда вы вытягиваете карту из колоды, отсортировываете дефектную деталь на конвейере или спрашиваете участников опроса, любят ли они определенную марку кофе, — все это примеры классической или частотной вероятности повторяющегося, воспроизводимого события (в примере с картой — классическая вероятность, в примере с деталью на конвейере или кофе — частотная).
Третий вид вероятности отличается от описанных выше тем, что ее не получают экспериментально и определяют не для повторяющихся событий, — скорее она выражает мнение или степень уверенности в том, что какое-то событие произойдет. Она называется субъективной вероятностью (один из ее видов — байесовская вероятность, получившая свое название по имени статистика XVIII века Томаса Байеса). Когда подруга говорит, что на 50 % уверена, что пойдет в эти выходные на вечеринку к Майклу и Джулии, она использует байесовскую вероятность, выражая некую степень уверенности в том, что так оно и будет. Каким будет уровень безработицы к следующему году? Мы не можем тут использовать частотную вероятность, потому что нельзя рассматривать безработицу следующего года как набор наблюдений, выполненных при идентичных или даже схожих обстоятельствах.
Давайте разберемся на примере. Когда ведущая прогноза погоды сообщает, что вероятность дождя завтра 30 %, мы знаем, что она не проводила экспериментов в течение нескольких идентичных в плане погодных условий дней (даже если бы такое было возможно). Цифра в 30 % выражает степень ее уверенности (по шкале от одного до 100) в том, что будет дождь, и своей целью она ставит доведение до вашего сведения некоей информации, которая может заставить вас призадуматься, нужны ли вам будут завтра галоши и зонтик.
Если ведущая прогноза погоды — хорошо проверенный источник, то дождь будет идти в 30 % случаев, про которые она говорила, что вероятность дождя 30 %. Если дождь будет идти в 60 % случаев, то она ошиблась, и намного. Вопрос о том, насколько проверен источник, важен только в случае с субъективной вероятностью.
Кстати, давайте вернемся к вашей подруге, сказавшей, что ее шансы пойти на вечеринку равны 50 %. Многие из тех, кто не привык мыслить критически, часто допускают подобную ошибку: они полагают, что если есть два варианта, то они должны быть равновероятны. Когнитивные психологи Амос Тверски и Дэниел Канеман описали вечеринки и иные возможные сценарии людям, участвовавшим в эксперименте. На конкретной вечеринке, например, гостям могут сказать, что в зале присутствуют 70 % писателей и 30 % инженеров. Если вы столкнетесь с кем-то, у кого будет татуировка с портретом Шекспира, то справедливо решите, что перед вами один из пишущей братии, но если вы наткнетесь на кого-то с уравнением Максвелла на футболке, то справедливо решите, что перед вами инженер. А что, если вы столкнетесь с человеком без опознавательных признаков — ни татуировки, ни математических формул на футболке, — какова вероятность того, что перед вами инженер? В опросах, проведенных Тверски и Канеманом, люди обычно говорили о вероятности «50 на 50», совершенно не видя разницы между двумя возможными исходами и двумя одинаково вероятными исходами.
Субъективная вероятность — единственная из всех возможных, находящихся в нашем распоряжении в тех ситуациях, где нет места эксперименту и симметрии условий. Когда судья дает присяжным указание вынести вердикт, указывает ли «перевес улик» на вину ответчика, то налицо субъективная вероятность — каждый из присяжных должен самостоятельно решить, есть ли перевес, взвешивая все улики на весах собственных внутренних (возможно, не объективных) принципов и убеждений.
Когда букмекер оценивает шансы на скачках, он пользуется субъективной вероятностью — хотя послужной список лошади, здоровье и история наездника тоже могут предоставить некую информацию, тут нет естественной симметрии (это не случай классической вероятности) и тут нет никакого эксперимента (что исключает возможность частотной вероятности). Тот же принцип действует и в бейсболе или любом ином виде спорта. Букмекер может сказать, что шансы «Роялс» выиграть следующий матч равны 80 %, но это не вероятность в математическом смысле; просто таким образом он — и мы вместе с ним — использует язык, чтобы придать своим словам весомость, числовую точность. Букмекер не может повернуть стрелки часов вспять и просмотреть несколько раз один и тот же матч «Роялс», чтобы подсчитать, сколько раз они его выиграют. Он может, правда, подсчитать все математически или использовать компьютер, чтобы построить базу для оценки, но, в конце концов, его числа — всего лишь догадка, степень его уверенности в собственном предсказании. Субъективность оценок подтверждается тем, что у разных экспертов получаются разные числа.
Субъективные вероятности окружают нас, при том что мы в большинстве своем их не замечаем — мы встречаемся с ними в газетах, в залах заседания совета директоров, в спортзалах. Вероятность того, что какая-нибудь страна, не отличающаяся политической чистоплотностью, в ближайшие 12 месяцев взорвет атомную бомбу, что процентная ставка возрастет в следующем году, что Италия выиграет мировой кубок или что солдаты займут определенную высоту, — всегда субъективна, это не частотная вероятность.
Это все разовые, невоспроизводимые события. И репутация экспертов и предсказателей зависит от того, насколько правильны их прогнозы.
Комбинации вероятностей
Одно из самых важных правил теории вероятностей — правило умножения. Если два события независимы друг от друга — то есть одно из них никак не влияет на исход другого, — вы получите вероятность того, что они оба произойдут, перемножив вероятности каждого. Вероятность того, что при подбрасывании монеты выпадет орел, равна одной второй (потому что существует всего два возможных варианта: орел или решка). Вероятность того, что из колоды вы вытянете червовую карту, равна одной четвертой (потому что есть четыре возможных варианта: черви, пики, трефы и бубны). Если вы подкидываете монету и вытягиваете карту, то вероятность того, что у вас получатся и орел, и черви, высчитывается с помощью умножения двух отдельных вероятностей:
Орел | Черви | Решка | Черви |
Орел | Бубны | Решка | Бубны |
Орел | Трефы | Решка | Трефы |
Орел | Пики | Решка | Пики |
Я тут не говорю о тех редких случаях, когда вы кидаете монетку и она приземляется на ребро, или когда ее уносит чайка, пролетавшая мимо, или когда у вас в фальшивой колоде сплошь трефы.
Схожим образом мы можем действовать в случае с вероятностью наступления сразу трех событий: получить орла при подбрасывании монетки, вытянуть карту червей из колоды или встретить случайного человека, у которого день рождения в один день с вами (вероятность последнего равна примерно 1/365,24 — хотя дни рождения не вполне равномерно распределены и некоторые даты рождения встречаются чаще, чем другие, это разумная цифра).
Вы, возможно, знаете такие сайты, где задают вопросы, на которые предполагается несколько ответов, например: «На какой из этих пяти улиц вы когда-то жили?» или «Кредитная карта какого из пяти представленных типов есть у вас?» Такие сайты пытаются установить вашу личность, чтобы убедиться, что вы тот, за кого они вас принимают. В таком случае применяется правило умножения. Вероятность того, что вы случайно ответите правильно на один вопрос, равна 0,2, а вероятность того, что вы угадаете ответ на шесть вопросов подряд, равна 0,2 × 0,2 × 0,2 × 0,2 × 0,2 × 0,2, или 0,000 064. А это шесть шансов из 100 тысяч. Не так же точно, как результаты экспертизы ДНК в суде, но тоже неплохо. (А знаете, почему они не дают вопросы с выбором ответа из предложенных, а не предлагают вписывать краткий ответ? Потому что существует слишком много вариантов правильных ответов).
Когда вероятность одних событий определяется другими событиями
Правило умножения можно применять только к независимым событиям. А какие события не являются независимыми? Например, погода. Морозная погода сегодня вечером и морозная погода завтра не являются независимыми — такие явления часто сохраняются в течение нескольких дней. Конечно, морозы могут ударить совершенно внезапно, но все же, желая сделать прогноз на завтра, просто посмотрите на погоду сегодня.
Вы могли бы подсчитать количество вечеров в году, когда температура опускается сильно ниже нуля, — скажем, в вашем регионе 36 — и потом сказать, что вероятность заморозков сегодня вечером будет 36/365, приблизительно 10 %, или 0,1, но при этом вы не учитываете зависимости. Если вы скажете, что вероятность того, что в течение зимы будет два морозных вечера подряд, равна 0,1 × 0,1 = 0,01 (согласно правилу умножения), то недооцените вероятность, потому что события двух вечеров подряд не независимы. На завтрашнюю погоду сильно влияет сегодняшняя.
Вероятность того, что какое-то событие произойдет, также может оказаться под влиянием конкретного факта, который вы сейчас изучаете. На вероятность того, что вечером будет морозно, очевидно влияет регион, о котором вы говорите. И эта вероятность выше на 44-й параллели, нежели на десятой. Шанс найти кого-то выше двух метров возрастает, если искать такого человека среди баскетболистов, а не в таверне, куда часто забегают жокеи. Таким образом, подгруппа людей или вещей, которую вы изучаете в данный момент, сильно влияет на вашу оценку вероятности.
Условные вероятности
Часто статистические данные вводят нас в заблуждение, потому что мы смотрим на показатели целой группы случайных людей, вместо того чтобы смотреть на подгруппу. Какова вероятность того, что у вас пневмония? Не очень высокая. Но если нам будет известно больше о вас и конкретно о вашем случае, вероятность может быть выше или ниже. Это называется «условные вероятности».
Рассмотрим два разных типа вопросов:
1. Какова вероятность того, что у случайно выбранного для опроса человека будет пневмония?
2. Какова вероятность того, что она будет у человека, не выбранного случайным образом для опроса, но проявляющего три симптома (температура, боль в мышцах, заложенность в груди)?
Второй вопрос предполагает условную вероятность. Она носит такое название, потому что мы рассматриваем не всю популяцию, а только тех людей, для которых выполняется определенное условие. Не прибегая к цифрам, мы можем угадать, что вероятность пневмонии выше во втором случае. Конечно, мы можем поставить вопрос таким образом, чтобы вероятность пневмонии была ниже у человека, которого выбрали не случайно:
Какова вероятность того, что мы найдем пневмонию у случайно выбранного человека, чьи анализы три раза подряд не подтвердили заболевание, у которого особенно крепкая иммунная система и который минуту назад финишировал первым в Нью-Йоркском марафоне?
Тот же принцип будет и в следующем случае: вероятность того, что вы заработаете рак легких, не может не быть связана с историей вашей семьи. Вероятность того, что официант принесет вам кетчуп, не может не быть связана с вашим заказом. Можно подсчитать вероятность того, что любой случайно выбранный человек в ближайшие десять лет заболеет раком легких или что официант принесет кетчуп клиентам за определенным столиком, приняв в расчет остальные заказы. Но нам повезло, и мы знаем о том, как эти события связаны с другими. Это позволяет нам сузить рассматриваемую совокупность и получить более точную оценку. Например, если у обоих ваших родителей был рак легких, вы, возможно, захотите подсчитать вероятность заболеть тем же; тогда просто посмотрите на других людей в избранной группе — тех, у чьих родителей был рак. Если у ваших родителей его не было, вы захотите посмотреть на релевантную группу людей, у которых в анамнезе нет таких историй (и у вас, вероятно, получатся совсем иные результаты). Если вы хотите узнать вероятность, принесет ли официант вам кетчуп, вы можете посмотреть на столики, за которыми люди заказали гамбургеры и картошку фри, а не на те, за которыми люди едят тартар из тунца или яблочный пирог.
Нежелание видеть взаимосвязь событий (когда принимают предположение о независимости) может привести к серьезным юридическим последствиям. Рассмотрим дело Салли Кларк, британки из Эссекса, которая была привлечена к ответственности за убийство своего младшего ребенка. Ее первый ребенок умер еще в младенчестве, и его смерть связывали с СВДС (синдромом внезапной детской смерти, или «смертью в колыбели»). Обвинители уверяли, что вероятность смерти от СВДС обоих детей в одной семье очень мала, поэтому, скорее всего, имело место убийство. Свидетель со стороны обвинения, врач-педиатр, привел в качестве доказательства результаты исследования, в котором говорилось, что детская смертность в результате СВДС возникала в одном случае из 8543. (Компетентность доктора Мидоу в области педиатрии не делает его специалистом по статистике или эпидемиологии — такого рода путаница часто приводит к неверным суждениям. Об этом мы поговорим в части 3 этой книги. Эксперт в одной области не обязательно специалист в другой, даже если кажется, что эти области смежные.)
Углубившись в вопрос, мы можем усомниться и в числе 8543 — количестве смертей от СВДС. Откуда оно взялось? Диагноз СВДС ставится методом исключения — это значит, что ни один тест, проведенный медицинским персоналом, не может подтвердить, что смерть наступила в результате этого синдрома. Скорее бывает так что, если врачи затрудняются с диагнозом и уже исключили все другие возможные варианты, они диагностируют СВДС. Невозможность найти причину заболевания не может считаться доказательством того, что ее нет, поэтому весьма вероятно, что какие-то случаи со смертельным исходом, приписываемые СВДС, на самом деле были вызваны другими, менее мистическими причинами, например отравлением, удушением, пороком сердца и т. д.
Справедливости ради давайте предположим, что СВДС — действительно причина одной из 8543 смертей в младенчестве, как свидетельствовал доктор Мидоу, бывший экспертом в этом вопросе. Позже врач-педиатр заявил, что вероятность того, что в одной семье могут произойти два одинаковых случая — гибель ребенка в результате СВДС, — была , или 1 из 73 миллионов. («Совпадение? Думаю, нет!» — мог воскликнуть обвинитель во время своей заключительной речи.) Глядя на эти подсчеты — использование правила умножения, — можно предположить, что случаи смертельного исхода независимы друг от друга, но это не обязательно так. Какие бы обстоятельства ни вызвали внезапную смерть первого ребенка миссис Кларк, нельзя забывать, что дети воспитывались в одной семье. Есть два сопутствующих фактора, связанных с СВДС: пассивное курение и сон на животе. Предположим также, что первый ребенок страдал от какого-нибудь врожденного порока. Это сильно повышает вероятность того, что нечто подобное проявится в геноме второго малыша (у детей, рожденных от одних и тех же родителей, 50 % ДНК одинаковы). Рассуждая подобным образом, можно предположить, что вероятность смерти второго ребенка по какой-нибудь подобной причине равна 50 %, — и вот миссис Кларк уже гораздо меньше похожа на убийцу.
В конце концов ее муж нашел в архивах больницы доказательства того, что причина смерти второго малыша носила микробиологический характер. Миссис Кларк была оправдана, но к тому моменту она уже провела в тюрьме три года, отбывая наказание за преступление, которого не совершала.
Для условных вероятностей есть специальное обозначение. Вероятность того, что официант принесет вам кетчуп, при условии, что вы только что заказали гамбургер, выглядит так:
P (кетчуп | гамбургер),
где вертикальная прямая | читается как «при условии».
Обратите внимание: благодаря подобной записи исчезает необходимость в большом количестве слов, и математическая формула получается короткой.
Вероятность того, что официант принесет вам кетчуп, при условии, что вы только что заказали гамбургер и просили принести кетчуп, записывается так:
P (кетчуп | гамбургер ∧ попросил)
где ∧ читается как и.
Визуализация условных вероятностей
Относительная заболеваемость пневмонией на территории Соединенных Штатов в год составляет около 2 % — 6 миллионов человек из 324 миллионов населения страны получают этот диагноз каждый год (безусловно, сюда не входят многочисленные случаи, когда диагноз поставить не удается, а также такие ситуации, когда человек в течение года болеет пневмонией не один раз, но мы пока не об этом). Получается, что вероятность того, что случайно выбранный для опроса человек болен пневмонией, равна приблизительно 2 %. Но мы получим более точную оценку, если будем знать хоть что-то об этом конкретном человеке. Если вы пойдете к доктору и скажете, что у вас температура, кашель и заложена грудь, то уже не будете отобраны для опроса случайно — ведь вы пришли к доктору за помощью и жалуетесь на эти симптомы. Вы можете постепенно уточнить свою уверенность в чем-либо (например, что у вас пневмония), получая все новые и новые свидетельства. Мы используем правило Байеса для вычисления условной вероятности: какова вероятность того, что у меня пневмония, при условии наличия у меня симптома x? И чем большим количеством информации вы будете обладать, тем вернее будут уточнения такого рода. Какова вероятность того, что у меня пневмония, при условии, что: 1) у меня все эти симптомы; 2) в семейном анамнезе это не первый случай; 3) я только что провел три дня рядом с человеком, больным пневмонией? Вероятность увеличивается и увеличивается.
Вы можете подсчитать вероятности, используя формулу Байеса (см. ), но гораздо проще и нагляднее это сделать с помощью таблички, состоящей из четырех частей и описывающей все возможные сценарии: вы заказали или не заказали гамбургер и вы получили или не получили кетчуп:
На основании экспериментов и наблюдений вы вписываете различные значения — частоту каждого события. Из 16 посетителей ресторана, обедавших в тот момент, был только один, который заказал гамбургер, и ему принесли кетчуп, а также было два случая, когда кетчуп не принесли. Эти данные идут в левый столбец:
Аналогичным образом поступаем в ситуации, когда пятеро не заказывали гамбургер, но получили кетчуп, а восемь человек, которые не заказывали гамбургер, не получили кетчуп. Эти данные записываем в правый столбец:
А дальше вы просто складываете числа в строках и столбцах:
Теперь подсчет вероятностей стал делом простым. Если вы хотите узнать вероятность того, получите ли вы кетчуп при условии, что заказывали гамбургер, тогда начинайте с условия. Ему соответствует левый столбец.
Трое посетителей заказали гамбургеры — это сумма, указанная в самом низу. Теперь попытаемся подсчитать вероятность того, что вы получите кетчуп при условии, что заказывали гамбургер. Теперь мы смотрим на клеточку «Да, получили кетчуп» в столбце «Да, заказали гамбургер», там стоит число 1. Условная вероятность P (кетчуп | гамбургер) тогда равна одной трети. И вы можете понимать это так: трое посетителей заказали гамбургер, один получил кетчуп, а двое нет. В данном виде подсчетов мы никак не задействуем правый столбец.
Мы можем использовать этот метод, когда нужно подсчитать любую условную вероятность, даже вероятность того, получите ли вы кетчуп при условии, что не заказывали гамбургер: 13 посетителей ресторана не заказывали гамбургер, пять из них при этом получили кетчуп — это значит, что вероятность равна 5/13, или около 38 %. В этом конкретном ресторане вероятность того, что вы получите кетчуп, даже не заказывая гамбургер, гораздо выше, чем если бы вы его заказывали. (А теперь давайте включим критическое мышление. Как такое могло случиться? Может, данные взяты в ситуации, когда посетители заказывали картофель фри? Или, может, все гамбургеры изначально подавались с кетчупом?)
Принятие решений в медицине
Этот способ визуализации условных вероятностей очень полезен для принятия решений в медицине. Если вы сдаете медицинский анализ и его результат указывает на заболевание, какова вероятность того, что у вас оно и правда есть? Это не 100 %, потому что сами способы проведения анализов неидеальны — они дают ложные положительные результаты (сообщают, что у вас выявлено заболевание, когда его нет) и ложные отрицательные (сообщают, что у вас нет заболевания, когда на самом деле оно есть).
Вероятность того, что у женщины есть рак молочной железы, равна 0,8 %. Если рак молочной железы есть, то вероятность того, что маммография его покажет, равна только 90 %, так как сам аппарат неидеален и, бывает, идентифицирует не все случаи заболевания. Если же у женщины нет рака молочной железы, вероятность положительного результата равна 7 %. А теперь предположим, что у женщины, выбранной для опроса случайно, тест показал положительный результат, — какова вероятность того, что у нее и правда рак молочной железы?
Для начала нарисуем нашу табличку, состоящую из четырех частей, и впишем все данные: женщина, у которой на самом деле есть рак молочной железы, и женщина, у которой его нет. И результаты анализа: что рак есть или что его нет. Чтобы нам было легче считать, давайте возьмем круглое число: предположим, речь идет о 10 тысячах женщин.
Это размер генеральной совокупности, поэтому записываем это число внизу справа, вне нашей таблицы.
В отличие от примера с гамбургером и кетчупом, сначала мы записываем данные на полях, потому что именно этой информацией располагаем. Вероятность того, что у женщины рак, равна 0,8 %, иными словами, он у 80 женщин из 10 тысяч. Записываем эти данные на полях справа вверху (мы еще не знаем, как заполнять ячейки таблицы, но скоро узнаем). А так как нам известно, что общая сумма равна 10 тысячам, получается такая сумма по второй строке:
10 000 — 80 = 9920.
Нам сказали, что вероятность положительного результата анализа, если рак все-таки есть, равна 90 %. А так как всего процентов 100, вероятность того, что анализы не покажут положительный результат при наличии рака, высчитывается так: 100 % — 90 % и, выходит, равна 10 %.
Что касается 80 женщин, у которых действительно есть рак молочной железы (запись на полях справа вверху), мы можем сказать, что теперь нам известно, что у 90 % из их общего числа результаты будут положительными (90 % от 80 равно 72), а у 10 % результат будет отрицательным (10 % от 80 равно 8). Это все, что нам нужно знать, чтобы заполнить клеточки таблицы в верхней строке.
Мы пока еще не готовы сделать все необходимые вычисления для ответа на вопрос «Какова вероятность того, что у пациентки рак молочной железы при условии, что анализ дал положительный результат?», потому что нам еще нужно узнать, у какого количества людей результаты анализов положительны. А недостающая часть этого пазла кроется в изначальном описании ситуации: у 7 % женщин, у которых нет рака молочной железы, анализы все равно покажут положительный результат. Число на полях возле нижней строки говорит о том, что у 9920 женщин рака нет; 7 % от этого числа составляет 694,4 (округлим до 694). А это значит, что в нижнюю правую ячейку таблицы нужно занести число 9920 — 694 = 9226.
И, наконец, подсчитываем суммы по столбцам.
Если вы относитесь к тем миллионам людей, которые полагают, что наличие положительного результата анализов означает, что они точно больны, то вы ошибаетесь. Условная вероятность того, что у человека рак молочной железы, при условии, что результаты анализов были положительны, подсчитывается так: делим показатель левой верхней ячейки на итог под левым столбцом, это 72/766. Хорошая новость в том, что даже с положительной маммографией вероятность того, что у вас на самом деле есть рак молочной железы, равна 9,4 %. Все объясняется тем, что заболевание достаточно редкое (оно встречается менее чем в одном случае из тысячи), а аппараты, с помощью которых проводят диагностирование, неидеальны.
Условные вероятности не работают в обратном направлении
Мы со школы привыкли к тому, что в математике существует определенная симметрия: если x = y, то y = x. 5 + 7 = 7 + 5. Но так бывает не всегда, как мы убедились ранее на примере дискуссии о значениях вероятности (если вероятность ложной тревоги равна 10 %, это не значит, что вероятность того, что беда все же произойдет, равна 90 %). Посмотрите на статистику:
В супермаркетах продают яблок в десять раз больше, чем на придорожных развалах.
Если немного подумать, то станет очевидно, что вы не обязательно найдете яблоко в супермаркете в тот день, когда вам его захотелось: в магазине может быть в десять раз больше посетителей, чем на придорожном развале, и он может не справляться с возросшим спросом на данный товар. Если вы заметите случайно проходящего по улице человека с яблоком и у вас нет никакой информации о том, где он его взял, то вероятность того, что яблоко было куплено в супермаркете, нежели на развале, выше.
Может возникнуть вопрос: какова вероятность того, что человек купил это яблоко именно в супермаркете, при условии, что у него вообще есть яблоко?
P (был в супермаркете | нашел яблоко, которое хочет купить).
Это не то же самое, как в случае, если бы вам страшно хотелось яблоко сорта медуница:
P (нашел яблоко, которое хочет купить | был в супермаркете).
Такого рода асимметрия неожиданно возникает в ситуациях, когда имеет место обман с помощью статистических данных. Если вы прочтете где-то, что гораздо больше автомобильных аварий происходит в 19:00, нежели в 7:00, то какой вывод вы сделаете? Тут даже сама формулировка утверждения весьма неоднозначна. То ли речь идет о вероятности того, что во время аварии было 19 часов, то ли о вероятности того, что в 19 часов произошла авария. Во втором случае вы смотрите на количество автомобилей на дороге в 19:00 и подсчитываете, сколько из них попадают в аварии.
Возможно, в 19:00 на дороге гораздо больше машин, чем в любое другое время суток, а также случается гораздо меньше аварий на тысячу автомобилей. Это приведет к большему количеству аварий в 19:00, чем в любое другое время суток, просто потому, что на дороге в это время находится больше транспортных средств. Сведения об уровне аварийности на дороге помогут вам определить самое безопасное время для поездки.
Есть и другой пример. Вы все, должно быть, слышали, что большинство несчастных случаев на дороге происходит на расстоянии примерно 5 километров от дома. Причина не в том, что это расстояние опасно само по себе, а в том, что в большинстве случаев люди отъезжают не очень далеко от дома, чаще всего ездят куда-то по делам в округе. Как правило, эти две интерпретации одного и того же утверждения не равносильны:
P (19:00 | авария) ≠ P (авария | 19:00).
Путаница в интерпретациях подобного рода имеет не только теоретическое значение: множество судебных дел стали результатом неправильного использования условных вероятностей, которое внесло путаницу в ранее установленные факты. Судебный эксперт может правильно подсчитать, что вероятность случайного совпадения крови с места преступления с кровью подсудимого составляет 1 %. И это совсем не то же самое, что сказать, что вероятность невиновности подсудимого равна 1 %. Видите? Интуиция снова нас подвела. Судебный эксперт говорит о вероятности совпадения группы крови при условии, что подсудимый невиновен.
P (совпадение крови | невиновность).
Говоря простым языком, о «вероятности того, что мы бы нашли совпадение, если бы подсудимый был на самом деле невиновен». Но это не та же самая цифра, которую вы хотите узнать, — какова вероятность того, что подсудимый невиновен при условии, что кровь совпала:
P (совпадение крови | невиновность) ≠ P (невиновность | совпадение крови).
Многие невиновные люди были в свое время отправлены в тюрьму по ошибке. Равно как и многие пациенты приняли неверное решение, касающееся медицинского обслуживания, исходя из ошибочного предположения:
P (положительный результат анализов | рак) = P (рак | положительный результат анализов).
И дело не только в пациентах — врачи постоянно допускают ошибки (одно исследование показало, что 90 % врачей одинаково интерпретировали две разные вероятности). И результаты, соответственно, могут быть просто пугающими.
Один хирург, например, уговорил 90 женщин на операцию по удалению груди, так как они оказались в группе повышенного риска. Он как-то заметил, что в 93 % случаев рак молочной железы возникал у женщин, находившихся в группе повышенного риска. При условии, что у женщины диагностирован рак молочной железы, вероятность того, что она будет в этой группе, равна 93 %: P (группа повышенного риска | рак молочной железы) = 0,93. Используя четырехчастную таблицу для тысячи типичных женщин и добавляя дополнительную информацию о том, что 57 % женщин попадают в эту группу высокого риска, а также учитывая, что вероятность того, что у женщины будет рак, равна 0,8 % (как говорилось ранее), можно подсчитать условную вероятность P (рак молочной железы | группа повышенного риска). Это тот вид статистики, с которым женщине хорошо бы ознакомиться, прежде чем ложиться под нож хирурга (все цифры округлены).
Вероятность того, что у женщины рак, при условии, что она находится в группе повышенного риска, равна не 93 %, как ошибочно полагал хирург, а только , или 1 %. Хирург переоценил риск возникновения рака примерно в 100 раз. А последствия оказались необратимыми.
Составление четырехчастных таблиц может показаться странным занятием. Но составляя их, вы обращаетесь к научному, критическому мышлению и классифицируете данные визуально, чтобы облегчить себе подсчеты. А результаты последних помогают вам выразить проблему в цифрах и принять более рациональное решение, основанное на фактах.
Такие таблицы очень эффективны, и мне удивительно, что нас всех не учат составлять их в школе.
Как говорить о статистике и графиках
Большинству из нас сложно подсчитать вероятности и статистические показатели в уме, равно как и распознать тонкие закономерности, глядя на сложные таблицы, полные цифр. Мы предпочитаем живые картинки, четкие изображения и истории. Однако, принимая решение, мы придаем подобным материалам слишком большое значение по сравнению со статистическими данными. А также часто недопонимаем или неверно интерпретируем графики.
Многие боятся цифр — а значит, принимают на веру те данные, которые получают от кого-то. Подобное поведение может привести к неверным выводам и решениям. У нас есть тенденция мыслить критически только в отношении тех вещей, с которыми мы не согласны. В нашу эпоху информации псевдофакты часто маскируются под факты, дезинформация прячется под личиной информации, а цифры лежат в основе любого важного утверждения или решения. Статистические искажения встречаются повсеместно. Как говорит социолог Джоэл Бест, обман в статистике возникает не просто потому, что все вокруг — пронырливые лгуны. За плохой статистикой стоят живые люди — часто искренние, не имеющие в виду ничего дурного, — просто порой они не думают критически о том, что говорят.
Тот же страх цифр, мешающий многим анализировать статистику, не дает порой возможности внимательно изучить цифры в графиках, названия осей и ту историю, которая за ними кроется. В мире полным-полно совпадений и могут происходить самые странные вещи — но тот факт, что с двумя вещами происходят изменения в одно и то же время, не означает, что одна из них вызвала другую или что они как-то взаимосвязаны скрытым третьим фактором х. Те, кто думает подобным образом и верит в такие ассоциации и совпадения, часто имеют в корне неверное представление о том, что такое вероятность, причина и результат, а также какую роль играет случай в том, как разворачиваются события. Вы можете, конечно, выдумать историю о том, что уменьшение количества пиратов за последние 300 лет и совпавшее с этим глобальное потепление непременно говорят о том, что пираты были просто необходимы для поддержания температурного баланса в мире. Но это результат недисциплинированного мышления и неверного истолкования фактов. Иногда бывает так, что распространители подобного рода ложных умозаключений знают больше вас и скрывают факты, надеясь, что вы ничего не заметите. Иногда они и сами попадают в ловушку собственных умозаключений. Но теперь-то вы знаете, что к чему.