1. Начало. Где коренятся представления о причинных зависимостях и методах их выявления. «Почему. Руководство по поиску причин и принятию решений»

В 1999 году британский солиситор Салли Кларк предстала перед судом по обвинению в убийстве двух своих детей. Первый сын умер внезапно в возрасте 11 недель в декабре 1996 года. Тогда это сочли смертью от естественных причин, но всего через год скончался и второй ребенок: ему было 8 недель. В обоих случаях дети казались в целом здоровыми, поэтому их внезапная гибель вызвала подозрения.

Обстоятельства были очень схожими: малыши умерли примерно в одинаковом возрасте, именно Салли Кларк обнаружила их бездыханными, дома с ними находилась она одна, и оба ребенка, согласно патологоанатомическому исследованию, имели травмы.

Изначально повреждения на теле первого мальчика объяснялись попытками проведения реанимации, но после гибели второго данные были пересмотрены, и ситуация показалась подозрительной. Через месяц после второй смерти обоих родителей арестовали, а позднее Салли Кларк обвинили в убийстве и вынесли приговор.

Какова вероятность того, что двое детей из одной семьи умерли от синдрома внезапной детской смерти (СВДС)? По мнению английских обвинителей, это событие настолько невероятно, что два подобных исхода могли быть только результатом убийства. Этот аргумент (одна из причин в такой степени невероятна, что могла иметь место только другая) и привел к событию, ставшему одним из знаменитых примеров несправедливого приговора. И это ярчайший образец того, к каким последствиям приводит неверное применение статистики и игнорирование причинных зависимостей.

Главная из причин, по которой этот случай получил широкую известность среди статистиков и исследователей вопросов каузальности, заключается в аргументе обвинения. Он был основан, по сути, на следующем: объяснение защиты слишком невероятно, чтобы быть правдой. В качестве эксперта сторона обвинения привлекла доктора Роя Мидоу, который заявил, что вероятность двух летальных исходов от СВДС (или, как говорят в Великобритании, «смертей в колыбели») в одной семье равна 1: 73 000 000. Далее обвинители утверждали: эта вероятность столь ничтожна, что гибель детей никак не может проистекать от естественных причин, а следовательно, должна быть только результатом убийства.

Такая статистика совершенно неверна. Но, даже если бы она оказалась справедливой, все равно ее нельзя использовать так, как это было сделано.

Мидоу базировал свой вывод на научном докладе, в котором шансы СВДС оценивались как 1: 8543, а потом заявил, что вероятность двух смертей равна 1: 8543 × 8543, то есть примерно 1: 73 000 000.

Но эти вычисления ложны, потому что заключение опиралось на предпосылку о независимости двух событий, ставших предметом судебного разбирательства.

Когда вы бросаете монетку, то шанс выпадения «орла» не влияет на то, как монетка упадет в следующий раз. Поскольку вероятность каждого исхода всегда равна одной второй, математически корректно перемножить оба числа, если мы желаем узнать вероятность выпадения двух «орлов» подряд.

Именно это и сделал Мидоу.

Причины СВДС точно неизвестны, однако среди факторов риска указываются и окружающие условия: к примеру, курят ли родители, употребляют ли алкоголь. Это означает, что, если в семье был один случай СВДС, другой может произойти с вероятностью намного большей, чем 1: 8543, поскольку у детей общая генетика и одинаковые условия жизни. То есть первая смерть дает сведения о вероятности второй.

Представленный случай, таким образом, можно сравнить с шансами киноактера на получение второго «Оскара». Ведь награды присуждаются не случайным образом: скорее, те же свойства (талант, известность, связи), что обеспечили кому-то первую из них, повышают вероятность получения второй.

В этом и коренилась проблема дела Кларк. Поскольку оба события не были независимыми и, напротив, для обоих могла иметься общая причина, неверно рассчитывать вероятность простым умножением. Вместо этого, анализируя шанс второй смерти, следовало принять во внимание факт первой, а значит, определить допустимость СВДС в семье, где уже произошла подобная трагедия. Показатель вероятности и то, как его использовали, были столь явно и в высшей степени ошибочны, что при рассмотрении первой апелляции защита вызвала в качестве свидетеля профессионального статистика, а Королевское статистическое общество прислало письмо с выражением своих сомнений.

Неверные расчеты, однако, оказались не единственной проблемой, связанной с причинностью. Обвинители попытались поставить знак равенства между вероятностью некоего события (а именно двух СВДС) в 1: 73 000 000 и возможностью того, что Салли Кларк невиновна. Подобного рода ошибочное рассуждение, когда шанс события приравнивается к вероятности вины или невиновности, известно как «заблуждение прокурора».

Но мы уже знаем, что невероятные события случаются. Возможность двух смертей от СВДС мала, однако шанс того, что два ребенка в одной семье умрут младенцами, также крайне невысок. Значит, нужно не просто решать, принять СВДС в качестве объяснения или нет, а провести сравнение с другим доступным толкованием.

Таким образом, нужно было сравнивать вероятности убийства двоих детей в одной семье (а именно такова была версия обвинения) и того, что оба ребенка одних родителей подвержены СВДС (а обстоятельства дела позволяют это предположить).

Вероятность смерти от СВДС двоих детей из одной семьи не равна шансу того, что эти конкретные малыши страдали таким заболеванием. В деле есть и другие факты, включая физические доказательства, наличие мотива преступления и так далее. Их следовало учитывать наравне с вероятностными данными (например, допустимость убийства при отсутствии мотива, возможности или орудия преступления наверняка была ниже общего показателя).

Наконец, любое маловероятное событие однажды произойдет, если будет совершено достаточно попыток. Некорректно низкая вероятность в деле Кларк (1: 73 000 000) все же более чем в 3 раза выше шанса выиграть в лотерею Mega Millions (1: 258 000 000). Допустимость, что вы станете победителем подобной лотереи, очень мала; а как насчет шанса, что кто-то все же выиграет? Он весьма высок. Это значит, что использование только вероятностного метода для определения вины и невиновности гарантированно приводит как минимум к ряду ошибочных приговоров. Суть в том, что для отдельного человека возможность стать участником подобных событий крайне низка, но, учитывая, что в мире живут миллионы семей с двумя детьми, где-то такое событие случается.

В итоге после повторной апелляции в январе 2003 года приговор Кларк был пересмотрен. К тому моменту она провела в тюрьме три года.

* * *

Почему дело Салли Кларк можно считать показательным примером ложного каузального мышления?

Расчет вероятностей чреват неточностями, но самые серьезные ошибки возникают, когда выводы основываются на одной лишь вероятности какого-либо события. Разве вы никогда не произносили чего-то вроде «Уж слишком много совпадений» или «Какова вероятность»? Подобные рассуждения порой обоснованны (в компанию приходит новый работник, и в тот же день со стола исчезает ваш любимый степлер; ясновидящая угадывает, что имя вашей родственницы начинается на «М»; два ключевых свидетеля вспоминают, что подозреваемый был одет в красную фланелевую рубашку). Однако некорректно говорить: некое событие слишком невероятно, чтобы случиться, а значит, единственное разумное объяснение – это причинно-следственная связь. Как мы уже видели, вероятность того, что какое-то событие произойдет с отдельным человеком, может быть низка, однако в принципе данное событие возможно.

Неверные каузальные объяснения, помимо несправедливых приговоров, могут повлечь и иные печальные последствия. Можно впустую потратить время и усилия на разработку лекарства, которое никогда не подействует, или на проведение неэффективной и дорогостоящей публичной политической кампании.

Моя книга – о том, как добиться в этом деле лучшего результата. Истинно научное каузальное мышление означает, что мы должны сомневаться в любых исходных предположениях, исследовать альтернативные объяснения и определять случаи, когда мы просто не можем знать, почему некое событие имело место. Иногда, для того чтобы судить, просто недостает информации (либо сведений нужного сорта), поэтому важнее всего выяснить, установить связь.

Я надеюсь, что отныне вы начнете относиться к услышанным каузальным утверждениям скептически (далее мы обсудим, какие вопросы можно задавать для оценки таких утверждений и какие «красные флажки» выискивать). Мы узнаем, как определять причины, формулировать убедительные доказательства зависимостей и использовать причины как руководство к действиям.

Что такое причина

Отвлекитесь на минутку и попытайтесь определить, что такое причина.

Если вы похожи на студентов моего курса по причинно-следственным связям, то, вероятно, уже придумали добрую половину формулировки до того, как уловили собственные возможные возражения. Скорее всего, в вашем определении встречаются оговорки вроде «чаще всего…», или «…но не в каждом случае», или «только если…». Однако в нем наверняка есть и некоторые определенные характеристики: например, причина вызывает следствие, делает следствие более вероятным, обладает способностью производить следствие, отвечает за наступление следствия. Это – общая идея о том, что было некое событие, которое что-то заставило случиться, чего в противном случае просто не произошло бы.

Хотя данное утверждение верно не для всех случаев, в моей книге термин «причина» в целом означает следующее: причина – это нечто, повышающее вероятность следствия, без чего следствие могло произойти, а могло и не произойти, и способное при должных обстоятельствах это следствие произвести.

Одно из самых ранних определений причины дал Аристотель: в его формулировке эта идея означала попытку ответить на вопрос «почему». Итак, если мы спрашиваем, почему случилось некое событие, кто-то должен объяснить, как это произошло (при нагревании воды выделяется пар), из чего состоит (водород и кислород, соединяясь, образуют воду), какую форму принимает (стул – это нечто для сидения, сделанное из природного материала и имеющее спинку) или для чего предназначено (задача вакцины – предотвратить болезнь).

И все же, отыскивая причины, мы чаще всего хотим знать, почему произошло одно событие, а не другое.

После Аристотеля наука о причинности прошла несколько промежуточных этапов (к примеру, об этом говорил в своих работах Фома Аквинский), следующий крупный шаг был сделан во время научной революции конца эпохи Ренессанса. Этому периоду принадлежат такие ключевые фигуры, как Галилей, Ньютон, Локк, и немало прочих, однако именно труды Дэвида Юма в XVIII столетии заложили фундаментальные основы современной научной мысли в области каузальности и методов отыскания причинных зависимостей. Нельзя утверждать, что Юм был прав во всем (или что все согласны с его утверждениями либо хотя бы едины во мнении относительно его постулатов), однако именно он возвел вопрос о причинности в критические рамки.

Рассуждая, как нечто становится причиной, Юм поделил вопрос на две части: «Что такое причина?» и «Как мы можем отыскать причины?» Что еще важнее, вместо поисков неких особых свойств, отличающих причины от не-причин, он свел взаимосвязи к закономерностям их наступления. Иными словами, мы изучаем причинно-следственные взаимосвязи путем регулярного наблюдения паттернов их осуществления и учиться причинности можем только на основе опыта регулярности их осуществления.

Укус москита – необходимый инициатор заболевания малярией, а вот всплеск активности продавцов мороженого весной не есть непременное условие для наступления теплых деньков. И все же с помощью одних только наблюдений мы не увидим разницы между регулярностью наступления события (погода/мороженое) и необходимым его условием (москит/малярия). Лишь при наличии контрпримера (например, наступлению теплой погоды не предшествует увеличение ларьков с мороженым) мы способны убедиться, что мороженщики не есть необходимое условие температурных изменений.

Здесь принимается за данность то, что причина имеет место до, а не после и не одновременно со следствием. Мы поговорим об этом подробнее в и приведем примеры одновременных событий, ведущих к одинаковому результату, из курса физики; однако важно отметить и другие случаи, когда причина не предшествует следствию явным образом.

Так, наше наблюдение временного графика событий может не совпадать с фактическим графиком или с причинной зависимостью. Когда ружье стреляет, сначала мы видим вспышку, а потом слышим громкий звук. Можно подумать, что вспышка вызывает звук, поскольку она всегда предшествует последнему, хотя, конечно же, оба этих события вызваны тем, что некто нажал на спусковой крючок. Только обратившись к общей причине двух событий, мы сумеем осознать закономерность.

В других случаях мы не в состоянии пронаблюдать события в момент, когда они на самом деле происходят, а потому они могут казаться одновременными, хотя в действительности одно предшествует другому. Также временные графики могут быть некорректны потому, что данные были получены не одновременно с самим событием, а после него, из воспоминания. Если я спрошу, когда у вас последний раз болела голова, время, которое вы назовете, может отличаться от реального (если только вы не делали заметок или само событие не произошло недавно и свежо в вашей памяти), и очень вероятно, что ваши данные с течением времени будут все менее надежны. И в определении, например, реальности побочных эффектов некоего лекарства одной из самых критичных информационных составляющих становится последовательность событий.

Наконец, одно из необходимых условий, постулированных Юмом, гласит: причина не только должна предшествовать следствию по времени; причина и следствие должны быть близки и граничить как во временном, так и в пространственном отношении.

Достаточно сложно изучать каузальные взаимосвязи, которые обнаруживаются с большой задержкой, или если причина пространственно удалена от следствия. Дело в том, что в отношения между двумя событиями могут вмешиваться иные множественные факторы, которые повлияют на исходный результат.

Представим, что приятельница берет у вас на время кофемашину, возвращает, а через два месяца вы обнаруживаете, что аппарат сломан. Теперь намного сложнее обвинить в этом подругу, чем если бы вы обнаружили ущерб непосредственно в момент возврата (действительно, психологические эксперименты демонстрируют в точности подобный феномен, когда участников просят вывести причинные взаимосвязи на основе наблюдений по прошествии разного времени после события). Аналогично, если человек стоит в нескольких метрах от книжной полки, когда с нее падает книга, вероятность того, что причиной падения стал именно он, а не тот, кто стоял к полке ближе, будет гораздо меньше. Но, когда кий ударяет по бильярдному шару, последний начинает путешествие по столу немедленно, поэтому здесь взаимосвязь обнаружить намного проще.

Проблема с требованием сопряженности причины и следствия в том, что некоторые каузальные взаимосвязи не удовлетворяют этому паттерну, ограничивая как диапазон случаев, к которым применима эта теория, так и нашу возможность делать верные заключения. Например, условие смежности в том смысле, которое придает ему Юм, не выполняется, когда результат возникает из-за отсутствия некоего фактора (недостаток витамина С вызывает цингу). Если допустить, что причиной события оказывается психологическое состояние (например, убеждение или намерение), мы получим еще один случай истинного каузального отношения при отсутствии физической связи между причиной и следствием. Ученик может делать домашнюю работу потому, что хочет получить высший балл. Таким образом, причиной выполнения задания будет желание заслужить хорошую оценку, но между стремлением и действиями ученика нет физической связи.

Некоторые процессы могут протекать очень долго (пример – задержка между пребыванием в нездоровых условиях и последующими проблемами с самочувствием). Даже если есть цепочка непосредственно связанных событий, мы не всегда можем наблюдать ее в реальности.

По мнению Юма, если вы неоднократно видите, как некто нажимает кнопку звонка, а затем слышите звук (устойчивая конъюнкция), то можете заключить, что звонок вызывает слышимый вами звук. Вы делаете подобный вывод, потому что видите, как палец человека вступает в контакт (пространственная конъюнкция) с кнопкой; этот контакт происходит до того, как слышится звук (первичность по времени); а звук появляется почти сразу же после этого контакта (временная конъюнкция). С другой стороны, если бы задержка была больше, события происходили бы в одно и то же время или звук не всегда следовал бы после нажатия кнопки звонка, то, по мнению Юма, вы не могли бы сделать такой вывод. Также мы не имели бы возможности признать, что нажатие кнопки – существенное условие для получения звука; мы утверждали бы только то, что регулярно наблюдаем эту событийную последовательность. Подробнее эту тему мы разовьем в , но базовая идея такова – провести различие 1) между необходимостью причины для наступления следствия и простым наблюдением того, что за причиной регулярно наступает конкретное следствие, и 2) между сутью взаимосвязи, лежащей в основе происходящего, и того, что мы видим на основе наблюдения.

Стоит заметить, далеко не все были согласны с Юмом. Кант, например, открыто декларировал несогласие с самой идеей сведения причинности к закономерностям, утверждая, что необходимость есть существенное свойство каузальной взаимосвязи, а поскольку необходимость невозможно вывести эмпирическим путем, нельзя делать и утверждения о причинах на основе наблюдений. По мнению Канта, для каузальной интерпретации наблюдений мы пользуемся априорными знаниями.

* * *

Большинство определений причинности основано на трудах Юма, но ни одно из них не способно охватить все случаи, причем для каждого можно представить контрпримеры, с которыми не связаны другие. Так, прием лекарства вызывает побочные эффекты только у малой части пациентов (а значит, нельзя утверждать, что причина всегда производит следствие); ремни безопасности, как правило, спасают от летального исхода, но в некоторых автокатастрофах как раз его провоцируют (а значит, нужно допустить наличие факторов, которые в зависимости от ситуации вызывают или предупреждают одно и то же следствие).

Часто вопрос сводится к тому, следует ли рассматривать причины как основные кирпичики или силы, созидающие этот мир (и которые нельзя будет свести к другим его законам), или же эта структура – то, что задаем мы сами. Как и с почти любым аспектом каузальности, по этому вопросу существуют разногласия (даже по поводу совместимости конкретных теорий с этим заявлением, именуемым «каузальным реализмом»). Некоторые считают настолько трудным поиск причин, что оставляют это дело как безнадежное. Следовательно, коль скоро мы живем по физическим законам, практическая польза от них в любом случае выше, чем от причинных зависимостей. Иными словами, «причины» – скорее условные обозначения таких вещей, как триггеры, кнопки, отражатели, предохранители и тому подобное, чем фундаментальные принципы.

Это удивительно, особенно если учесть, насколько важна в нашей жизни идея каузальности. Дело просто-напросто состоит в том, что нет как единой философской теории о том, что такое причины, так и единого полностью доказанного расчетного метода их выявления с абсолютной достоверностью. Кроме того (и это куда серьезней), мы можем идентифицировать различные факторы как причины одного и того же события, в зависимости от того, какое определение используем. При этом неясно, в чем же истина.

Скажем, на Боба напали грабители и хотят его убить. Но в разгар ограбления у Боба случается сердечный приступ, и он умирает. Кто-то возлагает вину на непосредственный фактор (сердечный приступ) и прослеживает его до генетической предрасположенности, которая с высокой вероятностью приводит к смерти от инфаркта, а кто-то обвиняет в этом грабителей, поскольку, если бы не они, сердечный приступ не приключился бы. Каждый подход обеспечивает различные объяснения, поэтому не сразу становится очевидно, предпочесть ли один из них или рассмотреть разные точки зрения на одну и ту же ситуацию. Сама идея попытки выделить единственную причину может быть недальновидной. Вероятно, сердечный приступ и ограбление совместно привели к смертельному исходу, поэтому их воздействие нельзя разделять.

К подобной оценке относительной ответственности и вины мы еще вернемся в и , когда приступим к выявлению поводов специфических событий (почему разразилась конкретная война) и выяснению эффективности той или иной политики (правда ли, что запрет на курение в барах привел к улучшению здоровья жителей Нью-Йорка).

Несмотря на проблемы с определением и выявлением причин, нельзя сказать, что это дело невозможное или безнадежное. Ответы не всегда бывают четкими и определенными, как того хотелось бы (увы, но вам не найти своеобразный «черный ящик», куда можно заложить данные и получить на выходе причины, причем абсолютно точные), и существенная доля нашей работы – просто выяснить, к какому подходу прибегнуть и когда.

Множественность взглядов привела к появлению нескольких более-менее состоятельных подходов, которые не похожи в действии и применимы в разных ситуациях. Если иметь в активе более одного из них и знать, как они дополняют друг друга, можно расширить набор методов оценки ситуации. Некоторые способы охватывают больше случаев, чем другие (или больше важных для вас ситуаций), однако стоит помнить: ни один из них не свободен от недостатков. В конечном счете, хотя поиск причин и труден, главная проблема заключается в безусловном нахождении причин с абсолютной достоверностью. Если допустить возможность ошибок и поставить цель точно сформулировать, что именно мы можем выяснить и когда, то можно расширить диапазон сценариев, реализуемых с помощью доступных методов, и суметь адекватно описать и подходы, и результаты.

В этой книге я постаралась отразить преимущества и ограничения, присущие различным подходам, но не составить методологические рекомендации, поскольку они не абсолютны. Одни подходы лучше работают с неполными данными, а другие предпочтительнее для ситуаций, в которых важнее временной график событий. Ответом, как правило, будет «это зависит от…» – увы, но с каузальностью дела почти всегда обстоят именно так.

Каузальное мышление занимает центральное место в науках, законности, медицине и других областях (в самом деле, трудно представить сферу, где бы можно было бы обойтись без причин). Но есть и обратная сторона: методы и язык, которые используются для описания причин, обретают излишне специализированный характер и узкоотраслевое звучание. Возможно, вы не считаете, что неврология и экономика имеют много общего или что информационные технологии затрагивают психологические вопросы; но это лишь некоторые из областей междисциплинарных трудов по причинности, и области эти всё ширятся. И все имеют единый исток – философию.

Как отыскать причины

Философы с давних пор ищут ответ на вопрос, что такое причина, хотя основные философские подходы к определению каузальности, как и вычислительные методы поиска причин на основе данных, которыми мы сегодня пользуемся, появились не ранее 70–80-х годов XX века. Неясно, будет ли когда-нибудь создана единая теория причинности, тем не менее важно постичь суть этого распространенного понятия, чтобы с большим пониманием размышлять о нем и применять в общении. Любой прогресс в этой области будет иметь важные последствия для развития информационных технологий и других наук. Если, к примеру, каузальные взаимосвязи не единообразны, вероятно, понадобятся разные методы, чтобы их выявить и описать, а также многочисленные эксперименты, чтобы проверить интуитивные взгляды на причинность.

Со времен Юма главный вызов заключался в следующем: как отличить каузальные и некаузальные паттерны осуществления событий? В 60–70-х годах XX века появились три основных метода, построенные на трудах Юма. Следствие редко проистекает от воздействия единственной причины, поэтому Джон Мэки разработал теорию, представляющую собой набор условий, которые совместно производят следствия. Эта теория позволяет лучше исключить некаузальные взаимосвязи, исходя из сложности причин. Точно так же многие каузальные взаимосвязи включают в себя элемент случайности, когда причины просто с большей вероятностью вызывают соответствующие следствия. Причем необязательно, что подобное будет происходить каждый раз (согласно вероятностным подходам Патрика Суппеса и др.). Юм также заложил основы контрфактуального подхода, задача которого – дать определение причины, исходя из того, насколько иными могли бы стать следствия, если бы причина не имела места. Например, благодаря кому-то была достигнута победа в игре, поскольку без усилий этого конкретного игрока победить не удалось бы ни за что.

Кажется, что у всех этих философских трудов нет ничего общего с вычислительными методами, но это не так. Для компьютерщиков этаким святым Граалем в сфере искусственного разума стала возможность автоматизировать человеческое мышление, а ключевым элементом оказалось нахождение причин и формулировка объяснений. Это используется и в робототехнике (роботам нужны модели мира, чтобы планировать действия и предсказывать их последствия), в рекламе (компания Amazon лучше формулирует рекомендации для целевой аудитории, если знает, что заставило вас кликнуть по клавише «купить прямо сейчас») и медицине (врачи отделения интенсивной терапии моментально узнают, почему состояние пациента внезапно изменилось). И все же для разработки алгоритмов (последовательности шагов по решению задачи) мы должны конкретизировать проблему. Чтобы создать программу для выявления причин, требуется их рабочее определение.

В 1980-х годах группа специалистов по информационным технологиям под руководством Джуды Перла доказала, что философские теории, определяющие каузальные взаимосвязи в терминах вероятностей, можно представить графически, обеспечив одновременно визуальное изображение причинных связей и способ кодирования математических зависимостей между переменными. Что еще важнее, эксперты предложили методы построения графических моделей на основе предварительного знания и методов их выведения из имеющихся данных. Эти работы породили множество новых вопросов. Можно ли определить взаимосвязь там, где запаздывание между причиной и следствием – величина переменная? Если сами взаимосвязи со временем изменяются, что мы можем узнать? Кроме того, компьютерщики разработали метод автоматизации поиска объяснений, а также методы тестирования объяснений для каждой модели.

В последние несколько десятилетий заметен существенный прогресс, но многие проблемы по-прежнему не решены – главным образом потому, что нашей жизнью все в большей степени правит информация. Однако вместо тщательно выверенных баз данных, собираемых исключительно в рамках научных исследований, мы имеем дело с громадным массивом неопределенных сведений, полученных в результате простых наблюдений.

Представим на первый взгляд несложную проблему: определить социальный статус людей по данным Facebook. Первая сложность заключается в том, что этой социальной сетью пользуется далеко не каждый, так что вы изучите лишь определенную группу, которая может не быть репрезентативной для населения в целом. Вторая: не все используют Facebook одинаково. Кто-то вообще не указывает статус отношений, кто-то лжет, а кто-то просто не обновляет профиль.

Итак, возникла масса проблем с формулированием выводов о причинных зависимостях. Самые важные заключаются в поиске причин на основе неточных данных или данных, в которых отсутствуют необходимые переменные и результаты наблюдений (если мы не фиксируем фактов курения, не начнем ли выискивать другие условия, вызывающие рак легких?), сложных взаимосвязей (что происходит, когда для наступления следствия требуется целая последовательность событий?), а также причин и следствий нерегулярных ситуаций (что вызвало резкий обвал фондового рынка в 2010 году?).

Что интересно, именно массивы данных, к примеру электронные медицинские карты, сводят на одном поле здравоохранения специалистов как по эпидемиологии, так и по информатике, которые разбираются в факторах, влияющих на здоровье населения. Доступность исторических данных о состоянии здоровья больших групп населения – их диагнозы, симптомы, лечение, экологические условия проживания и многое другое – становится громадным преимуществом для исследователей, старающихся понять факторы, которые влияют на состояние здоровья, а затем использовать это понимание для плановых действий в здравоохранении. Соответствующие вызовы лежат одновременно в области планов клинических исследований (с традиционным упором на эпидемиологические аспекты) и в возможности делать эффективные и достоверные заключения на основе крупных наборов данных (здесь главное место отводится компьютерной науке).

Эпидемиология, с точки зрения стоящих перед ней целей, имеет долгую историю разработки методов выявления причин – начиная с Джеймса Линда, который выборочно обследовал моряков, чтобы узнать причины цинги, и Джона Сноу, который обнаружил, что холера передается через зараженную воду, до Коха, который выявил связь между бактериями и туберкулезом, и Остина Хилла, связавшего рак легких с курением и сформулировавшего инструкции по оценке каузальных утверждений.

Медицинские исследования в наше время основываются на данных больше, чем когда-либо в истории. И больницы, и отдельные специалисты, оказывающие врачебные услуги, переводят данные о пациентах из бумажных в электронные форматы, при этом они должны следовать определенным критериям их применения (например, на основе данных принимаются врачебные решения). И все же большинство задач по соответствию этим критериям включает в себя анализ больших и сложных массивов информации, для которого нужны вычислительные методы.

Нейробиологи имеют доступ к обширным объемам информации о мозговой деятельности, содержащимся в записях ЭЭГ и МРТ, и для их анализа берутся на вооружение методы из области экономики и информационных технологий. Данные ЭЭГ – это, по сути, количественные, числовые записи мозговой активности, которые структурно не слишком отличаются от информации фондового рынка, сообщающей цены на акции и объемы торгов в динамике. Клайв Грэнджер сформулировал теорию причинности в терминах экономических временных рядов (и получил за это Нобелевскую премию), но сам метод не связан с экономикой и применялся также к другой биологической информации, например к биочипам для анализа экспрессии генов (на их основе измеряется динамика активности генов).

Основная проблема в сфере экономики – определить, поможет ли реализация той или иной программы достичь поставленной цели. Это очень похоже на проблемы общественного здравоохранения, например попытки определить, поспособствует ли ограничение продаж газированных напитков борьбе с ожирением. Эта задача – одна из самых сложных, так как во многих случаях сам факт реализации программы инициирует изменения в системе.

В мы увидим, как поспешное внедрение программы по сокращению размера учебных классов в штате Калифорния дало результаты, сильно отличавшиеся от тех, к которым привел первый эксперимент в Теннесси. Вмешательство может иметь положительный эффект при условии, что в остальном обстоятельства остаются прежними, а новая политика изменяет человеческое поведение. Если применение законов об использовании ремней безопасности снизило количество нарушений ПДД, а уровень смертности при этом поднялся, важно определить степень воздействия дорожного законодательства и решить, дать обратный ход жестким нормам или, напротив, ввести новые.

Наконец, для психологов выявление причин – как это работает, насколько по-разному действуют люди и животные, если осмысление дает сбой, – становится одним из ключей к пониманию поведения. Экономисты тоже стремятся понять, почему индивидуумы ведут себя так, а не иначе, в особенности когда дело доходит до принятия решений. Недавно психологи и экономисты совместно применили экспериментальные методы, чтобы изучить интуитивные воззрения на причинные взаимосвязи (в рамках научного направления, именуемого «экспериментальная философия», или X-Phi).

Одна из главных проблем – выявление взаимосвязи между каузальными и моральными суждениями. Если некто подтасовал сведения в заявке на грант и получил финансирование, а другие, честные и достойные ученые – нет, потому что объемы средств ограничены, можно ли сказать, что причина неполучения ими гранта – тот самый мошенник? Стоит задаться вопросом о его виновности и о том, изменились бы наши взгляды на ситуацию, если бы жульничал кто-то другой. Понимание, каким образом формируются каузальные суждения, важно не только для лучшего представления о способе мышления, но и из практических соображений – к примеру, для разрешения разногласий, улучшения отдачи от теоретического обучения и практической подготовки и обеспечения честных судебных разбирательств.

Как вы узнаете из этой книги, невозможно устранить все источники ошибок и смещений. Но реально эффективнее выявлять случаи, когда вмешательство этих факторов возможно, и учитывать последствия.

Зачем нужны причины

Причинам сложно дать определение, их нелегко отыскать – так в чем же заключается их смысл, почему мы в них нуждаемся?

Есть три основополагающие вещи, которые могут выполняться либо только по определенным причинам, либо лучше всего по определенным причинам: прогнозирование, объяснение и вмешательство.

Скажем, нужно предсказать, кто выиграет президентские выборы в США. Предлагаются всевозможные модели: к примеру, кандидат от республиканцев должен выиграть праймериз в Огайо; ни один президент США со времен Рузвельта не был переизбран, если на тот момент уровень безработицы превышал 7,2 %; в США на президентских выборах побеждали только кандидаты-мужчины (по крайней мере на момент написания этой книги).

Но модели – всего лишь модели. Можно обнаружить неограниченное количество общих свойств у группы лиц, когда-либо побеждавших на выборах, но это не объяснит, почему победил тот или иной кандидат. Видимо, избирателям важен именно уровень безработицы; а может, этот факт просто дает косвенную информацию о состоянии дел в стране и экономике, и мы должны сделать вывод, что при высоком уровне безработицы люди стремятся к переменам? Хуже того, если выявленные зависимости оказываются простыми совпадениями, они в любой момент могут дать сбой. Кроме того, выводы базируются на ограниченном массиве данных; в США было только 44 президента, и менее половины из них переизбирались на новый срок.

Перед нами та самая проблема «черного ящика», в который мы закладываем некие данные и получаем на выходе прогнозы без всяких убедительных объяснений или доводов. Если неизвестно, почему эти прогнозы работают (например, почему победа в конкретном штате приводит к триумфу на национальных выборах), то нельзя и предвидеть, когда они не сработают. С другой стороны, мы знаем, что, скажем, Огайо «решает» исход выборов просто в силу того, что его демографический паттерн обладает высокой репрезентативностью в масштабах всей страны и не привязан к политической партии. Значит, можно предположить, что при серьезных изменениях в составе населения штата из-за мигрантов исчезнет причина, по которой этот фактор берется за основу прогнозов. Реально также провести национальный опрос и получить более прямой и точный показатель измерения, если ситуация в этом регионе – всего лишь косвенный индикатор общенациональных тенденций.

Получается, причины дают более строгие методы предсказания событий, чем корреляции.

Возьмем другой пример. Скажем, определенная комбинация генов повышает как толерантность к физическим нагрузкам, так и иммунный ответ. Таким образом, можно утверждать, что повышенная толерантность к нагрузкам – хороший индикатор, характеризующий иммунный ответ конкретного лица.

Однако степень толерантности к нагрузкам дает очень приблизительную оценку, поскольку может проистекать из множества причин, помимо мутации генов (например, из-за хронической сердечной недостаточности). Таким образом, использование только показателя толерантности к нагрузкам в качестве диагностического индикатора способствует ошибкам и, следовательно, недооценке или переоценке факторов риска. Что еще более важно, зная, что генетическая вариативность может быть причиной и того и другого, мы можем измерить риски двумя способами и обойтись без избыточных уточнений.

Отметим, однако, что этот случай не подходит к ситуации, когда генетические тесты характеризуются высокой степенью погрешности. Здесь данные о физических нагрузках действительно становятся подкрепляющими доказательствами. В конце концов, послать пациента в лабораторию физиологии спорта гораздо затратнее, чем провести тест на какую-то аллель. И все же мы не можем противопоставлять конкретность измерения его стоимости (если бы физиологические тесты были намного дешевле генетических, мы всегда склонялись бы начинать именно с них, даже понимая их косвенный характер), пока не узнаем подоплеку причинных взаимосвязей этих факторов. Итак, даже если наша единственная цель – прогнозирование (к примеру, кто выиграет выборы или каков риск заболеть конкретной болезнью), понимая надежность тех или иных факторов в качестве прогнозного индикатора, мы улучшим как точность, так и стоимость/эффективность принятия решений.

А теперь, скажем, мы хотим узнать, почему между некими событиями существует взаимосвязь. Какова зависимость между падением остроты зрения и снижением веса? Одно только знание, что то и другое часто наблюдается одновременно, не дает полной картины. Разобраться в сути мы сможем, только выяснив, что у этих симптомов есть общая причина – диабет. Необходимость выяснять истоки в подобного рода объяснениях может показаться очевидной, однако, не избегая выяснения, мы при этом редко глубоко копаем.

Возможно, вы прочли научный доклад о том, что потребление красного мяса повышает смертность. Не зная, однако, почему это так, вы не извлечете из этих сведений практическую пользу. Возможно, любители мяса больше пьют спиртного или избегают физических упражнений. Аналогично, даже если рост смертности не коррелирует с другими факторами риска, но как-то связан с потреблением этого продукта, может существовать множество способов снизить опасность. Все зависит от того, с чем именно связано увеличение летальности – с количеством несчастных случаев на барбекю или с потреблением мяса как таковым (например, можно готовить его другими способами или стать вегетарианцем). На самом деле мы должны не просто осознать взаимосвязь между красным мясом и смертью, а обнаружить причину, действительно вызывающую летальный исход.

Я хочу, чтобы вы внимательно прочитали предыдущую фразу, потому что средства массовой информации пестрят различными утверждениями касательно диет и здоровья (яйца вызывают или предотвращают разные недомогания; кофе повышает или понижает риск смерти и т. п.). В некоторых материалах можно найти доказательства помимо корреляции по отдельным группам населения, но все они заслуживают определенной доли скептицизма и критического подхода, особенно когда возникает желание использовать их как основу для своих действий (этой теме посвящена ).

В других случаях наша цель – объяснить отдельные события. Почему вы опоздали на работу? Почему кто-то заболел? Почему одна страна оккупировала другую? В подобных ситуациях важно знать, кто или что в ответе за событие.

Знание о том, что пробки на дорогах – залог опозданий, что с возрастом развиваются недомогания, а в основе многих войн лежат идеологические разногласия, ничего не скажет о конкретных событиях. Вы могли опоздать, потому что сломалась ваша машина; Джейн заболела, потому что съела что-то несвежее; воюющие стороны сражались за территории или за ресурсы.

Докопаться до коренных причин событий важно, во-первых, чтобы построить планы на будущее (Джейн больше не будет ходить в ресторан, где ей подали несвежую пищу, при этом необязательно вообще исключать из рациона конкретные продукты) и, во-вторых, чтобы оценить ответственность (кого Джейн должна винить за свое недомогание). Это поможет и должным образом отреагировать на событие. Ряд заболеваний и лекарств, прописанных для лечения, вызывают одинаковые симптомы. Скажем, хроническая почечная недостаточность способна перейти в острую фазу, но выписанное лекарство от этой болезни также (в редких случаях) ведет к подобному исходу. Если врач видит, что пациент с таким диагнозом принимает это лекарство, он обязан удостовериться, действительно ли причиной его болезни стало лекарство, и назначить соответствующий курс лечения. Знание о том, что почечная недостаточность в принципе может быть результатом приема лекарства, не поможет врачу сделать вывод относительно конкретного пациента, однако именно эта информация необходима, чтобы отменить препарат.

Самая важная потенциальная область приложения каузального знания – вмешательство.

Мы не просто хотим знать, почему случаются те или иные вещи, – есть потребность воспользоваться этой информацией, чтобы предотвратить или вызвать определенные результаты. Вероятно, вам нужно понять, как изменить диетические привычки, чтобы улучшить здоровье. Может, стоит принимать витамины? Стать вегетарианцем? Снизить потребление углеводов? Если такие меры в принципе не способны привести к желаемому эффекту, получится хотя бы избежать больших затрат времени и денег. Кроме того, нужно учитывать степень воздействия. Наверное, вы слышали, что некая диета дает стопроцентную гарантию похудения. Но, прежде чем принимать какие-то решения, неплохо узнать, кто и сколько килограммов уже потерял с ее помощью, наблюдались ли отличия в ее действии на разных людей и каковы результаты в сравнении с другими диетами (например, к потере веса привела простая информированность о пищевых предпочтениях). Мы желаем одновременно оценить, действительно ли выполненные действия дали эффект (на самом ли деле публикации об энергетической ценности продуктов питания улучшили здоровье населения Нью-Йорка), и предсказать последствия будущих действий (что произойдет, если снизить количество соли в фастфуде).

Власти должны определять, как их политика повлияет на население, а также разрабатывать программы реализации желательных изменений. Скажем, ученые обнаруживают, что рацион, богатый солью, ведет к ожирению. В результате законодатели решают принять закон, направленный на снижение количества соли в ресторанном меню и готовых продуктах. Эта политика окажется полностью неэффективной, если единственным доводом в пользу связи соли и ожирения будет факт, что высококалорийный фастфуд и есть истинная причина ожирения, а в нем всегда много соли. Люди по-прежнему будут употреблять фастфуд, поэтому целевые усилия для начала должны быть направлены именно на этот момент. Мы должны быть уверены, что меняем причины, которые реально повлияют на результат. Если же нацелить их на нечто, так или иначе связанное со следствием (к примеру, запретить спички, чтобы снизить риск рака легких из-за курения), воздействия окажутся неэффективными.

Далее мы увидим, что дело еще больше усложняется, если вмешательства имеют побочные эффекты. Итак, требуется узнать не только причины конкретного результата, но и его следствия. Например, увеличение физической активности ведет к потере веса, но «компенсационный эффект» может вынудить людей потреблять больше калорий, чем они сожгли (в результате вес набирается). Вместо того чтобы отыскивать изолированные связи между отдельными переменными, следует понять более масштабную картину взаимосвязей.

Что дальше

Почему люди склонны видеть связь там, где ее нет и в помине? Как суд оценивает причины преступлений? Как построить программу экспериментов, чтобы выяснить, какое лекарство прописать пациенту? Чем дальше, тем больше миром правят данные и алгоритмы, поэтому умение мыслить в категориях причинности больше нельзя рассматривать как необязательную опцию. Нам нужен этот навык, чтобы извлекать из массивов данных полезную информацию и уверенно прокладывать курс в океане повседневных решений. Даже если вам не приходится по долгу службы заниматься исследовательской работой или информационным анализом, возможные пути использования причинных зависимостей влияют на то, какими сведениями о себе вы делитесь и с кем именно.

Чтобы достоверно выявлять и применять причины, нужно разбираться в психологии каузальности (то есть как мы воспринимаем причины и как о них мыслим), знать, как оценивать доказательства (полученные путем наблюдений или экспериментов) и как применять это знание, чтобы принимать решения. В частности, как сведения, которые мы собираем, – и то, как мы ими манипулируем, – влияют на сделанные нами заключения. В этой книге мы исследуем виды возможных аргументов за и против каузальности (играя роль и обвинения, и защиты), научимся выходить за рамки косвенных улик, задействуя найденные признаки причинных зависимостей, и достоверным образом отыскивать и понимать эти признаки.

Название книги

Почему. Руководство по поиску причин и принятию решений

Клейнберг Саманта

1. Начало. Где коренятся представления о причинных зависимостях и методах их выявления