Почему. Руководство по поиску причин и принятию решений

Клейнберг Саманта

Автор книги доступно рассказывает, что такое причинно-следственная связь, объясняет, почему мы часто ошибаемся в ее определении, на основе каких данных можно делать правильные выводы и принимать эффективные решения. Прочитав книгу, вы научитесь анализировать информацию и выявлять причинно-следственные связи, объяснять прошлое и предсказывать будущее.

Книга будет интересна аналитикам, философам, исследователям, медикам, экономистам, юристам, начинающим ученым, всем, кто имеет дело с массивами данных и хочет научиться критическому мышлению.

На русском языке публикуется впервые.

 

Информация от издательства

Научный редактор Валерий Артюхин

Издано с разрешения O’Reilly Media, Inc.

Все права защищены.

Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.

2017, Mann, Ivanov and Ferber

Authorized Russian translation of the English edition of Why, ISBN 9781491949641

© 2015 Samantha Kleinberg, published by O’Reilly Media, Inc. This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same.

© Перевод на русский язык, издание на русском языке, оформление. ООО «Манн, Иванов и Фербер», 2017

 

Предисловие

Может ли кофе продлить жизнь? От кого вы заразились гриппом? По каким причинам растут цены на акции? Каждый раз, когда вы выбираете подходящую диету, вините кого-то за испорченные выходные или принимаете инвестиционные решения, важно понимать, почему происходят те или иные вещи. Именно знание причинно-следственных связей помогает предсказывать будущее, объяснять прошлое и вмешиваться в ход событий. Зная, что контакт с человеком, больным гриппом, через определенный промежуток времени приводит к заболеванию, вы сможете просчитать, когда почувствуете симптомы болезни. Понимая, что настойчивые и целенаправленные просьбы приведут к увеличению пожертвований на проведение политической кампании, вы заострите на этом внимание как на вероятной причине улучшений в области фандрайзинга. Осознав, что интенсивные физические упражнения вызывают гипогликемию, диабетики, занимающиеся спортом, начинают следить за концентрацией глюкозы в крови.

Но, несмотря на особую важность обозначенного навыка, вряд ли вам доводилось посещать тренинги на тему «Как выявлять причины событий». Скорее всего, вы даже ни разу не задумывались, что породило то или иное явление. Если говорить обобщенно, причины повышают вероятность определенных событий; они делают возможными соответствующие следствия. И все же то, что некое лекарство может вызвать сердечный приступ, не означает, что именно оно виновато в кардиозаболевании определенного человека, а то, что в одной школе сокращение числа учащихся в классе обеспечило лучшие показатели на экзаменах, не означает, что аналогичное вмешательство сработает в других образовательных заведениях.

Цель этой книги не просто рассказать о том, какие воздействия можно применить, когда все идет по плану, но и показать, почему порой так сложно добиться успешных следствий (или кажущихся таковыми).

Мы рассмотрим некоторые практические аспекты, часто игнорирующиеся в теоретических дискуссиях. Существует множество точек зрения о причинности (одни дополняют друг друга, а другие соперничают), и сама она затрагивает разнообразные отрасли знания: среди прочего, философию, информатику, психологию, экономику и медицину. Не вставая в дебатах ни на одну из сторон, хочу лишь дать читателям представление об обширном диапазоне мнений и максимально ясно показать, где консенсус можно считать достигнутым, а где до него далеко. Мы исследуем также психологию каузальности (как люди научаются знанию причин), рассмотрим эксперименты по установлению причинно-следственных связей (и пределов возможного) и узнаем, как положить знание каузальной зависимости в основу разработки плана действий (к примеру, нужно ли сокращать количество соли в еде, чтобы избежать повышенного давления).

Прежде всего, установим, что такое причины и почему мы часто ошибаемся в их определении (, , ), а потом посмотрим, почему вопрос «когда» так же важен, как и «почему», если речь идет о восприятии и использовании причин (), и выясним, как учиться видеть причины, руководствуясь только наблюдением ().

Наличие обширных баз данных дало возможность не просто проверить наши гипотезы, но и выявить причины. Важно, однако, отдавать себе отчет, что далеко не все сведения пригодны для формулирования выводов о каузальных зависимостях. В мы увидим, как свойства данных влияют на возможные логические умозаключения, а в  узнаем, как преодолеть некоторые препятствия с помощью эксперимента, понимая под ним как сложные клинические испытания, так и простой выбор между планами спортивных занятий на бытовом уровне.

Различие между тем, что происходит «как правило», и тем, что бывает «в отдельном случае», и есть та проблема, для решения которой необходимы специализированные стратегии объяснения событий (это тема ). Но использование причин для эффективного вмешательства (например, указание в меню сведений о калорийности блюд для профилактики ожирения) требует расширенного пула данных, а многие воздействия могут вызвать незапланированные последствия (как мы увидим в ). Эта книга поможет вам осознать, почему поиски причинных зависимостей так трудны (а также имеют гораздо больше нюансов и намного более сложны, чем заставляют думать новостные СМИ) и почему, несмотря на всю сложность, эта задача настолько важна и имеет широкое прикладное значение.

Да, трудностей не миновать; но вы также увидите, что надежда на их преодоление остается. Вы получите набор инструментов: вопросы, которые следует задавать; «красные флажки», которые должны вызвать ваше подозрение; способы повышения достоверности каузальных утверждений. Вы научитесь не только определять причины, но и использовать их на практике.

Для чтения этой книги не нужны специальные знания, она для всех. От вас требуется лишь интерес к вопросам причинности. Моя цель – обеспечить всем желающим самый широкий доступ на пересеченную местность под названием «причинные зависимости».

В финале книги мы сосредоточимся на интуитивном подходе: как прийти к пониманию причинно-следственных связей, не прибегая к математическому аппарату (на самом деле математики не будет совсем). Если вы обладатель докторской степени по информационным технологиям или статистике, сможете найти для себя кое-какие новые инструменты и взглянуть на проблему под углом зрения сопряженных наук, а заодно пополните научный багаж методологическими инструментами. Но все же наш путь будет проходить под знаменем, на котором начертано: «Знания о причинности – для всех!»

 

1. Начало. Где коренятся представления о причинных зависимостях и методах их выявления

 

В 1999 году британский солиситор Салли Кларк предстала перед судом по обвинению в убийстве двух своих детей. Первый сын умер внезапно в возрасте 11 недель в декабре 1996 года. Тогда это сочли смертью от естественных причин, но всего через год скончался и второй ребенок: ему было 8 недель. В обоих случаях дети казались в целом здоровыми, поэтому их внезапная гибель вызвала подозрения.

Обстоятельства были очень схожими: малыши умерли примерно в одинаковом возрасте, именно Салли Кларк обнаружила их бездыханными, дома с ними находилась она одна, и оба ребенка, согласно патологоанатомическому исследованию, имели травмы.

Изначально повреждения на теле первого мальчика объяснялись попытками проведения реанимации, но после гибели второго данные были пересмотрены, и ситуация показалась подозрительной. Через месяц после второй смерти обоих родителей арестовали, а позднее Салли Кларк обвинили в убийстве и вынесли приговор.

Какова вероятность того, что двое детей из одной семьи умерли от синдрома внезапной детской смерти (СВДС)? По мнению английских обвинителей, это событие настолько невероятно, что два подобных исхода могли быть только результатом убийства. Этот аргумент (одна из причин в такой степени невероятна, что могла иметь место только другая) и привел к событию, ставшему одним из знаменитых примеров несправедливого приговора. И это ярчайший образец того, к каким последствиям приводит неверное применение статистики и игнорирование причинных зависимостей.

Главная из причин, по которой этот случай получил широкую известность среди статистиков и исследователей вопросов каузальности, заключается в аргументе обвинения. Он был основан, по сути, на следующем: объяснение защиты слишком невероятно, чтобы быть правдой. В качестве эксперта сторона обвинения привлекла доктора Роя Мидоу, который заявил, что вероятность двух летальных исходов от СВДС (или, как говорят в Великобритании, «смертей в колыбели») в одной семье равна 1: 73 000 000. Далее обвинители утверждали: эта вероятность столь ничтожна, что гибель детей никак не может проистекать от естественных причин, а следовательно, должна быть только результатом убийства.

Такая статистика совершенно неверна. Но, даже если бы она оказалась справедливой, все равно ее нельзя использовать так, как это было сделано.

Мидоу базировал свой вывод на научном докладе, в котором шансы СВДС оценивались как 1: 8543, а потом заявил, что вероятность двух смертей равна 1: 8543 × 8543, то есть примерно 1: 73 000 000.

Но эти вычисления ложны, потому что заключение опиралось на предпосылку о независимости двух событий, ставших предметом судебного разбирательства.

Когда вы бросаете монетку, то шанс выпадения «орла» не влияет на то, как монетка упадет в следующий раз. Поскольку вероятность каждого исхода всегда равна одной второй, математически корректно перемножить оба числа, если мы желаем узнать вероятность выпадения двух «орлов» подряд.

Именно это и сделал Мидоу.

Причины СВДС точно неизвестны, однако среди факторов риска указываются и окружающие условия: к примеру, курят ли родители, употребляют ли алкоголь. Это означает, что, если в семье был один случай СВДС, другой может произойти с вероятностью намного большей, чем 1: 8543, поскольку у детей общая генетика и одинаковые условия жизни. То есть первая смерть дает сведения о вероятности второй.

Представленный случай, таким образом, можно сравнить с шансами киноактера на получение второго «Оскара». Ведь награды присуждаются не случайным образом: скорее, те же свойства (талант, известность, связи), что обеспечили кому-то первую из них, повышают вероятность получения второй.

В этом и коренилась проблема дела Кларк. Поскольку оба события не были независимыми и, напротив, для обоих могла иметься общая причина, неверно рассчитывать вероятность простым умножением. Вместо этого, анализируя шанс второй смерти, следовало принять во внимание факт первой, а значит, определить допустимость СВДС в семье, где уже произошла подобная трагедия. Показатель вероятности и то, как его использовали, были столь явно и в высшей степени ошибочны, что при рассмотрении первой апелляции защита вызвала в качестве свидетеля профессионального статистика, а Королевское статистическое общество прислало письмо с выражением своих сомнений.

Неверные расчеты, однако, оказались не единственной проблемой, связанной с причинностью. Обвинители попытались поставить знак равенства между вероятностью некоего события (а именно двух СВДС) в 1: 73 000 000 и возможностью того, что Салли Кларк невиновна. Подобного рода ошибочное рассуждение, когда шанс события приравнивается к вероятности вины или невиновности, известно как «заблуждение прокурора».

Но мы уже знаем, что невероятные события случаются. Возможность двух смертей от СВДС мала, однако шанс того, что два ребенка в одной семье умрут младенцами, также крайне невысок. Значит, нужно не просто решать, принять СВДС в качестве объяснения или нет, а провести сравнение с другим доступным толкованием.

Таким образом, нужно было сравнивать вероятности убийства двоих детей в одной семье (а именно такова была версия обвинения) и того, что оба ребенка одних родителей подвержены СВДС (а обстоятельства дела позволяют это предположить).

Вероятность смерти от СВДС двоих детей из одной семьи не равна шансу того, что эти конкретные малыши страдали таким заболеванием. В деле есть и другие факты, включая физические доказательства, наличие мотива преступления и так далее. Их следовало учитывать наравне с вероятностными данными (например, допустимость убийства при отсутствии мотива, возможности или орудия преступления наверняка была ниже общего показателя).

Наконец, любое маловероятное событие однажды произойдет, если будет совершено достаточно попыток. Некорректно низкая вероятность в деле Кларк (1: 73 000 000) все же более чем в 3 раза выше шанса выиграть в лотерею Mega Millions (1: 258 000 000). Допустимость, что вы станете победителем подобной лотереи, очень мала; а как насчет шанса, что кто-то все же выиграет? Он весьма высок. Это значит, что использование только вероятностного метода для определения вины и невиновности гарантированно приводит как минимум к ряду ошибочных приговоров. Суть в том, что для отдельного человека возможность стать участником подобных событий крайне низка, но, учитывая, что в мире живут миллионы семей с двумя детьми, где-то такое событие случается.

В итоге после повторной апелляции в январе 2003 года приговор Кларк был пересмотрен. К тому моменту она провела в тюрьме три года.

* * *

Почему дело Салли Кларк можно считать показательным примером ложного каузального мышления?

Расчет вероятностей чреват неточностями, но самые серьезные ошибки возникают, когда выводы основываются на одной лишь вероятности какого-либо события. Разве вы никогда не произносили чего-то вроде «Уж слишком много совпадений» или «Какова вероятность»? Подобные рассуждения порой обоснованны (в компанию приходит новый работник, и в тот же день со стола исчезает ваш любимый степлер; ясновидящая угадывает, что имя вашей родственницы начинается на «М»; два ключевых свидетеля вспоминают, что подозреваемый был одет в красную фланелевую рубашку). Однако некорректно говорить: некое событие слишком невероятно, чтобы случиться, а значит, единственное разумное объяснение – это причинно-следственная связь. Как мы уже видели, вероятность того, что какое-то событие произойдет с отдельным человеком, может быть низка, однако в принципе данное событие возможно.

Неверные каузальные объяснения, помимо несправедливых приговоров, могут повлечь и иные печальные последствия. Можно впустую потратить время и усилия на разработку лекарства, которое никогда не подействует, или на проведение неэффективной и дорогостоящей публичной политической кампании.

Моя книга – о том, как добиться в этом деле лучшего результата. Истинно научное каузальное мышление означает, что мы должны сомневаться в любых исходных предположениях, исследовать альтернативные объяснения и определять случаи, когда мы просто не можем знать, почему некое событие имело место. Иногда, для того чтобы судить, просто недостает информации (либо сведений нужного сорта), поэтому важнее всего выяснить, установить связь.

Я надеюсь, что отныне вы начнете относиться к услышанным каузальным утверждениям скептически (далее мы обсудим, какие вопросы можно задавать для оценки таких утверждений и какие «красные флажки» выискивать). Мы узнаем, как определять причины, формулировать убедительные доказательства зависимостей и использовать причины как руководство к действиям.

 

Что такое причина

Отвлекитесь на минутку и попытайтесь определить, что такое причина.

Если вы похожи на студентов моего курса по причинно-следственным связям, то, вероятно, уже придумали добрую половину формулировки до того, как уловили собственные возможные возражения. Скорее всего, в вашем определении встречаются оговорки вроде «чаще всего…», или «…но не в каждом случае», или «только если…». Однако в нем наверняка есть и некоторые определенные характеристики: например, причина вызывает следствие, делает следствие более вероятным, обладает способностью производить следствие, отвечает за наступление следствия. Это – общая идея о том, что было некое событие, которое что-то заставило случиться, чего в противном случае просто не произошло бы.

Хотя данное утверждение верно не для всех случаев, в моей книге термин «причина» в целом означает следующее: причина – это нечто, повышающее вероятность следствия, без чего следствие могло произойти, а могло и не произойти, и способное при должных обстоятельствах это следствие произвести.

Одно из самых ранних определений причины дал Аристотель: в его формулировке эта идея означала попытку ответить на вопрос «почему». Итак, если мы спрашиваем, почему случилось некое событие, кто-то должен объяснить, как это произошло (при нагревании воды выделяется пар), из чего состоит (водород и кислород, соединяясь, образуют воду), какую форму принимает (стул – это нечто для сидения, сделанное из природного материала и имеющее спинку) или для чего предназначено (задача вакцины – предотвратить болезнь).

И все же, отыскивая причины, мы чаще всего хотим знать, почему произошло одно событие, а не другое.

После Аристотеля наука о причинности прошла несколько промежуточных этапов (к примеру, об этом говорил в своих работах Фома Аквинский), следующий крупный шаг был сделан во время научной революции конца эпохи Ренессанса. Этому периоду принадлежат такие ключевые фигуры, как Галилей, Ньютон, Локк, и немало прочих, однако именно труды Дэвида Юма в XVIII столетии заложили фундаментальные основы современной научной мысли в области каузальности и методов отыскания причинных зависимостей. Нельзя утверждать, что Юм был прав во всем (или что все согласны с его утверждениями либо хотя бы едины во мнении относительно его постулатов), однако именно он возвел вопрос о причинности в критические рамки.

Рассуждая, как нечто становится причиной, Юм поделил вопрос на две части: «Что такое причина?» и «Как мы можем отыскать причины?» Что еще важнее, вместо поисков неких особых свойств, отличающих причины от не-причин, он свел взаимосвязи к закономерностям их наступления. Иными словами, мы изучаем причинно-следственные взаимосвязи путем регулярного наблюдения паттернов их осуществления и учиться причинности можем только на основе опыта регулярности их осуществления.

Укус москита – необходимый инициатор заболевания малярией, а вот всплеск активности продавцов мороженого весной не есть непременное условие для наступления теплых деньков. И все же с помощью одних только наблюдений мы не увидим разницы между регулярностью наступления события (погода/мороженое) и необходимым его условием (москит/малярия). Лишь при наличии контрпримера (например, наступлению теплой погоды не предшествует увеличение ларьков с мороженым) мы способны убедиться, что мороженщики не есть необходимое условие температурных изменений.

Здесь принимается за данность то, что причина имеет место до, а не после и не одновременно со следствием. Мы поговорим об этом подробнее в и приведем примеры одновременных событий, ведущих к одинаковому результату, из курса физики; однако важно отметить и другие случаи, когда причина не предшествует следствию явным образом.

Так, наше наблюдение временного графика событий может не совпадать с фактическим графиком или с причинной зависимостью. Когда ружье стреляет, сначала мы видим вспышку, а потом слышим громкий звук. Можно подумать, что вспышка вызывает звук, поскольку она всегда предшествует последнему, хотя, конечно же, оба этих события вызваны тем, что некто нажал на спусковой крючок. Только обратившись к общей причине двух событий, мы сумеем осознать закономерность.

В других случаях мы не в состоянии пронаблюдать события в момент, когда они на самом деле происходят, а потому они могут казаться одновременными, хотя в действительности одно предшествует другому. Также временные графики могут быть некорректны потому, что данные были получены не одновременно с самим событием, а после него, из воспоминания. Если я спрошу, когда у вас последний раз болела голова, время, которое вы назовете, может отличаться от реального (если только вы не делали заметок или само событие не произошло недавно и свежо в вашей памяти), и очень вероятно, что ваши данные с течением времени будут все менее надежны. И в определении, например, реальности побочных эффектов некоего лекарства одной из самых критичных информационных составляющих становится последовательность событий.

Наконец, одно из необходимых условий, постулированных Юмом, гласит: причина не только должна предшествовать следствию по времени; причина и следствие должны быть близки и граничить как во временном, так и в пространственном отношении.

Достаточно сложно изучать каузальные взаимосвязи, которые обнаруживаются с большой задержкой, или если причина пространственно удалена от следствия. Дело в том, что в отношения между двумя событиями могут вмешиваться иные множественные факторы, которые повлияют на исходный результат.

Представим, что приятельница берет у вас на время кофемашину, возвращает, а через два месяца вы обнаруживаете, что аппарат сломан. Теперь намного сложнее обвинить в этом подругу, чем если бы вы обнаружили ущерб непосредственно в момент возврата (действительно, психологические эксперименты демонстрируют в точности подобный феномен, когда участников просят вывести причинные взаимосвязи на основе наблюдений по прошествии разного времени после события). Аналогично, если человек стоит в нескольких метрах от книжной полки, когда с нее падает книга, вероятность того, что причиной падения стал именно он, а не тот, кто стоял к полке ближе, будет гораздо меньше. Но, когда кий ударяет по бильярдному шару, последний начинает путешествие по столу немедленно, поэтому здесь взаимосвязь обнаружить намного проще.

Проблема с требованием сопряженности причины и следствия в том, что некоторые каузальные взаимосвязи не удовлетворяют этому паттерну, ограничивая как диапазон случаев, к которым применима эта теория, так и нашу возможность делать верные заключения. Например, условие смежности в том смысле, которое придает ему Юм, не выполняется, когда результат возникает из-за отсутствия некоего фактора (недостаток витамина С вызывает цингу). Если допустить, что причиной события оказывается психологическое состояние (например, убеждение или намерение), мы получим еще один случай истинного каузального отношения при отсутствии физической связи между причиной и следствием. Ученик может делать домашнюю работу потому, что хочет получить высший балл. Таким образом, причиной выполнения задания будет желание заслужить хорошую оценку, но между стремлением и действиями ученика нет физической связи.

Некоторые процессы могут протекать очень долго (пример – задержка между пребыванием в нездоровых условиях и последующими проблемами с самочувствием). Даже если есть цепочка непосредственно связанных событий, мы не всегда можем наблюдать ее в реальности.

По мнению Юма, если вы неоднократно видите, как некто нажимает кнопку звонка, а затем слышите звук (устойчивая конъюнкция), то можете заключить, что звонок вызывает слышимый вами звук. Вы делаете подобный вывод, потому что видите, как палец человека вступает в контакт (пространственная конъюнкция) с кнопкой; этот контакт происходит до того, как слышится звук (первичность по времени); а звук появляется почти сразу же после этого контакта (временная конъюнкция). С другой стороны, если бы задержка была больше, события происходили бы в одно и то же время или звук не всегда следовал бы после нажатия кнопки звонка, то, по мнению Юма, вы не могли бы сделать такой вывод. Также мы не имели бы возможности признать, что нажатие кнопки – существенное условие для получения звука; мы утверждали бы только то, что регулярно наблюдаем эту событийную последовательность. Подробнее эту тему мы разовьем в , но базовая идея такова – провести различие 1) между необходимостью причины для наступления следствия и простым наблюдением того, что за причиной регулярно наступает конкретное следствие, и 2) между сутью взаимосвязи, лежащей в основе происходящего, и того, что мы видим на основе наблюдения.

Стоит заметить, далеко не все были согласны с Юмом. Кант, например, открыто декларировал несогласие с самой идеей сведения причинности к закономерностям, утверждая, что необходимость есть существенное свойство каузальной взаимосвязи, а поскольку необходимость невозможно вывести эмпирическим путем, нельзя делать и утверждения о причинах на основе наблюдений. По мнению Канта, для каузальной интерпретации наблюдений мы пользуемся априорными знаниями.

* * *

Большинство определений причинности основано на трудах Юма, но ни одно из них не способно охватить все случаи, причем для каждого можно представить контрпримеры, с которыми не связаны другие. Так, прием лекарства вызывает побочные эффекты только у малой части пациентов (а значит, нельзя утверждать, что причина всегда производит следствие); ремни безопасности, как правило, спасают от летального исхода, но в некоторых автокатастрофах как раз его провоцируют (а значит, нужно допустить наличие факторов, которые в зависимости от ситуации вызывают или предупреждают одно и то же следствие).

Часто вопрос сводится к тому, следует ли рассматривать причины как основные кирпичики или силы, созидающие этот мир (и которые нельзя будет свести к другим его законам), или же эта структура – то, что задаем мы сами. Как и с почти любым аспектом каузальности, по этому вопросу существуют разногласия (даже по поводу совместимости конкретных теорий с этим заявлением, именуемым «каузальным реализмом»). Некоторые считают настолько трудным поиск причин, что оставляют это дело как безнадежное. Следовательно, коль скоро мы живем по физическим законам, практическая польза от них в любом случае выше, чем от причинных зависимостей. Иными словами, «причины» – скорее условные обозначения таких вещей, как триггеры, кнопки, отражатели, предохранители и тому подобное, чем фундаментальные принципы.

Это удивительно, особенно если учесть, насколько важна в нашей жизни идея каузальности. Дело просто-напросто состоит в том, что нет как единой философской теории о том, что такое причины, так и единого полностью доказанного расчетного метода их выявления с абсолютной достоверностью. Кроме того (и это куда серьезней), мы можем идентифицировать различные факторы как причины одного и того же события, в зависимости от того, какое определение используем. При этом неясно, в чем же истина.

Скажем, на Боба напали грабители и хотят его убить. Но в разгар ограбления у Боба случается сердечный приступ, и он умирает. Кто-то возлагает вину на непосредственный фактор (сердечный приступ) и прослеживает его до генетической предрасположенности, которая с высокой вероятностью приводит к смерти от инфаркта, а кто-то обвиняет в этом грабителей, поскольку, если бы не они, сердечный приступ не приключился бы. Каждый подход обеспечивает различные объяснения, поэтому не сразу становится очевидно, предпочесть ли один из них или рассмотреть разные точки зрения на одну и ту же ситуацию. Сама идея попытки выделить единственную причину может быть недальновидной. Вероятно, сердечный приступ и ограбление совместно привели к смертельному исходу, поэтому их воздействие нельзя разделять.

К подобной оценке относительной ответственности и вины мы еще вернемся в и , когда приступим к выявлению поводов специфических событий (почему разразилась конкретная война) и выяснению эффективности той или иной политики (правда ли, что запрет на курение в барах привел к улучшению здоровья жителей Нью-Йорка).

Несмотря на проблемы с определением и выявлением причин, нельзя сказать, что это дело невозможное или безнадежное. Ответы не всегда бывают четкими и определенными, как того хотелось бы (увы, но вам не найти своеобразный «черный ящик», куда можно заложить данные и получить на выходе причины, причем абсолютно точные), и существенная доля нашей работы – просто выяснить, к какому подходу прибегнуть и когда.

Множественность взглядов привела к появлению нескольких более-менее состоятельных подходов, которые не похожи в действии и применимы в разных ситуациях. Если иметь в активе более одного из них и знать, как они дополняют друг друга, можно расширить набор методов оценки ситуации. Некоторые способы охватывают больше случаев, чем другие (или больше важных для вас ситуаций), однако стоит помнить: ни один из них не свободен от недостатков. В конечном счете, хотя поиск причин и труден, главная проблема заключается в безусловном нахождении причин с абсолютной достоверностью. Если допустить возможность ошибок и поставить цель точно сформулировать, что именно мы можем выяснить и когда, то можно расширить диапазон сценариев, реализуемых с помощью доступных методов, и суметь адекватно описать и подходы, и результаты.

В этой книге я постаралась отразить преимущества и ограничения, присущие различным подходам, но не составить методологические рекомендации, поскольку они не абсолютны. Одни подходы лучше работают с неполными данными, а другие предпочтительнее для ситуаций, в которых важнее временной график событий. Ответом, как правило, будет «это зависит от…» – увы, но с каузальностью дела почти всегда обстоят именно так.

Каузальное мышление занимает центральное место в науках, законности, медицине и других областях (в самом деле, трудно представить сферу, где бы можно было бы обойтись без причин). Но есть и обратная сторона: методы и язык, которые используются для описания причин, обретают излишне специализированный характер и узкоотраслевое звучание. Возможно, вы не считаете, что неврология и экономика имеют много общего или что информационные технологии затрагивают психологические вопросы; но это лишь некоторые из областей междисциплинарных трудов по причинности, и области эти всё ширятся. И все имеют единый исток – философию.

 

Как отыскать причины

Философы с давних пор ищут ответ на вопрос, что такое причина, хотя основные философские подходы к определению каузальности, как и вычислительные методы поиска причин на основе данных, которыми мы сегодня пользуемся, появились не ранее 70–80-х годов XX века. Неясно, будет ли когда-нибудь создана единая теория причинности, тем не менее важно постичь суть этого распространенного понятия, чтобы с большим пониманием размышлять о нем и применять в общении. Любой прогресс в этой области будет иметь важные последствия для развития информационных технологий и других наук. Если, к примеру, каузальные взаимосвязи не единообразны, вероятно, понадобятся разные методы, чтобы их выявить и описать, а также многочисленные эксперименты, чтобы проверить интуитивные взгляды на причинность.

Со времен Юма главный вызов заключался в следующем: как отличить каузальные и некаузальные паттерны осуществления событий? В 60–70-х годах XX века появились три основных метода, построенные на трудах Юма. Следствие редко проистекает от воздействия единственной причины, поэтому Джон Мэки разработал теорию, представляющую собой набор условий, которые совместно производят следствия. Эта теория позволяет лучше исключить некаузальные взаимосвязи, исходя из сложности причин. Точно так же многие каузальные взаимосвязи включают в себя элемент случайности, когда причины просто с большей вероятностью вызывают соответствующие следствия. Причем необязательно, что подобное будет происходить каждый раз (согласно вероятностным подходам Патрика Суппеса и др.). Юм также заложил основы контрфактуального подхода, задача которого – дать определение причины, исходя из того, насколько иными могли бы стать следствия, если бы причина не имела места. Например, благодаря кому-то была достигнута победа в игре, поскольку без усилий этого конкретного игрока победить не удалось бы ни за что.

Кажется, что у всех этих философских трудов нет ничего общего с вычислительными методами, но это не так. Для компьютерщиков этаким святым Граалем в сфере искусственного разума стала возможность автоматизировать человеческое мышление, а ключевым элементом оказалось нахождение причин и формулировка объяснений. Это используется и в робототехнике (роботам нужны модели мира, чтобы планировать действия и предсказывать их последствия), в рекламе (компания Amazon лучше формулирует рекомендации для целевой аудитории, если знает, что заставило вас кликнуть по клавише «купить прямо сейчас») и медицине (врачи отделения интенсивной терапии моментально узнают, почему состояние пациента внезапно изменилось). И все же для разработки алгоритмов (последовательности шагов по решению задачи) мы должны конкретизировать проблему. Чтобы создать программу для выявления причин, требуется их рабочее определение.

В 1980-х годах группа специалистов по информационным технологиям под руководством Джуды Перла доказала, что философские теории, определяющие каузальные взаимосвязи в терминах вероятностей, можно представить графически, обеспечив одновременно визуальное изображение причинных связей и способ кодирования математических зависимостей между переменными. Что еще важнее, эксперты предложили методы построения графических моделей на основе предварительного знания и методов их выведения из имеющихся данных. Эти работы породили множество новых вопросов. Можно ли определить взаимосвязь там, где запаздывание между причиной и следствием – величина переменная? Если сами взаимосвязи со временем изменяются, что мы можем узнать? Кроме того, компьютерщики разработали метод автоматизации поиска объяснений, а также методы тестирования объяснений для каждой модели.

В последние несколько десятилетий заметен существенный прогресс, но многие проблемы по-прежнему не решены – главным образом потому, что нашей жизнью все в большей степени правит информация. Однако вместо тщательно выверенных баз данных, собираемых исключительно в рамках научных исследований, мы имеем дело с громадным массивом неопределенных сведений, полученных в результате простых наблюдений.

Представим на первый взгляд несложную проблему: определить социальный статус людей по данным Facebook. Первая сложность заключается в том, что этой социальной сетью пользуется далеко не каждый, так что вы изучите лишь определенную группу, которая может не быть репрезентативной для населения в целом. Вторая: не все используют Facebook одинаково. Кто-то вообще не указывает статус отношений, кто-то лжет, а кто-то просто не обновляет профиль.

Итак, возникла масса проблем с формулированием выводов о причинных зависимостях. Самые важные заключаются в поиске причин на основе неточных данных или данных, в которых отсутствуют необходимые переменные и результаты наблюдений (если мы не фиксируем фактов курения, не начнем ли выискивать другие условия, вызывающие рак легких?), сложных взаимосвязей (что происходит, когда для наступления следствия требуется целая последовательность событий?), а также причин и следствий нерегулярных ситуаций (что вызвало резкий обвал фондового рынка в 2010 году?).

Что интересно, именно массивы данных, к примеру электронные медицинские карты, сводят на одном поле здравоохранения специалистов как по эпидемиологии, так и по информатике, которые разбираются в факторах, влияющих на здоровье населения. Доступность исторических данных о состоянии здоровья больших групп населения – их диагнозы, симптомы, лечение, экологические условия проживания и многое другое – становится громадным преимуществом для исследователей, старающихся понять факторы, которые влияют на состояние здоровья, а затем использовать это понимание для плановых действий в здравоохранении. Соответствующие вызовы лежат одновременно в области планов клинических исследований (с традиционным упором на эпидемиологические аспекты) и в возможности делать эффективные и достоверные заключения на основе крупных наборов данных (здесь главное место отводится компьютерной науке).

Эпидемиология, с точки зрения стоящих перед ней целей, имеет долгую историю разработки методов выявления причин – начиная с Джеймса Линда, который выборочно обследовал моряков, чтобы узнать причины цинги, и Джона Сноу, который обнаружил, что холера передается через зараженную воду, до Коха, который выявил связь между бактериями и туберкулезом, и Остина Хилла, связавшего рак легких с курением и сформулировавшего инструкции по оценке каузальных утверждений.

Медицинские исследования в наше время основываются на данных больше, чем когда-либо в истории. И больницы, и отдельные специалисты, оказывающие врачебные услуги, переводят данные о пациентах из бумажных в электронные форматы, при этом они должны следовать определенным критериям их применения (например, на основе данных принимаются врачебные решения). И все же большинство задач по соответствию этим критериям включает в себя анализ больших и сложных массивов информации, для которого нужны вычислительные методы.

Нейробиологи имеют доступ к обширным объемам информации о мозговой деятельности, содержащимся в записях ЭЭГ и МРТ, и для их анализа берутся на вооружение методы из области экономики и информационных технологий. Данные ЭЭГ – это, по сути, количественные, числовые записи мозговой активности, которые структурно не слишком отличаются от информации фондового рынка, сообщающей цены на акции и объемы торгов в динамике. Клайв Грэнджер сформулировал теорию причинности в терминах экономических временных рядов (и получил за это Нобелевскую премию), но сам метод не связан с экономикой и применялся также к другой биологической информации, например к биочипам для анализа экспрессии генов (на их основе измеряется динамика активности генов).

Основная проблема в сфере экономики – определить, поможет ли реализация той или иной программы достичь поставленной цели. Это очень похоже на проблемы общественного здравоохранения, например попытки определить, поспособствует ли ограничение продаж газированных напитков борьбе с ожирением. Эта задача – одна из самых сложных, так как во многих случаях сам факт реализации программы инициирует изменения в системе.

В мы увидим, как поспешное внедрение программы по сокращению размера учебных классов в штате Калифорния дало результаты, сильно отличавшиеся от тех, к которым привел первый эксперимент в Теннесси. Вмешательство может иметь положительный эффект при условии, что в остальном обстоятельства остаются прежними, а новая политика изменяет человеческое поведение. Если применение законов об использовании ремней безопасности снизило количество нарушений ПДД, а уровень смертности при этом поднялся, важно определить степень воздействия дорожного законодательства и решить, дать обратный ход жестким нормам или, напротив, ввести новые.

Наконец, для психологов выявление причин – как это работает, насколько по-разному действуют люди и животные, если осмысление дает сбой, – становится одним из ключей к пониманию поведения. Экономисты тоже стремятся понять, почему индивидуумы ведут себя так, а не иначе, в особенности когда дело доходит до принятия решений. Недавно психологи и экономисты совместно применили экспериментальные методы, чтобы изучить интуитивные воззрения на причинные взаимосвязи (в рамках научного направления, именуемого «экспериментальная философия», или X-Phi).

Одна из главных проблем – выявление взаимосвязи между каузальными и моральными суждениями. Если некто подтасовал сведения в заявке на грант и получил финансирование, а другие, честные и достойные ученые – нет, потому что объемы средств ограничены, можно ли сказать, что причина неполучения ими гранта – тот самый мошенник? Стоит задаться вопросом о его виновности и о том, изменились бы наши взгляды на ситуацию, если бы жульничал кто-то другой. Понимание, каким образом формируются каузальные суждения, важно не только для лучшего представления о способе мышления, но и из практических соображений – к примеру, для разрешения разногласий, улучшения отдачи от теоретического обучения и практической подготовки и обеспечения честных судебных разбирательств.

Как вы узнаете из этой книги, невозможно устранить все источники ошибок и смещений. Но реально эффективнее выявлять случаи, когда вмешательство этих факторов возможно, и учитывать последствия.

 

Зачем нужны причины

Причинам сложно дать определение, их нелегко отыскать – так в чем же заключается их смысл, почему мы в них нуждаемся?

Есть три основополагающие вещи, которые могут выполняться либо только по определенным причинам, либо лучше всего по определенным причинам: прогнозирование, объяснение и вмешательство.

Скажем, нужно предсказать, кто выиграет президентские выборы в США. Предлагаются всевозможные модели: к примеру, кандидат от республиканцев должен выиграть праймериз в Огайо; ни один президент США со времен Рузвельта не был переизбран, если на тот момент уровень безработицы превышал 7,2 %; в США на президентских выборах побеждали только кандидаты-мужчины (по крайней мере на момент написания этой книги).

Но модели – всего лишь модели. Можно обнаружить неограниченное количество общих свойств у группы лиц, когда-либо побеждавших на выборах, но это не объяснит, почему победил тот или иной кандидат. Видимо, избирателям важен именно уровень безработицы; а может, этот факт просто дает косвенную информацию о состоянии дел в стране и экономике, и мы должны сделать вывод, что при высоком уровне безработицы люди стремятся к переменам? Хуже того, если выявленные зависимости оказываются простыми совпадениями, они в любой момент могут дать сбой. Кроме того, выводы базируются на ограниченном массиве данных; в США было только 44 президента, и менее половины из них переизбирались на новый срок.

Перед нами та самая проблема «черного ящика», в который мы закладываем некие данные и получаем на выходе прогнозы без всяких убедительных объяснений или доводов. Если неизвестно, почему эти прогнозы работают (например, почему победа в конкретном штате приводит к триумфу на национальных выборах), то нельзя и предвидеть, когда они не сработают. С другой стороны, мы знаем, что, скажем, Огайо «решает» исход выборов просто в силу того, что его демографический паттерн обладает высокой репрезентативностью в масштабах всей страны и не привязан к политической партии. Значит, можно предположить, что при серьезных изменениях в составе населения штата из-за мигрантов исчезнет причина, по которой этот фактор берется за основу прогнозов. Реально также провести национальный опрос и получить более прямой и точный показатель измерения, если ситуация в этом регионе – всего лишь косвенный индикатор общенациональных тенденций.

Получается, причины дают более строгие методы предсказания событий, чем корреляции.

Возьмем другой пример. Скажем, определенная комбинация генов повышает как толерантность к физическим нагрузкам, так и иммунный ответ. Таким образом, можно утверждать, что повышенная толерантность к нагрузкам – хороший индикатор, характеризующий иммунный ответ конкретного лица.

Однако степень толерантности к нагрузкам дает очень приблизительную оценку, поскольку может проистекать из множества причин, помимо мутации генов (например, из-за хронической сердечной недостаточности). Таким образом, использование только показателя толерантности к нагрузкам в качестве диагностического индикатора способствует ошибкам и, следовательно, недооценке или переоценке факторов риска. Что еще более важно, зная, что генетическая вариативность может быть причиной и того и другого, мы можем измерить риски двумя способами и обойтись без избыточных уточнений.

Отметим, однако, что этот случай не подходит к ситуации, когда генетические тесты характеризуются высокой степенью погрешности. Здесь данные о физических нагрузках действительно становятся подкрепляющими доказательствами. В конце концов, послать пациента в лабораторию физиологии спорта гораздо затратнее, чем провести тест на какую-то аллель. И все же мы не можем противопоставлять конкретность измерения его стоимости (если бы физиологические тесты были намного дешевле генетических, мы всегда склонялись бы начинать именно с них, даже понимая их косвенный характер), пока не узнаем подоплеку причинных взаимосвязей этих факторов. Итак, даже если наша единственная цель – прогнозирование (к примеру, кто выиграет выборы или каков риск заболеть конкретной болезнью), понимая надежность тех или иных факторов в качестве прогнозного индикатора, мы улучшим как точность, так и стоимость/эффективность принятия решений.

А теперь, скажем, мы хотим узнать, почему между некими событиями существует взаимосвязь. Какова зависимость между падением остроты зрения и снижением веса? Одно только знание, что то и другое часто наблюдается одновременно, не дает полной картины. Разобраться в сути мы сможем, только выяснив, что у этих симптомов есть общая причина – диабет. Необходимость выяснять истоки в подобного рода объяснениях может показаться очевидной, однако, не избегая выяснения, мы при этом редко глубоко копаем.

Возможно, вы прочли научный доклад о том, что потребление красного мяса повышает смертность. Не зная, однако, почему это так, вы не извлечете из этих сведений практическую пользу. Возможно, любители мяса больше пьют спиртного или избегают физических упражнений. Аналогично, даже если рост смертности не коррелирует с другими факторами риска, но как-то связан с потреблением этого продукта, может существовать множество способов снизить опасность. Все зависит от того, с чем именно связано увеличение летальности – с количеством несчастных случаев на барбекю или с потреблением мяса как таковым (например, можно готовить его другими способами или стать вегетарианцем). На самом деле мы должны не просто осознать взаимосвязь между красным мясом и смертью, а обнаружить причину, действительно вызывающую летальный исход.

Я хочу, чтобы вы внимательно прочитали предыдущую фразу, потому что средства массовой информации пестрят различными утверждениями касательно диет и здоровья (яйца вызывают или предотвращают разные недомогания; кофе повышает или понижает риск смерти и т. п.). В некоторых материалах можно найти доказательства помимо корреляции по отдельным группам населения, но все они заслуживают определенной доли скептицизма и критического подхода, особенно когда возникает желание использовать их как основу для своих действий (этой теме посвящена ).

В других случаях наша цель – объяснить отдельные события. Почему вы опоздали на работу? Почему кто-то заболел? Почему одна страна оккупировала другую? В подобных ситуациях важно знать, кто или что в ответе за событие.

Знание о том, что пробки на дорогах – залог опозданий, что с возрастом развиваются недомогания, а в основе многих войн лежат идеологические разногласия, ничего не скажет о конкретных событиях. Вы могли опоздать, потому что сломалась ваша машина; Джейн заболела, потому что съела что-то несвежее; воюющие стороны сражались за территории или за ресурсы.

Докопаться до коренных причин событий важно, во-первых, чтобы построить планы на будущее (Джейн больше не будет ходить в ресторан, где ей подали несвежую пищу, при этом необязательно вообще исключать из рациона конкретные продукты) и, во-вторых, чтобы оценить ответственность (кого Джейн должна винить за свое недомогание). Это поможет и должным образом отреагировать на событие. Ряд заболеваний и лекарств, прописанных для лечения, вызывают одинаковые симптомы. Скажем, хроническая почечная недостаточность способна перейти в острую фазу, но выписанное лекарство от этой болезни также (в редких случаях) ведет к подобному исходу. Если врач видит, что пациент с таким диагнозом принимает это лекарство, он обязан удостовериться, действительно ли причиной его болезни стало лекарство, и назначить соответствующий курс лечения. Знание о том, что почечная недостаточность в принципе может быть результатом приема лекарства, не поможет врачу сделать вывод относительно конкретного пациента, однако именно эта информация необходима, чтобы отменить препарат.

Самая важная потенциальная область приложения каузального знания – вмешательство.

Мы не просто хотим знать, почему случаются те или иные вещи, – есть потребность воспользоваться этой информацией, чтобы предотвратить или вызвать определенные результаты. Вероятно, вам нужно понять, как изменить диетические привычки, чтобы улучшить здоровье. Может, стоит принимать витамины? Стать вегетарианцем? Снизить потребление углеводов? Если такие меры в принципе не способны привести к желаемому эффекту, получится хотя бы избежать больших затрат времени и денег. Кроме того, нужно учитывать степень воздействия. Наверное, вы слышали, что некая диета дает стопроцентную гарантию похудения. Но, прежде чем принимать какие-то решения, неплохо узнать, кто и сколько килограммов уже потерял с ее помощью, наблюдались ли отличия в ее действии на разных людей и каковы результаты в сравнении с другими диетами (например, к потере веса привела простая информированность о пищевых предпочтениях). Мы желаем одновременно оценить, действительно ли выполненные действия дали эффект (на самом ли деле публикации об энергетической ценности продуктов питания улучшили здоровье населения Нью-Йорка), и предсказать последствия будущих действий (что произойдет, если снизить количество соли в фастфуде).

Власти должны определять, как их политика повлияет на население, а также разрабатывать программы реализации желательных изменений. Скажем, ученые обнаруживают, что рацион, богатый солью, ведет к ожирению. В результате законодатели решают принять закон, направленный на снижение количества соли в ресторанном меню и готовых продуктах. Эта политика окажется полностью неэффективной, если единственным доводом в пользу связи соли и ожирения будет факт, что высококалорийный фастфуд и есть истинная причина ожирения, а в нем всегда много соли. Люди по-прежнему будут употреблять фастфуд, поэтому целевые усилия для начала должны быть направлены именно на этот момент. Мы должны быть уверены, что меняем причины, которые реально повлияют на результат. Если же нацелить их на нечто, так или иначе связанное со следствием (к примеру, запретить спички, чтобы снизить риск рака легких из-за курения), воздействия окажутся неэффективными.

Далее мы увидим, что дело еще больше усложняется, если вмешательства имеют побочные эффекты. Итак, требуется узнать не только причины конкретного результата, но и его следствия. Например, увеличение физической активности ведет к потере веса, но «компенсационный эффект» может вынудить людей потреблять больше калорий, чем они сожгли (в результате вес набирается). Вместо того чтобы отыскивать изолированные связи между отдельными переменными, следует понять более масштабную картину взаимосвязей.

 

Что дальше

Почему люди склонны видеть связь там, где ее нет и в помине? Как суд оценивает причины преступлений? Как построить программу экспериментов, чтобы выяснить, какое лекарство прописать пациенту? Чем дальше, тем больше миром правят данные и алгоритмы, поэтому умение мыслить в категориях причинности больше нельзя рассматривать как необязательную опцию. Нам нужен этот навык, чтобы извлекать из массивов данных полезную информацию и уверенно прокладывать курс в океане повседневных решений. Даже если вам не приходится по долгу службы заниматься исследовательской работой или информационным анализом, возможные пути использования причинных зависимостей влияют на то, какими сведениями о себе вы делитесь и с кем именно.

Чтобы достоверно выявлять и применять причины, нужно разбираться в психологии каузальности (то есть как мы воспринимаем причины и как о них мыслим), знать, как оценивать доказательства (полученные путем наблюдений или экспериментов) и как применять это знание, чтобы принимать решения. В частности, как сведения, которые мы собираем, – и то, как мы ими манипулируем, – влияют на сделанные нами заключения. В этой книге мы исследуем виды возможных аргументов за и против каузальности (играя роль и обвинения, и защиты), научимся выходить за рамки косвенных улик, задействуя найденные признаки причинных зависимостей, и достоверным образом отыскивать и понимать эти признаки.

 

2. Психология. Как люди узнают о причинах

 

В 1692 году две девочки, проживающие в Салеме, внезапно стали вести себя странно. Эбигейл Вильямс (11 лет) и Элизабет Паррис (9 лет) ни с того ни с сего начинали биться в судорогах и конвульсиях. Не сумев определить видимой физической причины, лекарь предположил, что такое необычное поведение – результат колдовства. Скоро в подобном состоянии оказались еще несколько девочек, и более десятка людей было схвачено по обвинению в чернокнижии.

Долгое время причины процессов салемских ведьм объяснялись массовой истерией и мошенничеством, однако по прошествии трех столетий на свет явилась новая гипотеза – отравление спорыньей (грибком, паразитирующим на колосьях ржи и других злаков). Если она попадает в продукты, это может привести к эрготизму – заболеванию, симптомы которого включают конвульсии, зуд и даже психические эффекты. Доводы в защиту этой гипотезы были взяты из записей о погоде: исследователи выдвинули предположение, что тогда условия для развития спорыньи были благоприятными, а суды над ведьмами пришлись как раз на период сбора ржи и употребления ее в пищу. Конечно, многие также ели рожь, и с ними ничего не случилось, что ослабляет подобную аргументацию, но неокрепшие юные организмы более подвержены эрготизму, а это довод «за», поскольку только дети демонстрировали соответствующие симптомы. Позже другой историк обнаружил корреляцию между местностями, где проходили суды на ведьмами, ценами на рожь и периодами сбора урожая.

Спорынья казалась достоверным объяснением, но некоторые доказательства противоречили ему. Один и тот же грибок может вызвать отравление двух видов (гангренозное и конвульсивное), но записей о всплеске гангрены в Салеме нет. И хотя конвульсивная форма может вызывать описанные симптомы, она скорее должна была затронуть семьи целиком: дело в том, что эта болезнь когда-то считалась инфекционной. Кроме того, такая форма обычно поражает маленьких детей, в то время как больные девочки были подростками. А самым крупным несоответствием стал тот факт, что симптоматика, проявлявшаяся у девочек, казалось, зависела от присутствия так называемых ведьм, и часто за пределами здания суда эти девочки имели более здоровый вид. Если симптомы были результатом отравления спорыньей, кажется невероятным, что они могли настолько сильно меняться в зависимости от того, кто находился рядом.

Отравление грибком в качестве объяснения было отвергнуто, однако материалы, основанные на этой теории, появлялись на страницах New York Times еще в 1982 году. Во все времена, в любых городах и странах люди хотят поверить в причины, не вполне подтвержденные данными, однако отвечающие их знанию на конкретный момент. В XVII веке ведьмовство считалось вполне разумным объяснением; факты в поддержку этой гипотезы широко афишировались, несмотря на более чем пристрастные и малонаучные свидетельства вроде «видений» (когда обвинитель утверждал, что имел «видение» о том, как обвиняемый причинял ему вред). В XX столетии научные объяснения (например, отравления) стали более доступны для понимания, несмотря на то что все равно не удалось объяснить, почему соответствующий симптом проявился у небольшой группы девочек-подростков.

* * *

Ведьмовство считалось разумным аргументом в XVII веке, поскольку наше знание о причинах – это комбинация имеющихся сведений, восприятий и заключений на основе опыта. Понимая физические законы, вы не удивляетесь, что удар по шару заставляет его двигаться. Но если вам еще раньше рассказали, что Земля плоская, а ведьмы могут заставлять предметы летать по комнате, тогда вы легко сделаете другие прогнозы и дадите иные объяснения того, как и почему шар передвигается по бильярдному столу.

Зная, где мы преуспели, а в чем способны ошибаться, отыскивая причинные взаимосвязи, мы можем усовершенствовать программное обеспечение для анализа данных, что в итоге поможет в повседневной жизни. В этой главе мы рассмотрим, как с течением времени развивается наше понимание каузальности и как мы получаем знание о причинах на основе наблюдений и взаимодействия с окружающим миром.

Когда мы намерены вынести суждение о чьих-то действиях – к примеру, обвинить человека, что из-за него мы опоздали на работу, или решить, стоит ли похвалить кого-то за осторожную езду, – наше логическое мышление выходит далеко за рамки простой причинности. Если проанализировать, какие другие факторы – к примеру, ожидания – повлияли на эти суждения об ответственности, мы сумеем лучше понять поведение людей. Мы можем не соглашаться друг с другом относительно того, что стало поводом некоего события, например победы в скачках. То, что мы узнаём о причинно-следственных зависимостях из докладов, сделанных на примере одной группы населения, может быть неприменимо к другой, поэтому придется принять во внимание некоторые социокультурные факторы, влияющие на ситуацию. Наконец, мы обсудим, почему мы так легко впадаем в заблуждения относительно причин и следствий и почему ложные каузальные убеждения (например, суеверия) не теряют силы даже после того, как вскрывается наша подверженность им.

 

Обнаружение и использование причин

Как вы впервые обнаружили, что лампочка загорается, если повернуть выключатель? Откуда вы знаете, что ружье, выстреливая, производит громкий звук, а не наоборот?

Мы получаем знания о причинах двумя основными путями: посредством восприятия (каузального опыта) и умозаключений (опосредованных выводов о причинности с помощью дедуктивного метода и на основе некаузальной информации).

Воспринимая причины, мы не накладываем картину наблюдений на предыдущее знание с помощью некоего инструмента распознавания образов, но получаем практический опыт каузальности.

Видя, как в окно влетает кирпич, один бильярдный шар ударяет другой, заставляя катиться, горящая спичка поджигает фитиль свечи, мы получаем впечатления о причинной зависимости на основе входящей сенсорной информации. Напротив, причины таких событий, как пищевые отравления, войны и хорошее здоровье, нельзя воспринять непосредственным образом – их предстоит вывести путем логического мышления на основе чего-то, отличающегося от непосредственных наблюдений.

Идея, что мы на самом деле способны воспринимать причинности, в философии считается спорной и вступает в прямое противоречие с точкой зрения Юма, который утверждал, что познание возможно только на основе наблюдаемых паттернов. Однако каузальное восприятие убедительно доказано экспериментально. Не пользуясь иными подсказками в поисках причин, перцепция предполагает наличие мозговой деятельности, при которой разум получает данные и квалифицирует их как каузальные или некаузальные. Многие философы доказывали способность причинного восприятия, но вопрос остается: в самом ли деле различны умозаключение и восприятие. В ходе некоторых экспериментов на эту тему использовались вводные данные, согласно которым перцепция и мышление противоречат друг другу, так как, если они представляют один процесс, ответ должен быть одинаковым, в обоих случаях. Эти исследования продемонстрировали, что люди приходят к разным умозаключениям в ситуациях, когда нужно оценить восприятие и суждения, но, поскольку они основывались на свидетельствах людей, описывающих свои интуитивные догадки, из процесса оказалось невозможно полностью исключить восприятие.

Трудно придумать эксперимент, где получилось бы изолировать два процесса друг от друга (то есть обеспечить логическое мышление без восприятия и наоборот). Однако исследования, участниками которых были индивидуумы с разделением левого и правого полушария головного мозга, дают некоторые ключи к пониманию. У таких пациентов связь между полушариями частично или полностью нарушена, поэтому обмен любой информацией между ними проходит с запозданием. Для эксперимента это хорошо: если восприятие и умозаключение изначально управляются разными полушариями, их можно испытать отдельно. Стимулируя участки поля зрения по одному, ученые могут контролировать, какое именно из полушарий получит вводные данные. В то время как обычные участники исследования не показали различий при выполнении заданий на каузальную перцепцию и логическое мышление, два пациента с разделением головного мозга продемонстрировали существенные отличия в восприятии и логическом выведении причин в зависимости от того, какое полушарие получало задачу. Вывод прост: умозаключения отделены от восприятия, и в каждом процессе участвуют разные области мозга.

Восприятие

Итак, исследования показали, что восприятие действительно может проходить независимо от умозаключения. Но когда именно мы воспринимаем причинность?

Фундаментальные труды Альберта Мишотта по восприятию причинности продемонстрировали: когда людям показывают изображения, где одна фигура движется по направлению к другой, прикасается к ней и вторая фигура начинает двигаться, они воспринимают это как ситуацию, когда первая фигура «запустила в действие» вторую. Такое утверждение удивительно правдиво, даже несмотря на то что это всего лишь картинки, а не физические объекты. Многие другие исследователи повторяли эксперименты Мишотта и наблюдали аналогичные результаты. Хотя работы знаменитого бельгийца признаны классикой каузальной психологии, его эксперименты с задержками и разрывами между событиями также предоставляют хорошую почву для заключений о том, как время влияет на восприятие. (Об этом мы подробнее узнаем в .)

Узнать о том, как развивалось наше понимание причинности и роли обучения, можно благодаря детям. Если мы способны к непосредственному восприятию причинности, малыши также должны это уметь.

Разумеется, очень трудно проверить, действительно ли младенцы воспринимают причинную зависимость, поскольку их нельзя расспросить о впечатлениях, как участников экспериментов Мишотта. Малыши дольше рассматривают новые предметы; ученые приучают их к определенной последовательности событий, а затем проводят сравнение с обратной последовательностью тех же событий. Детям показывали видеозаписи последовательности пусковых операций (подробнее об этом в ), сходных с тем, как бильярдный шар ударяется о неподвижный другой. Первый шар передает другому импульс, и второй после этого движется в том же направлении, что и первый.

Видеозаписи проигрывались сперва в прямом, а потом в обратном направлении (включите перемотку, и все будет выглядеть так, как будто это второй шар ударяется о первый); аналогичные последовательности событий без пускового толчка (например, две фигуры идут в одном направлении, не соприкасаясь) также проигрывались «туда» и «обратно». Основное открытие было в том, что младенцы дольше просматривали каузальную последовательность в обратном порядке. Но, поскольку обе сценки меняли направления, не должно быть различия во времени рассматривания, если каузальная последовательность не воспринимается как содержащая изменение, которого нет в последовательности некаузальной (то есть причина и следствие меняются местами).

Даже если восприятие причинности с первых дней жизни человека кажется очевидным, другие исследования отмечают различия в реакциях младенцев 6 и 10 месяцев в смысле их способности воспринимать причинность в более сложных событиях (например, когда удар по шару наносится со смещением). Эти исследования показывают, что восприятие развивается с возрастом. Дети 6–10 месяцев способны воспринимать причинную связь между двумя предметами, однако эксперименты с двумя цепочками причинностей (каузальных последовательностей: к примеру, зеленый шар ударяет красный, а затем красный шар ударяет синий) показали, что 15-месячные малыши, как и взрослые, воспринимают причинность такого рода, а 10-месячные – нет. Исследования, где сравнивается восприятие детей более старшего возраста и взрослых, дают противоречивые результаты, поскольку различия могут возникать из-за разницы в вербальных способностях.

В исследовании, где тестировали детей от 3 до 9 лет, задачу упростили, сведя к ограниченному набору наглядных реакций. В результате продвинутые способности к причинному осмыслению были выявлены даже у самых младших участников, хотя некоторые изменения с возрастом наблюдались по-прежнему.

Самые значительные различия в результатах между возрастными категориями, как правило, наблюдаются, когда восприятие и логическое мышление вступают в конфликт, так как дети больше полагаются на чувственное знание, а взрослые – на последующее знание ситуации. В одном эксперименте два механизма (быстрого и медленного действия) спрятали в коробке, причем каждый был снабжен звонком. В случае с быстрым механизмом мяч, помещенный в коробку, немедленно приводил звонок в действие, а в случае с медленным звонок раздавался с задержкой. В коробку с медленным механизмом положили один мяч, а второй добавили после некоторой паузы. Из-за запаздывания механизма звонок звенел сразу же после того, как в коробке появлялся второй мяч, но нельзя утверждать, что причиной звонка стал второй мяч, потому что механизм не способен срабатывать так быстро. Даже после того как дети знакомились с этими механизмами и запоминали, какой из них где находится, воспринимаемые свойства у пятилетних малышей превалировали над умозаключениями. Несмотря на то что мяч чисто физически не мог включить звонок, младшие дети по-прежнему называли в качестве причины второй мяч. Дети же 9–10 лет и взрослые логически выводили корректную причину; результаты семилетних участников заняли место где-то посередине (примерно 50/50).

В рамках множества экспериментов по восприятию, начиная с Мишотта, участников напрямую спрашивали, что они думают о предложенных сценках, к примеру, просили описать, что те наблюдали. Но этим способом не удается охватить характерные реакции, вовлеченные в восприятие.

Недавно исследователи решали эту задачу методом окулографии у взрослых участников эксперимента. Вместо того чтобы измерять, как долго участники смотрят на некий объект, ученые проверяли, куда именно те смотрят. Результаты показали, что в последовательностях «пускового» типа люди предугадывают каузальные движения и соответственно перемещают фокус зрения. Имеется в виду, что вне зависимости от того, называют ли участники эксперимента некую последовательность причинно-зависимой, их ожидания события показывают: люди предполагают, что движение объекта вызовет контакт с другим объектом. Позднейшее исследование, где регистрировались движения глаз и каузальное мышление участников (как и в работах Мишотта), выявило следующее: хотя в простых последовательностях оба фактора коррелировали, при включении фактора задержки по времени корреляции между движениями глаз и причинными суждениями у разных участников не наблюдалось.

Именно дети впервые продемонстрировали тенденцию к восприятию в экспериментах с простыми сценариями, но доверие, которое мы питаем к причинному восприятию, может подвести и взрослых. Если вы слышите громкий звук, а после этого в комнате зажигается свет, легко решить, что эти события взаимосвязаны; однако временная привязка громкого звука и момента, когда некто щелкает выключателем, может быть простым совпадением.

Параметры, которые приводят к ложным восприятиям причинности, – такие как тайминг событий и пространственная близость – могут также стать причиной неправильных каузальных умозаключений. Мы часто слышим, что человеку сделали прививку от гриппа, а к вечеру у него развились схожие с гриппом симптомы, и люди верят, что именно укол стал поводом к этому. Но точно так же, как медленный механизм в коробке не мог тут же производить звук при появлении мяча, вакцина против гриппа, содержащая неактивную форму вируса, не может вызвать болезнь. Среди огромного количества привитых у некоторых развиваются другие сходные болезни (по чистому совпадению), или они подхватывают вирус, ожидая приема в клинике.

Обратившись к первичной информации о возможном, можно откорректировать ложные суждения.

Умозаключения и логическое мышление

Когда вы пытаетесь выяснить, почему ваша машина издает странный шум, или решаете, что чашка кофе ближе к вечеру помешает заснуть, вы не воспринимаете непосредственную взаимосвязь между жарой и скрипом тормозов или стимулятором и работой нервной системы. Вместо этого используете два других вида информации: знания из механики о работе тормозной системы и корреляции между временем употребления стимулятора и качеством вашего сна. Иными словами, даже не имея понятия, как именно работает причина, мы способны узнать нечто, наблюдая, как часто причина и следствие случаются одновременно. Но можем применить и логическое мышление, основываясь на понимании системы, даже если отмечаем единичный случай причины и следствия. Итак, некто может установить источник шума в машине, понимая, как взаимодействуют детали автомобиля и какие неисправности в его системах могут спровоцировать лишние звуки.

Эти два взаимодополняющих метода умозаключений о причинах, где один основан на ковариантностях, или сопряженных изменчивостях (как часто события происходят вместе), а другой – на механистическом знании (как именно причина производит следствие), способны работать совместно, хотя в исследованиях часто трактуются по отдельности. Процесс, задействующий косвенную информацию для нахождения причин, называется причинным умозаключением, и хотя существуют различные способы сделать вывод о каузальной зависимости, суть в том, что вы не основываетесь на прямом опыте, а используете данные и базовое знание для установления причин методом дедукции.

В классическом задании по каузальному умозаключению в психологии участникам предлагают последовательность событий. Требуется узнать, что вызывает определенное следствие (например, звук или визуальный эффект на экране). В простейшем случае надо просто оценить, вызывает ли одно событие другое (или в какой степени), к примеру, определить на основе серии наблюдений, действительно ли поводом к появлению света стал поворот выключателя. Варьируя различные параметры – например, временную задержку между причиной и следствием, взаимодействие участника и системы или силу взаимосвязей, – ученые пытаются распознать, какие факторы влияют на каузальные умозаключения.

Мы знаем, что временные задержки и пространственные разрывы заставляют людей с меньшей убежденностью называть нечто причиной события, но все не так просто. Существует и взаимосвязь с ожиданиями. В мы обсудим это подробнее, когда увидим, как время вторгается в наше понимание причинности. Это еще одна область, где существуют различия между детьми и взрослыми, так как у всех разные ожидания возможного. Например, пятилетние верят, что физически невозможное событие – результат волшебства, а девятилетки и взрослые понимают, что это всего лишь фокус.

Как раз ассоциативный подход к причинным умозаключениям, по сути, предлагал Юм: постоянно наблюдая, как события случаются вместе, мы формулируем причинную гипотезу. Люди хорошо умеют это делать, исходя из гораздо меньшего объема наблюдений, чем требует компьютерная вычислительная программа; но мы тоже корректируем свои убеждения, получая новую информацию, и умеем определять некорректные паттерны, основанные на поспешных заключениях. К примеру, если вы забили два гола после того, как надели новую пару бутс, можете сделать вывод, что именно обувь улучшила ваши показатели. Но 10 последовательных матчей без единого гола заставят переосмыслить эту взаимосвязь.

Как и восприятие, способность выводить причины из наблюдений развивается в раннем детстве. Один эксперимент должен был установить, как рано развивается такое умение: музыкальная шкатулка начинала играть, когда наверх ставили определенный кубик, а когда ставили какой-то другой, звуки не воспроизводились. Дети двух с небольшим лет наблюдали, что будет, если ставить эти кубики на шкатулку вместе и по отдельности, и затем определяли, какой из них заставляет музыку играть. Позже этот эксперимент был воспроизведен для малышей 19 и 24 месяцев, и способность делать выводы о причинах на основе вариативных паттернов с тех пор более-менее постоянно проявлялась даже у детей 16 месяцев при чуть более простой структуре эксперимента.

И все же, если ассоциации – все, что нужно для научения причинности, как провести различие между общей причиной (рис. 2.1 (a), например, когда бессонница провоцирует просмотр телевизора и поедание закусок) и общим следствием (рис. 2.1 (б), когда просмотр телевизора и перекус ведут к бессоннице)?

.

Рис. 2.1. В обоих примерах бессонница ассоциируется с двумя другими видами деятельности, даже если каузальная структура отличается

В реальности мы действительно способны различать каузальные структуры даже в тех случаях, когда наблюдаются одинаковые ассоциации. Имеется в виду следующее. Если я вижу, что в 2/3 случаев, когда я одновременно поглощаю кофе и печенье и после этого чувствую прилив энергии, но в 2/3 случаев, когда я пью только кофе, эффект тот же самый, с помощью дедукции я могу определить, что печенье, возможно, не влияет на мой уровень энергии.

Такой тип логического мышления называется «обратная блокировка» – именно он был продемонстрирован в эксперименте с участием детей 3 и 4 лет. Идея такова: если вы видите, как некое следствие случается после воздействия двух факторов, а потом – при наличии одного фактора, то, даже не наблюдая отдельно воздействия второго, делаете вывод, что он не может быть причиной события.

В исследовании снова использовалась шкатулка, звучащая, когда на нее ставят определенный кубик. Видя, что кубики А и В вместе заставляют машинку играть, а вслед за этим только кубик А вызывает звуки (см. рис. 2.2 (а)), дети гораздо реже утверждали, что кубик В также вынуждает механизм включаться.

Рис. 2.2. Участники наблюдают результаты первых двух экспериментов. В третьем нужно предсказать, раздастся ли музыка, если этот кубик поставят на машинку. Кубик А – плотный, В – решетчатый

Принципиальное различие между этим экспериментом и более ранними исследованиями в том, что сначала дети наблюдали за действием каждого кубика по отдельности и обоих вместе. Здесь они видели второй только вместе с первым и все-таки использовали косвенное знание о действенности А для определения В. Но результаты этого задания различались у детей 3 и 4 лет: старшие гораздо реже заявляли, что машинку приводит в действие кубик В. Умозаключения детей 4 лет, по сути, повторяют результаты таких же экспериментов со взрослыми. Интересно, что дети использовали косвенные свидетельства для вывода о причинных зависимостях. Ученые выяснили: даже если малыши видели, как на машинку ставят два кубика вместе, потом раздается звук, а затем наблюдали один (не вызывающий музыку) кубик (см. рис. 2.2 (б)), они делали вывод, что кубик, который они никогда не видели на шкатулке в одиночку, может включить механизм.

Заключения, сделанные в результате этого эксперимента, не совсем соответствуют ассоциативной модели научения причинности, так как одинаковые ассоциации могут вести к различным выводам. Альтернативный подход, а именно модель причинности, устанавливает связи между умозаключениями и расчетными моделями – так называемыми байесовскими сетями (мы поговорим о них в ). Получается, вместо того чтобы использовать только парные ассоциации или относительную силу связей между отдельными факторами, люди способны распознавать причины как составные части модели, показывающей, сколько именно вещей взаимосвязано.

В качестве простого примера можно привести структуру на . Ее легко дополнить причинами бессонницы (например, кофеин и стресс) и следствиями перекуса поздним вечером (набор веса и больные зубы). Подобные структуры могут как улучшить наше логическое мышление относительно вмешательств, так и помочь с помощью последних больше узнать о связях между переменными.

Другой способ мышления о каузальности основан на механизме действия. В общем виде его суть такова: причина – это способ вызвать следствие, где то и другое связано неким набором шагов, с помощью которого случается это следствие. Таким образом, если бег улучшает настроение, должен существовать процесс, с помощью которого он влияет на настроение, к примеру высвобождение эндорфинов. Возможно, мы не видим каждый из компонентов процесса, но имеет место цепочка событий, связывающих причину и следствие, посредством которой и реализуется следствие.

Однако основные работы по этой проблеме базировались на ином подходе, чем в трудах по ковариантности, поскольку участники должны были задавать вопросы экспериментатору, чтобы потом объяснить конкретное событие. В литературе по психологии этот подход именуется причинным осмыслением. В отличие от экспериментов, с которыми мы уже ознакомились, его задача – выяснить, почему футболист смог забить конкретный гол, а не почему игроки вообще забивают голы. Взяв за основу пример с дорожно-транспортным происшествием, ученые обнаружили, что вопросы сосредоточивались на механизмах, вероятно, сыгравших роль в этом ДТП (например «не был ли водитель пьян»), вместо тенденций и предрасположенностей (например «много ли автокатастроф случается на этой дороге»). Участники эксперимента должны были задавать вопросы, чтобы получить нужные сведения; в другом случае им заранее предоставлялась как механистическая, так и ковариантная информация, но первая по-прежнему имела больше силы в атрибуции причинности.

И все же мы объединяем то, что наблюдаем, с тем, что уже знаем – а мы, разумеется, обладаем знаниями как о корреляциях (соотношениях, взаимосвязи), так и о механизмах. Маловероятно, что мы будем полагаться только на один вид доказательств. В самом деле, другие работы решали эту проблему: как сегменты информации сочетаются между собой, а не сочетаются ли вообще. К примеру, ряд экспериментов показал: на интерпретацию сильных корреляций влияла убежденность в существовании достоверного механизма, связывающего причину и следствие, однако этого не наблюдалось при слабых корреляциях. Действительно, оценивая последовательности наблюдений, люди обычно принимают во внимание известные взаимосвязи, а также вероятность их наличия (например, редкие или обычные объяснения симптомов).

Но, как и всегда в психологии, существует несогласие по поводу того, как люди узнают о наборах взаимосвязей (далее я буду называть их моделями, или каузальными структурами). Согласно одной точке зрения, сначала мы получаем данные, а затем выбираем структуру, которая с наибольшей вероятностью основана на этих данных или лучше всего совпадает с нашими наблюдениями. Иными словами, зная, что ваш пес лает при громких звуках и что дверь, хлопая, также издает громкий звук, вы сужаете возможные взаимосвязи между вещами и, вероятно, способны отфильтровать модели, при которых пес издает различные шумы. С другой точки зрения, нами в основном движут гипотезы, а значит, мы сначала предлагаем возможный вариант структуры, а затем изменяем его по мере поступления информации.

Хотя простейший сценарий большинства подобных экспериментов предполагает наличие контролирующего субъекта, который изолирует влияние различных свойств, в реальности мы редко сами решаем, в какой степени одна вещь (заранее идентифицированная как потенциальная причина) влияет на другую (заранее идентифицированную как потенциальное следствие). Если у вас внезапно разболелась голова, приходится анализировать все факторы, спровоцировавшие боль. Точно так же выявление аллергической реакции на лекарство означает дедуктивный анализ множества случаев его приема, после которого проявляется общий симптом.

Задача причинных умозаключений часто делится на две: поиск структуры и поиск относительной силы. Структура говорит о том, что именно и какой эффект вызывает, а сила – в какой степени (например, как часто лекарство ведет к побочному эффекту или насколько повышается цена на акции после отчета о прибылях).

Эти процессы не изолированы, поскольку сильную причину определить легче, чем слабую. Множество психологических экспериментов имеют целью оценить силу, то есть определить ковариантность вместо механизмов.

Скажем, вы замечаете, что при беге начинаете чихать. Не имея возможности изменить условия занятий (в зале или на открытом воздухе, весной или зимой и т. д.), вы не сможете утверждать, что чихание связано с сезонной аллергией, а не с физическими упражнениями. В простых экспериментах дети делали заключение о корректных структурах только на основе наблюдения последовательности событий, однако данные, полученные исключительно путем наблюдений, часто ведут к неверным выводам. Мы можем ошибочно подумать, что два следствия вызывают друг друга – просто потому, что имеют общую причину и часто отмечаются вместе.

Причины необыкновенно важны: мы используем их, чтобы эффективно вмешиваться в ход событий и контролировать окружающий мир. Однако вмешательства сами помогают нам обнаруживать причины. По условиям описанных психологических экспериментов мир аккуратно поделен на вероятные причины и следствия. Но, когда мы не знаем, что есть что, а значит, не в силах манипулировать ими либо проверить, что произойдет при наличии или отсутствии различных факторов, можно разграничить структуры, которые иначе показались бы подобными.

Если участники исследований могли не просто наблюдать, но и вмешиваться в процесс, точность умозаключений повышалась.

Этот экспериментальный вывод было решено проверить с помощью заводной игрушки и большого набора возможных структур. Есть две игрушки и выключатель. Варианты: 1) одна игрушка заставляет другую вращаться; 2) выключатель активирует вращение каждой игрушки; 3) выключатель заставляет вращаться обе игрушки. Дошкольники легко усвоили действие этих более сложных моделей, просто наблюдая, как другие заставляют механизм работать. Но здесь отличаются не только понятия «смотреть» и «делать» (или наблюдение и вмешательство). Есть выбор и действий: вмешиваться самому или видеть, как это делает кто-то другой. Когда вы сами решаете влиять на процесс, сами же можете формировать и тестировать гипотезы, а также контролировать факторы, которые, по вашему мнению, влияют на исходный результат. Действительно, в ряде экспериментов как дети, так и взрослые лучше обучались на опыте собственных действий, чем действий наблюдаемых.

 

Вина

Скажем, ваша капризная кофеварка работает только ограниченный промежуток времени, при достаточной температуре, но важно успеть выключить ее до того, как она начнет перегреваться. Ваш приятель сварил себе эспрессо и оставил машину включенной. Разумеется, когда вы тоже решили выпить кофе, она уже перегрелась, и в это утро на напиток рассчитывать было бесполезно. Кто сформировал эту печальную ситуацию, кого винить за то, что вам не достался эспрессо? Вашего друга, не выключившего кофеварку? Или производителя, выпустившего неудачную технику?

Это один из вопросов каузальной атрибуции: определить, кто или что в ответе за конкретное событие. Иными словами, нас интересует не общая причина, по которой кофеварки перестают работать, но то, почему именно эта машина отказала в конкретной ситуации. Подобный тип логического мышления задействуется, когда мы пытаемся выяснить, кто в ответе за дорожное происшествие или почему человек опоздал на встречу.

Такой тип причинности именуется конкретной причинностью (token causality), в отличие от типовой причинности (например, невнимательное вождение приводит к дорожным происшествиям: Сьюзи за рулем писала эсэмэски, поэтому ее авто столкнулось с машиной Билли). Мы подробно познакомимся с конкретной причинностью в , пока же скажем: в рамках определения вины или ответственности это компонент нравственного поведения или ошибки, отличающийся от простого составления списка соответственных причин. При этом каузальность может быть без вины. К примеру, вы можете спровоцировать автоаварию, не будучи виноватым: вы действительно пытались затормозить, однако столкнулись с другой машиной, потому что отказали тормоза (в мы увидим, почему в этом случае вину реально возложить на автопроизводителя).

Большинство работ на тему вины и каузальной атрибуции написано философами. Однако, вместо того чтобы собирать данные в ходе экспериментов, участники дискуссий нередко апеллируют к интуиции, к тому, что можно подумать.

Обратимся к так называемой проблеме ручек. Секретарша на кафедре философии следит за тем, чтобы на ее столе всегда был запас ручек. Брать их, когда нужно, могут ассистенты; предполагается, что профессора должны пользоваться своими. На практике ручки берут и те и другие. И вот однажды профессор и ассистент забирают две последние. После этого секретарша принимает важный звонок, но на столе не оказывается ручки, чтобы записать информацию. Кто стал причиной этой ситуации?

Возможно, мои интуитивные соображения по поводу этой проблемы не совпадают с вашими, и неясно, какая точка зрения преобладает и где правильный ответ. Философы, изучающие подобные проблемы, часто исходят из предпосылки о существовании единой интуитивной точки зрения. С другой стороны, психологи проверяют эту предпосылку в ходе практических экспериментов. Однако чаще всего участниками последних становятся студенты, и неясно, можно ли экстраполировать моральные соображения этой группы на все население (возможно, студенты университета уже составили прочное мнение относительно этики ассистентов и профессоров).

Растущие масштабы использования экспериментальных методов для ответов на философские вопросы, а нередко и для проверки интуитивных прозрений, которые, как правило, принимаются за данность, вызвали к жизни отрасль науки, именуемую экспериментальной философией. Одна из ключевых ее областей как раз и рассматривает подобный тип морально-этических суждений, лежащий на стыке философии и психологии.

Важное открытие, которое называется эффект побочного эффекта (или эффект Кноба), состоит в следующем: если действия человека вызывают ненамеренный положительный побочный эффект, ему за это не отдают должное; но если аналогичный ненамеренный эффект имеет негативную окраску, этот эффект объявляют умышленным, и человека считают виновным.

Участников эксперимента ознакомили с рассказом главы одной компании. В нем он заявлял, что компанию не заботило, на пользу или во вред окружающей среде пошла инициатива по увеличению доходов: важна была только прибыль. Испытуемые возложили вину на главу компании, когда обнаружился вред экологии, но не хвалили его, когда позднее оказалось, что инициатива принесла положительный эффект. Та же тенденция отмечалась и в других историях: отсутствие одобрения положительных, но ненамеренных действий и обвинения за также ненамеренные, но негативные последствия. Эксперименты психологов показали, что рейтинги и причин, и обвинений были выше за намеренные действия, а не наоборот. Эти труды стали особенно известны, потому что участниками были не студенты, а случайные люди, которых агитировали на исследование в парке Нью-Йорка. Правда, конкретика относительно места и демографической статистики не раскрывалась.

Вторая сторона намерения – различие между тем, что человек предполагает, и тем, что происходит. Так, водитель, который пытается остановить автомобиль, однако не в силах это сделать из-за механической неисправности, может иметь хорошие намерения, за которыми следует плохой исход. Если намерения добрые, но действия все равно приводят к плохому побочному эффекту, стоит ли винить человека так же, как и того, кто причинил вред намеренно?

Эксперименты, требовавшие дать ответ на поставленный вопрос, доказали: в действительности суждения людей скорее касаются взаимосвязи намерения, а не моральных оценок с результатом. В одном из исследований степень приписывания вины отмечалась ниже, если вред был причинен ненамеренно и все же некто пострадал, чем когда вообще никому не навредили. Осмысление исхода частично объясняет, почему кого-то меньше винили за неудачную попытку смошенничать, чем за успешное жульничество – хотя в последнем случае на человека все равно возлагалась вина за обман.

Согласно одному из толкований эффекта побочного эффекта, все зависит от того, считаются действия намеренными или нет. Но его можно также объяснить в терминах нарушения принятых норм. Если вы действуете согласно общественным нормам (не мошенничаете на экзаменах, не сорите и т. д.), вам не отдают должное за хорошее поведение, поскольку это нормально. С другой стороны, если вы, решив сократить себе дорогу, потоптали цветы, вас обвинят, потому что это нарушение поведенческих стандартов. Пример нарушения норм без причинных последствий – переход улицы на красный свет, даже если дорога совершенно пуста.

Это ненамеренный, или каузальный, вред, и все равно такое поведение нарушает нормы. Как правило, мы не задаемся вопросом, кто виноват в событии, которое не произошло. Но эта ситуация может привести к обвинению (поскольку вред был возможен) и объяснить, почему другие легко инкриминируют человеку неправильный, хотя и без видимых последствий, переход дороги.

В ходе другого эксперимента напрямую тестировались взаимосвязи между нормами, моральными суждениями о поведении и результатами. Группе студентов раздавались экземпляры задания финального экзамена. Потом формулировались варианты с двумя разными характеристиками проблемы. Большинство студентов имели выбор: мошенничать или работать честно. И вот конкретный учащийся по имени Джон может либо поступать как все (списывать, когда списывают все, или работать честно, если никто не списывает), либо нарушить стандарт поведения (работать честно, когда все мошенничают, и жульничать, когда никто не списывает). В результате на основе экзаменационного балла и общего рейтинга тот из студентов, кто окажется в списке сразу после Джона, не получает проходного балла для поступления в медицинский колледж. Вопрос в следующем: в каких обстоятельствах причиной ситуации стал Джон и он ли виноват, что другого студента отсеяли?

Интересно, что с точки зрения причинности или вины нельзя назвать ключевой эффект нормативности. Напротив, суждения основывались скорее на том, хорошими или плохими считали поступки Джона участники эксперимента, при этом плохое поведение рассматривалось в большей степени как вызванное некой причиной и заслуживающее обвинения. Но когда, однако, студент отходил от сценария с мошенничеством, степень его виновности сразу падала.

Наличие разнообразных компонентов, влияющих на суждения о вине (таких как нормы, намерения и результаты), доказано, но процесс вынесения этих суждений по-прежнему остается предметом непрекращающихся исследований. Большинство экспериментов ориентируются на результаты и понимание интуитивных предпосылок. Правда, последние работы сформулировали единую теорию вины как общественного акта, предусматривающего многочисленные этапы и процессы.

 

Культура

В материалах исследований, к примеру, говорится: «По мнению 90 % участников, в автокатастрофе виноват водитель». Но кто эти самые участники? Подавляющее большинство лиц, задействованных в психологических исследованиях, – студенты западных колледжей. Неудивительно, что основная масса работ в этой области выполняется университетами, и контингент опрошенных, набранный из учащихся, позволяет регулярно обеспечивать нужное количество людей для экспериментов. В некоторых случаях можно наблюдать общие явления, но нельзя с определенностью утверждать, что все воспринимают каузальность одинаково или судят о причинности так же, как остальные, тем паче молодежь до 21 года. Это ограничивает генерализацию обсуждаемых выводов.

Чтобы понять степень обобщаемости, некоторые ученые сравнивали каузальные восприятия и суждения участников с разными культурными корнями. Одно из основных отличий разделяет факторы, обладающие каузальной релевантностью относительно результата. Если пловец выиграл Олимпийские игры, кто-то скажет, что он победил, так как соперники были слабые, или семья оказала ему поддержку (ситуационный фактор), или благодаря врожденному таланту (личная предрасположенность). Все это могло иметь значение, однако различие в том, какие именно из них выделены. Чтобы это проверить, Майкл Моррис и Кайпин Пэн в 1994 году изучили описания одних и тех же преступлений в китайских и английских газетах. Британцы чаще приводили факторы предрасположенности (например, преступник испытывал злость), а восточные обозреватели больше внимания привлекали к ситуационным (например, убийцу недавно уволили с работы). Ученые получили аналогичный результат, попросив китайских и американских студентов взвесить важность различных аргументов. Те же выводы были сделаны при сравнении других западных и восточных культур.

Эти культурные различия формируются в течение всей жизни. В одном из первых экспериментов в этой области, автором которых стала Джоан Миллер (1984), задействовали американцев и индусов четырех возрастных групп (8, 11, 15 лет и взрослые). Между участниками 8 и 11 лет из двух стран было обнаружено мало отличий. Когда их просили пояснить, почему кто-то знакомый совершил хороший поступок, а кто-то – плохой, дети-американцы делали основной упор на личные качества (например, друг – добрый), а дети-индусы – на ситуацию (например, он просто сменил работу). Самые же крупные несходства проявились среди взрослых. Это могло быть следствием как действительных изменений во взглядах, так и возросшего понимания того, что от них ожидалось. Известно, что само участие в эксперименте влияет на поведение, поскольку испытуемые пытаются поступать в соответствии с восприятием утверждений экспериментатором (то есть делать ему приятное) или, как вариант, намеренно бросать вызов. В одном случае простое изменение заголовка в вопроснике изменило фокус реакций участников.

С точки зрения каузальной атрибуции социальные подсказки оказывают некоторое влияние на то, какие именно обстоятельства люди считают наиболее важными (например, о чем говорится в новостях) и как они формулируют значимость причинных факторов (какое влияние оказывают контекст и личные качества), но механизм, лежащий в основе такого поведения, до сих пор неизвестен. Недавно было экспериментально доказано, что культурные различия воспринимаются через принятие, то есть важно персональное мнение о групповых взглядах. Иными словами, даже если результаты исследований совпадают с выводами Морриса и Пэна, все участники могут иметь одинаковые убеждения в целом, но по-разному думать о деталях; например, во что, по их мнению, верят китайцы и американцы. Именно это объясняет различия в суждениях.

Может казаться очевидным, что вы и я приходим к различным выводам о том, кто виновен в дорожном происшествии, поскольку это результат влияния разных социально-культурных условий. Участник кампании против неосторожного вождения может целиком сосредоточиться на том, что водитель писал эсэмэски, а другой обвинит автопроизводителя в неисправности тормозов. Есть гипотеза, что именно различия в культурах индивидуализма и коллективизма становятся причиной разной атрибуции, поскольку проявляются только в ситуациях, воспринимаемых как социальные (взаимодействие групп животных или людей), а не физические (движущиеся объекты). Восприятие физических событий не стоит приписывать одним и тем же культурным отличиям. Однако ряд недавних исследований выявил разницу в движениях глаз при восприятии по культурному признаку (можно предположить, что внимание уделялось разным компонентам сюжета).

 

Пределы, свойственные человеку

Основополагающая задача долгосрочных исследований – создание алгоритмов, способных воспроизводить ход мысли. Однако человек думает не как компьютерные программы, которые можно контролировать или подчинять определенным правилам. Правда, мы способны быстро обучаться каузальным взаимосвязям на основе новых наблюдений, но верные причины выявляем далеко не всегда.

Еще более сильное беспокойство вызывает наша склонность к повторяющимся ошибкам, даже если они очевидны. Как мы увидим в , многие когнитивные смещения приводят к тому, что мы начинаем отмечать несуществующие корреляции, поскольку выискиваем информацию в подтверждение собственных убеждений (например, ищем других людей, которым помогает акупунктура) или придаем ей большую значимость (например, в магазине обращаем внимание только на ту очередь к кассе, которая движется быстрее). Существуют факторы, которые заметно затрудняют наше обучение причинным зависимостям, например большое временное отставание следствия от причины или структурная сложность, так как требуется распутать множество неявных взаимозависимостей. Но даже с простой структурой и своевременностью мы все равно становимся жертвами ошибок каузального мышления.

Правда ли, что беда не приходит одна? Правда ли, что разбитое зеркало означает семь лет невезения? Правда ли, что проглоченная жевательная резинка переваривается годами? Одна из самых убедительных форм искаженных причинных убеждений – суеверие. Вообще-то никто не подсчитывал годы невезения ни до, ни после того, как треснет зеркало, не сравнивал группы людей, разбивавших и не разбивавших зеркала; так почему же разумные люди продолжают в это верить?

Некоторые суеверия можно объяснить в терминах видов каузальных смещений, которые вынуждают нас видеть ошибочные корреляции между совершенно не связанными событиями. Иными словами, мы начинаем замечать больше плохого после, а не до того, как разбили зеркало, потому что усиливаем внимание к подобным вещам. Хуже того: если вы верите в «семь лет неудач», то начинаете наклеивать ярлык невезения на события, которые в противном случае просто не заметили бы или вообще не сочли неудачей.

В других случаях простая фиксация на суевериях провоцирует эффект плацебо. Известно, что сам факт лечения может воздействовать на пациента; в этом случае прием лекарств значения не имеет. Или, точнее, они сравниваются с аналогичными средствами, которые даже не считаются эффективными. Например, можно сравнить аспирин и сахарные таблетки как средство от головной боли, вместо того чтобы противопоставить аспирину отсутствие лечения вообще, поскольку только в первом случае можно проконтролировать следствие приема некой таблетки. Именно по этой причине высказывания типа «Экспериментальное лечение привело к десятипроцентному снижению симптоматики!» не имеют смысла, если альтернатива – отсутствие лечения вообще. В действительности эффект плацебо обнаруживали даже в ситуациях, когда пациенты знали, что получают пустышку, которая никак не может им помочь.

Аналогичным образом, просто веря, что у вас есть счастливый карандаш, а некий ритуал перед баскетбольным матчем помогает забить больше мячей, вы и в самом деле вызовете желаемое следствие. Важно отметить, однако, что не сам предпочитаемый предмет или ритуал вызывает положительный исход. Скорее, его побуждает к жизни вера в их действенность, а следствие производится чувствами, которые генерирует вера: к примеру, снижается стресс, или возникает ощущение, что вы контролируете ситуацию.

Возможно, сейчас вы подумали: «Да, звучит здорово, но число 7 для меня и вправду очень много значит – как же это может быть совпадением?» Но каковы шансы, что все хорошие события в вашей жизни происходят, когда на часах или в дате отмечается 7?

Как только у вас утвердилось некое суеверие, случаи, когда оно подтверждается, обретают особый вес и лучше запоминаются. В этом-то все и дело. Иными словами, вы начинаете игнорировать ситуации, противоречащие вашей вере (к примеру, позитивные события, не связанные с семеркой). Эта тенденция поиска и запоминания событий, подтверждающих индивидуальные убеждения, называется предвзятостью подтверждения (confirmation bias). Мы поговорим о ней подробнее в следующей главе. Она может формировать достаточно невинные, хотя и ложные, убеждения, но способна также усиливать вредные наклонности.

В чем-то это похоже на угрозу стереотипов, когда знание, что некий предмет или событие относится к группе с негативными характеристиками, может вызвать страх, что такие стереотипы подтвердятся.

Одно из исследований показало: результаты женщин на экзаменах по математике существенно разнились в зависимости от информации, что оценки зависят / не зависят от половой принадлежности (первой группе не сообщалось, у лиц какого пола результаты лучше). Женщины показали равные с мужчинами результаты, когда им сообщили, что никаких гендерных преимуществ нет, и гораздо худшие, когда говорили обратное. Подобные разновидности ложных каузальных верований имеют реальные последствия. Концепции, основанные на неверной каузальной информации, в лучшем случае неэффективны, а использование некорректных причин ведет к несправедливым судебным приговорам (см. ).

Итак, нет ничего плохого в бесплатном и скромном ритуале (если скрестить пальцы «на удачу», вряд ли побочный эффект будет слишком велик). Но в итоге вы полагаетесь на весьма непрочные взаимосвязи, что порой приводит к переоценке влияния действующей силы (то есть чьей-либо способности контролировать или предсказывать события). Люди формулируют гипотезы и ищут признаки, подтверждающие собственные суеверия. Однако строгие рассуждения о причинности требуют признать потенциал предубежденности и быть открытыми к свидетельствам, противоречащим верованиям.

Далее мы увидим, как это сделать.

 

3. Корреляция. Почему множество каузальных утверждений ошибочны

 

В 2009 году ученые обнаружили поразительную взаимосвязь между вирусом XMR и синдромом хронической усталости (СХУ). Миллионы американцев страдают от этого заболевания с симптомами в виде сильной и постоянной утомляемости, однако причина его неизвестна, и это препятствует профилактике и лечению. Вирусы, недостаточность иммунной системы, генетические факторы и стресс – вот лишь единичные гипотезы, пытающиеся объяснить, что запускает механизм заболевания. И в придачу ко всем соперничающим причинным объяснениям затруднительно даже просто поставить соответствующий диагноз, поскольку нет единого биологического маркера, достоверно тестируемого в лабораторных условиях. Многие случаи остаются незамеченными, и, возможно, СХУ – это в действительности целый букет различных болезней.

Группа исследователей во главе с доктором Джуди Миковитц обнаружила, что среди 101 пациента с СХУ вирус XMRV имеют 67 % по сравнению со всего 3,7 % из 218 контрольных подопытных. Вирус объяснял не все случаи заболевания; была подгруппа пациентов, у которых СХУ стал результатом его действия, у других болезнь не диагностировалась. Для проблемы, в которой оказалось так трудно разобраться, результаты выглядели просто потрясающими, вызвав к жизни массу попыток их подтвердить. Самые разные исследования не смогли обнаружить связь СХУ и XMRV; но в 2010 году ученые выявили похожий вирус, который также превалировал у пациентов с СХУ (86,5 %: у 32 из 37) в сравнении со здоровыми донорами крови (6,8 %: у 3 из 44).

Эти результаты запустили новый виток гипотез и попыток подтвердить или опровергнуть обнаруженную взаимосвязь. Ученые предположили, что подобная мощная корреляция означает, что именно вирус XMR вызывает СХУ, то есть на этой основе стоит строить лечение. Кое-кто из пациентов, отчаянно желая выздороветь от изматывающей болезни, даже стал требовать у врачей лекарства против ретровируса на основе тестов XMRV.

Выявление у подавляющего большинства людей с СХУ этого вируса в крови – несомненно, интересная находка, которая помогла последующим экспериментам, но эта корреляция не доказывает, что вирус и есть виновник болезни или что антиретровирусное лечение будет эффективным. Вероятно, СХУ ослабляет иммунную систему, повышая подверженность вирусным заболеваниям. Даже если есть некая взаимосвязь, это не дает верного направления; иными словами, она не объясняет, что такое вирус для СХУ – причина или следствие, или же у всего есть общая причина.

В 2011 году оба исследования, выявившие корреляцию между вирусом и СХУ, были отвергнуты после яростных (часто публичных) дебатов. Что касается исследования доктора Миковитц, опровержение было частичным, а в одном случае журнал дал полное опровержение (правда, без согласия автора). Произошло следующее: пробы СХУ оказались заражены вирусом XMRV, выявив видимые отличия между двумя группами. Помимо этого, был поставлен вопрос о возможной фальсификации данных, поскольку некоторая информация о методе приготовления образцов в подписях к рисункам была опущена, и кое-кто посчитал, что один и тот же рисунок был представлен с несхожими этикетками в разном контексте. Наконец, исследование 2012 года, где различным группам (в том числе группам Миковитц) давались «слепые» образцы для анализа, не обнаружило связи СХУ и XMRV.

Интенсивные усилия, подогретые изначальными выводами, и накал страстей во время публичных дебатов между сторонниками и противниками новой теории – яркий пример того, насколько сильна может быть единственная корреляция, которую сочли убедительной.

* * *

Фраза «корреляция не обязательно означает причинно-следственную связь» прочно вбита в мозги любого студента, изучающего статистику; но даже те, кто понимает это высказывание и согласен с ним, порой не могут удержаться от попыток трактовать связи как причинные зависимости. Ученые часто заявляют о корреляциях, много раз поясняя, почему эти соотношения не имеют каузальной взаимосвязи и какой информации для этого недостает. Однако корреляции по-прежнему интерпретируются и используются как причинные зависимости (достаточно лишь проанализировать порой весьма серьезные расхождения между научной статьей и ее популярным вариантом в прессе). Сильная взаимосвязь может показаться убедительной и инициировать ряд успешных прогнозов (хотя в случае с СХУ это не так). Но даже она не объясняет, как работают те или иные вещи и с помощью каких вмешательств их действие можно изменить. Видимая связь между XMR и СХУ не доказывает, что можно вылечить последний с помощью первого, однако пациенты интерпретировали это открытие именно так.

Видимые корреляции могут объясняться еще не измеренными причинами (исключение данных о курении может вызвать взаимосвязь между раком и множеством иных факторов), однако случайные соотношения способны существовать, даже когда две переменные вообще никак не связаны. Корреляции бывают результатом абсолютной случайности (например, вы много раз за неделю сталкиваетесь с подругой на улице), искусственных условий эксперимента (вопросы могут быть подстроены под конкретные реакции), ошибки или сбоя (баг в компьютерной программе).

Иными словами, корреляция – это одно из основополагающих заключений, которые мы способны сделать, и свидетельство в пользу наличия причинной взаимосвязи. В этой главе мы рассмотрим, что такое корреляции и для чего они используются, а также познакомимся с некоторыми из множества путей, посредством которых они возникают без каких бы то ни было причинно-следственных связей.

 

Что такое корреляция

Х ассоциируется с раком, Y связан с припадками, а Z привязан к сердечным приступам. Каждый термин описывает корреляцию, сообщая, что эти явления соотносятся между собой. Хотя и не говоря, как именно.

Суть в том, что две переменные коррелируют, если изменения в одной из них ассоциируются с изменениями в другой. К примеру, рост и возраст детей коррелируют, потому что увеличение возраста соответствует увеличению роста: дети, как правило, с годами растут. Эти соотношения могут быть выборочными (измерения множества детей различного возраста за один раз), временными (измерения одного ребенка в течение жизни) или учитывать оба фактора (измерения разных людей в течение долгого срока). С другой стороны, между ростом и месяцем рождения нет долговременной корреляции. Это значит, что если месяц рождения варьируется, то рост так регулярно не меняется.

На рис. 3.1 (a) продемонстрировано, как возрастные изменения соотносятся с изменениями роста. Если увеличивается одна переменная, вместе с ней растет и другая. Напротив, на рис. 3.1 (б), где показаны рост и месяц рождения, мы видим набор случайно размещенных точек: месяц рождения варьируется, но соответствующего изменения в росте нет.

Рис. 3.1. Возраст и рост коррелируют, но рост и месяц рождения – нет

Это также означает, что, зная возраст ребенка, мы можем примерно предсказать его рост, а зная месяц рождения – нет. Чем ближе точки друг к другу, формируя линию, тем точнее наши прогнозы (поскольку при этом взаимосвязи теснее). Предсказание – одна из ключевых сфер применения корреляций, и в ряде случаев его можно сделать и без причинных взаимосвязей (хотя не всегда успешно).

Когда корреляции сильны, они могут приобретать видимые очертания, как на рис. 3.1 (a). Но нам необходимы методы измерения этой силы, чтобы провести количественное сравнение и оценку. Существует много единиц измерения корреляций, а одна из них наиболее употребительна – коэффициент корреляции Пирсона (обычно его обозначают буквой r). Этот показатель может иметь значение от 1 до –1. При значении 1 переменные обладают абсолютной положительной корреляцией (положительное изменение одной переменной прямо соответствует положительному изменению другой), а значение – 1 говорит об их абсолютной отрицательной корреляции (если одна переменная уменьшается, другая всегда увеличивается).

Получается, коэффициент корреляции Пирсона показывает, как варьируются вместе две переменные по сравнению с индивидуальными модуляциями (эти две меры называются «ковариация» и «вариация»). К примеру, мы можем отметить, сколько часов студенты в некой группе проводят за подготовкой к заключительному экзамену, чтобы посмотреть на соотношение показателей. Зная о наборе экзаменационных баллов и количестве часов, проведенных за подготовкой, но не имея возможности сопоставить итоговые оценки и соответствующие временные показатели, мы не определим, есть ли между ними корреляция. В этом случае получится наблюдать индивидуальные вариации каждой переменной, но не их взаимоизменения. То есть мы не можем выяснить, действительно ли большее время, потраченное на занятия, сопровождается более высокими оценками.

Без вариации нет корреляции

Скажем, вы хотите узнать, как получить грант, поэтому спрашиваете всех друзей, которые его имеют, что, по их мнению, помогло им. Все кандидаты оформляли заявку шрифтом Times New Roman; согласно мнению половины, важно, чтобы на каждой странице была как минимум одна иллюстрация; а треть рекомендуют представить заявку за 24 часа до установленного срока.

Означает ли это, что есть корреляция между названными условиями и получением гранта? Нет, не означает, потому что, не видя вариации исходного результата, нельзя определить, соотносится ли с ним какой-то иной фактор.

К примеру, если в течение некоей последовательности дней, когда температура доходила до 80°F (примерно 26,6 °C), на углу улицы стояли две тележки с мороженым, трудно сказать о корреляции погоды и мороженщиков, поскольку нет вариации значения той или другой переменной (температуры или количества мороженщиков). То же справедливо и для случая, когда есть вариация только одной переменной – например, на улице всегда два мороженщика, а температура изменяется от 80 до 90 градусов. Этот сценарий показан на рис. 3.2: отсутствие вариации ведет к тому, что данные скопились в одной точке, а модуляция единственной переменной дает горизонтальную линию. Именно такой вариант в примере с грантом. Поскольку все результаты идентичны, нельзя сказать, что произойдет, если поменять шрифт или представить заявку за минуту до истечения срока.

Рис. 3.2. Не наблюдая вариации обеих переменных, нельзя обнаружить корреляцию

И тем не менее широко распространена ситуация, когда анализируются только факторы, ведущие к определенному исходу. Только представьте, насколько часто победителей спрашивают, как именно они добились успеха, а потом стараются этот успех воспроизвести, выполняя в точности те же действия. Подобный подход полон недостатков по многим причинам, включая то, что люди просто не слишком хорошо умеют определять существенные факторы, недооценивают роль случайностей и переоценивают свои способности. В результате мы не только путаем факторы, которые по чистой случайности сопутствуют желаемому эффекту, с теми, которые действительно его обеспечивают, но и видим иллюзорные корреляции там, где их нет.

К примеру, многие интересуются, действительно ли музыкальное образование соотносится с профессиональными успехами в других областях. Даже если мы обнаружим, что многие успешные люди (как бы мы ни определяли успех) играют на музыкальных инструментах, эти ничего не скажет о существовании корреляции – не говоря уже о причинно-следственной связи. Если напрямую спросить, верят ли они, что музыка помогает развивать и другие способности, многие, безусловно, отметят некую взаимосвязь. Но с гораздо меньшей вероятностью они сделают это, если интересоваться конкретно умением играть в шахматы, быстро бегать или тем, сколько кофе вы выпиваете каждый день.

Для целей этой книги важнее всего следующее: беседы с победителями бесполезны, поскольку можно сделать то же самое, но не преуспеть. Возможно, все кандидаты оформляют заявки на грант шрифтом Times New Roman (а значит, те, кто не получил гранты, порекомендуют использовать другой шрифт), а может, успешные кандидаты получили грант, несмотря на избыточное количество иллюстраций в документах. Не зная совокупности положительных и отрицательных примеров, мы не сможем даже предположить наличие корреляции.

Корреляции: измерение и интерпретация

Скажем, мы исследуем студенческий пул, чтобы выяснить, сколько чашек кофе молодые люди выпивают перед финальным экзаменом, а потом регистрируем полученные баллы. Гипотетические данные этого примера представлены на рис. 3.3 (а). Корреляция очень сильна и равна почти 1 (0,963, если быть точными), поэтому точки на графике тесно окружают некую невидимую линию. Если взять обратное отношение (0 чашек кофе соответствуют 92 экзаменационным баллам, а 10 чашек – 10 баллам), чтобы сформировать отрицательную ассоциацию, абсолютное значение окажется тем же, а единственное, что изменится, – знак коэффициента корреляции. Тогда показатель измерения будет равен почти –1 (–0,963), а кривая станет отраженным по горизонтали вариантом положительно коррелирующих данных, как показано на рис. 3.3 (б).

Рис. 3.3. Корреляции между потреблением кофе и экзаменационными баллами

С другой стороны, если бы каждое из этих отношений стало слабее и имела место повышенная вариация результатов экзамена для каждого уровня потребления кофе, наблюдалась бы дисперсия точек, и корреляция была бы слабее. Это продемонстрировано на рис. 3.3 (в), где точки на графике по-прежнему имеют в основном линейную форму, но отклоняются от центра гораздо дальше.

Как и ранее, инверсия отношения (потребление кофе коррелирует с худшими оценками) формирует кривую на рис. 3.3 (г), где единственным отличием оказывается нисходящий уклон.

Заметим, что, если отношение слабое, гораздо труднее перейти от значения потребления кофе до экзаменационных баллов и обратно. Это четко видно, если в первых примерах выбор значения одной из переменных сильно ограничивает вероятные значения другой. Но если мы попытаемся предсказать экзаменационные баллы для 4 чашек кофе с более слабой корреляцией, прогноз будет гораздо менее точен, поскольку мы наблюдали более широкий диапазон баллов для такого уровня потребления кофе. Предел для этой возрастающей вариации – пара переменных, которые абсолютно не соотносятся (имеют нулевой коэффициент корреляции), как показано на рис. 3.3 (д), при этом нельзя вообще ничего сказать о результатах экзаменов на основе выпитого кофе.

Или мы захотели узнать, насколько сильна корреляция между тем, где человек живет, и его умением водить машину. Мера, о которой мы говорили до сих пор, применяется для неквантованных данных, таких как цены на акции, а не дискретных, таких как местонахождение или киножанр. Если у нас всего две переменные, каждая из которых принимает только два значения, лучше взять упрощенный вариант коэффициента корреляции Пирсона – так называемый фи-коэффициент.

Например, можно проверить соотношение между местом, где люди живут, и их умением водить машину. Местом жительства может быть либо город, либо пригород / сельская местность, а факт вождения может либо иметь место (да), либо нет. Как и ранее, проверяем, как эти условия варьируются. Здесь вариация означает частоту, с которой они наблюдаются совместно (а не то, как значения увеличиваются или уменьшаются).

В табл. 3.1 показано, какой вид могут принимать данные. Фи-коэффициент для них составляет 0,81. Мы изначально смотрим, сосредоточено ли большинство измерений вдоль диагональной линии на таблице. Если значения в основном находятся в группах вождение/не-город и не-вождение/город, можно говорить о положительной корреляции.

Если аккумулируются вдоль другой диагонали, корреляция имеет такую же силу, но другой знак.

Таблица 3.1. Различные комбинации местонахождения и вождения

Однако на основе этих измерений не каждая сильная корреляция будет иметь высокое значение. Применение коэффициента Пирсона предполагает, что это отношение линейно, а значит, если одна переменная (например, рост), увеличивается, другая (например, возраст) также увеличивается, причем с одинаковым темпом. Это не всегда справедливо, поскольку могут встречаться и более сложные, нелинейные отношения. К примеру, если из-за нехватки кофе человек становится вялым (и не способен показать хорошие результаты на экзамене), а избыток кофе его возбуждает (и тоже плохо влияет на результаты), то график, выстроенный на основе некоторых данных, может иметь вид, как на рис. 3.4. Здесь видно повышение балла в диапазоне от 0 до 5 чашек кофе, потом еще одно медленное падение. Хотя корреляция Пирсона для этого примера нулевая, данные показывают четкий паттерн.

Рис. 3.4. Нелинейное отношение (r = 0,000)

Подобный тип отношений показывает неоднозначные результаты при многих методах причинных умозаключений. В последующих главах мы вернемся к этому. Его важно иметь в виду, поскольку он встречается в таких прикладных науках, как биомедицина (например, и недостаток, и передозировка витаминов могут иметь последствия для здоровья) и финансы (например, кривая Лаффера, которая показывает зависимость между доходами государства и динамикой налоговых ставок).

Аналогично, если вес детей всегда увеличивается с возрастом, но экспоненциально (дети растут, и их вес растет все сильнее), корреляция Пирсона будет ниже ожидаемой, так как она работает в линейных зависимостях. Это одна из опасностей, подстерегающая тех, кто бросает данные в «черный ящик» и просто принимает любые полученные результаты, не проводя дальнейших исследований. Поступив так, когда корреляция недооценивается или даже кажется равной нулю, мы упускаем потенциально интересные зависимости.

Это одна из причин, почему нельзя интерпретировать нулевую корреляцию (пирсоновскую или любую другую) как вообще незначимую (существуют и другие причины, например ошибки в измерениях или первичные данные, искажающие результаты). Еще одна важная причина заключается в том, что данные могут не быть репрезентативными с точки зрения исходного распределения. Если бы нам разрешили взглянуть на статистику смертей от гриппа, но предоставили только данные о количестве больных, поступивших в лечебные учреждения, и вызовов скорой помощи, мы наблюдали бы гораздо более высокий процент летальных исходов, чем в масштабах всего населения. Это происходит потому, что люди оказываются в стационаре, как правило, с более тяжелыми случаями или дополнительными заболеваниями (и с высокими шансами смерти от гриппа). Итак, мы снова сравниваем не все исходы, а только статистику для больных или обратившихся к врачам на фоне симптоматики гриппа.

Чтобы проиллюстрировать эту проблему в ограниченном диапазоне, возьмем, к примеру, две переменные: общий экзаменационный балл и часы, потраченные на подготовку. Однако вместо данных по всему спектру оценок за экзамен мы имеем только сведения о лицах, получивших общий балл за письменный и устный тест по математике выше 1400. На рис. 3.5 эта область показана серым цветом.

Рис. 3.5. Закрашенная область представляет ограниченный диапазон данных

Согласно этим гипотетическим показателям, студенты с высокими баллами представляют собой комбинацию как лиц с природной одаренностью (которые преуспевают, особо не утруждаясь), так и тех, кто получил лучшие оценки за счет интенсивных занятий. Если воспользоваться только данными из закрашенной области, мы не обнаружим никакой корреляции между переменными; но если применить информацию по всему спектру экзаменационных показателей, созависимость будет сильной (корреляция Пирсона оценки и упорных занятий для закрашенной области равна 0, а для всего набора данных – 0,85).

Оборотная сторона медали – это корреляции, которые мы порой находим между несвязанными переменными, опираясь только на следствия (то есть принимая во внимание только случаи, когда это следствие имеет место). К примеру, получение высокого экзаменационного балла и участие во множестве факультативных мероприятий обеспечивают прием в престижный университет. Значит, данные, взятые только в вузах, покажут корреляцию между высоким баллом и многочисленными факультативами, так как здесь эти показатели чаще всего в наличии.

Подобная тенденция отбора данных довольно типична. Возьмем, к примеру, сайты, опрашивающие посетителей насчет их политических взглядов. В интернете не получится отобрать участников опроса случайно в масштабах всего населения, а данные источников с сильным политическим уклоном искажены еще сильнее. Если посетители конкретной страницы активно поддерживают действующего президента, то результаты по ним, возможно, покажут, что рейтинг главы государства растет каждый раз, когда он произносит важную речь. Однако это показывает лишь то, что есть корреляция одобрения президента и произнесения им речей перед сторонниками (поскольку на вопросы отвечают представители всего населения). Мы рассмотрим и эту, и другие формы трендов (например, смещение по выживаемости) в и увидим, как они влияют на результаты анализа экспериментальных данных.

* * *

Важно помнить, что, помимо математических причин, по которым можно распознать ложные корреляции, есть еще наблюдение за данными, позволяющее найти ложные паттерны. Некоторые из когнитивных смещений, заставляющие нас видеть соотношение несвязанных факторов, также сходны с ошибкой отбора. К примеру, предвзятость подтверждения заставляет искать доказательства в пользу определенного убеждения. Иными словами, если вы верите, что лекарство вызывает некий побочный эффект, вы приметесь читать в интернете отзывы тех, кто уже принимал его и наблюдал это действие. Но таким образом вы игнорируете весь набор данных, не поддерживающих вашу гипотезу, вместо того чтобы искать свидетельства, которые, возможно, заставят ее переоценить. Предвзятость подтверждения также может заставить вас отказаться от свидетельств, противоречащих вашей гипотезе; вы можете предположить, что источник сведений ненадежен или что исследование основывалось на ошибочных экспериментальных методах.

Помимо предвзятости с точки зрения доказательств, может случиться ошибка интерпретации аргументов. Если в ходе «неслепого» тестирования нового лекарства доктор помнит, что пациент принимает это средство и считает, что оно ему помогает, то может начать искать признаки его эффективности. Поскольку многие параметры субъективны (например, подвижность или усталость), это может привести к отклонениям в оценке данных индикаторов и логическим заключениям о наличии несуществующих кореляций. Этот пример взят из реального исследования, где доктора, выведенные из слепого метода, сделали вывод об эффективности препарата (мы подробнее обсудим ситуацию в ). Таким образом, интерпретация данных может различаться в зависимости от убеждений, что приводит к отличиям в результатах.

Есть и специфическая форма предвзятости подтверждения – иллюзорная корреляция. Она означает поиск соотношения там, где его нет. Возможная взаимосвязь симптомов артрита и погоды настолько широко разрекламирована, что считается доказанной. Однако знание о ней может привести к тому, что пациенты будут говорить о корреляции просто из ожидания ее увидеть. Когда ученые попытались проанализировать эту проблему, взяв за основу обращения пациентов, клинические анализы и объективные показатели, то не обнаружили абсолютно никакой связи (а другие выяснили, что истинным виновником могла быть сырость, хотя и этот вывод не окончателен). А когда студентам колледжей показали данные из анкет пациентов, где отмечались одновременно болевые симптомы и атмосферное давление, те не только увидели корреляции там, где их не было, но и представили разные интерпретации одних и тех же последовательностей как положительно или отрицательно соотносящихся.

Это подобно ошибке отбора, поскольку одной из причин выявления неверной корреляции может быть концентрация на одном сегменте информации. Если вы прогнозируете отрицательное соотношение переменных, легко сосредоточите внимание на небольших сегментах целого, подтверждающих ваш прогноз. И такой случай относится к предвзятости подтверждения: можно сфокусировать внимание на определенных данных, повинуясь сформированным убеждениям. В случае с артритом и погодой люди, возможно, придают слишком большое значение определенным фактам (отбрасывая проявившиеся симптомы при хорошей погоде и придавая особое значение таким же при плохой) или видят доказательства там, где их нет (по-разному отмечают заболевание в зависимости от погоды и от ожидаемой связи того и другого).

 

Как пользоваться корреляциями

Скажем, мы действительно обнаружили соотношение между сроком представления заявки на грант и его получением. Действительно, чем раньше подана заявка, тем выше она будет оценена, поэтому коэффициент корреляции здесь и вправду будет равен единице. Значит, можно безошибочно предсказать, что некто получит грант, если подаст заявку за неделю, да?

Именно на это рассчитывают многие ретейлеры, пытаясь выявить индикаторы, которые спрогнозируют поведение покупателей. Реклама компании Target не сходила с газетных полос, когда ее представители заявили, что «узнали» о беременности девочки-подростка раньше, чем ее семья. Разумеется, в Target на самом деле понятия не имели об этом; просто воспользовались огромным пулом сведений, собранных от других покупателей (и из других источников), чтобы выяснить, какие факторы коррелируют с разными стадиями беременности. На основе приличного объема наблюдений компания смогла, например, выяснить, что покупка либо лосьона, либо ватных шариков сама по себе не значимый факт, но беременные женщины часто выбирают оба эти предмета вместе с определенными витаминными добавками. Имея достаточно данных о покупательных паттернах и соответствующих сроках (это можно выяснить из записей о рождениях или спрогнозировать на основе информации о приобретении тестов на беременность), компания может определить вероятность беременности покупательницы и даже оценить, на каком она сроке. Даже если просто знать, что девушка приобрела два теста один за другим, это позволит сделать вывод, что первый оказался положительным.

Корреляции используют, например, Amazon, Netflix и LinkedIn, предлагая дополнительные товары, фильмы, которые могут вам понравиться, или потенциальные контакты.

Netflix, к примеру, может найти людей, которым нравятся те же фильмы, что и вам, и предложить вам киноленты, на которые эти люди дали хорошие отзывы. Именно это позволило ученым повторно идентифицировать людей в деидентифицированном наборе данных Netflix, воспользовавшись информацией из другого источника – IMDb, . Алгоритмы вообще-то сложнее, чем те, о которых мы рассказали, но основная идея именно такова. Правда, эти компании не обязательно волнуют причины, по которым вы совершаете некие действия. Netflix может порекомендовать достаточно фильмов, которые вам понравятся, не потрудившись выяснить, что после напряженного дня вы смотрите только сериалы.

Есть, однако, немало примеров, когда предсказания, основанные на корреляциях, не оправдываются – даже если не уточнять, соответствуют ли соотношения причинным зависимостям. Одна из опасностей в том, что для любой корреляции между двумя переменными можно с большой вероятностью придумать ситуацию, когда такая взаимосвязь возникнет, а это ведет к ложной вере в результат.

Известен пример из области анализа данных, когда сведения о продажах в бакалейном магазине помогли выяснить, что люди часто покупают пиво и подгузники одновременно. Так возник миф, что мужчины, которые накануне выходных запасаются подгузниками, обязательно купят хоть немного пива в качестве награды за поход в магазин. Но, вернувшись в 2002 году к истокам этого случая, Дэниел Пауэр обнаружил, что изначальная корреляция ничего не говорила о гендерной принадлежности покупателей или в какой день недели совершались покупки. К тому же никогда не предпринимались попытки использовать ее для повышения прибыли – передвинув товары на полке магазина ближе друг к другу. Купленными товарами могли с тем же успехом оказаться попкорн и бумажные салфетки (для вечера перед телевизором) или яйца и таблетки от головной боли (для лечения похмелья).

Скажем, Amazon обнаружил сильную корреляцию между покупкой дисков с сериями телешоу, где действие происходит в колледже, и приобретением учебников для подготовки к экзамену по углубленной программе. Ясно, что продажи обоих товаров обеспечивают американские тинейджеры, но Amazon вполне может этого не выяснять, если единственная задача – дать рекомендации той же группе покупателей, на базе которой собирались маркетинговые данные. Если, однако, компания будет рекомендовать учебники покупателям из других стран, это не обеспечит вала продаж, поскольку такие экзамены сдают в основном ученики из США.

Итак, даже если корреляция истинна и надежна, она может оказаться бесполезной для прогнозирования, если мы попытаемся перенести ее на другую группу населения, не обладающую нужными свойствами для срабатывания взаимосвязи (подробнее об этом в ). Корреляция ничего не говорит о том, почему эти предметы взаимосвязаны, то есть почему покупатели – именно конкретные подростки 16–17 лет, которые готовятся к экзаменам по углубленной программе, а также любят телешоу с персонажами такого же возраста. Значит, ее трудно применять для прогнозирования в других ситуациях.

Мы привели весьма однозначный пример, однако были и другие, с менее четким механизмом действия. В 1978 году спортивный журналист в шутку предложил новый индикатор фондового рынка: если команда Американской футбольной лиги выигрывает Супербоул, к концу года рынок упадет; если нет – пойдет вверх. Нет никакой специфической причины, по которой между этими событиями должна быть связь, но, если взять все возможные индикаторы поведения рынка, именно этот работает достаточно часто, убеждая некритично настроенную аудиторию. И все же без понимания того, почему это срабатывает, мы никогда не сумеем предсказать, в какие годы конкретный паттерн даст сбой. Может ведь оказаться, что с того момента, как этот индикатор получил широкую известность, знание о корреляции (пусть и безосновательно возведенной в ранг достоверных) влияет на поведение.

Аналогичные сомнения возникают, когда нужно использовать данные наблюдений (например, поисковые результаты в интернете или посты в соцсетях) для выявления трендов. Простое знание о том, что люди этим занимаются, приводит к изменениям в пользовательском поведении (возможно, благодаря освещению в СМИ), а также к злонамеренным азартным играм в системе.

Итак, хотя корреляции способны быть полезными для прогнозирования, прогнозы могут оказаться неверными, а измеренная корреляция – ложной.

 

Почему корреляция не причинно-следственная связь

Когда я читала лекцию о причинном осмыслении, один студент задал вопрос: «Разве Юм не утверждал, что причинность – всего лишь корреляция?»

И да, и нет. Да, причинно-следственная связь возможна, но мы не можем знать наверняка. А то, что мы способны наблюдать, – по сути, корреляция (или особый вид закономерности). Это, однако, не означает, что причинность представляет взаимосвязь только потому, что мы способны ее наблюдать. Это говорит еще и о том, что в большинстве работ, связанных с выявлением и оценкой причинных зависимостей, разрабатываются способы отличия каузальных корреляций от остальных.

Это можно проделать на основе экспериментов или статистических методов, но дело не только в том, чтобы выявить корреляцию. В этой книге мы проанализируем ситуации, в которых причинно-следственная связь кажется очевидной, но в реальности ее нет. В последующих главах мы также рассмотрим некоторые случаи, когда соотношения возникают без соответствующей причинной зависимости.

Первое – меры корреляции симметричны. Соотношение роста и возраста в точности соответствует зависимости между возрастом и ростом. С другой стороны, причинно-следственная связь может быть асимметрична. Если кофе вызывает бессонницу, это не значит, что бессонница также должна стать причиной потребления кофе, хотя такое может случиться, когда не выспавшийся ночью человек утром вынужден пить больше кофе.

Точно так же любая мера значимости причин (например, условные вероятности) отличается в двух направлениях. Если мы выявили корреляцию, не имея никакой информации о том, какой фактор имеет место в начале, то с равной вероятностью каждый из них может оказаться причиной другого (или будет наличествовать петля обратной связи), а мера взаимосвязи сама по себе не дает представления о различиях между двумя (или тремя) возможностями.

Если мы попытаемся придумать историю причинной взаимосвязи для пары коррелирующих вещей, нам придется, основываясь на базовых знаниях, предположить, какая из них, вероятнее всего, повлечет за собой другую. Например, даже если пол человека связан с риском инсульта, трудно представить, чтобы инсульт определял пол. Но если мы выявили соотношение между набором веса и пассивным образом жизни, никакие данные о том, как коррелируют эти факторы, не скажут о направленности найденной взаимосвязи.

Ошибочные корреляции могут возникать по многим причинам. В случае с СХУ и вирусом XMR соотношение возникло из-за загрязнения экспериментальных образцов. В других ситуациях это мог быть баг в компьютерной программе, ошибки в расшифровке результатов или некорректный анализ данных. Видимая связь может также возникнуть из-за статистических отклонений или простого совпадения, как в примере с фондовым рынком и футболом. Но есть еще одна причина – необъективность. Иногда, если выборка нерепрезентативна, мы можем увидеть корреляцию там, где ее нет. Точно та же проблема приводит к обнаружению соотношения и без причинной зависимости.

Важно понимать, что причинно-следственные связи не единственное, хотя и возможное в ряде случаев, объяснение корреляций. К примеру, мы нашли соотношение в ситуации, когда человек, съевший плотный завтрак, вовремя успевает на работу; однако, вероятно, оба фактора имеют общую причину: человек рано встал, а значит, у него было время хорошо позавтракать, вместо того чтобы в спешке бежать на службу. Выявив корреляцию между двумя переменными, нужно проверить, способен ли подобный неизмеренный фактор (общая причина) объяснить эту взаимосвязь.

В ряде случаев (о которых мы поговорим в ) таким общим фактором оказывается время. Можно обнаружить множество ошибочных корреляций между факторами с устойчивыми по времени тенденциями. К примеру, если количество пользователей интернета всегда увеличивается и национальный долг – тоже, эти факторы будут взаимосвязаны. Но в целом мы ссылаемся на переменную или набор переменных, объясняющих корреляцию. Например, можно задуматься: действительно ли усердное учение обеспечивает лучшие оценки, или более вероятно, что лучшие студенты и усердно учатся, и получают высокие оценки. Возможно, врожденная способность становится общей причиной и оценок, и времени, проведенного за учебниками. Если бы была возможность изменить способность, это могло повлиять и на оценки, и на время обучения, но любое экспериментирование с оценками и усердием в учении не оказало бы никакого воздействия на два других фактора.

Аналогичная причина корреляции без прямой причинной зависимости – промежуточная переменная. Скажем, проживание в городе соотносится с низким индексом массы тела (ИМТ), поскольку горожане больше ходят, чем ездят на машине, и проявляют высокую физическую активность. Таким образом, жизнь в городе косвенно приводит к низкому ИМТ, однако переезд в город и постоянное использование транспорта – плохая стратегия для желающих похудеть. Большую часть времени мы ищем косвенные причины (например, курение вызывает рак легких, а не особые биологические процессы, посредством которых и происходит воздействие), но, если знать механизм (как именно причина производит следствие), можно найти лучшие пути для вмешательства.

Наконец, агрегированные данные могут приводить к странным результатам. В статье за 2012 год в журнале New England Journal of Medicine рассказывалось о поразительном соотношении между количеством шоколада на душу населения и числом Нобелевских лауреатов на 10 000 000 жителей. Коэффициент корреляции составлял 0,791. Этот показатель возрос до 0,862 после исключения статистики по Швеции – стране, давшей гораздо больше лауреатов престижной премии, чем ожидалось, судя по статистике потребления шоколада.

Заметим, однако, что данные о шоколаде и Нобелевских премиях были взяты из различных источников, где каждая страна оценивалась отдельно. Это означает, что на самом деле мы не имеем ни малейшего представления, действительно ли потребители шоколада и лауреаты Нобелевки – представители одной и той же группы. Далее, количество награжденных – лишь малая доля населения, а значит, несколько дополнительных премий могли драматичным образом изменить расчеты. Большинство сообщений об отмеченной корреляции фокусировалось на потенциальном наличии причинной взаимосвязи между потреблением шоколада и получением награды, подавляя заголовками вроде «Шоколад делает нас умнее!»; и «Хотите Нобелевку? Ешьте больше шоколада!». Работа ученых, однако, не поддерживает ни одно из подобных утверждений, и страны с большим числом лауреатов могли просто отметить это событие увеличенным количеством шоколада (не будем забывать, что коэффициент корреляции симметричен).

Более того, мы не способны ничего сказать о том, действительно ли любовь к шоколаду улучшит шансы на победу, если страны будут стимулировать его потребление у своих граждан, или этот продукт – просто индикатор иного фактора, к примеру экономического положения. Если нужны дополнительные причины, чтобы скептически отнестись к этой корреляции, вот еще факт.

Ученые, специально старавшиеся продемонстрировать всю глупость попыток интерпретировать взаимосвязь как причинно-следственную без дальнейших исследований, обнаружили статистически значимое соотношение между популяцией аистов и уровнем рождаемости.

Да, к исследованию про шоколад можно отнестись с юмором. Но подобный вид агрегированных данных часто используется для установления корреляции среди населения, и, по всем указанным причинам, эти данные особенно сложно использовать. Сведения за большой временной интервал несколько упростят задачу (например, росло ли потребление шоколада перед присуждением премий), но все равно придется учитывать разнообразные события, которые могут быть поводом для изменений (например, внезапный рост потребления шоколада и одновременная смена образовательной политики). Кроме того, Нобелевские премии часто присуждаются гораздо позже, чем случаются соответствующие события. Может найтись огромное количество иных условий, которые сформируют аналогичные корреляции. Если говорить об этом исследовании, «анализ по горячим следам» выявил еще одну забавную связь – между Нобелевскими премиями и молоком.

 

Множественные сравнения и p-значения

Участника исследования помещают в аппарат МРТ и показывают фотографии различных социальных ситуаций. Он должен определить эмоции, которые выражает человек на каждом кадре. С помощью МРТ ученые измеряют ток крови в локальных областях мозга и часто пользуются этим измерением как показателем мозговой активности, чтобы определить, какие области мозга задействованы в решении различного рода задач. Итоговые цветные изображения отражают, в каких областях наблюдается усиленный кровоток: именно это имеют в виду авторы статей, говоря, что некая область мозга «светится», реагируя на определенный стимул. Выявление активируемых областей помогает понять взаимосвязи в мозге.

Исследование обнаружило, что некоторые области мозга участника эксперимента демонстрировали статистически значимые изменения тока крови. Действительно, при том, что значение 0,05 часто используется как пороговое для p-измерений (меньшие показания более значимы), уровень активности, ассоциированный с одной областью, имел p-значение 0,001.

Может ли эта область мозга быть связана с представлением эмоций других существ («принятие перспективы»)?

Если учесть, что объектом исследования был пойманный лосось, это кажется невероятным.

Так как же дохлая рыбина могла реагировать на визуальный стимул?

Результаты могли бы считаться высокозначимыми с учетом любых обычных пороговых значений, поэтому дело не в попытке преувеличить их важность. Чтобы понять, откуда они вообще могли взяться, сделаем небольшое отступление статистического характера.

Исследователи часто надеются определить, имеет ли некий эффект значимость (корреляция истинна, или это результат статистического отклонения), либо просто есть различие между двумя группами (активны ли разные области мозга, когда люди смотрят на людей или на животных). Но, чтобы объективно определить, какие выводы важны, необходима некая количественная мера. Одна из общепринятых мер – так называемое p-значение, которое используется для сравнения двух гипотез (нулевой и альтернативной).

P-значение показывает вероятность результата, который как минимум столь же нехарактерен, как и наблюдаемый, при условии истинности нулевой гипотезы.

Для наших целей такие гипотезы могут заключаться в следующем: между двумя вещами существует причинная зависимость (нулевая гипотеза) или нет (альтернативная гипотеза).

Еще одна нулевая гипотеза: монета симметрична (альтернативная гипотеза – монета со смещением). P-значения часто интерпретируются неверно – как вероятность того, что нулевая гипотеза истинна. Хотя обычно используется пороговое значение 0,05, нет никакого закона, по которому результаты с p-значениями меньше 0,05 значимы, а больше 0,05 – нет. Это просто договоренность, и показатель 0,05 редко вызывает возражения у других ученых. Условные знания не соответствуют понятиям «истинно-ложно», поскольку незначимые результаты могут иметь очень маленькие p-показатели, а значимый результат иногда не достигает критического уровня.

Фильм «Розенкранц и Гильденстерн мертвы» начинается с эпизода, в котором герои бросают найденную монетку – и оказываются в полной растерянности, когда она 157 раз падает орлом вверх. Вероятность того, что монетка упадет орлом вверх 157 раз подряд, действительно крайне мала (1: 2157, если быть точными), и единственный равно экстремальный результат для 157 бросков – это все решки. То, что наблюдали Розенкранц и Гильденстерн, в самом деле имело очень низкое p-значение. Но это не означает, что обязательно происходило нечто странное – только то, что подобный результат невероятен для симметричной монеты.

Для менее экстремального случая, скажем, мы подбросим монету 10 раз, и выпадут 9 орлов и 1 решка.

P-значение такого результата (здесь нулевая гипотеза – что монета симметрична, а альтернативная – что она смещена в любом направлении) – это вероятность тех самых 9 орлов и 1 решки + вероятность 9 решек и 1 орла + вероятность 10 орлов + вероятность 10 решек. Причина, по которой сюда включены две серии со всеми орлами и всеми решками, в том, что мы рассчитываем вероятность события как минимум такого же экстремального, как и наблюдаемое, а эти серии – самые экстремальные. Наша альтернативная гипотеза – смещение монеты в любом направлении, а не просто в сторону орлов или решек; вот почему мы включили длинные серии решек.

На рис. 3.6 представлены гистограммы для орлов в серии из 10 бросков по 10 монет. Если бы результатом для каждой монеты было в точности 5 орлов и 5 решек, каждый график представлял бы одну черту длиной 10 пунктов с центром на отметке 5. Но в реальности случаются и большие, и меньшие значения, и даже одна серия из всех решек (показанная маленькой чертой, которая пересекает один график справа налево).

Рис. 3.6. Каждая гистограмма представляет эксперимент, где 10 монет подбрасывают 10 раз. Каждая серия из 10 монет образует точку данных на графике в зависимости от количества орлов. Показано 8 примерных экспериментов

Такое событие все равно невероятно при наличии одной симметричной монеты; но что будет, если мы подбросим 100 монет? Увеличивая число экспериментов, мы создаем больше возможностей, чтобы некое по видимости аномальное событие произошло случайно. К примеру, вероятность того, что конкретный человек выиграет в лотерею, на самом деле мала; но, если играют достаточно людей, можно гарантировать, что кто-нибудь победит. На рис. 3.7 показана такая же гистограмма, но уже для 100 монет. Действительно, будет странно, если мы не увидим как минимум одной серии из 9 или более орлов или решек, когда бросают так много монет (или лотерею, где не будет победителей, если шансы 1: 1 000 000, а играют 100 000 000 человек).

Рис. 3.7. Результаты подбрасывания 100 монет по 10 раз для каждой. Показано 4 эксперимента

Именно проблема одновременного проведения многочисленных тестов и оказалась во главе угла исследования МРТ, с рассказа о котором мы начали разговор. Проверке подверглись тысячи малых областей мозга (а в исследованиях на людях их еще больше, потому что человеческий мозг включает множество областей), поэтому совсем неудивительно, что одна из них продемонстрировала значительный кровоток. Проблемы такого вида именуются проверкой многомерной гипотезы, что означает одновременную проверку большого количества гипотез. Вопрос становится еще более существенным с появлением нового метода, генерирующего громадные наборы информации (например, множества МРТ и экспрессии генов) с так называемыми большими данными. Ранее было возможно в рамках одного эксперимента проверить только одну гипотезу, теперь же, когда мы способны анализировать тысячи переменных, неудивительно, что между ними обнаруживаются корреляции в силу количества проведенных тестов.

В эксперименте с лососем ученые протестировали тысячи гипотез, и каждая утверждала, что некая область мозга проявит значительную активность.

В действительности же исследование доказало: все эти тесты могут дать кажущиеся значимыми результаты по чистой случайности. Было показано, что при использовании статистических методов, корректных для множества сравнений (фактически каждый тест требует более жесткого порогового показателя), значимой активности выявлено не было даже при очень нежестких порогах p-значений.

Важная вещь, которую стоит запомнить: читая отчет о некой необходимой находке, которая была взята из громадного набора одновременных тестов, обязательно обращайте внимание на то, как авторы решают проблему множественного сравнения. Статистики расходятся во мнении, как именно (и когда) корректировать этот фактор, но все дебаты в целом сводятся к тому, какой тип ошибки хуже. Корректируя множество сравнений, мы, по сути, заявляем о желании снизить количество ложных открытий и готовы мириться с возможностью пропустить из-за этого некие значимые находки (и генерировать ложноотрицательные результаты). С другой стороны, выступая против поправок, заявляем о нежелании упускать истинно положительные результаты за счет нескольких ложных открытий.

Между этими двумя типами ошибок всегда идет поиск компромисса, а предпочтения зависят от индивидуальных целей. Возможно, для эксплораторного анализа, где поиск ведется экспериментальным образом до получения конечного результата, мы считаем нужным, образно говоря, раскинуть обширную сеть. С другой стороны, если мы стараемся отобрать узкоцелевую группу кандидатов для разработки дорогостоящего препарата, каждое ложное умозаключение способно привести к массе впустую потраченного времени и средств.

 

Причинность без корреляции

Мы часто спорим, почему корреляция может не иметь причинного характера, но важно признать, что также могут существовать истинные причинные взаимосвязи без видимого соотношения. То есть корреляцию нельзя считать демонстрацией причинности, и выявление взаимосвязи также не необходимое условие причинности.

Известен пример, именуемый парадоксом Симпсона (мы поговорим о нем в ). В общем, даже если в рамках неких подгрупп есть взаимосвязь (скажем, тестируемый препарат в сравнении с известным лекарством улучшает результаты у некой группы населения), мы можем не обнаружить зависимости или найти, но обратную, если подгруппы объединить. Если новый препарат больше используют пациенты в наиболее тяжелом состоянии, а те, кто чувствует себя лучше, чаще получают обычное лекарство, то, если не принимать во внимание серьезность заболевания, может показаться, что тестовое лекарство приводит к худшим результатам для населения.

В качестве еще одного примера причинности без корреляции рассмотрим влияние длительных пробежек на вес. Да, пробежки могут снижать вес за счет траты калорий, но бег также приводит к повышению аппетита, что, в свою очередь, ведет к увеличению веса (и, таким образом, отрицательно влияет на его потерю). В зависимости от силы каждого конкретного воздействия или исследуемых данных положительный эффект пробежек может полностью нивелироваться отрицательным, а значит, между бегом и потерей веса соотношения не будет. Структура этого примера представлена на рис. 3.8. Причина обладает положительными и отрицательными воздействиями, которые осуществляются различными путями; вот почему мы можем либо не наблюдать корреляции вообще, либо наблюдать нечто близкое к ней (вспомним: любые меры не абсолютны).

Рис. 3.8. Набор положительных (стрелка вверх) и отрицательных (стрелка вниз) причинных зависимостей. В разных группах населения они могут нивелироваться

Мы уже рассмотрели причины, по которым невозможно обнаружить существующую корреляцию (например, ошибка отбора, недостаточная вариация, предвзятость подтверждения, нелинейные зависимости и т. д.), и часто можно услышать, что соотношение не обязательно предполагает причинность. Но важно помнить об обратном: причинно-следственная связь не всегда подразумевает корреляцию.

 

4. Время. Как время влияет на способность причинного восприятия и осмысления

 

В выборочном контролируемом эксперименте (2001) проверялось, могут ли молитвы улучшить здоровье пациентов, например сократить время их пребывания в больнице. В двойном слепом исследовании (ни врачи, ни пациенты не знали, кто в какой группе) принимали участие 3393 взрослых больных с инфекциями кровотока, примерно половина из которых была отнесена к контрольной группе, а вторая половина – к группе «молитвенного вмешательства». По итогам и показатель времени пребывания в больнице, и показатель лихорадочного состояния в группе вмешательства снизились, причем со статистически значимым различием (p-значения равнялись 0,01 и 0,04).

Но, если подобное вмешательство столь эффективно, почему его практикуют не во всех больницах?

Одна причина в том, что участники исследования находились в больнице с 1990 по 1996 год, то есть молебны за их выздоровление устраивались задолго до того, как были зарегистрированы сроки пребывания и результаты. Действительно, молитвы были мерой не только ретроактивной, но также и дистанционной, читались в разных местах и в разное время людьми, которые не были в контакте с пациентами.

Причина, влиявшая на нечто в прошлом, целиком противоречит нашему пониманию причинности. Мы считаем, что причины предшествуют следствиям (если только не приближены по времени), и существует убедительная физическая зависимость, связывающая причину и следствие. И все же эксперимент проводился согласно обычным стандартам выборочных экспериментов (например, двойным слепым методом), а результаты оказались статистически значимыми в соответствии с общепринятыми критериями.

Статья об этом эксперименте вызвала вал писем на адрес редактора. В его издании обсуждались философские и религиозные соображения, и вопросы веры были не главными. На самом деле исследование требовало от читателей ответа на вопрос: смогли бы они принять результаты, серьезно противоречащие их устоявшимся верованиям, если бы стандарты испытания соответствовали их пониманию методологической разумности и статистической значимости.

Можете представить эксперимент, который уверит вас, что причина способна вызвать нечто, уже случившееся в прошлом? Даже если такой опыт кажется разумным, мы вряд ли поверим, что причиной стало произведенное вмешательство, поскольку это противоречит нашему пониманию временного паттерна причин и следствий. Если вы прежде слабо верили в некую гипотезу, возможно, ни один эксперимент не сможет значимым образом поменять ваши верования.

В причинности порядок событий оказывается центральным, да и мы сами прекрасно чувствуем, что между причиной и следствием должно пройти определенное время. К примеру, если вы смотрите фильм вместе с другом, который болен гриппом, и сами заболеваете через три месяца, вы вряд ли скажете, что это друг вас заразил. Но, если вы верите, что контакт с больным вызывает болезнь, почему бы не поставить грипп в вину другу? Дело не просто в подверженности болезнетворному вирусу, а скорее в том, что эта расположенность не способна моментально вызвать симптомы вируса из-за инкубационного периода, и на нее нельзя возлагать вину за заболевание гриппом в нескором будущем. Действительно, временной коридор, когда контакт приводит к болезни, очень уж узкий, и можно использовать это знание, чтобы ограничить диапазон контактов, вызывавших конкретный исход.

* * *

Именно время часто позволяет провести различие между причиной и следствием (болезнь, предшествующая потере веса, говорит о том, что похудение не могло ее спровоцировать), делает вмешательство эффективнее (некоторые лекарства необходимо принимать после контакта с вирусом) и помогает предсказывать события (знать, когда цены на акции пойдут вверх, намного полезнее, чем знать, что это случится в неопределенном будущем). Но время тоже способно вводить в заблуждение: мы можем обнаружить корреляции между несвязанными временными рядами со схожими трендами, можем оказаться не способны выяснить причину для запаздывающих следствий (например, между воздействием окружающей среды и состоянием здоровья), а между несвязанными событиями ошибочно установить связь, если одно из них предшествует другому (изготовители зонтиков, которые открыли свой магазин до сезона дождей, разумеется, не стали его причиной).

 

Восприятие причинности

Каким образом мы можем от корреляции, скажем, между физическими упражнениями и потерей веса прийти к логическому выводу, что это упражнения вызывают потерю веса, а не наоборот?

Корреляция – это симметричная взаимосвязь (соотношение роста и возраста в точности такое же, как и между возрастом и ростом). А вот причинные взаимосвязи асимметричны (жаркая погода может заставить спортсмена бежать медленнее, но сам факт бега не вызывает климатических изменений). Мы можем полагаться на базовое знание (скорость бегуна никак не влияет на погоду), но один из ключевых сегментов информации, позволяющих перейти от корреляций к гипотезам, – это время.

Юм решил проблему асимметрии, утверждая, что причина и следствие не могут происходить одновременно и что причина – более ранний эпизод. Итак, если мы наблюдаем устойчивый паттерн событий, может иметь место только одна ситуация, а именно: предыдущее отвечает за последующее. Но философские труды Юма были в основном теоретическими, и, хотя с точки зрения интуиции верно утверждение, что наше восприятие причинности зависит от приоритета по времени, это не значит, что всегда будет иметь место именно такая ситуация.

Если вы наблюдаете, как один бильярдный шар движется по направлению к другому, ударяет по нему и второй устремляется вперед, вы справедливо верите, что первый шар вызвал движение второго. С другой стороны, если бы отмечалась длительная задержка, прежде чем второй шар пришел в движение, или первый остановился бы, не коснувшись второго, вы бы, возможно, не так решительно утверждали, что движение стало результатом воздействия первого шара.

Правда ли, что тайминг событий определяет восприятие причинности, или же это впечатление зависит от пространственного расположения?

Чтобы разобраться, прибегнем к помощи знакомого нам психолога Альберта Мишотта. В 1940-е годы он попытался разобраться, как время и пространство влияют на наше восприятие причинности. Типичный эксперимент выглядел так: участникам показывали на экране две движущиеся фигуры и просили описать увиденное. Варьируя различные свойства движения (например, фигуры соприкасались, двигаясь одна за другой), ученый пытался выяснить влияние этих свойств на каузальные впечатления участников.

Труды Мишотта, как считается, заложили основу исследований по восприятию причинности, хотя его методы и задокументированные результаты не лишены некоторых противоречий. Не всегда ясно, сколько в каждом эксперименте было участников, как они отбирались, каковы их демографические характеристики и какие точно реакции наблюдались. Нет сведений, каковы были точные реакции и по какому принципу они квалифицировались как причинные или нет. Согласно Мишотту, многие из участников были его коллегами, сотрудниками и учениками, а это делает их более осознанными по сравнению с основной массой населения. Хотя труды ученого заложили значимую основу будущих экспериментов, стоило их повторить и провести дальнейшие исследования.

В экспериментах Мишотта, где две фигурки двигались на экране, при этом ни одна не начинала движение раньше и не касалась другой (как на рис. 4.1 (а)), участники, как правило, не описывали движение в терминах причинности. С другой стороны, когда одна фигура двигалась навстречу другой, а вторая трогалась после контакта с первой (как на рис. 4.1 (б)), участники часто заявляли, что причиной движения второй фигуры становилась первая, при этом использовали язык каузальности (например, толчок и запуск). Даже когда сценки просто изображают движущиеся фигуры, без реальной причинной взаимосвязи между траекториями, люди все равно склонны интерпретировать и описывать движение в терминах причинности. Такой феномен, когда наблюдатели описывают движение второй фигуры как вызванное первой, которая действует пусковым средством, называется эффектом запуска.

Рис. 4.1. На картинках представлен ряд экспериментов Мишотта с разными типами движения фигур. Стрелки показывают факт (и направление) движения фигур

Пространственный разрыв между фигурами (как на рис. 4.1 (в)) не устранял впечатления причинно-следственной связи. То есть если порядок событий оставался неизменным и один кружок двигался за другим, останавливался, не коснувшись его, а второй кружок начинал двигаться сразу после остановки первого, участники все равно описывали это каузальным языком.

Похоже, в некоторых случаях предшествование во времени оказывается важнее пространственной смежности, однако это может зависеть от характеристик проблемы и точного расстояния.

На основе опубликованных описаний нельзя в точности воспроизвести оригинальную методологию, но другие труды подтверждают существование эффекта запуска. Его распространенность, однако, оказалась ниже, чем у Мишотта: всего от 64 до 87 % наблюдателей описывают движение как каузальное, впервые его увидев.

Теперь представим, что один шар катится к другому. Первый останавливается, как только коснется второго, и после некоторой паузы второй шар начинается катиться в том же направлении, что и первый. Можно ли утверждать, что первый шар – причина движения второго?

Имеет ли значение время запаздывания в 1 или 10 секунд? Юм утверждал, что смежность в пространстве и времени существенна для вывода о взаимозависимости, однако мы не всегда наблюдаем каждое из звеньев в причинной цепи. Чтобы изучить действие эффекта запаздывания на восприятие каузальности, Мишотт создал сценки вроде наблюдаемых с двумя шарами, с паузой между окончанием движения первой фигуры и началом движения второй, как на рис. 4.1 (г). Он обнаружил, что, несмотря на пространственную смежность (фигуры не соприкасались), запаздывание движения уничтожало всяческое восприятие причинности.

Помимо проблем с профессиональным уровнем участников (и их осведомленностью об экспериментах и о гипотезах Мишотта), одно из ограничений экспериментов заключается в том, что участники только описывают поведение фигур на экране, а не пытаются выявить свойства системы, взаимодействуя с ней. Попробуйте подумать об этом как о различии между ситуациями, когда вы видите, как некто нажимает кнопку вызова лифта, и просто наблюдаете за его прибытием и когда можете сами нажимать кнопку с любыми выбранными вами интервалами по времени.

Труды Мишотта доказали, что люди при определенных обстоятельствах описывают сценки в терминах каузальности. Но что именно происходит в физической системе, когда участник может контролировать проявление причины?

Взяв за основу работы Мишотта, Шэнкс, Пирсон и Дикинсон (1989) провели капитальное исследование, задачей которого было установить, как фактор времени формирует суждения о каузальности. В отличие от Мишотта, система здесь была инструментом, с которым взаимодействовали участники. Нажатие пробела на клавиатуре вызывало появление на дисплее мигающего треугольника, и участники должны были определить степень, с которой нажатие клавиши становилось причиной появления фигуры.

Исследователи обнаружили, что при интервале запаздывания от 0 до 2 секунд между нажатием клавиши и появлением треугольника участники считали маловероятным, что клавиша вызывала визуальный эффект. При интервале запаздывания от 0 до 16 секунд было обнаружено, что фактор причинности снижался по мере увеличения задержки между действием и его следствием.

* * *

Имея дело с физическими объектами, мы вполне обоснованно подозреваем, что один не заставляет двигаться другой, если есть длительная задержка от контакта между объектами до начала движения. Но в иных случаях нельзя ожидать немедленного эффекта. Воздействие патогенного вируса не сразу вызывает болезнь; требуются годы, чтобы политика властей дала измеримый результат; похудение за счет физических упражнений – процесс постепенный. И то, что, согласно результатам экспериментов, запаздывание всегда снижает восприятие причинности или приводит к ложным умозаключениям, представляет некоторую проблему.

Недавние исследования обнаружили, что, хотя запаздывание мешает корректно судить о каузальности, суждения частично могут зависеть от ожидаемого временного паттерна. Десятиминутная задержка между ударом по мячу для гольфа и началом его движения серьезно противоречит нашим знаниям физики; но интервал в 10 лет между воздействием канцерогенного фактора и развитием рака нельзя назвать неожиданностью.

Значимость времени запаздывания может частично зависеть от того, что уже известно о проблеме и ходе развития событий, по нашему мнению. Во многих из упомянутых психологических экспериментов подготовленные сценарии заставляют вспомнить о знакомых ситуациях, в которых ожидается немедленный эффект. К примеру, движущиеся кружки Мишотта обозначают шары (и ожидается, что один из них, ударяя по другому, должен немедленно заставить его катиться, а запаздывание будет ситуацией необычной), а в экспериментах Шэнкса с коллегами использовалась клавиатура (где ожидается, что нажатие клавиши вызовет быстрый ответ). С другой стороны, если участникам предлагался определенный сценарий (например, оценить, был ли рак легких вызван курением, на основе данных о курении конкретного лица и диагностике рака), они могли обнаружить, что если между фактом курения и постановкой диагноза прошла всего неделя, такая ситуация совершенно неправдоподобна, поскольку курение не может вызвать заболевание за такой короткий срок.

Чтобы изучить эту проблему, Бюхнер и Май (2003) провели такое же исследование, как Шэнкс и его коллеги, за одним исключением: они манипулировали ожиданиями участников, изначально сообщая, что между нажатием клавиши и высвечиванием треугольника может быть задержка. Сравнение результатов двух групп, из которых только одна получила сведения о возможном запаздывании, показало: хотя последнее всегда снижало восприятие действенности причины, предоставление информации нивелировало эффект.

Порядок экспериментов (какой эффект отмечался сначала – запаздывание или смежность) также серьезно влиял на результаты. То есть если участники вначале наблюдали задержку, выводы о вероятности причинно-следственной связи делались чаще, чем если сперва демонстрировалась смежность. Подобные следствия эксперимента говорят в пользу идеи о том, что на суждения влияет не просто порядок событий или длительность отставания, но и имеющееся знание.

Участники экспериментов Мишотта наблюдали, как на экране двигаются кружки, но интерпретировали их как физические объекты, перенося на них собственные ожидания по передаче импульса.

Базовая информация ограничивала влияние запаздывания на вывод о причинно-следственной связи в исследованиях Бюхнера и Мая, но этот эффект, как ни удивительно, все равно не исчезал полностью, даже если участники знали о задержке. Полученные результаты можно объяснить, например, тем, что экспериментальный сценарий так или иначе предусматривал нажатие клавиши и появление эффекта. Возможно, устойчивые сформированные ожидания относительно того, как быстро компьютер обрабатывает ввод данных с клавиатуры, не устранила даже полученная инструкция. Участники все равно действовали на основе имеющегося опыта о временном паттерне нажатия клавиш и ответных реакций, даже если руководство утверждало иное.

Позднее, воспользовавшись историей об обычной и энергосберегающей лампочках (когда участники наблюдали, с какой задержкой они загорались), команда исследователей смогла устранить негативное влияние отставания во времени на силу каузальных суждений. Так, группа, получившая инструкции, демонстрировала те же средние рейтинги причинности, независимо от факта запаздывания.

* * *

В каждом из сценариев факт запаздывания уже не оказывал отрицательного воздействия на вывод о причинности, но участники по-прежнему считали мгновенные эффекты каузальными, даже если это не поддерживалось полученной информацией.

Трудно спланировать эксперимент, где участники имели бы очень сильные ожидания относительно интервала запаздывания, которые при этом соответствовали бы их базовому знанию о работе тех или иных вещей. В позднейших опытах использовалась доска, установленная под углом. На ее верх ставили шарик, который катился вниз, исчезая из виду, и активировал внизу маленький выключатель. Угол наклона доски можно было менять. При вертикальном ее положении долгая задержка между началом движения шарика и включением света кажется невероятной; если доска почти горизонтальна – возможной. Здесь наблюдается сходство с механизмами быстрого и замедленного действия, как в психологических экспериментах (см. ).

Используя этот сценарий, Бюхнер и Макгрегор (2006) показали, что в ряде случаев немедленное следствие снижает вероятность причины. Согласно большинству ранних исследований, запаздывания затрудняют поиск причин или в лучшем случае не влияют на логические заключения. Но ученым удалось показать, что иногда задержки способствуют выявлению причин (при малом отставании и низком столике, стоящем под уклоном, вероятность каузальных выводов снижалась). Эти результаты очень важны, поскольку доказали: запаздывание не всегда мешает выводам о причинности или делает причину менее правдоподобной. Напротив, главное, как наблюдаемый временной паттерн соотносится с нашими ожиданиями.

Заметим, что эти эксперименты отвечали на единственный вопрос: в какой степени нажатие клавиши становится причиной визуального следствия (действительно ли шарик включает свет), а не различение между многочисленными возможными причинами. В целом нужно не только оценить, с какой вероятностью конкретное событие оказывается поводом для исхода, но и сформулировать гипотезу о факторах, которые становятся причинами. Если вы, к примеру, получили пищевое отравление, то вам нужно не просто оценить, мог ли его спровоцировать отдельный продукт. Чтобы определить «виновника», вы проанализируете все, что употребляли в пищу. И время становится важным фактором, ведь под подозрение попадут блюда, которые вы ели совсем недавно, а не на прошлой неделе.

В некоторых психологических трудах представлены свидетельства подобного типа мышления, а именно: когда нет информации о причинно-следственных связях, сведения о временных паттернах могут перевесить другие возможности (к примеру, как часто события происходят одновременно). Однако это часто приводит к некорректным выводам. При пищевом отравлении вы можете ошибочно возложить вину на продукт, который съели последним, исходя только из временного паттерна и игнорируя другую информацию (например, какие рестораны или еда чаще всего ассоциируются с отравлениями).

Согласно Лагнадо и Сломэну (2006), даже когда участникам эксперимента сообщали о возможных задержках по времени, из-за чего порядок наблюдений мог оказаться недостоверным, они часто делали неверные заключения о причинных связях. То есть при определении взаимозависимостей они по-прежнему полагались на временной фактор, даже если он вступал в противоречие с данными о частоте одновременности событий.

А теперь представим, что вы щелкаете переключателем. Вы не знаете, чем он управляет, поэтому щелкаете несколько раз. Иногда свет зажигается сразу же, а иногда – с задержкой. Порой запаздывание составляет 1 минуту, а порой – 5 минут. Действительно ли кнопка становится причиной включения света?

Это похоже на ситуацию, когда вы нажимаете кнопку на пешеходном переходе: при этом не похоже, что сигнал светофора меняется быстрее. Причина, по которой сложно определить наличие каузальной взаимосвязи, состоит в том, что задержка между нажатием кнопки и сменой сигнала светофора сильно варьируется. Эксперименты со сменой последовательности запаздываний показали, что статичные отставания между причиной и следствием (например, треугольник всегда появляется на экране точно через 4 секунды после нажатия клавиши или отставание варьируется от 2 до 6 секунд) повышают вероятность определения причинной связи, а усиление изменчивости задержек ее понижает.

Как подсказывает интуиция, если запаздывание остается в узком диапазоне средних значений, довольно правдоподобно, что небольшие вариации других факторов или даже отставание наблюдения способны это объяснить. С другой стороны, при сильной изменчивости временного паттерна может существовать более одного механизма, посредством которого причина вызывает следствие. Например, если побочные эффекты лекарства проявляются в интервале от 1 дня до 10 лет после его приема, то с большей достоверностью присутствует иной фактор, влияющий на временной паттерн, – ускорение или задержка следствия. Это называется смешанным следствием.

 

Направленность времени

Скажем, подруга утверждает, что новое лекарство помогло ей справиться с аллергией. Если она убедительно расскажет, как препарат помог остановить выделения из носа, что вы подумаете о последовательности таких событий, как прием таблеток и прекращение симптомов аллергии? На основании этой взаимосвязи вы, вероятно, решите, что сначала подруга приняла лекарство, а затем проблема была устранена. Действительно, временной паттерн помогает обнаружить причины, а тесная связь между ними также заставляет делать вывод о времени из каузальных зависимостей. Ряд исследований показал, что знание о причинах может влиять на наше восприятие временного интервала между двумя событиями и даже их последовательности.

Одна из проблем заключается в том, что два события могут казаться происходящими одновременно лишь в силу детальности измерений или нашей ограниченной наблюдательности. Например, в микроматричном анализе одномоментно измеряется деятельность тысяч генов, причем уровни такой активности обычно замеряются регулярно, скажем, раз в час. При анализе данных может показаться, что два гена показывают одинаковый паттерн активности (бывают одновременно сверхэкспрессированы и неэкспрессированы), даже если один из них, с повышенным уровнем экспрессии, вызывает аналогичное состояние у другого. И все-таки, не видя последовательности событий и не имея базового знания, согласно которому один ген обязательно проявляется в действии прежде второго, все, что можно утверждать, – это что их уровни экспрессии коррелируют, а не что один регулирует действие другого.

Точно так же в медицинские карты пациентов сведения не заносятся ежедневно: скорее, они формируют серию временных точек с нерегулярными пространственными промежутками (данные регистрируются, только когда люди обращаются за врачебной помощью). Таким образом, видно, что в некую конкретную дату пациент принимает лекарство, которое проявляет побочные эффекты; однако мы знаем только, что оба эти фактора присутствуют, но не можем быть уверены, что пациент сначала принял лекарство и именно оно стало потенциальной причиной побочного эффекта. В долгосрочных когортных исследованиях опрос отдельных лиц может проводиться всего раз в год. Таким образом, если окружающие условия или иные факторы оказывают влияние на более коротком временном горизонте, подобная последовательность ими не охватывается (а значит, события могут оцениваться объективно). Во многих случаях любое событие может наступить первым с высокой правдоподобностью, и их совместное наступление не обязательно предполагает определенное направление причинности.

Самый вопиющий случай – если информации о времени нет совсем: к примеру, при перекрестном исследовании, когда данные собираются в одно время. Так, чтобы определить наличие взаимосвязи между раком и конкретным вирусом, обследовалась случайно выбранная группа населения. Не зная, какой фактор был первым, нельзя разобраться, что оказывается провокатором, если между ними заметна корреляция (вирус вызывает рак или рак повышает подверженность вирусу?), и можно ли говорить о причинности вообще.

Если предположения о направлении причинности делаются на основе предыдущего убеждения о том, что было первым, а не факта, мы можем некорректно увидеть причинно-следственную связь там, где есть только корреляции. К примеру, многие исследователи пытались определить, способны ли такие явления, как ожирение и развод, распространяться в соцсетях за счет социальных связей (например, в результате распространения на других людей эмоциональных состояний и психозов). Без информации о временных паттернах нет способа определить, какое направление достовернее.

Ряд философов, например Ганс Рейхенбах, пытались дать определение причинности в терминах теории вероятности, не используя данные о временных паттернах и стараясь вместо этого вывести направление времени из направления каузальности. Есть и вычислительные методы, в определенных ситуациях способные идентифицировать причинные взаимосвязи на основе временных данных. Но большинство подходов строится на том, что причина предшествует следствию, и именно эта информация используется при ее наличии.

Один из редких примеров действительно одновременного наступления причины и следствия, когда применяемая для измерения временная шкала не имеет значения и мы не можем сказать, что произошло первым, дает физика. Существует так называемый парадокс Эйнштейна – Подольского – Розена (ЭПР), когда две частицы связаны таким образом, что при изменении импульса или положения одной из них эти же свойства другой частицы меняются в полном соответствии с первой.

Парадоксальность ситуации в том, что частицы разделены в пространстве, но изменение все равно происходит моментально, для чего неизбежно должна иметь место каузальная связь в отсутствие пространственной смежности или предшествования по времени (два свойства, которые мы считаем ключевыми). Эйнштейн называл нелокальную причинность «жутким дальнодействием», поскольку каузальные взаимосвязи в космосе требуют, чтобы информация путешествовала со скоростью выше скорости света, в нарушение законов классической физики. Заметим, однако, что этот вопрос вызывает немало дебатов как среди физиков, так и среди философов.

Одна из идей решения ЭПР-парадокса – это обратная причинность (которую иногда именуют ретропричинностью). Она допускает, что причины могут влиять на события прошлого, а не только будущего. Если частица, меняя состояние, послала сигнал другой, связанной с ней частице в некий момент времени в прошлом, чтобы та также изменилась, тогда перемена состояния не требует, чтобы информация передавалась быстрее скорости света (хотя это предполагает некие квантовые «путешествия во времени»). Мы примем за данность, что время течет в одном направлении, и даже если мы не наблюдаем события как последовательные, причина наступает раньше следствия.

 

Когда вещи изменяются со временем

Может ли исчезновение пиратов вызвать повышение температуры в глобальном масштабе? Правда ли, что поедание сыра моцарелла побуждает изучать информационные технологии? В самом деле поставки лимонов в страну снижают количество аварий на дорогах?

На рис. 4.2 (a) показана взаимосвязь между импортом лимонов и количеством погибших в ДТП: чем выше объемы импорта, тем меньше смертельных случаев.

Рис. 4.2. Объемы ввоза лимонов в США (в тоннах) и смертность на дорогах в США [число летальных случаев на 100 человек]: а) как отношение одной переменной к другой и б) как временная функция

Хотя коэффициент корреляции Пирсона для этих данных составляет –0,98, что означает практически абсолютное отрицательное соотношение, никто почему-то до сих пор не предложил увеличить импорт цитрусовых, чтобы снизить количество погибших на дорогах.

А теперь взглянем, что получится на рис. 4.2 (б), если выстроить график данных по импорту и смертельным случаям в виде временной функции. Выходит, импорт со временем неуклонно падает, а смертность за тот же период растет. Данные на рис. 4.2 также представляют динамический ряд в обратном хронологическом порядке. Но мы можем заменить импорт лимонов любым другим динамическим рядом, падающим во времени (долей рынка Internet Explorer; акваторией арктических вод, покрытой льдом; распространением курения в США), и обнаружить точно такую же зависимость.

Причина в том, что подобные временные ряды не стационарны, а это значит, что их свойства – к примеру, средние значения – со временем меняются. Например, дисперсия свойства может модулироваться: средний объем импорта цитрусовых окажется стабильным, а годовые колебания – нет. Спрос на электроэнергию при двух подсчетах в год может проявить нестационарность, поскольку общая потребность будет, вероятнее всего, со временем расти, а тенденции – зависеть от сезонности. С другой стороны, результаты длинных серий подбрасывания монеток считаются стационарными, поскольку вероятность выпадения орлов или решек в каждой временной точке абсолютно одинакова.

Если на длинном временном горизонте наблюдается одинаковый (или абсолютно противоположный) тренд, некоторые ряды будут коррелировать, но это не значит, что один фактор станет причиной другого. Существует и другой метод поиска корреляций без соответствующей каузальной зависимости. Если цена на все акции в определенной группе за конкретный промежуток времени растет, можно обнаружить корреляцию между этими ценами, даже если дневные тренды совершенно отличаются.

В другом примере, который показан на рис. 4.3, количество диагнозов аутизма растет в том же темпе, что и число кофеен Starbucks, поскольку и те и другие показатели растут по экспоненте – но то же справедливо и для многих других временных рядов (ВВП, количество веб-страниц и научных статей). Здесь причинно-следственная связь весьма правдоподобна, но это далеко не всегда так, и можно придумать кучу убедительных историй, объясняя различные корреляции динамических рядов. Если бы я вместо этого взяла, скажем, процент домохозяйств с высокоскоростным интернетом, вряд ли можно было найти убедительные свидетельства взаимосвязи, кроме того, что – уж так случилось – оба фактора растут со временем. Хотя кое-кто мог бы и придумать объяснение их взаимоотношений. Но это всего лишь корреляция, которая легко исчезнет, если мы учтем разную степень детализации данных по времени или сделаем поправку на их нестационарность.

Рис. 4.3. Два нестационарных динамических ряда, которые кажутся коррелирующими только потому, что оба со временем растут по экспоненте

Еще один вид нестационарности – если группа населения, среди которого проводилась выборка, изменяется со временем. В 2013 году Американская кардиологическая ассоциация (American Heart Assosiation, AHA) и Американская коллегия кардиологов (American College of Cardiology, ACC) выпустили новые справочники по борьбе с избытком холестерина вместе с онлайн-калькулятором, чтобы прогнозировать риск инфарктов и инсультов на 10 лет вперед. Однако некоторые исследователи обнаружили, что калькулятор завышает риски на 75–100 %, что может вести к назначению избыточного объема лекарств, потому что рекомендации основаны на уровнях риска для каждого пациента.

Калькулятор учитывает такие факторы риска, как диабет, гипертензия и курение, но не берет – и не способен брать – в расчет все возможные моменты, влияющие на уровень риска, к примеру, подробную историю курения в прошлом. Коэффициенты в уравнениях (значимость каждого фактора) оценивались на основании данных, собранных в 1990-х годах, поэтому допущение заключается в том, что и другие свойства этой группы населения совпадут для ее текущего состава. Однако привычки курильщиков и другие важные факторы касательно образа жизни со временем изменились. Согласно анализу Кука и Ридкера (2014), 33 % белого населения на дату начала долгосрочного исследования курили по сравнению с 20 % той же группы на сегодня, что дало иной базовый уровень риска и в потенциале привело к переоценке этого фактора.

Мы часто говорим о внешней валидности, то есть можно ли экстраполировать некое заключение за пределы исследуемой выборки (подробнее об этом – в ). Но есть и другой тип валидности – по времени.

Внешняя валидность определяет, как то, что мы узнаём в одном месте, способно информировать, что будет происходить в другом: к примеру, смогут ли результаты выборочного контролируемого эксперимента в Европе сказать что-либо об эффективности этого лекарства в США? Со временем также могут наблюдаться изменения в причинно-следственных взаимосвязях (новые законы спровоцируют перемены, влияющие на цену акций) или их силе (если люди начнут читать новости только в Сети, печатные объявления утратят воздействие на умы). Точно так же рекламный агент может выяснить, как конкретная социальная сеть влияет на объем продаж; но если цель, с которой люди пользуются соцсетями, со временем изменится, эта зависимость прекратит существование (например, вместо того чтобы «френдить» только близких друзей, люди начнут массово расширять знакомства).

Используя причинные зависимости, можно сделать косвенное предположение, что вещи, образующие взаимосвязь, со временем проявляют стабильность. Аналогичный сценарий реален, если мы рассматриваем, скажем, данные о повторной госпитализации пациентов на некоем временном отрезке. Возможно, количество рецидивов со временем возросло, и это было вызвано новой политикой или сменой руководства. Но могло случиться так, что население, лечившееся в больнице, также изменилось: к примеру, люди стали менее здоровыми. Получается, политика сама по себе привела к изменениям в населении. Мы узнаем об этом подробнее в , так как нередко стараемся понять, как причинные зависимости влияют на политику, хотя она сама приносит перемены. В результате первичные причинные зависимости могут прекратиться, и вмешательство окажется неэффективным. Один из примеров – программа сокращения числа учащихся в калифорнийских школах, когда внезапный рост спроса на учителей привел к снижению их профессионального уровня.

Могут также образовываться новые причинно-следственные связи, такие как появление нового канцерогена. Может меняться значение переменных. К примеру, язык постоянно трансформируется, возникают новые слова, а существующие используются иначе (например, слово «плохо» в значении «хорошо»). Или сначала речи политика повышали его рейтинг, поскольку его слова одобрялись обществом, а затем, когда люди перестали с ним соглашаться, его популярность снизилась. В результате прогнозы о повышении рейтингов не сработают, а действия – к примеру, написание новых речей – окажутся неэффективными. А на более коротком временном отрезке зависимость может оказаться истинной, если не учитывать дневные колебания.

Существует несколько стратегий для работы со нестационарными временными рядами. Можно, конечно, проигнорировать нестационарность, однако лучшие подходы используют более короткое время (набор рядов должен обладать стационарностью), если для этого достаточно данных, или же трансформируют временные ряды в стационарные.

В качестве примера нестационарности очень часто берется ситуация, предложенная Эллиотом Собером, , – зависимость между уровнем воды в Венецианской лагуне и ценами на хлеб в Англии, которые видимым образом коррелируют и со временем растут. Действительно, если взять данные Собера из этого примера с рис. 4.4 (а) (единицы переменных не приводятся), корреляция Пирсона для переменных составляет 0,8204. Хотя два временных ряда всегда растут, точный размер этого роста каждый год варьируется. Что мы действительно хотим понять – как эти изменения соотносятся.

Рис. 4.4. Уровень моря и цены на хлеб

Простейший подход заключается в изучении различий, а не голых фактов. Иными словами, насколько сильно увеличивается уровень моря или цены на хлеб относительно измерений предыдущего года?

Если взять изменения по годам, как показано на рис. 4.4 (б), корреляция падает до 0,4714.

Такой подход называется дифференцированием (что буквально означает вычисление разности между последовательными точками данных): это простейший способ превратить временной ряд в стационарный.

Даже если два временных ряда показывают одинаковые долгосрочные тренды (например, неуклонный прирост), дифференцированные данные могут уже не коррелировать, если разнятся дневные или годовые колебания. В целом одно только дифференцирование не гарантирует стационарность измененного временного ряда; требуются более сложные трансформации данных.

Это одна из причин, по которым работа с фондовым рынком обычно использует прибыли (изменение цены), а не фактические ценовые данные. Обратите внимание: именно здесь обнаружилась связь с лимонами и смертностью в ДТП, и именно поэтому можно выявить одинаковые зависимости для многих пар динамических рядов. Если общие тренды аналогичны и значимы, они обеспечивают основную часть измерений корреляции, доминируя над любыми различиями краткосрочных трендов, которые могут совершенно не коррелировать.

 

Использование причин. Все дело во времени

Можно ли назвать оптимальный день недели для заказа билетов на самолет? Когда лучше заниматься спортом: утром или вечером? Сколько нужно выждать, прежде чем просить о прибавке жалованья?

Экономисты часто упоминают сезонные эффекты – паттерны, которые проявляются каждый год в одно и то же время и представляют собой форму нестационарности. Однако временные тренды обнаруживаются во многих других видах динамических рядов, таких как посещение кинотеатров (на которое влияет фактор сезонности и выходных дней) или травмопунктов (резкий рост совпадает с сезонными болезнями). То есть, если мы найдем условия, активирующие продажи билетов в кино зимой, они могут оказаться неприменимыми, если мы попытаемся приложить их к росту летних продаж. Другие паттерны могут объясняться днем недели (к примеру, тренды внутригородской ежедневной миграции) или графиком государственных праздников.

Последовательность событий способна помочь при выяснении причин и качества прогнозирования (или получения информации о том, когда ожидать некое следствие). Но эффективное использование причин требует больше информации, чем простое знание о том, что случилось первым.

Во-первых, мы должны узнать, не оказывается ли некая зависимость истинной только в некоторых случаях, а во-вторых, каково запаздывание между причиной и следствием. Вот почему необычайно важно собирать сведения о временных паттернах и делиться ими. Немедленное лечение может улучшить исход многих болезней (к примеру, инсульта), но эффективность не всегда демонстрирует линейный спад по времени. К примеру, сообщалось, что если лечение синдрома Кавасаки начать не позднее 10 дней после его проявления, риск будущего повреждения коронарных артерий значительно снижается. Еще лучше, если лечение начнется не позднее 7 дней; но, если атаковать болезнь через 5 дней, это не окажет дополнительного влияния на благоприятный исход. В других случаях прием препарата утром или вечером мог сказаться на его действенности: если в процессе тестирования лекарство давалось в конкретные часы или просто каждый день в одно и то же время, но в реальной жизни, вне рамок тестирования, график приема существенно варьировался, оно могло не оказывать действия, предсказанного на основе клинических испытаний.

Чтобы определить, когда именно действовать, надо знать, сколько времени нужно, чтобы причина вызвала следствие. То есть необходимо определить, когда именно до начала выборов распространять конкретный агитационный материал; когда продавать акции, получив определенную информацию; или в какой момент до поездки в тропики принимать таблетки против малярии. В ряде случаев действия могут оказаться неэффективными, если совершаются без учета времени: к примеру, слишком ранний показ рекламы (когда воздействуют иные причины), принятие торгового решения до того, как акции окажутся на пике, или запоздалый прием профилактического средства (которое не успевает оказать эффект).

Точно так же временные паттерны могут влиять на наши решения, предпринимать ли некие действия вообще, поскольку от них зависят наши суждения как о полезности причин, так и об их потенциальных рисках. Полезность причины зависит и от вероятности того, что наступит следствие (при прочих равных причина, дающая 90 % успеха, предпочтительнее той, что обеспечивает только 10 %), и от срока ее срабатывания. Известно, к примеру, что курение вызывает рак легких и сердечно-сосудистые заболевания, но они не развиваются немедленно после начала курения. Знания только о вероятности рака недостаточно, чтобы принять обоснованное решение учесть риск курения, если вам также неизвестны временные паттерны. Возможно, кому-то невысокая вероятность заболевания в ближайшем будущем покажется более рискованной, чем почти стопроцентное ее проявление в отдаленное время.

Однако, принимая решение о вмешательстве, мы, как правило, не просто думаем, использовать ли некую конкретную причину для получения результата: мы выбираем между потенциальными вмешательствами. В одном из эпизодов сериала Seinfeld Джерри задумчиво рассуждает о многочисленных средствах от насморка и кашля: «Это действует быстро, а у этого действие запоздалое, но пролонгированное. Так когда мне нужно чувствовать себя хорошо – теперь или потом?»

Хотя такая информация усложняет принятие решений, она дает возможность лучше строить планы, исходя из ограничений (например, важная встреча через час или долгий день на лекциях в институте).

 

Время обманывает

Время – одно из ключевых свойств, позволяющих отличать причины от корреляций. Просто мы исходим из предпосылки, что там, где наблюдается соотношение, проявляющийся первым фактор и есть единственная потенциальная причина.

Но, поскольку последовательность событий критически важна, ее достоверности при установлении причинных зависимостей может придаваться слишком большой вес.

Скажем, руководство школьной столовой решает сократить число жареных и высококалорийных блюд и увеличить ассортимент фруктов, овощей и цельнозерновых продуктов. После этого каждый месяц вес учащихся снижается.

Рис. 4.5 показывает искусственную медианную кривую значений веса учащихся по временному параметру (половина значений выше медианы, половина ниже). После изменений в меню заметно внезапное снижение, которое устойчиво держится месяцами. Значит ли это, что такой показатель вызван новыми блюдами здорового питания?

Рис. 4.5. Значение переменной по временному критерию. После изменения значение измеренной переменной падает

Такой вид графика, где наблюдается четкое изменение значения переменной после некоторого события, часто применяется для подтверждения вывода; но вряд ли можно считать его убедительным аргументом. Общий пример подобной ситуации – когда сторонники некоего закона заявляют о падении уровня смертности сразу после его введения в действие, или когда человек уверен, что лекарство вызвало побочный эффект, потому что тот проявился через несколько дней после его приема.

В примере со столовой мы понятия не имеем, идет ли речь о той же самой группе учащихся (возможно, в школу поступили новые дети, которым нравится здоровая пища, а те, кто терпеть не может фрукты, разом переехали); а может, дети или их родители потребовали изменить меню, потому что уже раньше пытались регулировать вес; или в отмеченный период произошло некое изменение, вызвавшее такое следствие (возможно, одновременно наметился рост физической активности в каникулы). Редко бывает так (если бывает вообще), чтобы единственная вещь трансформировалась, а остальной мир пребывал в полнейшей неизменности; поэтому представление динамического ряда всего лишь с двумя переменными ведет к ошибочному представлению о том, что следствие нового фактора проявляется изолированно. Это опять-таки лишь корреляция, пусть и временная.

Вмешательства в реальный мир – это гораздо более сложные и гораздо менее безусловные явления, чем лабораторные эксперименты. Скажем, в районе, где располагается промышленное предприятие, регистрируется ряд предположительных диагнозов рака. В итоге предприятие закрывается, и принимаются меры по ликвидации последствий загрязнения воды и почвы. Если после этого снижается число диагнозов рака, можно ли сделать вывод, что именно производство было причиной заболевания?

Мы действительно не представляем, стал ли зарегистрированный спад совпадением (или сам первоначальный рост был таковым), или же что-то другое в то же самое время вызвало изменения и стало истинной причиной, и тому подобное. Помимо того, количественная статистика порой столь мала, что любые вариации не могут быть статистически значимыми.

Есть общеизвестный софизм, который звучит так: post hoc ergo propter hoc, или «после этого, следовательно, по причине этого». Иными словами, некто ошибочно заключает, что одно событие вызвано другим просто потому, что происходит после него.

Например, можно выяснить, как некий рейтинг поменялся после определенного исторического события: действительно ли уровень смертности в ДТП упал после принятия закона о ремнях безопасности? Однако многие изменения случаются в одно и то же время, и даже вся система целиком может трансформироваться в результате вмешательства. О вызове под названием «смерть» мы поговорим в . Но возможно, однако, что здоровая пища в школьной столовой лишь косвенно вызвала потерю веса, просто побуждая учеников активнее заниматься спортом. Аналогично временные паттерны (к примеру, если спортивная команда побеждает каждый раз, когда перед матчем идет дождь) могут заставить кого-то решить, что это причинная зависимость, даже если события с большой долей правдоподобия можно объяснить совпадениями.

Такая проблема нередко возникает, если концентрироваться на коротком временном промежутке, игнорируя долгосрочные колебания. Две экстремально снежные зимы подряд, рассматриваемые в отрыве от исторических данных, ведут к ошибочному выводу о погодных паттернах холодного сезона. Но если вместо этого проанализировать данные за десятилетия, мы увидим годовые колебания в рамках общего тренда. Наконец, два события могут происходить одновременно только потому, что такую вероятность создают другие факторы. К примеру, если детям дают новую пищу примерно в том же возрасте, когда у них проявляются симптомы определенного заболевания, многие отметят видимую связь между двумя событиями, потому что они всегда случаются примерно в одно время.

Итак, здесь имеет место софизм cum hoc ergo propter hoc («вместе с этим, значит, вследствие этого»), или выявление причинной связи между событиями, которые всего лишь произошли одновременно. Отличие от post hoc («после этого») в том, что это временная последовательность событий, и поэтому такая ошибка встречается особенно часто.

Как всегда, для первого события и следствия может быть общая причина (к примеру, действительно ли лекарства от депрессии заставляют людей совершать самоубийство, или люди, подверженные депрессии, более склонны к самоубийству и употреблению антидепрессантов?); однако следствие также могло случиться само по себе и просто случайно предшествовало причине.

У меня разболелась голова, и я принял некое средство. Через несколько часов боль ушла. Можно ли утверждать, что помогло лекарство? Временной паттерн позволяет сделать предположение, что ослабление симптома произошло благодаря приему лекарства, однако я не могу сказать наверняка, что боль не прошла бы сама. Мне пришлось бы провести множество выборочных экспериментов, где я бы принимал или не принимал препарат, а потом записывал, как быстро исчезала головная боль, чтобы иметь возможность утверждать хоть что-то относительно подобной причинной зависимости. В мы рассмотрим, почему результаты такого эксперимента окажутся малоубедительными и почему придется сравнивать действия лекарства и плацебо.

Точно так же, как близлежащие по времени события могут привести к ошибочным заключениям о причинности, длительные задержки между причиной и следствием способны помешать достоверному установлению причинно-следственных связей. Некоторые следствия наступают быстро (удар по бильярдному шару заставляет его двигаться), а некоторые процессы протекают в замедленном режиме. Известно, что курение вызывает рак легких; но между первой сигаретой и днем, когда диагностируют рак, пролегают долгие годы. Побочные эффекты от приема некоторых препаратов проявляются через десятилетия. Перемены в состоянии здоровья благодаря физическим упражнениям достигаются медленно и не сразу, и, если мы будем ориентироваться только на стрелку весов, может показаться, что вес сначала даже увеличивается, потому что мускулы наращиваются быстрее, чем уходит жир. Ожидая, что следствие должно идти непосредственно за причиной, мы не видим связи между этими глубоко взаимозависимыми факторами. Ученым чисто технически непросто собрать данные за десятилетия, чтобы выявить факторы, влияющие на здоровье. Но проблема частично заключается в том, что и обычным людям сложно выявить условия, коррелирующие с их состоянием здоровья, такие как диета и физическая активность.

 

5. Наблюдение. Как выявить причину, наблюдая за порядком вещей

 

Однажды по пути на работу я увидела в нью-йоркской подземке объявление: «Получите образование, найдите работу, не заводите детей до брака – и 98 шансов из 100, что бедность вам не грозит!» Цель этого объявления – профилактика подростковой беременности. Неясно, однако, как интерпретировать подобную статистику. Похоже, рекламщики предполагают, что если девушка-тинейджер совершит все вышеизложенное, то с вероятностью 98 % избежит нищеты. Но так ли это? И подразумевается ли, что она в настоящий момент не должна испытывать проблем с деньгами или никогда в жизни не окажется за чертой бедности?

Этот прецедент взят из исследования, где изучались показатели обнищания среди людей с различными характеристиками – такими как семейный статус, возраст и образование, – а потом подсчитывалось, какая часть этой группы населения живет за чертой бедности. Но все равно оказывается, что итоговая статистика основана лишь на данных наблюдений.

Никто пока не ввел в действие политику (в рамках всего общества или индивидуально), стимулирующую беременность подростков или препятствующую ей, опускающую их на дно или поднимающую в общество богатых. А значит, статистика всего лишь описывает некие характеристики, наблюдаемые у населения. Из тех, кто уже окончил школу, получил работу и вступил в брак до рождения детей, 98 % не оказались в нищете. Но если кто-то собирается завершить среднее образование, начать трудиться и завести семью, их личные шансы оказаться среди бедноты могут варьироваться.

Здесь явно то же отличие между риском любой семьи попасть в группу воздействия СВДС (синдрома внезапной детской смертности) и шансами ребенка из конкретной семьи умереть от СВДС (см. ).

Может случиться и так, что аналогичные условия, из-за которых кому-то не удалось окончить школу или найти работу, сами ведут к бедности и находятся вне контроля конкретных молодых людей. Вероятно, им приходится заботиться о пожилом родственнике, или у них ограниченный доступ к медицинской помощи либо поддержке со стороны семьи. Это значит, что они попросту не смогли получить работу из-за сторонних факторов (например, не нашли сиделку для пожилых родителей); но даже соответствие всем трем критериям не изменило бы фактор подверженности риску бедности, если бы он в итоге определялся теми самыми сторонними факторами (к примеру, высокими ценами на медицинские услуги). То есть если бы невозможность окончить школу, получить работу и избежать беременности до брака стали всего лишь иным следствием некоего условия, также ведущего к бедности, то вмешательство в эти обстоятельства было бы сродни влиянию на следствие вместо причины. Бедность может вызываться случайными обстоятельствами, на которые намного сложнее воздействовать: к примеру, дискриминацией, отсутствием рабочих мест в регионе или некачественной системой образования.

Этот факт может иметь громадную значимость для формирования социальной политики. Если мы поставим во главу угла повышение доступности образования и занятости, не зная при этом, что мешает людям получать и то и другое и действительно ли эти факторы оказываются причинами бедности, намного труднее проводить эффективное вмешательство. По-прежнему будут препятствия к финансовой безопасности, которым не уделяется внимание, а мы не будем знать, действительно ли работаем над целевыми факторами, способными обеспечить желаемый результат. Далее, все указанные свойства могут быть следствиями бедности, и, возможно, воздействие должно быть нацелено непосредственно на то, что наполнит карманы людей звонкой монетой. В и  мы подробнее поговорим, как осуществлять успешные вмешательства и какая информация нужна, чтобы спрогнозировать последствия конкретного воздействия.

Напротив, если мы бы имели возможность заставить людей в адресном порядке окончить (или не окончить) школу и поставили бы их выборочно в соответствующие условия (безотносительно прочих обстоятельств), то смогли бы изолировать влияние этих действий на их экономическую ситуацию в будущем. Реальность такова, что наблюдение – часто все, что у нас есть. Неэтично проводить эксперименты, где бы требовалось выяснить, что такое подростковая беременность – следствие или причина бедности (а может, это вообще порочный круг).

Точно так же ученые часто пытаются определить эффект воздействия СМИ (может ли рекламная кампания повлиять на общественное мнение? На самом ли деле передача 16 and Pregnant канала MTV изменила уровень подростковой беременности?). В этих случаях мы не только не способны контролировать влияние на отдельных лиц, но даже редко в силах определить, было ли такое влияние вообще. Часто исследователи вынуждены полагаться на сводные показатели рынка СМИ, где демонстрировалась реклама, и на то, как данные опросов общественного мнения в конкретном регионе изменялись со временем по сравнению с другими. Иногда нереально отслеживать участников эксперимента достаточно долгое время, или же эксперименты оказываются чрезмерно затратными. Чтобы десятилетиями наблюдать группу значительного размера, как в проекте «Фрамингемское исследование сердца»,, необходимы масштабные изыскания; на практике это скорее исключение, чем правило.

В этой главе мы поговорим о том, как проникнуть в порядок вещей, лишь наблюдая за происходящим. Рассмотрим ограничения как этих методов, так и данных наблюдений в целом.

 

Закономерности

МЕТОД МИЛЛЯ

Скажем, группа программистов устраивает хакерский марафон. Компьютерщики, обожающие работать по ночам, вряд ли могут похвастаться сбалансированной и здоровой диетой, так что многие из них, чтобы продержаться до рассвета, сидят на крепком кофе, пицце и энергетических напитках. К несчастью, на следующий день, когда раздают награды, многие члены команды оказываются больны или по какой-то причине не выходят на связь. Как определить, какие факторы вызвали недомогание?

Попытка понять, что общего и в чем разница у групп с отмеченным или не наблюдаемым определенным результатом, – одна из классических сфер приложения метода, разработанного в XIX веке Джоном Миллем (где подавляющее большинство примеров – это пищевые отравления).

Прежде всего мы можем задаться вопросом: что общего во всех ситуациях, где имеет место некое следствие? Если потребление энергетических напитков – единственный совпадающий фактор для всех случаев головной боли, это дает некоторое доказательство в пользу утверждения, что ее вызывают, возможно, энергетики. Именно это Милль называл методом согласованности. В примере на рис. 5.1 нас интересуют случаи, когда головная боль есть, так что мы просто возьмем из таблицы колонки, где отмечены люди с этой проблемой.

.

Рис. 5.1. J-образная кривая

Итак, мы начнем только с ситуаций, где следствие имеет место, а потом вернемся и посмотрим, что у них общего. Отметим: единственное совпадение – потребление энергетических напитков, а стало быть, по методу согласованности, это и есть причина головных болей.

Согласованность предполагает, что для следствия необходима причина, ибо следствие не наступает до причины. Это, однако, не означает, что следствие происходит каждый раз, когда имеет место причина. Речь идет о достаточности. Например, как следует из табл. 5.1, Бетти также пьет энергетические напитки, но головной болью не страдает. Итак, мы не готовы утверждать, что энергетики – достаточное условие головной боли. Как и относительно трудов Юма, можем только сказать, что эти факторы истинны касательно того, что мы наблюдали.

Таблица 5.1. Применив метод согласованности Милля, мы обнаруживаем, что энергетические напитки вызывают головную боль

На основе ограниченной выборки мы не имеем права заявлять о необходимости или достаточности.

Одно из ограничений такого подхода – требование согласованности каждого конкретного случая. Если сотни людей заболевают, а один нет, здесь не найти причинной зависимости. Заметим, этот метод не принимает в расчет то, что Бетти тоже пила энергетики, но голова у нее не разболелась. Именно поэтому он скажет только о необходимости, но не о достаточности: не рассматривается возможность ненаступления следствия при наличии причины.

Чтобы определить достаточность, посмотрим, в чем отличие между ситуациями, когда следствие наступает и когда нет. К примеру, если все, кто на следующий день чувствовал себя уставшим, бодрствовали ночь напролет, при этом несколько не уставших человек немного поспали, мы могли бы сказать, что полное исключение сна есть достаточное условие (для этого примера) усталости наутро. Это и есть метод согласованности Милля.

С помощью табл. 5.2 путем сравнения мы узнаём, чем отличаются ситуации с наличием и отсутствием усталости. Заметим, что случаи усталости согласованы по всем четырем факторам, а значит, мы не можем выделить из них единственный как причину, если применить метод согласованности. Изучив отличия, мы увидим, что бодрствование допоздна кажется единственным условием, коррелирующим со следствием. При согласованности это довольно жесткое требование, поскольку могут возникнуть неожиданные ситуации, даже если усталость по-прежнему останется в статусе причины.

Таблица 5.2. Применив метод дифференциации Милля, мы обнаружим, что бодрствование по ночам вызывает усталость

В следующей главе мы изучим вероятностные методы, которые не требуют столь жесткой взаимозависимости, но используют показатель относительной частоты встречаемости.

Повторим еще раз: причина есть необходимое условие следствия, если оно не может произойти без причины (каждому факту следствия предшествует факт причины), и причина есть достаточное условие следствия, если она без него не может быть (за каждым фактом причины должен идти факт следствия). Причина может быть необходима, но не достаточна и наоборот. В хакерском марафоне каждый факт усталости, которому предшествует работа допоздна, делает последнюю необходимым условием усталости, но ничего не говорит о ее достаточности (может, некоторые люди бодрствуют всю ночь и не устают).

Аналогично каждый случай употребления энергетика, за которым следует головная боль, свидетельствует, что эти напитки – достаточное условие головной боли, но не необходимое (поскольку бывает головная боль иной этиологии).

Итак, некоторые причины могут быть одновременно необходимыми и достаточными для указанных следствий.

Возьмем табл. 5.3. Чтобы выяснить, какие причины одновременно необходимы и достаточны, объединим согласованность и дифференциацию – способ, названный Миллем «метод согласованности и дифференциации». Здесь мы рассмотрим факторы, общие для всех случаев наступления следствия – и только для них.

Таблица 5.3. Используя единый метод согласованности и дифференциации Милля, мы видим, что кофе способствует боли в желудке

Итак, люди, у которых разболелся желудок, и бодрствовали ночью, и пили кофе. Значит, по методу согласованности, эти факторы могут иметь характер причинности. Посмотрим, отличаются ли они для случаев, когда следствие наступает и когда нет. Диана бодрствовала допоздна, но желудок у нее не болит, а значит, работа по ночам не удовлетворяет критериям метода дифференциации. С другой стороны, потребление кофе им удовлетворяет, так как все те, кто выпил много кофе, ощутили боль в желудке, а никто из воздержавшихся этим недугом не страдал. Таким образом, кофе есть одновременно необходимое и достаточное условие больного желудка, если исходить из таблицы.

Итак, в чем же подвох?

Представьте, что 2000 человек заболели, поев немытых фруктов, при этом двоим удалось избежать пищевого отравления, а еще несколько отравились недоваренной курицей. Методы Милля не нашли бы никакой причинной зависимости между фруктами и отравлением, поскольку здесь нет ни необходимости, ни достаточности. Многие примеры каузальности, взятые из реальной жизни, не соответствуют обоим случаям, так что это условие очень строгое. В целом всего несколько контрпримеров не должны заставить полностью сбрасывать со счетов причины; однако такой метод все же может дать чисто интуитивную ниточку в исследовании каузальных гипотез. К тому же он соответствует некоторым способам качественного выяснения причин.

К тому же на практике единственная причина и единственное следствие – редчайший случай.

Допустим, люди едят пиццу, допоздна не спят и пьют немереное количество кофе. Это приводит к тому, что все они одновременно заболевают различными хворями. Если мы видим, что все вместе жалуются на усталость и больной желудок, при этом нет других факторов, общих для всех или отличных, что можно сделать?

В некоторых ситуациях достаточно выяснить различие между причинами, которые привели к каждой болезни. К примеру, из табл. 5.4 мы знаем, что бодрствование по ночам порождает усталость. Итак, то, что Алан, Бетти и Диана устали, объясняется ночным бдением за компьютером. Тогда можно просто взглянуть, в чем сходство и различие в случаях с больным желудком (избыточное потребление кофе), предположив, что должно быть что-то еще, вызывающее подобное недомогание, поскольку неизвестно, повинно ли в этом отсутствие ночного сна.

Таблица 5.4. Используя метод остатков Милля, мы видим, что кофе ведет к боли в желудке

Если проигнорировать усталость и бодрствование допоздна, вторым общим фактором будет кофе. Хотя люди с больным желудком часто тоже не рано ложатся, Милль делает допущение, что мы в итоге можем отбросить известные причины и следствия. Зная, что ночная работа вызывает усталость, нужно посмотреть, что останется после того, как мы примем во внимание эту причину и следствие. Если выявлена одна причина, она и есть вина оставшегося следствия. Это так называемый метод остатков. Конечно, предполагается, что нам известны все следствия других возможных причин и каждая имеет только одно следствие. Если же бодрствование допоздна и потребление кофе совместно вызывают боль в желудке, к этому заключению нельзя прийти подобным образом.

Этот метод способен дать гипотезы по поводу того, что могло вызвать результаты наблюдений, но не может доказать каузальную природу взаимосвязи. Мы вообще ничего не упоминали о наборе переменных или о том, откуда они берутся. Переменные всегда представляют собой подгруппу возможно измеримых показателей; вероятно, они отобраны на основе воспринимаемого соответствия или просто суть результаты фактических измерений при анализе данных после наступления события.

В результате набор гипотез может не охватывать истинных причин, и мы либо терпим поражение в поиске вины конкретного следствия, либо обнаруживаем всего лишь ее индикатор. Иными словами, если каждый, кто ел пиццу, к тому же напился воды подозрительной чистоты, а вода не включена в набор переменных, то мы придем к выводу, что пицца и есть причина. Просто этот индикатор дает сведения о потреблении воды, даже если на самом деле это и не причина. И если бы мы учли потребление воды, если взаимосвязь между водой и пиццей безусловна (все, кто ел пиццу, пили воду, и каждый, кто пил воду, ел пиццу), мы не смогли бы выделить пиццу в качестве единственной причины, поскольку на деле оба фактора могут быть таковыми. Именно поэтому, не наблюдая их по отдельности, мы видим только четкую закономерность между обеими потенциальными причинами и следствием.

Эта проблема не специфическая только для методов Милля: она важна в более широком смысле выведения причинно-следственных связей из данных наблюдения. Если, с другой стороны, мы провели бы эксперимент, заставив людей поесть пиццы без воды, а потом наоборот, это, видимо, решило бы проблему. Мы бы поняли, что заболели только те, кто пил воду (и не важно, ели они пиццу или нет).

Итак, возможно, наши программисты, работая ночью, решили приналечь на пиццу. Если избыточное ее потребление провоцирует набор веса, можно ожидать, что люди будут толстеть. Очередной метод Милля назван «сопутствующее изменение», когда просматривается зависимость реакции от дозы для причины и следствия. По мере количественного роста причины растет и объем следствия. К примеру, если некое исследование утверждает, что кофе снижает риск смертности до определенного возраста, мы можем решить, что должна наблюдаться дифференциация риска в зависимости от того, сколько кофе пьет некий индивидуум. С другой стороны, если одна чашка кофе в день оказывает в точности тот же эффект, что и десять, кажется более правдоподобным наличие чего-то еще, реально снижающего риск, помимо кофе.

Разумеется, реальность всегда сложнее, и может не быть линейной зависимости между причиной и следствием. К примеру, алкоголь в маленьких количествах способен положительно воздействовать на самочувствие. Однако избыточное потребление спиртных напитков – вещь крайне нездоровая. Известна так называемая J-образная (или восходящая) кривая, которая отображает соотношение потребления спиртного и, например, ишемической болезни сердца (). Симптомы заболевания уменьшаются при потреблении до 20 г в день, а потом начинают усиливаться. Среди других аналогичных зависимостей – гипотетическая связь между интенсивными физическими упражнениями и инфекционными заболеваниями, а также между потреблением кофе и количеством инфарктов. Как и со многими лекарственными средствами, для этих факторов есть предел, после которого они могут причинять вред. Итак, мы не обнаруживаем ожидаемого соотношения между дозой и реакцией и наблюдаем затухание эффекта после некой точки вместо постоянного роста.

Один из самых знаменитых в истории примеров применения методов Милля – когда Джон Сноу обнаружил, что именно спровоцировало вспышку холеры 1854 года в Лондоне. Он не копировал методы Милля, однако используемый им подход строился по тому же принципу.

Тогда никто не знал, каким путем распространяется болезнь, но карта города (с нанесенными очагами инфекции) дала возможность увидеть резкие отличия между районами. Передавался ли возбудитель от одного человека к другому? Или болезнь вызвало что-то по соседству? А может, у людей, проживающих в зараженных районах, имелось нечто общее?

Сноу обнаружил, что самая высокая смертность отмечалась не просто в конкретном географическом районе, а возле водяной колонки на Брод-стрит:

В домах, расположенных ближе к колонке на другой улице, умерли всего 10 человек. В пяти случаях из этих 10 родственники больных сообщили, что они всегда ходили к колонке на Брод-стрит, потому что предпочитали воду из нее другим колонкам, даже если те располагались ближе. В трех других случаях это были дети, которые шли в школу мимо колонки на Брод-стрит [195] .

Увидев, что умершие в основном пользовались этой колонкой, Сноу рассмотрел, видимо, не соответствующие этой тенденции случаи, когда люди не жили по соседству, и выяснил, что они тоже брали воду на Брод-стрит. Это и есть в точности метод согласованности Милля, где выясняется, что общего у всех случаев наступления следствия (например, заболевание холерой). Сноу также применял метод дифференциации, когда писал, что «в этой части Лондона не отмечалось никаких особых вспышек или заболеваемости холерой, кроме как среди людей, имеющих обыкновение пить воду из вышеупомянутой колонки». Иными словами, доказал, что заболеваемость возросла в группе лиц, пользовавшихся колонкой, и только в этой группе.

Комплекс причин

Единственная проблема с методами Милля – ситуация, когда причина обусловливает, с той или иной долей вероятности, зависимость следствия от иных факторов. К примеру, два лекарственных препарата сами по себе могут не влиять на содержание глюкозы в крови, однако, взаимодействуя при одновременном приеме, способны существенно повысить ее показатель. Один из вариантов преодолеть эту трудность – не концентрироваться на парных зависимостях между отдельно взятыми причинами и следствиями, но рассматривать комплекс условий, вызывающих следствие. Так, одной из причин дорожного происшествия может быть нетрезвое вождение в комбинации с близко проезжающими машинами, другой – плохая видимость на обледеневшей дороге и неосторожное вождение, третьей – нарушение скоростного режима и отправка электронных сообщений за рулем.

Подобные ситуации часто возникают в эпидемиологии, где принято считать, что причины всегда взаимосвязаны, и такие факторы, как длительная подверженность окружающим условиям, образ жизни, острые кратковременные воздействия (например, инфекционные заболевания) и так далее, комбинированно влияют на здоровье. Взяв за основу подобные рассуждения, эпидемиолог Кеннет Ротман ввел идею изображения таких комплексов причин в виде секторных диаграмм.

Секторная диаграмма причинно-следственных связей – группа факторов, достаточных для возникновения следствия, которая содержит все необходимые для этого компоненты. На рис. 5.2 изображены такие диаграммы для всех трех примеров с вождением.

.

Рис. 5.2. Три причинных комплекса дорожных происшествий

В этом примере каждая диаграмма – достаточное условие для наступления следствия, поэтому ДТП произойдет в каждом случае присутствия этих факторов. Но каждый из них по отдельности не необходимый, поскольку лишь множество условий вызывают следствие. Соблюдение требования, что причина всегда производит следствие (по утверждениям Милля и Юма), в то время как могут существовать необходимые условия для проявления следствия, которых нет в наличии; или что причина есть необходимое условие каждого случая проявления следствия, когда может быть множество возможных его причин, – это исключительно жесткие рамки. В реальности разнообразные следствия могут проявляться множеством различных путей, для чего часто требуется целый набор факторов.

Таким образом, согласно одной из концепций, причина есть компонент группы факторов, которые вместе оказываются достаточным условием возникновения следствия. Правда, такая группа может не быть необходимой, поскольку их способно оказаться множество. Этот подход разделяет Джон Маки, который описывает причины как INUS (недостаточные, но необходимые компоненты не-необходимых, но достаточных условий). В примере с секторными диаграммами каждый «кусочек пирога» сам по себе недостаточен (поскольку, чтобы вызвать следствие, нужны другие кусочки), но необходим (потому что, если какой-нибудь кусочек будет упущен, следствие не возникнет). С другой стороны, любая диаграмма (или «пирог») сама по себе не необходима, поскольку таких пирогов может быть много и каждый окажется достаточным условием следствия.

Итак, вместо того чтобы пытаться выделить такие факторы, как экономика, рекламные кампании конкурентов или рейтинги общественной поддержки, в качестве единственной причины результатов выборов, мы отобразим все сопутствующие факторы и, возможно, попробуем выяснить их относительную значимость.

Но не все причины становятся необходимыми INUS-условиями. К примеру, причинно-следственная связь может не иметь характер детерминизма, так что, даже если бы мы владели всей возможной информацией и наблюдали все необходимые условия, следствие не всегда возникало бы. Один из примеров индетерминизма – радиоактивный распад, где никогда нельзя знать наверняка, будет ли иметь место распад частицы в конкретный момент времени: нам известна только вероятность события. INUS-условие распада – вещь невозможная, поскольку достаточных условий здесь не существует. Точно так же могут наблюдаться INUS-условия, не оказывающиеся причинами, если, как в примере с пиццей и водой, у нас нет корректного набора переменных. Точность и полнота логических выводов всегда зависят от полноты данных.

 

Вероятности

Почему вероятность

Эта глава начиналась со строчки из рекламного объявления: «Получите образование, найдите работу и не заводите детей до брака – и 98 шансов из 100, что бедность вам не грозит!» Само утверждение – попытка вывести причинную зависимость: когда такие факторы, как высшее образование, работа и брак до рождения детей, считаются истинными, вероятность, что удастся избежать бедности, составляет 0,98. Эта статистика особо убедительна потому, что шансы очень близки к стопроцентным; и все же высокая вероятность не значит, что это соотношение каузально. Точно так же, как может иметь место сильная вероятностная зависимость, не носящая причинного характера, могут существовать и каузальные зависимости, когда причина снижает или не меняет вероятности наступления следствия вообще.

Так в чем же привлекательность вероятностных концепций причинности?

Как и в примере с радиоактивным распадом, одна из причин, по которой мы нуждаемся в вероятностных подходах (не требующих, чтобы причина всегда и безусловно производила следствие или каждый раз ему предшествовала), состоит в том, что некоторые отношения не детерминированы. В таких случаях при всем знании мы не можем быть убеждены, произойдет ли то или иное следствие. Здесь не только не будет закономерности в событиях, какую требуют все ранее описанные подходы, но также ни одна комбинация переменных не даст возможности ее установить.

Примеры индетерминизма часто встречаются в физике (например, в квантовой механике), а также в более приземленных ситуациях – скажем, при неисправности оборудования.

Но во многих других случаях, однако, вещи кажутся недетерминированными лишь в силу нехватки знаний – даже если их можно целиком спрогнозировать на основе полной информации. Не все, кто работает с асбестом, заболевают раком; лекарства дают побочный эффект только части пациентов; сходные условия не всегда приводят к образованию пузыря на фондовой бирже. Может, однако, случиться так, что, зная досконально действие лекарства или имея возможность пронаблюдать достаточно побочных эффектов и пациентов, у которых они обнаруживаются, можно выявить набор необходимых факторов.

Нам в основном приходится иметь дело не только с показателями наблюдений (нельзя заставить людей стать заядлыми курильщиками, чтобы посмотреть, кто из них заболеет раком), но еще и с неполными данными. Это означает, что мы упускаем некоторые переменные (вероятно, сведения по аэробной способности – лишь результаты оценки, а не измерения с помощью теста VO2 max на «бегущей дорожке»), можем наблюдать данные только на ограниченном временном отрезке (отслеживаем последствия хирургической операции 1 год, а не 30 лет) или берем пробы в режиме, далеком от идеального (отмечаем обмен веществ в тканях мозга раз в час вместо режима ЭЭГ). Проблема может заключаться в затратности (в масштабных исследованиях делать тесты VO2 max неразумно с финансовой точки зрения, а также длительно по времени и потенциально небезопасно для больных людей), возможности сбора данных (редко есть шанс следить за человеком десятки лет) или технологических ограничениях (микродиализ для измерения метаболизма – процесс медленный). Вероятностные подходы часто путают эти вероятности (одна – из-за недостатка знаний, другая – из-за природы самой зависимости), однако стоит помнить, что это разные вещи.

Один из главных мотивов использования вероятностных определений причинности – наше желание знать, служит ли нечто причиной и насколько важно это нечто. Иными словами, мы стремимся различать обычные и редкие побочные эффекты лекарственного средства или сформулировать политическую концепцию, которая вероятнее всего привела бы к росту рабочих мест. Один из методов, позволяющих квантифицировать степень влияния причины на следствие, – определить силу следствия, когда переменные непрерывны (например, как повышается цена акции после выпуска новостей), или вероятность некоего события, когда они дискретны (например, какова вероятность, что цена на акции пойдет вверх).

Но часто все, что удается вычитать в книгах на тему причинно-следственных взаимосвязей, это утверждение, что риск некоторого исхода увеличивается по некоторой причине. Вот несколько начальных строк из статей в научных изданиях:

Ученые утверждают: лечение бессонницы у людей, страдающих от депрессии, может вдвое повысить шансы на полное исцеление [203] .

Как утверждает группа исследователей из Гарвардской школы здравоохранения (HSPH), несколько чашек кофе в день снижают риск суицида у взрослых примерно на 50 % [204] .

Мужчины пожилого возраста чаще, чем молодые, становятся отцами детей, у которых впоследствии развиваются аутизм или шизофрения. Причина – случайные мутации, риск которых растет с приближением к концу возраста отцовства; об этом сообщили ученые, проведя первое исследование с целью квантификации этого эффекта, который усиливается год от года [205] .

Множество других статей начинается с упоминания о снижении или повышении риска, при этом точные цифры роста или падения даются несколькими абзацами ниже. И даже в этом случае данные, приведенные во всех подобных примерах, относительны: удвоить шансы или снизить риск на 50 %. Конечно, фраза «удвоить шансы на некое событие» может прозвучать совсем по-другому, однако, когда речь заходит о двух событиях вместо одного, все гораздо менее убедительно. Скажем, повышение риска инсульта у человека, иногда употребляющего алкоголь, составит либо 0,0000001–0,0000002, либо 0,1–0,2. В обоих случаях шансы удваиваются, но в первом удвоению подлежит очень маленькое число, и результирующее число также остается крайне малым.

На рис. 5.3 это различие представлено наглядно. Для набора из 10 000 000 событий самая низкая степень вероятности составит всего 1, а потом 2. Таким образом, для каждого отдельного события на рисунке есть обозначающие их точки, в то время как каждая из остальных точек на рисунке обозначает 10 000 событий. Итак, при том же удвоении относительного риска можно иначе решить вопрос с курением, когда станут видны абсолютные значения.

Рис. 5.3. Каждая точка представляет 10 000 событий, кроме нижних двух картинок, где черные точки обозначают единичные события. Вероятность событий, представленных черными точками, удваивается от левых картинок к правым, однако необходимо также принимать во внимание общее количество событий

Эту идею степени влияния причины на следствие, или количества вероятности, очень важно вспомнить позднее, при рассмотрении проведения и оценки экспериментов и формулирования политических концепций. Кроме того, постарайтесь держать ее в уме, когда будете в следующий раз читать о новейшем научном открытии.

Особо важно знать размер выборки (велика ли численность исследуемого населения), поскольку без значительного количества наблюдений мы не сможем даже дифференцировать эти результаты. Различие может объясняться естественными вариациями, помехами или погрешностями измерений. К примеру, в зависимости от индивидуальных факторов риска, риск субарахноидального кровоизлияния – редкий, но часто приводящий к смерти вид геморрагического инсульта – составляет всего 8 на 100 000 человеко-лет. Это значит, что если отслеживать 100 000 человек в течение года или 10 000 человек в течение 10 лет, можно ожидать, что мы увидим 8 случаев инсульта. Поэтому гораздо менее вероятно наблюдать истинные вероятностные показатели на меньших выборках: в результате эта цифра может составить 8 или 0 событий, что приведет к некорректным заключениям о степени риска.

От вероятностей к причине

Подобно тому как в центре юмовского подхода к причинности лежит регулярная повторяемость событий, идея вероятностной причинности основана на том, что причина повышает вероятность наступления следствия.

Если одно событие не имеет причинно-следственной связи с другим, вероятность второго не должна изменяться после того, как станет известно о первом. К примеру, вероятность выпадения орла или решки при подбрасывании монетки составляет ½, при этом вероятность того или другого исхода не меняется после первого броска, поскольку все события независимые. То есть вероятность выпадения орлов четко равна вероятности выпадения решек, если при предыдущем броске выпала решка.

Эта концепция представлена на рис. 5.4 (a) в виде эйкосограммы (также ее называют мозаичной диаграммой или диаграммой Маримекко). По оси Х указаны возможные исходы первого события (орлы или решки), по оси У – исходы второго события (также орлы или решки). Ширина столбцов отражает вероятность выпадения орла или решки при первом броске (если монетка сильно несимметричная, первый столбец будет очень узким), а высота серых столбцов показывает вероятность выпадения орла при втором броске (оставшаяся область обозначает вероятность выпадения решки).

Рис. 5.4. На диаграммах представлены условные вероятности. Как только вы выбираете событие в нижней части (например, К), вероятность второго события (не С) обозначается закрашенным столбцом. С маловероятно после К (маленький столбец), в то время как орел или решка с равной степенью вероятности выпадают после любого броска (столбцы одинаковых размеров)

Так как вероятность любого исхода абсолютно одинакова, все сегменты равны. С другой стороны, вероятность того, что конкретного человека изберут кандидатом в вице-президенты, выше или ниже в зависимости от того, кто будет претендовать на президентский пост: тут важны политические убеждения и альянсы, так что эти события зависимы.

На интуитивном уровне, если нечто влечет за собой следствие, после появления причины следствие должно произойти с большей вероятностью, чем обычно. То есть в местностях, где обитают малярийные комары, должно отмечаться больше случаев заболевания, так как комары – разносчики инфекции. Причина также может снизить вероятность следствия – если точнее, причина повышает вероятность отсутствия его наличия. Так, если калий успокаивает мышечные судороги, мы должны отмечать меньше подобных случаев после принятия препаратов калия. Этот случай показан на рис. 5.4 (б), когда вероятность потребления калия (К) ниже, чем непотребления, так что соответствующий столбец уже. Однако большая часть столбца закрашена, поскольку шанс отсутствия мышечных судорог (нет С) намного выше, чем шанс судорог при принятии калия. И наоборот, возможность начала судорог без добавления в организм калия намного выше.

Это простая идея повышения или снижения вероятностей способна привести одновременно как к ложным утверждениям о причинности (поскольку может показаться, что непричины усиливают вероятность следствий), так и к невозможности эту связь выявить (так как не каждая причина увеличивает вероятность следствия).

В мы познакомились с корреляциями и порядком их возникновения. В некоторых ситуациях они оказываются результатом простого совпадения, в других же можно протестировать так много гипотез, что рано или поздно совершенно случайно проявится нечто значительное.

Еще может случиться так, что используемые переменные не будут точно представлять фактические причины. К примеру, о диете скажут, что она обеспечивает определенный уровень похудения, однако соответствующей переменной, вызывающей потерю веса, может стать следование любой диете, а не той конкретной, которую мы тестируем. Возможно также, если мы просто рассмотрим зависимость двух факторов, обнаружится множество аналогичных закономерностей вследствие неких структурных условий. В мы видели выявление ложной корреляции между потреблением шоколада в стране и количеством Нобелевских лауреатов среди ее жителей. Возможно, повышенные объемы вина, сыра или кофе имели бы не менее сильные ассоциации с Нобелевками. Действительно, согласно одному исследованию, среди прочего наблюдалась взаимосвязь между числом Нобелевских премий и количеством магазинов IKEA. Таким образом, потребление шоколада могло быть аналогом некоего индикатора населения, который повышает вероятность одновременного поедания этого продукта и получения Нобелевки, например благосостояния и ресурсов страны.

Именно на подобный тип общей причины нередко возлагают вину, когда одна переменная, кажется, делает другую более вероятной, но в действительности ее причиной не служит. К примеру, если рецессия приводит одновременно к снижению инфляции и безработице, можно решить, что каждый из этих факторов повышает шансы на проявление другого. Мы просто берем пары переменных и интересуемся, усиливает ли одна из них вероятность другой.

Есть и такая методика работы со смешиванием эффектов из-за общих причин (когда измеряются все переменные) – выяснить, можно ли с помощью одной переменной оправдать корреляции между другими. Это ключевой атрибут множества вероятностных подходов, разработанных философами (такими как Саппс (1970), Гуд (1961) и Рейхенбах (1956)), на котором построены вычислительные методы выведения причин по имеющимся данным.

Скажем, некое заболевание (D) вызывает утомляемость (F) и обычно лечится определенным лекарством (М). Идея в том, что смена препарата не приведет к улучшению состояния пациента (утомляемости), если проблема вызвана только болезнью и не решается лекарством. Если заболевание остается константой, другие переменные не дают никакой информации друг о друге. Концепция общей причины, которая подобным образом разделяет следствия, называется экранированием.

Обратимся к диаграмме на рис. 5.5 (а). Есть лекарство, и есть усталость; похоже, первое повышает вероятность второй. Серый столбец выше для усталости, чем для неусталости, показывая, что вероятность выше для случая, когда лекарство истинно, чем ложно. Но как только мы разделим варианты, когда человек болен и когда нет (рис. 5.5 (б) и 5.5 (в)), вероятность усталости уравнивается, вне зависимости от значения препарата. Таким образом, лечение не меняет возможность усталости, как только мы получаем знание о болезни.

Рис. 5.5. Если не принимать во внимание состояние заболевания, кажется, что M и F коррелируют. Если, однако, учитывать этот фактор, корреляции нет (F равновероятен независимо от истинности М)

Подобный тип разделения также может иметь место в цепи событий. Скажем, болезнь приводит к назначению лекарства, и здесь оно действительно вызывает усталость как побочный эффект. Если отношения D → M и M → F истинны, мы также обнаружим, что болезнь повышает вероятность усталости. Однако часто требуется выявить самые непосредственные причинные взаимосвязи, чтобы осуществить более прямые вмешательства. Чтобы избежать появления симптома, нужно отменить лекарство или перейти на другое; но, если мы придем к ошибочному заключению, что как болезнь, так и лекарство провоцируют усталость, мы не сможем узнать, что смена препарата могла бы предотвратить возникновение симптома. И снова, если мы ставим условием М, вероятностное отношение между D и F исчезает.

Как обычно, ни один метод не совершенен, и успех зависит на самом деле от измерения общей причины. То есть, если рецессия приводит одновременно к снижению инфляции и безработице и мы не знаем, имеет ли место рецессия, нет возможности использовать условие экранирования, чтобы выяснить, не ложна ли видимая причинная зависимость между инфляцией и безработицей. Получается, реальные мы найдем взаимосвязи или ошибочные, целиком зависит от наличия верного набора переменных.

Эта проблема вновь выйдет на передний план, когда в мы затронем вычислительные методы. Но, хотя на базе ряда сценариев мы и располагаем несколькими способами отыскать скрытую общую причину, это не решает проблему вычислительных методов в целом.

На этом, однако, история не заканчивается. Иногда просто нет единственной переменной для экранирования двух следствий. Скажем, Алиса и Боб любят занятия по машинному обучению и предпочитают те, которые назначены на послеобеденное время. Тогда, взяв условием либо содержание курса, либо время, мы не сможем полностью экранировать такие переменные, как выбор занятий Алисой и Бобом. Если известно только время занятий, то запишется на них Боб или нет, действительно дает информацию о выборе Алисы, так как этот фактор становится косвенным индикатором содержания курса. Нет единственной переменной, экранирующей А и Б друг от друга.

И если мы добавим переменную, которая будет истинной, только если курс одновременно и начинается после полудня, и посвящен машинному обучению, этот фокус поможет. Но, чтобы понять необходимость этой более сложной переменной, нужно знать кое-что о проблеме и потенциальных причинных взаимосвязях, а это не всегда возможно.

Пока мы вообще не затрагивали временные паттерны (приняли как данность, что причина происходит до следствия). Однако иногда используется фактор, способный объяснить корреляцию, который мы обычно не включаем в свой анализ, – изменение взаимозависимости во времени.

Чтобы представить ситуацию, когда экранирование не срабатывает, вспомним примеры индетерминизма из начала этой главы. Если некое оборудование неисправно, это может помешать идеальному экранированию его эффектов. Чтобы это проиллюстрировать, часто используется пример с неисправным тумблером, одновременно включающим телевизор и лампу (он не всегда замыкает цепь). Если телевизор работает, горит и лампа, и наоборот, но, бывает, оба прибора не активированы. Для решения этой проблемы можно добавить четвертую переменную – замкнутую цепь; но, чтобы узнать о ее необходимости, нужно иметь некоторое понимание о структуре проблемы, а оно есть не всегда.

Один из вариантов – не рассматривать точную взаимосвязь, но изучить, будет ли возможная причина иметь большое значение для следствия, если другие факторы останутся неизменными. До сих пор мы анализировали все ситуации, при которых то, что нельзя считать причиной, может все-таки повышать вероятность следствия; но возможно также, что истинная причина не повысит эту вероятность. Один из очевидных примеров – это причина, предотвращающая следствие (например, вакцина, которая предупреждает болезнь). С такими случаями разобраться легко, поскольку мы можем либо переопределить факторы в терминах снижения вероятности, либо применить отрицание следствия как интересующий нас исход (то есть «неболезнь»). Но как насчет иных ситуаций, когда положительная причина снижает вероятность или вообще не оказывает никакого действия? Здесь ключевые факторы – это выборка, на основе которой берется информация, и степень детализации переменных.

 

Парадокс Симпсона

Представим, что вы пациент, которому надо выбрать одного из двух врачей. У доктора А (Алиса) смертность пациентов, проходивших лечение от определенной болезни, составляет 40 %, у доктора B (Бетти) – 10 %. Если исходить только из этой информации, легко выбрать Бетти; на самом деле у вас недостаточно данных, чтобы принять подобное решение.

Действительно, возможно, что для каждого отдельного пациента лечение у Алисы дает лучшие результаты, даже если кажется, что общий уровень смертности у нее выше.

Алиса и Бетти не выбирают пациентов случайным образом: видимо, их направляют другие врачи, или те приходят по объявлениям. Поэтому, если большой опыт Алисы привлекает к ней самые сложные и трудноизлечимые случаи, общий уровень смертности может показаться очень плохим, хотя как доктор она и лучше.

В этом примере интересно то, что мы не просто обнаруживаем ошибочную причинную зависимость, но и можем реально выявить зависимость, обратную истинной: что результаты Алисы хуже, хотя в действительности они лучше. Точно такой же сценарий может иметь место с медикаментами, если не анализировать данные выборочных экспериментов (когда пациенты распределяются по группам лечения случайным образом).

Главная проблема в том, что может быть смещение относительно того, кто какое лекарство принимает, а устранить его на деле получится только выборочным распределением пациентов по группам. К примеру, если больные с агрессивной формой рака получают лечение А, а с более легкими случаями – лечение В, несомненно, результаты А покажутся хуже, поскольку эта группа имеет более серьезные проблемы. Смещение выборки – одна из причин, по которой так сложно делать логические заключения на основе данных наблюдения. Можно обнаружить, что люди, активно занимающиеся спортом в пожилом возрасте, живут дольше тех, кто ведет малоподвижный образ жизни, – но, возможно, потому, что физически активные всю жизнь просто здоровее прочих.

Странный феномен, когда причинные взаимосвязи исчезают или обращаются вспять, известен как парадокс Симпсона, . Симпсон описал математические свойства, которые должны быть присущи данным, чтобы такая ситуация смогла возникнуть. Он привел пример, когда лечение приносит пользу, если данные по пациентам разного пола рассматриваются отдельно, но кажется неэффективным для контингента в целом. Другие исследователи показали, как возникает еще более экстремальная ситуация, когда новое лечение на деле приводит к повышению смертности у населения в целом, хотя и мне, и еще кому-то оно помогло. Это показано на рис. 5.6. Прочие известные примеры – процент поступивших в Беркли (когда показатель для женщин кажется ниже, поскольку они подают документы на факультеты с высоким конкурсом) и количество смертных приговоров во Флориде (когда казалось, что раса подсудимого влияла на приговор, хотя в действительности на него влияла раса жертвы).

Рис. 5.6. Иллюстрация парадокса Симпсона, где А лучше в каждой подгруппе, но В кажется лучше в комбинации

В каждом из примеров парадокса Симпсона можно объяснить сомнительную взаимосвязь с новой информацией – особенно если рассматривать подгруппы. В примере с докторами, изучив группы пациентов с одинаковым состоянием здоровья или уровнем риска, можно сделать вывод, что показатели Алисы лучше. В примере с процентом поступивших в Беркли можно провести стратификацию по факультетам, а в примере со смертными приговорами – по расовой принадлежности жертв. Это значит, что все дело в уровне детализации при изучении данных. Чтобы вывести на основе данных вероятностные зависимости, нужно знать, что наблюдаемые вероятности репрезентативны для зависимостей, лежащих в их основе. Если наша задача – осуществление политической программы, необходимо знать, что вероятности для одной группы населения применимы ко всей целевой группе.

Конечно, ключевая проблема – определить, когда и как подразделить имеющиеся данные, поскольку неверно, что очередное дробление решит вопрос. Можно иметь контринтуитивные результаты для отдельной подгруппы, которые не получить на агрегированных данных, и более мелкое деление снова изменит взаимосвязи. В примере с лекарством, лучше действующим на мужчин и женщин в индивидуальном порядке и хуже – на все население, вероятно, мы должны поверить, что лекарство вообще работает. Хотя подобная точка зрения немало дискутировалась, сам Симпсон считает, что такое лечение «вряд ли можно отвергать как бесполезное для всей человеческой расы, если оно приносит пользу мужчинам и женщинам». И все же он приводит пример, когда подобная интерпретация оказывается несостоятельной. Корректный набор переменных, используемых как условия, можно найти, однако для этого требуется, чтобы мы уже имели некоторое знание о причинно-следственной структуре. А это проблематично, если мы только приступаем к ее изучению.

Именно здесь кроется корень многих вопросов причинности. Мы просто не в состоянии полностью устранить потребность в базовом знании проблемы и обязаны использовать это знание, чтобы выбирать данные для анализа и интерпретировать результаты.

 

Контрфактуальное высказывание

«Если бы вы не шумели, когда я играл в боулинг, я не промахнулся бы». «Если бы на улице было жарче, я бежал бы медленнее».

В подобных случаях мы пытаемся выделить один ярко выраженный фактор, который приводит к одному исходу вместо другого. Часто говорим о причинности в терминах альтернативы уже случившемуся. Мы не можем ничего сказать наверняка: «Возможно, даже при идеальной погоде я растянул бы связки на пробежке или должен был остановиться и завязать шнурки на кроссовках».

Если исходить из предпосылки, что в случившемся сценарии все прочее оставалось бы неизменным, «я бежал бы быстрее, если бы погода была получше».

Такие высказывания указывают на определенную необходимость или значимость, а их не могут обеспечить закономерности. Если в случае с юмовской идеей регулярной повторяемости событий мы знаем только, что те или иные вещи часто происходят совместно, здесь пытаемся показать следующее: чтобы все произошло так, как произошло, нужна была определенная причина, и без этой причины все произошло бы иначе. Это называется контрфактуальным рассуждениеем. Фактически контрфактуальным называется высказывание следующего вида: «Если бы А было истинно, то и С было бы истинно». Например, если бы я нанес крем от загара, избежал бы ожога.

Интересно, что Юм положил начало как закономерному, так и контрфактуальному подходу к причинности. Он писал, что причина есть «объект, за которым следует другой объект, и когда за всеми объектами, подобными первому, следуют объекты, подобные второму» (определение закономерности), и далее: «Другими словами, без первого объекта никогда не существовал бы второй» (определение контрфактуальности).

Может показаться, что он верит, будто это всего лишь два способа сказать одно и то же. На деле, однако, эти определения породили два отдельных направления в области причинности.

Контрфактуальный подход (вдохновил его Юм, а формальное определение дал Дэвид Льюис (1973)) предполагает: чтобы С стало причиной Е, две вещи должны быть истинными: если бы С не произошло, Е не случилось бы, и если случилось С, то должно случиться и Е. То есть если бы я нанес крем от загара, не обгорел бы на солнце, а если бы не нанес, не смог бы избежать воздействия солнечных лучей. Такая формулировка охватывает одновременно и необходимость, и достаточность. Существуют также вероятностные контрфактуальные подходы, но мы не станем в них вдаваться.

Вспомним пример с хакерским марафоном. Может случиться так, что каждый раз, когда программисты выпивают много кофе, на следующий день они ощущают сильную усталость. Возможно, они пьют только кофе, но в больших объемах всегда, засиживаясь допоздна. И тем не менее, используя только эту регулярную повторяемость, мы обнаружим, что кофе и есть причина усталости. Но, если бы программисты не пили кофе, они все равно на следующий день валились бы с ног (они же не спали всю ночь, плюс отсутствие кофеина). Таким образом, потребление кофе не может быть причиной усталости – если проанализировать этот случай с помощью контрфактуальных высказываний.

В теории такой подход помогает различать факторы, случающиеся совместно по чистому совпадению и потому, что между ними есть реальная причинная зависимость.

Теперь спросите: откуда мы можем знать, что произошло бы?

Это одна из коренных сложностей построения юридических рассуждений (к этой теме мы еще вернемся): можем ли мы знать наверняка, что вы не были бы вынуждены резко тормозить, если бы автомобиль перед вами не занесло, и в результате столкновение не произошло бы? Возможно, ехавший за вами водитель отвлекся или был нетрезв, поэтому в любом случае он ударил бы вашу машину.

Контрфактуальные высказывания относятся именно к таким единичным событиям, а не к обобщенным свойствам (подробнее о них в ). Один из способов превратить такие случаи в объект, подлежащий формальной оценке, – соотнести их с моделью.

То есть, если мы сможем представить систему в виде набора уравнений, получим возможность проверить: останется ли следствие истинным, если окажется, что причина была ложной. К примеру, если яд всегда смертелен, то смерть истинна, если истинен яд. Конечно, смерть может наступить от многих возможных причин, поэтому для них нужно также установить набор значений. Тогда мы сможем увидеть, что произойдет при изменении значения яда. Если мы припишем ему значение «ложно», будут ли другие переменные достаточны, чтобы значение смерти осталось истинным? Эта идея лежит в основе моделей структурных уравнений, где каждая переменная – это функция от некоторого набора других переменных системы.

Однако контрфактуальный подход не свободен от проблем. Возьмем дело Распутина. Как гласит легенда, он съел пирожные с отравленным вином (содержащегося в нем цианистого калия хватило бы, чтобы убить пятерых человек), но все же остался жив. Потом он получил выстрел в спину – и снова не погиб; в него выстрелили еще раз. В конце концов его связали и бросили в ледяную воду. Он пережил и это! В итоге Распутин все же умер – захлебнулся. Что стало причиной смерти? Можно ли утверждать наверняка, что он бы умер, не будь отравлен? Могло случиться так, что яд подействовал не сразу или он ввел Распутина в коматозное состояние, и тот просто не мог выплыть. Точно такую же роль могли сыграть выстрелы (то есть другим способом способствовать смерти).

Подобные ситуации с несколькими причинами, любая из которых могла вызвать следствие, особенно сложны для контрфактуальных рассуждений. Это примеры множественности равнозначных причин, или симметричная форма так называемой избыточной причинности. Среди ее образцов – момент, когда в арестанта выпускают обоймы несколько членов расстрельной команды или когда пациент принял два лекарства, вызывающие одинаковые побочные эффекты. В обоих случаях, если одной из индивидуальных причин не было (один из солдат не стрелял, пациент принял одно из лекарств), следствие все равно случается. Следствие не зависит контрфактуально от каждой из причин.

Теперь сделаем условие менее жестким и скажем, что следствие случилось бы, но несколько иное. Возможно, побочные эффекты начались бы позже или, к примеру, не оказались бы столь сильными.

При множественности равнозначных проблематично не найти вообще никаких причин, но чисто теоретически мы никак не можем выделить одну особую. И кажется логичным, что каждая отдельная причина вносит в следствие свой вклад.

Возьмем ситуацию, когда есть две причины, но только одна из них активна в каждый конкретный момент времени, а другая представляет собой что-то вроде резерва, который активируется, если не срабатывает первая: к примеру, если каждый солдат будет стрелять, только если предыдущий залп не убил арестанта. В биологии часто встречаются подобные типы резервных механизмов: например, два гена дают одинаковый фенотип, но один из них к тому же побуждает другой к действию. То есть ген А подавляет ген B, и ген B активен, только когда неактивен ген A. И опять-таки фенотип не зависит от А, поскольку, если А неактивен, B активен и создает фенотип. Этот случай гораздо более проблематичен, чем предыдущий, поскольку мы можем интуитивно выбрать один фактор в качестве активатора следствия, хотя с помощью контрфактуального метода его нельзя обнаружить. Такой тип проблемы, когда есть две или более возможные причины для следствия, но реальна только одна, называется вытеснением.

Часто различают так называемые раннее и позднее вытеснения. При раннем вытеснении только один каузальный процесс доходит до завершения, в то время как другой – который был бы активен в отсутствие первого – подавляется. Именно это происходит в примере с резервным геном. Позднее вытеснение – ситуация, когда имеют место обе причины, но только одна ответственна за наступление следствия. Пример – расстрельная команда выполняет свою работу, но одна пуля настигает цель чуть раньше других и убивает арестанта до того, как в него попадают остальные.

Есть и другие ситуации со специфическими формулировками причинности в терминах контрфактуальности, в частности, когда каузальность рассматривается в цепочках контрфактуальных зависимостей. В случае с цепочкой контрфактуальной причинной зависимости говорится, что первый элемент цепи есть причина последнего.

К примеру, в эпизоде сериала «Как я встретил вашу маму» два персонажа спорят, кто виноват, что они опоздали на самолет. Робин винит Барни, потому что Тед, прыгая через турникет, чтобы встретиться с Барни в метро, получил штраф, и судебное заседание было назначено как раз на утро в день вылета. Тед, однако, позднее решает, что виновата Робин, потому что именно из-за нее Барни пришлось бежать марафон (поэтому ему понадобилась помощь в метро), и образовалась сложная цепочка разнообразных событий, включая сломанную ногу Маршалла (в чем была виновна Робин). Робин, в свою очередь, обвиняет Лили: из-за того что Лили долго ждала в очереди на распродаже свадебных платьев, Робин заснула у нее дома, поэтому Маршалл заметался и в результате сломал ногу. История заканчивается выводом Теда: во всем виноват он, потому что нашел редкую счастливую монетку и они с Робин использовали деньги от ее продажи, чтобы купить хот-доги через улицу от магазина одежды. В сериале все эти высказывания контрфактуальны: если бы Теду не нужно было идти в суд, он не пропустил бы свой рейс; если бы Маршалл бежал марафон, Барни не понадобилась бы помощь; если бы Лили не пошла в магазин одежды, Маршалл не сломал бы ногу; если бы Тед не подобрал монетку, они не узнали бы о распродаже.

Различные теории каузальности расходятся в том, что в подобных ситуациях считать истинной причиной. Некоторые базируются на поиске самого раннего фактора, запустившего цепочку событий, которые привели к следствию, другие – последней по времени причины. Одна из проблем состоит в том, что мы можем выявлять события, все более и более удаленные от фактического следствия.

Но еще проблематичнее ситуация, когда нечто препятствует одному проявлению следствия, но вызывает другое его проявление, создавая видимую цепочку зависимости. К примеру, добрый самаритянин спасает жизнь человеку, который падает на рельсы метро перед приближающимся поездом. Этот человек, однако, позже все равно погибает, прыгая с парашютом. Он не мог бы заниматься парашютным спортом, если бы его не спасли; выходит, что смерть контрфактуально зависит от прыжков с парашютом, а те – от факта спасения. Таким образом, добрый самаритянин стал причиной его смерти.

В мы рассмотрим, как это решается в юридических случаях. Как бы то ни было, если спасенный человек затем садится пьяным за руль и сбивает пешехода, мы не станем возлагать вину на спасителя, даже если его действия сделали реальным позднейший инцидент. Здесь, конечно, возможна причинно-следственная связь, но этого недостаточно, чтобы возложить юридическую ответственность: ее компонентом считается предсказуемость последствий, а здесь таковой не наблюдается.

 

Пределы наблюдений

Вернемся к статистическому примеру в начале этой главы, где утверждалось, что определенные факторы на 98 % спасают от бедности. К этому моменту вы, надеюсь, уже осознали, как сложно вывести из этой статистики причинную зависимость. Если мы располагаем только данными наблюдения, то не можем быть уверены, что нет никаких общих неявных причин, ответственных за видимые каузальные взаимосвязи. Например, мы способны обнаружить корреляцию между детской любовью к видеоиграм со сценами насилия и превращением в насильника во взрослом возрасте. Но любовь к подобным играм может зависеть исключительно от окружающих условий и генетических факторов. Точно так же, когда мы имеем возможность только наблюдать, но не вмешиваться, стоит учитывать вероятность смещения выборки. Скажем, люди, занимающиеся спортом, имеют усиленную толерантность к боли. Это ничего не говорит о том, действительно ли спорт повышает болевой порог или правда ли, что люди с высоким болевым порогом любят физические упражнения, поскольку легче выносят дискомфорт.

И все же наблюдения дают точку отсчета для последующих экспериментов или обращения к базовому знанию механизма действия (то есть к выяснению, как именно причина вызывает следствие).

 

6. Вычисления. Как автомаизировать поиск причин

 

Какие лекарства, принятые вместе, вызывают побочные эффекты?

Выборочные испытания лекарственных препаратов мало скажут об этом, поскольку, как правило, исследователи стараются не давать участникам несколько лекарств сразу. Чтобы спрогнозировать некоторые взаимодействия, можно использовать моделирование, но для этого требуется внушительное базовое знание. Можно протестировать некоторые пары медикаментов экспериментально, но с учетом затрат времени и средств это реально только для небольшого набора комбинаций. Хуже того, из миллионов доступных пар всего несколько способны интенсивно взаимодействовать и лишь у определенных групп населения.

Однако, после того как лекарство выведено на рынок, пациенты, фармацевтические компании и медицинские учреждения доводят подозрительные случаи до Управления по контролю за качеством пищевых продуктов и лекарственных препаратов (Food and Drug Administration, FDA), а там их вводят в базу данных. И если вы начинаете принимать лекарство от аллергии, а через несколько дней получаете сердечный приступ, то вы или ваш лечащий врач смело можете подавать соответствующее заявление. Следует знать, что такие заявления не верифицируются (не проверяются). Может быть, сердечный приступ у человека в действительности произошел из-за отрыва тромба, а недавний репортаж в новостях о том, как лекарства провоцируют сердечные приступы, придал объяснению правдоподобность.

Во многих ситуациях данные содержат мнимые причинные зависимости. Возможно, к сердечному приступу привели какие-то другие факторы в жизни пациента (например, невыявленный диабет); сведения могли быть неверны (например, загрязненный образец для анализа или неверная постановка диагноза); имела место некорректная последовательность событий (например, лабораторные исследования обнаружили повышенное содержание сахара в крови, но показатель повысился еще до принятия лекарства). Кроме того, многие реальные неблагоприятные события остаются незарегистрированными, если никто не додумался связать их с приемом препарата или если пациент не обращается за врачебной помощью и сам о факте не сообщает.

Но, даже если некоторые заявления и некорректны, такие данные помогают формулировать гипотезы для проверки. Если мы решили экспериментально подтвердить результаты – на пациентах, которым прописана комбинация лекарственных средств или каждое из них по отдельности, – это может привести к запоздалому выявлению взаимосвязи и, соответственно, риску для большего числа пациентов. Но, если вместо этого использовать другой набор наблюдательных данных – из больниц, – мы выясним в точности, что происходит, когда нуждающиеся в лечении принимают лекарства одновременно.

Именно это и сделали исследователи из Стэнфорда. Взяв сведения по неблагоприятным событиям из базы данных FDA, они обнаружили, что определенный препарат для понижения холестерина в крови и антидепрессант (а именно правастатин и пароксетин) способны при одновременном приеме повышать сахар в крови. Затем, используя больничные карты, ученые сравнили результаты лабораторных тестов пациентов, принимавших лекарства вместе или по отдельности, и выяснили, что сахар в крови повысился гораздо сильнее при совместном приеме препаратов.

Мы не можем знать наверняка, что больные пили предписанные им лекарства; или, возможно, те, кто принимал комбинацию препаратов, чем-то отличались от других. Для подобного вида данных есть немало ограничений, но результаты были подтверждены на основании сведений, полученных из трех разных больниц и после испытаний на мышах.

В этом исследовании ученые не отталкивались от гипотезы о возможном взаимодействии медикаментов, а вывели гипотезу на основе данных. Напротив, все работы, которые мы обсуждали до сих пор, предусматривали анализ конкретных каузальных утверждений: к примеру, требовалось определить, действительно ли избыточное потребление сахара провоцирует диабет.

Но если мы не имеем понятия, что вызывает успешные взаимодействия, почему растут повторные поступления пациентов в больницы или что влияет на посещаемость сайтов, то что и когда мы можем узнать из баз данных, таких как обмен сообщениями на сайтах свиданий, клинические медицинские карты или поисковые запросы в Сети?

С помощью комбинации вычислительных возможностей и методов эффективного обнаружения причин на основе данных мы можем перейти от оценки одной причины к интеллектуальному анализу данных, чтобы вскрыть многие каузальные отношения одновременно. Методы автоматизации также помогают выявлять более сложные взаимодействия, чем те, которые человек способен наблюдать непосредственно. К примеру, нам удастся обнаружить последовательность этапов (и каждый включает множество необходимых компонентов), которая приводит к восстановлению сознания у пациентов, перенесших инсульт.

В этой главе мы исследуем методы перехода от данных к причинам. Первое, что нужно обсудить, – вопрос о том, какие сведения пригодны для каузального осмысления. Не каждый набор данных позволяет делать корректные умозаключения, поэтому мы рассмотрим, какие необходимы допущения (чтобы быть уверенными в достоверности результатов) и к каким выводам можно прийти, если допущения не выполняются.

Известно множество методов причинного осмысления, но мы ограничимся двумя основными категориями: теми, в задачу которых входит поиск модели, объясняющей данные (и, в конечном счете, одновременное изучение всех заключенных в ней причинных взаимосвязей), и теми, которые фокусируются на оценке силы каждой индивидуальной взаимосвязи. Главное, что нужно осознать, – нет варианта, который в любой ситуации окажется лучше всех. Хотя в вычислительных методах уже произошел крупный прорыв, эта область по-прежнему открыта для исследований, а проблема абсолютно точного причинного осмысления в отсутствие базового знания для всех случаев без исключения остается нерешенной.

 

Допущения

Прежде чем переходить к методам причинного осмысления, нужно дать некоторые вводные сведения. Под термином «причинное осмысление» я имею в виду следующее. Набор измеримых переменных (например, исторические цены на акции) закладывается в компьютерную программу. На основе обработанной информации делается вывод, какие переменные оказались причиной других (к примеру, рост цен на акцию А вызывает рост цен на акцию B). Это может означать выявление силы взаимоотношений в каждой паре переменных или выяснение модели их взаимодействия. Данные могут быть временной последовательностью событий (к примеру, дневные изменения цен на акции) или взятыми на конкретный момент. Во втором случае вариация берется в пределах неких выборок вместо изучения временных изменений. Один из примеров такого рода данных – одномоментное исследование группы, а не экспертное отслеживание отдельных участников в течение долгого времени.

Допущения для различных методов слегка варьируются по критерию используемых данных, однако некоторые свойства оказываются общими практически для всех методов и влияют на любые заключения.

В отсутствие скрытой общей причины

Вероятно, самое важное и универсальное допущение звучит так: все общие причины переменных, зависимости между которыми мы рассматриваем, измеримы. Это также называют причинной достаточностью в методах графических моделей (к ним мы вскоре перейдем).

Если мы, имея набор переменных, хотим найти между ними каузальные зависимости, то должны быть уверены, что уже измерили все общие причины этих переменных. Если истинно утверждение, что кофеин приводит к недосыпанию и повышает давление – и что это единственная взаимосвязь между сном и сердечным ритмом, – то, не измерив потребления кофеина, мы можем сделать некорректные выводы при выявлении отношений между его следствиями. Причины, отсутствующие в наборе данных, называются скрытыми или латентными переменными. Неизмеренные причины двух или более переменных, способных привести к ложным умозаключениям, именуются скрытыми общими причинами или латентными искажающими факторами, а возникающие вследствие этого проблемы называются искажением (что чаще встречается в информационных технологиях и философской литературе) и смещением из-за пропущенных переменных (что более присуще статистике и экономике). Это одно из ключевых ограничений исследований наблюдением, а также вводных данных в вычислительных методах, поскольку приводит как к выявлению ложных взаимосвязей, так и к переоценке силы причин.

Немного изменим этот пример. Кофе напрямую влияет на сон – а теперь он будет влиять на сон и через фактор частоты сердечных сокращений (ЧСС), как на рис. 6.1. Даже если ЧСС служит причиной недосыпа, мы видим, что этот фактор более/менее значим, чем если бы мы не измеряли потребление кофе. То есть, поскольку кофеин вызывает сердцебиение, высокий показатель последнего может дать нам некую информацию о статусе тонизирующего напитка (присутствие/отсутствие). В мы увидим, как экспериментальными методами посредством рандомизации можно решать эту проблему.

Рис. 6.1. Кофеин – общая причина учащения пульса и недосыпания, однако ЧСС также напрямую влияет на сон

Хотя практически любой метод, основанный на данных наблюдения, допускает, что нет никаких скрытых общих причин, на практике редко можно быть уверенным в этом. Заметим, однако: мы не обязаны допускать, что измерена каждая причина – только общие.

На рис. 6.2 (а) показано, что кофеин изменяет как качество сна, так и сердечный ритм; алкоголь вызывает аналогичный эффект. Не располагая данными по потреблению алкоголя, мы не сумеем выявить эту причину изменений сна, однако в результате не будут сделаны некорректные выводы об их взаимоотношениях. Аналогично, если кофе воздействует на сон посредством промежуточной переменной, отношения будут примерно такими: кофеин вызывает повышенное сердцебиение, а оно провоцирует недосып (рис. 6.2 (б)), и если при этом мы не измеряем сердцебиение, то просто найдем более неявную причину, а не некорректную структуру. Таким образом, необязательно наблюдать каждое индивидуальное звено в каузальной цепи.

Рис. 6.2. Если алкоголь (слева) и сердцебиение (справа) не измерены, это не ведет к искажению связи между кофеином и сном

Некоторые вычислительные методы исходят из допущения, что все общие причины измерены, и определяют, в каких случаях может существовать невыявленная причина, или иногда помогают обнаружить саму причину. Однако это, как правило, возможно только при очень жестких условиях и затруднительно при наличии комплексных временных рядов. Но как быть, если мы не знаем, что все общие причины измерены, и не в состоянии применить эти методы для выяснения причин?

В методах графических моделей, о которых мы поговорим далее, доступно только одно: найти все возможные модели, соответствующие данным, включая те, которые имеют скрытые переменные.

К примеру, если мы найдем видимую причинную зависимость между сном и сердцебиением и при этом будем знать, что могут существовать неизмеренные причины обоих факторов, то одной из возможных моделей будет скрытая переменная, которая вызывает оба наблюдаемых фактора. Преимущество в том, что иногда возникают некие общие для всех моделей взаимосвязи, объясняющие имеющиеся данные. Тогда, даже когда есть множество возможных структур, нетрудно вывести некие заключения относительно потенциальных корреляций.

Во всех случаях, однако, уверенность в выводах о каузальных взаимосвязях должна быть пропорциональна убежденности, что нет никакой потенциально неизмеренной причины, а заключение, сделанное на основе данных наблюдения, может стать точкой отсчета для будущих экспериментов, которые подтвердят его или опровергнут.

Репрезентативное распределение

Помимо уверенности, что мы располагаем верным набором переменных, необходимо также знать, что наблюдаемые события отражают истинное поведение системы. По существу, если нет сведений, что наличие тревожной сигнализации становится причиной ограблений, нужно верить, что – при наших данных – ограбления зависят от отсутствия системы сигнализации.

Мы уже изучили несколько ситуаций, когда сведения не были репрезентативными: 1) анализ данных в ограниченном диапазоне не позволил выявить корреляции между интенсивностью учебы и экзаменационными баллами (); 2) парадокс Симпсона стал причиной исчезновения или обращения вспять причинно-следственных связей между лекарствами и исходом заболеваний в зависимости от того, брались данные агрегированно или изучались отдельно для мужчин и женщин ().

Также мы видели пример, как можно нивелировать взаимозависимости, чтобы выявлять причинности без корреляций. В мы наблюдали две цепочки между занятиями бегом и потерей веса, когда бег давал положительный эффект и отрицательный, поскольку занятия спортом вызывали повышенный аппетит. При неудачном распределении это значит, что мы можем вообще не обнаружить никакой взаимосвязи между пробежками и потерей веса. Поскольку осмысление причинности зависит от наблюдения реальных зависимостей, мы, как правило, вынуждены делать допущение, что такого типа нивелирования нет. Подобное допущение часто называют верностью (речь о видах ассоциации), поскольку данные, не отражающие истинную структуру, на которой все построено, в некотором смысле ей «неверны».

Кое-кто утверждает, что такой тип нарушения связи редок, но на деле некоторые системы – к примеру, биологические – структурированы так, что практически гарантируют нарушение. Когда множественные гены продуцируют фенотип, даже если мы возьмем за основу неактивный ген, фенотип по-прежнему будет присутствовать, что приведет к видимой зависимости между причиной и следствием. Многие системы, вынужденные поддерживать равновесие, включают подобного рода резервные причины.

И все же нам даже не нужна точная нивелировка или вообще какая-либо зависимость, чтобы нарушить допущения о верности. Это потому, что на практике большинство вычислительных методов требует выбирать статистический предел, на основании которого зависимость будет принята или отвергнута (здесь используются p-значения или другие критерии). Вероятность следствия не должна быть в точности равна его вероятности под условием причины – просто достаточно близка, чтобы результат оставался в пределах допустимого. Например, вероятность потери веса после пробежки может не равняться вероятности потери веса вообще, без бега, однако может привести к нарушению допущения о верности, если отличие будет незначительным.

* * *

Еще один вариант нерепрезентативности распределения, касающегося истинного набора зависимостей, – смещение выборки. Скажем, есть данные из больницы, куда включены диагнозы и результаты лабораторных испытаний. Однако один из тестов крайне дорогой, поэтому врачи просят сделать его только в том случае, если у пациента необычная картина болезни и другим способом диагноз поставить нельзя. В большинстве случаев тест дает положительный результат. Из этих наблюдений, однако, нельзя узнать истинную вероятность такого исхода, потому что тест заказывают только при высоких шансах на положительный ответ. По результатам медицинских проверок мы, как правило, видим лишь ограниченный диапазон данных – например, когда измерения делаются только у самых больных пациентов (как инвазивный мониторинг в отделении интенсивной терапии). Диапазон наблюдаемых значений включает заболевших, состояние которых достаточно плохое для проведения подобного мониторинга. Ситуация проблематичная, поскольку это значит, что, если мы выявим причинную зависимость для такой ограниченной группы, она может не быть истинной для населения в целом. Аналогично можно не распознать истинную зависимость из-за отсутствия в выборке вариации.

Это называется проблемой упущенных данных. К искажению могут приводить упущенные переменные, но и упущенные измерения действуют аналогично, формируя нерепрезентативные распределения относительно истинного базового распределения. Упущенные значения, как правило, не результат случайного их удаления из набора данных, скорее, они зависят от других измеренных и неизмеренных переменных.

К примеру, в больнице для проведения медицинской процедуры у пациента нужно отключить несколько мониторов (что приведет к пробелу в регистрации сведений), или данные не зафиксируются из-за сбоя аппаратуры. Возможно, сахар в крови будет замеряться с меньшими интервалами, если этот показатель выходит за пределы нормы, поэтому большие пробелы в измерениях не окажутся независимыми от фактических значений, а существующие значения могут отклоняться вплоть до экстремумов. Данные, упущенные из-за скрытой причины, способны вести к искажениям, в то время как сбой аппаратуры может означать, что и другие близкие измерения также ложны (и могут искажать результаты).

В действительности мы только допускаем, что распределения отражают истинную структуру, поскольку размер выборки становится достаточно большим. Если я звоню другу и в этот момент раздается звонок в дверь, трудно сказать, повторится ли снова эта ситуация. Но что если это случается 5 или 15 раз? В общем, мы допускаем, что по мере увеличения массива данных мы все ближе подходим к наблюдению истинного распределения событий. Если бросить монетку всего несколько раз, можно не увидеть равного распределения орлов и решек; но по мере того, как число бросков будет стремиться к бесконечности, распределение приблизится к соотношению 50/50. Здесь увеличение массива данных означает снижение вероятности необычной цепочки событий, которая не будет отражать истинные базовые вероятности (такие как последовательность бросков игральных костей, когда выпадают одни шестерки).

Мы делаем аналогичное допущение для причинного осмысления: у нас достаточно данных, и мы можем усмотреть реальную вероятность (а не аномалию) того, что следствие наступает после причины. Нетрудно возразить, что для некоторых систем, например нестационарных, даже бесконечно большой набор данных может не удовлетворять этому допущению, и стоит исходить из предположения, что со временем отношения останутся стабильными. Вспомним: термин «нестационарные» означает, что свойства (например, средняя дневная прибыль от ценной бумаги) со временем меняются. На рис. 6.3 скидки (временные ряды обозначены пунктиром) и покупки горячего шоколада (сплошные линии) фактически не коррелируют по составным временным рядам, однако сильно взаимосвязаны в период, показанный серым цветом (который обозначает зимний сезон).

Рис. 6.3. Зависимость между двумя переменными со временем меняется, и они связаны только в период, обозначенный серым

Итак, если бы мы использовали все данные, то не выяснили бы, что скидки ведут к росту продаж горячего шоколада. Но, если бы воспользовались только сведениями по зимнему сезону, могли бы найти сильную зависимость. Стоит отметить, что увеличение объема данных не решает проблему – делать это нужно другими способами, о которых мы говорили в .

Правильная переменная

Задача большинства методов, основанных на логических выводах, – найти зависимости между переменными. Если вы располагаете данными по финансовым рынкам, переменными будут отдельные ценные бумаги. В политологии ими могут быть дневные пожертвования в фонд политической кампании или количество телефонных звонков.

Мы можем либо начать с набора уже измеренных факторов, либо провести некоторые измерения, и обычно мы считаем каждый измеренный фактор переменной. Однако есть некоторая неопределенность: нужно не только измерить правильные вещи, но и быть уверенными в их верном описании.

Помимо простого решения, включить в массив некие данные или нет, придется сделать множество выборов относительно организации самой информации. В рамках некоторых исследований обычное ожирение и патологическое (морбидное) могут входить в одну категорию понятий (и мы просто фиксируем, истинны эти состояния или нет для каждого человека). Но в исследованиях, посвященных лечению пациентов с ожирением, различие может оказаться критическим.

Измерение веса дает набор численных значений, которые заносятся на карту категорий. Возможно, самое важное здесь не вес, а то, меняется ли он, и если да, как быстро. Тогда вместо использования первичных данных о весе можно вычислить дневные или недельные отличия. Каково бы ни было решение, оно изменит результаты, поскольку они всегда относительны с точки зрения набора переменных. Если удалить некоторые переменные, может оказаться, что другие причины приобретут видимую значимость (например, снятие резервной причины может придать оставшейся больше видимой силы), а если добавить, то значимость других может снизиться (например, дополнительная общая причина может удалить ошибочную зависимость между следствиями такой причины).

Вернемся к примеру из начала главы, когда два медикамента по отдельности не повышали содержание сахара в крови, но иногда, принятые вместе, оказывали значительное воздействие на этот показатель. Вывод о причинной зависимости между отдельными переменными и разнообразными физиологическими измерениями, к примеру глюкозы, может помешать выявлению связи, но, если взять пару переменных вместе, удастся обнаружить неблагоприятное следствие. В этом случае правильная переменная – наличие двух медикаментов. Ее определение может быть проблематичным, но это единственная причина, по которой можно упустить из виду важные логические выводы, сделанные на основе определенного набора данных.

 

Графические модели

Нередко, пытаясь описать причинные взаимосвязи кому-то другому или понять, как вещи работают вместе, мы рисуем картинки. Такие изображения можно соотнести с вероятностными теориями причинности, которые разрабатывают философы. Взглянем на рисунок ниже, где показано, как вероятность одной переменной зависит от другой.

Прежде всего видно, что между рекламными объявлениями и покупательским поведением есть взаимосвязь. Мы знаем, что эта взаимосвязь действует в одном направлении – реклама влияет на покупки, а не наоборот.

А теперь добавим переменную.

Если мы захотим предсказать, будет ли совершена покупка, что нам требуется? Способ взаимосвязи переменных говорит: все еще необходимо знать лишь о том, видел ли некто рекламу. Визуально погода стоит справа особняком, а отсутствие ориентированного ребра (стрелки) от погоды к покупке означает, что этот фактор нельзя использовать для воздействия или предсказания предполагаемого следствия.

Идея о том, что для прогнозирования переменной нужно знать только о прямых ее причинах, называется причинным условием Маркова. Говоря технически, переменная не зависит от своих «непотомков» («потомки» – это следствия, следствия следствий и т. д.) при условии наличия их причин. Здесь ребра идут от причины к следствию, поэтому прямые причины – те, что связаны со следствием стрелкой.

Чтобы наглядно продемонстрировать полезность этой идеи, добавим причину рекламных объявлений.

Если маркетинговые стратегии влияют на покупки только посредством рекламы, то и вероятность покупки зависит лишь от рекламы – ее прямой причины. Как только значение объявления установлено, причина его появления теряет важность. Даже если мы обнаружим множество других причин объявлений, это не изменит фактора информации, которая нужна для прогнозирования покупок, так как все воздействия других переменных работают через объявления.

Перейдем к следующему рисунку.

Если мы захотим что-нибудь узнать о статусе покупок, не нужно выяснять, были ли объявления частью спланированной кампании или просто запущена массированная реклама. Чтобы понять, совершится ли покупка, важно лишь знать о факте показа рекламных объявлений. Эта идея аналогична скринингу, который мы наблюдали в . В теории это говорит о том, что если мы в силах прямо воздействовать на рекламу, никак не меняя при этом маркетинговые стратегии или бюджет, увидим и изменение в покупках. Дело в том, что они полностью определяются тем, как мы установим значение рекламных объявлений. На деле, однако, может оказаться невозможным вмешаться только в одну переменную, независимо от остальных на рисунке (подробнее об этом в ). Рекламу нельзя включить и отключить по мановению волшебной палочки, а вмешательства порой провоцируют непредвиденные побочные эффекты.

Рисунки такого вида не могут отобразить все возможные зависимости. Увеличение покупок также может приводить к расширению рекламы или к изменению стратегии, а это создает на изображении цикличность. Предложенные здесь иллюстрации – это графический режим представления данных, известный как байесовские сети,, а именно тип ориентированных и ациклических графов. «Ациклический» означает всего лишь отсутствие петель на графе, так что нижеследующее недопустимо.

Если представить, что вы прокладываете себе путь через ациклический граф, то закончить маршрут в том узле, с которого вы начали, невозможно. Такое свойство оказывается до удивления важным, когда мы применяем эти структуры в целях упрощения вероятностных расчетов. Скажем, требуется узнать вероятность одновременно покупок и рекламы, и мы ограничимся простым случаем, когда и то и другое может быть истинным или ложным. В отсутствие цикла, когда есть только ориентированное ребро (стрелка) от рекламы к покупкам, вероятность обоих событий вместе становится простой вероятностью покупки при условии рекламы, помноженной на вероятность того, что реклама истинна. То есть поскольку покупки зависят только от рекламы, просто нужно знать вероятность покупки, если известно, что реклама истинна, а затем учесть вероятность того, что происходит в действительности. К примеру, если вероятность покупки после просмотра рекламы составляет 1, но реклама имеет более низкую вероятность – скажем, 0,01, – шанс увидеть то и другое вместе будет равен 0,01.

Но если между двумя факторами есть петля обратной связи, вероятность рекламы также зависит от вероятности покупки. Это затрудняет расчеты, если мы хотим, чтобы воздействие случилось одновременно, однако проблему можно решить, добавив фактор времени.

Скажем, покупка в некоторый момент времени воздействует на рекламу с запаздыванием, не моментально. Чтобы это представить, понадобится множество графов.

Здесь мы имеем один граф, где показано, как переменные связаны по времени t, и еще один для следующего за этим момента времени t + 1. Реклама и покупки разобщены на каждом графе, поскольку не оказывают немедленного воздействия друг на друга. Каждый из графов для отдельных временных сегментов представляет собой байесовскую сеть и, следовательно, не может иметь циклов. Однако мы можем получить моментальное следствие между рекламой и покупкой или наоборот, поскольку на одном графике и то и другое присутствовать не может. Вместо этого соединим графы по времени, чтобы отобразить обратную связь.

Затем эта структура неоднократно повторится во времени, так что каждый раз покупка будет зависеть от значения рекламы в предыдущий раз, и наоборот.

Такой граф называется динамической байесовской сетью, хотя сама структура фактически неизменна во времени.

Возможны более сложные структуры со множественными задержками по времени, и необязательна связь со следующим моментом на временной шкале. Задержки могут быть и более долгими (например, запаздывание между подверженностью вирусу и развитием симптомов). Главное возражение – сложность осмысления таких структур существенно возрастает по мере увеличения числа переменных и задержек по времени.

Когда графическая модель становится каузальной

Мы можем использовать графы для представления причинно-следственных связей, но это не значит, что каждый граф, который мы создаем или о котором узнаём, имеет характер причинности. До сих пор мы всего лишь изображали, как вероятность одной вещи зависит от вероятности другой. Мы могли с такой же легкостью получить графы, показывающие, как перейти от аудиохарактеристик к распознаванию речи, фильтровать спам на основе его содержания и идентифицировать лица на изображениях. Может существовать множество графов, соответствующих набору вероятностных отношений (то есть представляющих тот же набор зависимостей).

Так как же узнать, каузальна ли графическая модель? Ответ кроется прежде всего в допущениях, связывающих графы с теориями, о которых мы уже говорили.

Первые графические модели причинных умозаключений были разработаны философами (Спиретс и др.) и специалистом по информационным технологиям (Перл), которые объединили философию причинности с графическими моделями. Скажем, реклама есть причина одновременно покупок и узнаваемости бренда, как на рис. 6.4 (а). Если бы у нас не было переменной, представляющей рекламные объявления, и мы пытались вывести зависимости из набора данных, то обнаружили бы граф на рис. 6.4 (б), где некорректно показаны покупки в качестве причины узнаваемости бренда.

Рис. 6.4. Истинная структура показана слева. Если реклама не наблюдаемая переменная, может появиться некорректная структура справа

Вспомните допущение об отсутствии скрытых общих причин, или о каузальной достаточности, из начала этой главы. Она необходима, чтобы избежать подобных ошибок. В целом может присутствовать общая причина любого ряда переменных, и, если она не измерена, мы не можем быть уверены, что результирующие выводы о каузальности окажутся корректны.

А что будет, если наша рекламная переменная указывает, действительно ли было куплено рекламное время на ТВ, но истинная причина – это просмотр рекламы определенное количество раз?

Как уже говорилось, нам нужны правильные переменные. Каузальные взаимосвязи могут включать в себя сложные их наборы: если выкурить одну сигарету, это вряд ли приведет к раку легких, но многолетнее курение – уже более сильная причина; лекарства часто имеют порог токсичности, так что 5 мг препарата могут не вызвать опасных последствий, а вот 50 мг – уже смертельная доза; грейпфрут не вреден, но он взаимодействует со многими лекарствами, вызывая серьезные побочные эффекты. Если к числу переменных относится факт курения (а не его продолжительность), факт приема лекарства (а не доза) и потребление грейпфрутов (а не их потребление на фоне приема определенного лекарства), то можно не найти причинных зависимостей или определить их неверно.

Такие структуры представляют собой вероятностные отношения и сообщают, какие переменные необходимы для прогнозирования значения остальных, однако для фактического расчета вероятности требуется еще один элемент информации.

Байесовская сеть состоит из двух частей: это структура (то есть как именно связаны между собой переменные) и набор распределения условных вероятностей. Если не слишком вдаваться в детали, это всего лишь таблицы, которые позволяют узнать вероятность каждого значения переменной, исходя из значений ее причин. Для простого графа с рекламой и покупкой хватит двух рядов и двух колонок.

Сумма каждого ряда составляет 1, поскольку, независимо от значений, которые принимает реклама, покупка также должна иметь некое значение, а сумма вероятностей равняться 1. Колонки не суммируются до единицы, потому что они дают вероятность конкретного значения покупки при условии двух значений рекламы. Наш простой граф не завершен, так как для него нужна еще одна таблица с вероятностью рекламы. То есть теперь известно, как определить вероятность покупки с учетом значения рекламы; но как выяснить вероятность рекламы? В этой таблице будет только два числа, поскольку у рекламы в графе нет родительских переменных, и ее вероятность ни от чего не зависит (точно так же вероятность того, что бросок монеты будет иметь конкретное значение, обычно не зависит от значения другой переменной).

Для каждого узла в сети мы получим аналогичную таблицу. Знание структуры существенно упрощает расчеты, так как значение каждой переменной задается ее исходными переменными. Напротив, если мы ничего не знаем о связи между переменными, нам придется включить их все в каждую строку таблицы. Если есть N переменных, которые могут быть истинными или ложными, количество строк будет равняться 2N. Мы можем получить знание о структуре и вероятностях из имеющихся данных или создать структуру на основе уже известного и отсюда выяснить вероятности.

В обоих случаях, однако, мы должны быть уверены, что данные корректно представляют истинные зависимости между переменными. Это возвращает к допущению о репрезентативном распределении, или верности. К примеру, мы не получим варианта, когда реклама способствует покупкам только в одном направлении, но мешает, если они ведут, скажем, к усталости от принятия решений. Если такое случится, мы можем не увидеть зависимости между рекламой и покупками, даже если это присутствует в истинной структуре. Мы также можем не найти правильных вероятностей, если на графе мало точек.

Верность может не иметь места в ряде других случаев, например при парадоксе Симпсона. Или когда в зависимости от разделения данных (например, все пациенты против только мужчин или только женщин) мы могли наблюдать независимость, а в действительности ее не было (например, больше женщин принимали лекарство А, чем лекарство B) и результаты отличались (например, у женщин были лучше, чем у мужчин, независимо от лекарства).

Еще один проблематичный случай – детерминизм взаимосвязей. Скажем, каждый раз, когда приходит электронное сообщение, компьютер подает сигнал, который, в свою очередь, заставляет моего пса лаять.

Если вероятность лая при условии сигнала равна 1 и вероятность сигнала при условии электронного сообщения также равна 1 (так что оба события происходят, когда имеют место их причины), сигнал не приводит к независимости сообщения и лая, даже если согласно структуре это должно происходить.

Представьте, что вам известно только, получено сообщение или нет. Теперь вы также знаете статус других переменных, потому что, если есть сообщение, сигнал также звучит и ведет к лаю. Вы можете некорректно заключить, что сообщение напрямую становится причиной других переменных. Эта проблема, однако, свойственна не только графическим моделям, а вообще большинству вероятностных методов.

Итак, повторим. Причинность графическим моделям придают следующие допущения.

• Вероятность переменной зависит только от ее причин (причинное условие Маркова).

• Все общие причины измерены (достаточность).

• Данные, на основе которых мы получаем знание, точно представляют реальные зависимости (верность).

Есть и другие неявные допущения, обеспечивающие корректность причинно-следственных заключений (должно быть достаточно данных, переменные должны быть корректно представлены и т. д.), но три вышеназванных допущения чаще всего становятся предметом обсуждений и отражают основные различия между графами, которые представляют и не представляют причины.

От данных к графу

Скажем, о сотрудниках компании есть некоторые данные: о рабочих часах, отпусках, о производительности и тому подобное. Как найти сеть причинно-следственных связей между ними?

Один из подходов – разработать меру для описания данных моделью, найти все возможные модели и выбрать одну с лучшим результатом. Это методы поиска и оценки. Допустим, в массиве данных истинно единственное отношение: «отпуск есть причина продуктивности». Значит, модель с этим ребром должна иметь балл выше, чем имеющая и другие отношения или в которой это ребро направлено в обратную сторону (от продуктивности к отпуску). То есть граф на рис. 6.5 (а) должен иметь более высокую оценку.

Рис. 6.5. Если О → П, первый граф будет иметь самую высокую оценку

Имея только эти три переменные, можно перечислить все возможные графы, проверить каждый и сделать выбор. Но, чтобы выбрать, нужен способ рассчитать, какой из них лучше соответствует данным. Есть много оценочных функций, и в итоге всегда выявляется, насколько хорошо мы описываем данные, не подстраивая граф под помехи и специфические свойства конкретного набора. Мы можем идеально учесть каждую точку в наборе данных с очень сложной структурой, но, вместо того чтобы моделировать каждый бит помех, стоит найти модель, которая охватывает более общие взаимосвязи между ее переменными.

Итак, обычно имеется фактор, исключающий граф, когда тот становится слишком сложным. Однако мы не можем выбирать между всеми возможными графами. Для набора из 10 переменных существует более 1018 вероятных графов. Это более чем в миллион раз превышает количество американской валюты. При этом не стоит даже пытаться искать взаимосвязи между всеми акциями в индексе S&P 500. Всего при 25 переменных количество возможных графов (свыше 10110) оставляет далеко позади число атомов во Вселенной (по прикидкам, их сравнительно мало – 1080). Ни при каких обстоятельствах нельзя протестировать их все, однако на практике это и не требуется. Мы можем выборочно сгенерировать столько, сколько возможно, и выбрать лучший, хотя с учетом их количества вряд ли вероятно, что мы натолкнемся как на раз на нужный. Вместо этого для алгоритмов проще задать некоторые индикаторы важности графов.

Скажем, мы тестируем первые три графа на рис. 6.6: рис. 6.6 (в) имеет высший рейтинг. Тогда наилучшая стратегия – не выборочное генерирование четвертого графа, а исследование ближних к нему. Мы можем добавить ребро, изменить его направление или удалить и посмотреть, как изменится рейтинг. Тем не менее может случиться так, что лучшим графом окажется изображенный на рис. 6.6 (г) и мы не сможем протестировать его с помощью этой стратегии, поскольку доводим до оптимума третий граф и останавливаемся еще до получения истинной структуры. Но, не тестируя каждый граф, нельзя узнать наверняка, что лучший из них попал в диапазон проверки.

Рис. 6.6. При переменных А, В, С и D рисунки а – в отображают возможные графы для тестирования. На рисунке г показана истинная структура

На рис. 6.7 проиллюстрирована проблема локальной оптимизации. Если ось Y – это рейтинг графа и мы тестируем только графы рядом с отмеченной точкой, можно думать, что это лучший из возможных рейтингов, потому что он самый высокий. Это называется «застрять в локальном оптимуме», потому что мы оптимизировали рейтинг в конкретной области. Но это не лучший из возможных результатов.

Рис. 6.7. Иллюстрация локального оптимума

Чтобы разрешить эту проблему, в алгоритмах изучения причинных структур используются «умные» методы ограничения набора графов, которые необходимо протестировать, и исследования максимально большего поискового пространства. К примеру, если нам известно, что пол – это всегда причина, но никогда не следствие, можно избежать тестирования графов, показывающих следствия.

Если у нас есть представление о видах вероятных структур, можно сгенерировать вероятностное распределение на основе набора графов и с его помощью сориентироваться по поводу возможных структур для исследования.

Как вариант, вместо изучения устрашающе огромного набора потенциальных графов можно использовать зависимости между переменными для построения графа. Методы на основе ограничений предназначены именно для этого: для тестирования по критерию независимости и применения результатов, чтобы добавлять, удалять или ориентировать ребра графа.

Одни методы предусматривают добавление переменных по очереди, а другие начинают со связывания всех переменных друг с другом и удаления ребер по одному.

Возьмем следующий граф, где три переменные соединены всеми возможными путями.

Если мы обнаружим, что А и В независимы при условии С, сможем удалить ребро между ними и продолжить поиск иных взаимосвязей, позволяющих так же снимать ориентировочные ребра. Порядок тестирования, однако, имеет значение, поэтому ошибка на первых шагах может привести к заблуждениям в последующих. Имея реальные данные, вряд ли можно обнаружить точную независимость, однако придется решить, в какой точке принять или отвергнуть гипотезу. То есть, если вероятность А при условии В в точности равна вероятности А, имеет место их независимость. Однако можно обнаружить, что вероятность А при условии В и С очень близка к вероятности только при условии С, но не равна ей.

На практике необходимо выбирать статистический порог, чтобы принять заключение об условной независимости на основе таких тестов. И если необходимо провести большое количество тестов, мы столкнемся со множеством проблем по проверке разнообразных гипотез, о которых говорилось ранее (вспомните ).

 

Измерение причинности

Один из подходов к причинному осмыслению – попытка найти модель, удовлетворяющую данным или объясняющую их. Но сделать это вычислительными методами крайне сложно, и в ряде случаев мы просто хотим узнать о взаимосвязях в некоем наборе уже измеренных переменных. То есть, возможно, нам нужно всего лишь выяснить причины рабочей производительности, а не выстроить полную модель, включающую все измеренные переменные. Рандомизированные испытания занимаются именно этими вопросами (каково действие конкретного лекарства на уровень смертности?), однако эксперименты можно проводить не во всех случаях, и им свойственны собственные ограничения (см. ).

Еще один вид причинно-следственных рассуждений связан с квантификацией силы индивидуальных каузальных зависимостей. Если отпуск – причина производительности, а не наоборот, то сила отпуска как причины производительности должна быть выше, а обратной посылки – ниже. Эти корреляции симметричны, но мера каузальной значимости должна учитывать асимметрию таких отношений. Кроме того, она должна в некотором смысле быть пропорциональна информативности причины относительно следствия, а также ее полезности как цели вмешательства для получения следствия. Если отпуск случайно спровоцировал производительность, при этом многочасовая работа всегда ее повышает, тогда отработанные часы имеют больше каузальной силы, чем дни отдыха. Аналогично если принуждать людей брать отпуск – эффективная стратегия повышения производительности, а заставлять работать по многу часов – нет, перерыв в работе окажется более значимой причиной производительности.

Если, однако, отпуск ведет к производительности только потому, что снижает текучку персонала, а более опытные сотрудники демонстрируют более высокую производительность труда, желательно убедиться, что весомость опыта для производительности выше, чем значимость отпуска. То есть требуется найти самые непосредственные причины (на рассмотренных нами графах это родительские переменные, а не отдаленные потомки).

Но, если мы в силах оценить причины производительности совершенно независимо от причин любой другой переменной, можно выполнить меньше тестов, причем реально проводить их параллельно друг другу (что повышает эффективность компьютерных программ для расчета этих переменных). Также это означает, что вместо применения аппроксимации (например, исследования подгруппы графов, а не всех возможных), когда многократный прогон программы каждый раз дает разные результаты, расчеты будут достаточно просты, чтобы использовать точные методы.

С другой стороны, есть ограничение: без структуры, показывающей связи между всеми переменными, нельзя брать полученные результаты непосредственно для прогнозирования. Скажем, мы обнаруживаем, что партийная поддержка – это причина, по которой сенаторы голосуют за законопроекты, и поддержка избирателей тоже может быть причиной. Но это ничего не говорит о взаимодействии между этими двумя видами поддержки, а также о том, будет ли результат сильнее, чем просто сумма двух причин. Одно из решений – найти более сложные взаимосвязи. Вместо того чтобы использовать любые измеренные переменные, можно выстроить конъюнкцию («законопроект поддерживают и партии, и избиратели»), выяснить, как долго некий фактор должен быть истинным (день, месяц, год и т. д.), и найти последовательности событий (будут ли результаты одинаковыми, если начать прием первого лекарства перед вторым?).

Не вдаваясь в детали, скажем, что существуют методы как для представления, так и для тестирования такого рода сложных взаимосвязей.

Значимость вероятностной причинной связи

Одна из возможных мер каузальной значимости – условная вероятность следствия при условии причины. Проще говоря, мы можем посмотреть, насколько отпуск повышает вероятность высокой производительности труда. Однако, как мы увидели в предыдущей главе, многие непричины также усиливают возможность других событий. Если отработанные часы и отпуск имеют общую причину, то они, по всей видимости, умножают вероятность друг друга.

Есть масса мер силы причинно-следственных связей, однако главное – каким-то образом включить сюда другую информацию и учесть общие причины. Так, допустим, мы знаем, что и отпуск, и сверхурочные увеличивают производительность труда, но, если присутствуют только сверхурочные, одно только знание об отпуске производительность не повысит.

На практике, однако, можно не измерять переменную напрямую. Возможно, мы не можем узнать точно, сколько часов люди работают, но мы в курсе, сколько времени они проводят в офисе. Некоторые из сотрудников на рабочем месте могут затягивать обеденный перерыв или тратить время на личную переписку и видеоигры. Используя только показатель офисных часов, не получится провести различие между этой категорией и теми, кто находится на месте меньше, но работает продуктивнее. С учетом этого обстоятельства такой индикатор рабочих часов не будет идеально экранировать следствия.

Подобный пример сродни тем, в которых мы изучали репрезентативность переменных (комбинации факторов против каждого отдельного) и ее влияние на результаты выводов о причинности. Итак, нам может понадобиться не только набор переменных для верного отделения причин от следствий. Также следует ожидать, что по этой и другим причинам (упущенные данные, ошибки измерений и т. д.) может иметь место некая вероятностная связь между переменными в отсутствие причинной зависимости, и придется выяснять, как с ними работать.

Если мы говорим, что отпуск – причина производительности, то имеем в виду, что факт отпуска важен для производительности. Если это действительно сильная причина, а требование эффективности не предъявляется ни к какому другому фактору (скажем, достаточный уровень дохода, чтобы отпуск не повлиял на финансы), то, независимо от значения других переменных (например, количества отработанных часов), производительность после отпуска должна повышаться.

И это не будет истинным для всех ситуаций, поскольку многие причины могут иметь как положительные, так и отрицательные следствия: к примеру, ремни безопасности в целом предотвращают летальные исходы дорожных происшествий, но иногда вызывают их, не давая выбраться из затонувшего автомобиля. Мы, однако, по-прежнему можем допустить, что даже если ремни безопасности иногда становятся причиной смерти, в среднем те, кто ими пользуется, имеют более низкие шансы погибнуть в автокатастрофе, чем остальные.

Чтобы квантифицировать (то есть выразить в численном виде) важность причин, можно в среднем вычислить, какое значение имеет причина с точки зрения вероятности ее следствий. Фактически идея заключается в том, чтобы выяснить, насколько изменяется вероятность следствия при отсутствии или наличии причины, если все остальное постоянно. Обстоятельства можно взвесить по критерию их вероятности; если причина значительно повышает вероятность следствия в часто повторяющемся сценарии, это значит больше, чем повышение вероятности в редких случаях.

Возьмем каузальную структуру на рис. 6.8, где партийная поддержка и идеология влияют на голосование политиков, но не предпочтения их избирателей. Если это истинный набор взаимоотношений, тогда в зависимости от того, поддерживают избиратели законопроект или нет, вероятность голосования «за» будет в точности такой же, хотя будут наблюдаться изменения при смене идеологии и партийных предпочтений.

Рис. 6.8. Средняя значимость избирателей для голосования будет стремиться к нулю. Обратите внимание, что графы без обведенных кружками узлов не представляют байесовские сети

Один из методов расчета причинной значимости – сразу зафиксировать значения всех переменных и взглянуть на различия в следствии для каждого заданного значения. Партия может выступать за или против законопроекта, идеологические предпочтения могут совпадать с ним или нет, равно как и избиратели. Итак, мы можем взять каждую комбинацию и посмотреть, какое значение оказывает одобрение электората для любого соединения партийной поддержки и идеологических переменных. Поскольку эти две переменные полностью определяют исход голосований, разницы не будет никакой.

Однако при добавлении переменных каждый из возможных сценариев будет отмечен не слишком часто, и мы, возможно, не увидим достаточно примеров, чтобы вывести статистически значимые заключения. Более практичная мера значимости, чем разработанная мной, предусматривает наличие одновременно только одной константы, при этом для усреднения различий причина либо вводится, либо нет. Для расчета этой меры причинной значимости εavg мы выясним, какое значение оказывают избиратели, взяв константой партийную поддержку законопроекта, а потом сделаем то же самое для идеологии и так далее, в итоге сведя все отличия воедино, чтобы получить средний показатель для значимости избирателей.

По большей части в методах, основанных на вероятностях (например, как этот), берется набор данных и высчитывается число, обозначающее причинную значимость одной переменной по сравнению с другой. Это значение может находиться в диапазоне от – 1 до 1, где –1 – сильная отрицательная причина, мешающая следствию произойти, а 1 – сильная положительная причина следствия.

Поскольку обязательно будут помехи, ошибки и упущенные данные, нельзя сделать допущение, что нечто, не оказывающееся причиной, всегда будет иметь нулевое значение. Вместо этого, как правило, необходимо определить, какие значения меры причинной значимости будут статистически значимыми (вспомним разговор о p-значениях и тестирование множественных гипотез в ).

К примеру, когда мы рассчитываем среднюю причинную значимость большого количества потенциальных причин, при этом нет истинных причинных взаимосвязей, распределение рейтингов значимости (значений εavg) будет выглядеть как колоколообразная (гауссова) кривая, или как светло-серые столбцы на рис. 6.9. Если в тестируемом наборе присутствуют некоторые истинные причинные взаимосвязи, их рейтинги значимости будут основаны на других распределениях (черные столбцы на том же рисунке). Можно применить это различие между наблюдаемым и ожидаемым, чтобы выяснить, какие значения меры могут считаться каузальными.

Рис. 6.9. Гистограмма рейтингов значимости для набора причинных зависимостей. Область светло-серого цвета (со средним значением 0, обозначающим незначимость) представляет ложные зависимости, черные столбцы – истинные причины. Из-за помех и иных факторов не все непричины будут иметь значимость 0, но будут распределены вокруг этой центральной области

Как обычно, чтобы высокие уровни причинной значимости соответствовали истинным причинам, нужно быть уверенными, что мы точно измерили силу (и, следовательно, вероятности репрезентативны относительно истинных значений) и, как в байесовских сетях, общие причины (или можно переоценить значимость других причин либо выявить ложные зависимости). Для этих временных рядов также понадобится сделать допущение, что отношения остаются стационарными во времени. Причина в том, что если отношения изменяются во времени, то, возможно, две переменные будут независимы для одной, но не для другой части временных рядов. Когда мы исследуем весь временной ряд сразу, отношения могут показаться слабыми, даже несмотря на их относительную силу на фоне некоторой части ряда.

Отвечая на вопрос «почему», мы часто забываем о вопросе «когда». В ряде методов можно уточнить временное запаздывание, или окно, так что нетрудно рассчитать значимость, скажем, близкого контакта с человеком, больным гриппом, для развития симптомов заболевания в период от одного до четырех дней. Но, если мы не имеем никакого понятия о том, что вызывает грипп, как поймем, что протестировали именно это «окошко»? Вот одно из слабых мест, присущих подобным подходам: если мы протестируем неверный набор временных рядов, то либо не сумеем выявить нескорые реальные причины, либо найдем только подгруппу в пределах истинного набора временных задержек.

Тестирование всех мыслимых запаздываний не слишком разумная стратегия, так как это значительно повышает сложность вычислений, при этом даже не гарантирует, что будут найдены правильные временные паттерны. Дело в том, что выборка данных часто берется неравномерно по времени и разброс может быть слишком велик (при малом количестве измерений и больших пробелах между ними), а пробелы не обладают свойством выборочного распределения.

Скажем, у нас есть результаты лабораторных испытаний для группы пациентов, а также врачебные предписания для них. Даже если лекарство однозначно повышает сахар в крови на протяжении недели, имеющиеся у нас измерения вообще (или в большей части) могли проводиться не сразу после приема препарата. Может также иметь место запаздывание от даты назначения до начала приема лекарства, так что кажущаяся длительная задержка между предписанием и повышением глюкозы на самом деле способна проявиться только через неделю после лечения. В результате для каждого отдельного временного интервала может не хватить объема наблюдений. Применение временных окошек может принести пользу (поскольку, если взять их вместе, удастся получить достаточное количество наблюдений за 5–10 дней), хотя по-прежнему не решается проблема с тем, какое именно временное окошко тестировать.

Один из способов выявления временных паттернов на основе данных – набирать потенциальные паттерны и потом корректировать, исходя из данных. Реальным этот метод делает мера значимости. Посмотрим на рис. 6.10, когда тестируемое временное окно перекрывает истинное, но отличается от него. Это и есть возможные сценарии. По мере того как окно растягивается, сужается или смещается, мы пересчитываем причинную значимость. В каждом случае, меняя некорректные окна, чтобы приблизиться к истинному, мы улучшаем рейтинг значимости. При наличии временного окна наша переменная-следствие и будет следствием, которое случается в некотором временном диапазоне. Если окно намного шире истинного, как на рис. 6.10, будет множество примеров, когда можно ожидать, что следствие произойдет, но этого не случится (следовательно, рейтинг значимости будет исключен для всех этих следствий, по видимости не случившихся после причины). С другой стороны, если окно слишком узкое, следствие будет казаться вероятным, даже когда не вызывается потенциальной тестируемой причиной. По мере того как временные паттерны приближаются к реальным, значимость возрастает, и можно доказать, что она соответствует действительной.

Рис. 6.10. Возможные случаи, когда временное окно причины при тестировании образует перехлест, но отличается от истинной причины, в которой производит следствие

Причинность по Грэнджеру

Вероятности применяются чаще всего тогда, когда данные включают дискретные события: к примеру, наличие или отсутствие диагноза; лабораторные значения, сгруппированные по категориям «нормальное», «высокое» и «низкое». Но что, если требуется понять, как изменения в ценах на одну акцию приводят к модуляциям в объемах торгов другой ценной бумагой? Тогда на самом деле мы хотим выяснить не то, как одно ценовое значение приводит к росту объема торгов, а размеры ожидаемого роста.

В то время как вероятностные методы тестируют, насколько шансы того, что случится некое событие, меняются в зависимости от причины, мы также можем проверить, как меняется значение переменной относительно изменений в причине. Большинство методов, которые мы рассматривали до сих пор, доступны к использованию как раз подобным образом.

Хотя, строго говоря, традиционно это не считается каузальностью (по мотивам, которые мы вкратце рассмотрим), один из общеприменимых методов причинного осмысления на основе данных временных рядов с непрерывными значениями называется «причинность по Грэнджеру». Взяв за основу труды Винера (1956), который утверждал, что причины повышают предсказуемость следствий, Грэнджер разработал прикладной метод тестирования каузальности в финансовых динамических рядах, таких как прибыль от ценных бумаг. Идея в следующем: причина предоставляет некую информацию о следствии, которая не содержится в других переменных и позволяет лучше предвидеть значение следствия. И, если мы возьмем всю сумму знаний до определенного момента, вероятность того, что следствие имеет некоторое значение, будет отличаться, если мы удалим причину из этого набора сведений.

На практике мы не располагаем неограниченным набором информации и не можем использовать ее всю, даже если получим благодаря сложным вычислениям.

Не вдаваясь в детали, скажем: существуют две формы причинности по Грэнджеру, каждая из которых приводит к совершенно разным логическим заключениям. Важно понять, что ни та, ни другая по-настоящему не соответствуют причинности. Но, поскольку их часто применяют в поддержку каузальных утверждений, полезно разобраться, на что они способны, а на что нет.

Во-первых, двумерная причинность по Грэнджеру ненамного отличается от корреляции (хотя сама мера несимметрична). Она включает всего две переменные и просто сообщает, может ли одна помочь в прогнозировании другой. Так, если мы измеряем погоду, задержки авиарейсов и продажи кофе в аэропорту, то в состоянии выявить зависимости только между парами, например прогнозируя задержки авиарейсов по погоде. Даже если нет скрытых переменных, такой подход не дает никаких преимуществ для предотвращения искажений. Таким образом, двумерная причинность по Грэнджеру иногда приводит к обнаружению ложных мотивационных взаимосвязей между следствиями с общей причиной. Если плохая погода вызывает задержки отправления и самолетов, и поездов, мы можем некорректно заключить, что отложенные авиарейсы оказываются причиной запаздывания железнодорожного транспорта, и наоборот. В соответствии с этим методом легко сделать вывод, что все до единого более ранние звенья в цепочке причин становятся поводами для более поздних, вместо того чтобы выявить только непосредственные взаимосвязи. То есть если у нас есть последовательность событий, можно решить, что первое есть причина последнего, поскольку мы не принимаем в расчет промежуточные звенья.

Есть множество методов тестирования причинности по Грэнджеру, однако самый простой из них – регрессия. Скажем, требуется выяснить, что было вначале – курица или яйцо. Следуя Турману и Фишеру (1988), возьмем два временных ряда: один будет показывать ежегодное производство яиц, а другой – годовую популяцию кур. В итоге получим два уравнения: одно покажет зависимость значений по курам от предыдущих значений и кур, и яиц, а другое – зависимость яиц от предыдущих значений по курам и яйцам. Количество предыдущих значений (интервалов) – это параметр, который выбирает пользователь.

Здесь возможен тест на зависимость между производством яиц в определенный год и популяцией кур в предыдущий год, два и т. д. Для каждого года производства яиц и популяции кур существует коэффициент, показывающий, насколько значение текущего года зависит от показателя предыдущего. Нулевой коэффициент означает отсутствие зависимости вообще. Итак, если коэффициенты производства яиц в уравнении для яиц отличны от нуля в некоем временном интервале, тогда куры – это грэнджеровская причина яиц (если значение для предыдущего года – два, это значит, что яйца в два раза превышают популяцию кур за предыдущий год).

Чаще всего увеличение интервалов означает повышение сложности, также может устанавливаться практический предел для тестирования, помимо ограничений, связанных с данными, например количество точек данных и детализация измерений.

Вернемся в наш аэропорт. Скажем, при прогнозировании продаж кофе мы возьмем в качестве переменных погоду, задержки вылетов и предыдущие значения продаж кофе. Это будет многомерная причинность по Грэнджеру, когда мы включаем в каждый тест все имеющиеся переменные. Нет возможности принять во внимание все сведения в мире, но нетрудно проверить, будет ли информативна некоторая переменная, если учтены все остальные, оказавшиеся в нашем распоряжении. Скажем, истинная зависимость такова: погода вызывает задержки рейсов, а задержки рейсов вызывают рост продаж кофе, потому что людям приходится ждать в аэропорту. Тогда, после включения в кофейное уравнение задержки, погода не сможет дать никакой новой информации, и ее коэффициент будет стремиться к нулю (а значит, не повлияет на прогнозирование объема продаж кофе). Нельзя утверждать, что наблюдается причинная взаимосвязь, поскольку коэффициенты все же отличны от нуля, однако нетрудно провести тесты и проверить статистическую значимость этого отличия от нуля.

Здесь мы подходим ближе к причинности, но нет гарантии, что наши выводы истинны. Что еще важнее, даже если многомерная форма гораздо сильнее и точнее, она применяется намного реже, поскольку требует слишком интенсивных вычислений.

 

И что теперь

Возможно, вы носите «умные часы», которые месяцами регистрируют данные о вашем сне и физической активности; или у вас есть данные полицейских отчетов по своему району, и вы хотите найти причину преступлений; а возможно, вы прочли, что некто вывел локальные тренды заболеваемости гриппом из постов в соцсетях. Как будете справляться с анализом собственных сведений?

Главное, что следует осознать, – нет какого-то единственного способа решения всех проблем с причинными зависимостями. Ни один из существующих подходов не дает возможности в каждом случае безошибочно определить причины (что оставляет широкий простор действий ученым). Некоторые позволяют сделать более общие выводы, чем другие, но все зависит от допущений, которые в реальности не истинны. Вместо того чтобы досконально освоить один метод и использовать его для решения всех проблем, нужен набор инструментов. Большинство методов можно адаптировать под основную массу ситуаций, но это не будет простейшим или самым эффективным подходом.

С учетом того, что ни один метод не совершенен, возможно, самая важная вещь – осознать пределы каждого. К примеру, если ваши логические выводы базируются на двумерной причинности по Грэнджеру, не забывайте, что вы ищете своего рода направленную корреляцию и учитываете многомерный подход. Байесовская сеть может быть неплохим выбором, когда каузальная структура (связи между переменными) уже известна и вы хотите вывести ее параметры (вероятностные распределения) из некоторых данных. Но, если для решения проблемы важно время, динамические байесовские сети (или методы для нахождения временных паттернов причинных зависимостей на основе данных) могут оказаться более приемлемыми.

Зная, непрерывны ваши данные или дискретны, можно сузить область вариантов, так как многие методы работают либо с одними, либо с другими (но не с обоими видами сразу). Если данные включают большое число переменных или вам не нужна полная структура, методы расчета причинной силы окажутся эффективнее тех, что работают с моделями. При использовании их, однако, нужно учитывать необходимость конструирования взаимодействий между причинами с целью прогнозирования.

Таким образом, цель использования причин так же важна, как и имеющиеся в наличии данные для выбора методов. Наконец, уясните для себя, что любые предпочтения, сделанные в рамках сбора и подготовки данных, влияют на характер логических выводов.

 

7. Эксперимент. Как найти причины путем вмешательства в действия людей и систем

 

Многие утверждения относительно здоровья имеют обратимый характер, если выждать достаточное время. Один из самых поразительных сдвигов заметен в понимании связи между гормонозаместительной терапией (ГЗТ) и сердечными приступами: ранние исследования утверждали, что ГЗТ предотвращает их, а позднейшие эксперименты не подтвердили этого вообще или даже отметили увеличение количества приступов.

Первое доказательство преимуществ ГЗТ было предоставлено в рамках исследования здоровья медицинских сестер, когда огромная группа зарегистрированных медсестер (почти 122 000) обследовалась каждые два года с начала проекта в 1976 году. Анализ данных в 1997 году показал, что у пациенток в период постменопаузы, получающих ГЗТ, риск летального исхода был на 37 % ниже, и такой результат объяснялся в основном снижением смертности от ишемической болезни сердца.

После этого были изданы справочники, предписывающие применение ГЗТ для снижения риска сердечно-сосудистых заболеваний. Но в работе, опубликованной всего через год после исследования здоровья медицинских сестер, говорилось, что гормонозаместительная терапия не оказывает никакого воздействия на ИБС. В отличие от исследования медсестер, где просто отслеживалось поведение участниц, в изучении влияния эстрогена/прогестерона на сердце пациенткам выборочно давали ГЗТ или плацебо. Таким образом обследовались 2763 женщины в течение четырех лет, но проект вызвал вопросы, поскольку частота сердечных приступов в группе ГЗТ на самом деле возросла в первый год его проведения, а в следующие два года эффект обратился вспять.

В рамках «Инициативы во имя здоровья женщин» было проведено рандомизированное контролируемое исследование большего количества пациенток ради изучения долгосрочных исходов: состояние здоровья участниц отслеживалось 8,5 года. Исследование было прекращено после 5,2 года из-за значительного увеличения случаев рака груди. Самое удивительное, что количество сердечных приступов возросло на 29 % (с 30 до 37 случаев на 10 000 человек в год).

Как же получилось, что ГЗТ для женщин одновременно и снижала, и повышала риск сердечного приступа? Секрет кроется в методах эксперимента. Исследование медсестер занималось специфической группой населения и регулярно фиксировало их результаты, принимаемые медикаменты и другие показатели. В такого рода наблюдательном проекте не может быть известно, что отвечает за итог – конкретный препарат или же некая общая причина, которая определяет и выбор лечения, и лучший исход. Возможно, забота о здоровье привела одновременно и к снижению риска, и к выбору ГЗТ.

Напротив, рандомизированное исследование исключает любой паттерн между характеристиками пациента и методом лечения.

Вмешательства нередко воспринимаются как золотой стандарт причинного осмысления. Если мы можем выборочно распределять людей по группам (это могут быть пациенты, получающие реальное лечение, или трейдеры, применяющие различные торговые стратегии), это устраняет многие искажающие факторы, а стало быть, человек может выбирать вмешательство или стратегию. Реальность, однако, намного сложнее, поскольку такие воздействия не всегда возможны и могут давать побочные эффекты. К примеру, люди, принимающие препараты для снижения холестерина, менее внимательно следят за диетой.

В этой главе мы рассмотрим, каким образом экспериментальные исследования облегчают выяснение причин; почему эксперименты, утверждающие о найденных причинных зависимостях, не всегда удается воспроизвести; и почему порой так трудно повлиять на одну конкретную вещь. Наконец, мы проанализируем ситуации, когда вмешательства на деле дают ложное представление о базовых причинных зависимостях.

 

Как вывести причины из вмешательств

Скажем, нужно выяснить, какие удобрения обеспечат наилучший рост вашим посадкам. Вы испытываете подкормку А и замечаете, что розы не цветут. Затем пробуете B. Внезапно ваш сад оживает, и вы исполняетесь уверенности, что это все благодаря B – волшебному удобрению.

Итак, в чем же подвох?

Первый момент, который следует отметить: интересующий вас результат – «наилучший» рост растений – субъективен. Возможно, вы хотите поверить, что B работает лучше, потому что оно обошлось вам вдвое дороже, чем А. Или надеетесь, что дешевое удобрение такое же действенное, как и дорогое. В любом случае, эти убеждения придают различную окраску вашим суждениям об эффекте (вспомните предвзятость подтверждения из ).

Теперь, допустим, мы решаем эти вопросы с помощью количественной оценки. Можно подсчитать число цветов больше 2 дюймов в диаметре и записать их высоту. Но та же схема сада будет применяться в обоих случаях, поэтому вполне допустимо, что отсроченное действие А окажется причиной того, что вы наблюдали при использовании B. Именно в этом часто кроется проблема с изысканиями, где тестируются лекарства, диеты и другие вмешательства. В перекрестном исследовании А и B тестируются последовательно на отдельно взятых участниках.

Имеет значение не только порядок, но и остаточные эффекты от А при оценке B. К примеру, диетическая добавка может оставаться в крови некоторое время после ее получения. В подобных случаях нужен интервал между окончанием одного вмешательства и началом другого, чтобы устранить любые остаточные эффекты от первого. Наконец, поскольку удобрения тестировались не одновременно, возможно, что между двумя периодами и другие факторы также изменились. Что, если в течение второго временного сегмента чаще шел дождь или было больше солнечного света и это обеспечило лучшие условия для роста? Получается, любые улучшения могли стать просто следствиями изменений в промежутке между использованием А и B.

Когда мы вмешиваемся для сравнения причин или их выявления, на самом деле хотим узнать, что случится, если все прочее останется без изменений, когда мы добавим или удалим возможную причину.

Связь между причинами и вмешательствами существует на интуитивном уровне, потому что нередко мы воспринимаем причины как стратегии реализации событий и стремимся выявить именно их. Втайне мы надеемся, что манипулирование поводом позволит управлять и следствием. Одна из проблем при использовании данных наблюдения для поиска причин состоит в том, что порой сложно провести различие между структурой с общей причиной для двух следствий и структурой с цепочкой причин.

К примеру, в одном случае речи кандидата от политической партии могут привести одновременно к росту его популярности и пожертвований на проведение кампании, а в другом изменится только популярность, которая затем приведет к увеличению взносов. Имея возможность манипулировать благотворительными дарами и популярностью независимо друг от друга, мы могли бы с легкостью провести различие между двумя возможностями.

В первом примере рост популярности не служит хорошим способом получения пожертвований (они только коррелируют), в то время как в другом – вполне (поскольку оказывается для этого непосредственной причиной).

Исходя из существования подобной связи, некоторые исследователи пытались дать определение причинности в терминах вмешательства. Грубо говоря, идея заключается в том, что правильное изменение причины приводит к перемене следствия. Конечно, «правильное» изменение – это когда мы не вызываем одновременно другие причины или само следствие. Вместо этого хотим быть уверены, что любое воздействие на следствие проходит только через причину и что вмешательство не может обойти причину, оказывая прямое воздействие на другие причины или вызывая их к жизни.

К примеру, мы можем предположить, что отношение между речами, популярностью и пожертвованиями такое, как на рис. 7.1 (a). Чтобы проверить, действительно ли пунктирное ребро отражает реальную причинную зависимость, мы можем вмешаться (повысить популярность) и взглянуть, повлияет ли это на взносы. Но это способно повысить узнаваемость имени, что приведет к росту благотворительности напрямую, а не через популярность. Это изображено на рис. 7.1 (б), где узнаваемость имени – прямая причина пожертвований. Точно так же на рис. 7.1 (в) узнаваемость имени косвенно влияет на рост добровольных взносов, увеличивая количество выступлений (речей). В первом случае вмешательство напрямую вызывает следствие, а во втором активирует другую причину вместо изначальной цели. В обоих случаях проблема в том, что вмешательство ведет к следствию не напрямую через тестируемую причину, а косвенно.

Рис. 7.1. а) пунктиром отмечен объект тестирования; б) и в) сплошные ребра активны, пунктирные неактивны

 

Выборочный контролируемый эксперимент

Манипулирование единственным объектом таким идеальным путем, как показано выше, затруднительно; выборочные (рандомизированные) контролируемые эксперименты (ВКЭ, РКЭ) лишь частично решают проблему. В подобного рода экспериментах участники выборочно распределяются по двум или более группам, при этом различие в воздействии между этими группами предположительно единственное. Если исходы отличаются, это объясняется воздействием, поскольку распределение всех других свойств одинаково. На самом деле это не идеализированное вмешательство, когда можно напрямую изменить один параметр (к примеру, повысить потребление соли, не меняя объема жидкости). Но такой подход ближе всех к идеальному.

Однако этот жесткий протокол также становится ограничением, когда дело доходит до использования результатов ВКЭ. Здесь оценивается только один фактор, но в реальном мире результаты необязательно используются именно так. К примеру, мы можем решить, что лекарство эффективно и не имеет побочных эффектов в рамках ВКЭ, но в жизни, возможно, его часто принимают со вторым препаратом, и они интенсивно взаимодействуют. Как это случалось много раз, такое взаимовлияние трудно предположить, пока лекарство не выйдет на рынок.

ВКЭ обычно рассматривается в медицинском контексте, но это просто разновидность экспериментальных исследований, которая может применяться во многих других сферах. Как известно, Google использовал данные по кликам, чтобы сделать выбор из 41 оттенка синего для своего логотипа, а пользовательские предпочтения можно протестировать, рандомизируя визиты или пользователей по конкретным оттенкам или текущей цветовой гамме и сравнивая количество кликов. В политических кампаниях также применяют выборочные эксперименты, чтобы определить, какое послание обнародовать и каким образом. Вместо того чтобы искать корреляции между поведением избирателей и демографическими данными или разрабатывать теории о способах голосования, политические гуру пользуются обширными списками рассылки электронных писем и детализированными персональными данными, чтобы тестировать эффективность различных вмешательств. К примеру, в рамках кампании можно рандомизировать группу лиц с конкретными характеристиками по различным текстам электронных сообщений или скриптам телефонных звонков с просьбой о благотворительности. Тут есть четкий результат (количество пожертвованных денег), и при достаточно большой выборке можно протестировать множество сообщений для разнообразных групп. Во время кампании Обамы 2012 года было сделано именно это: на небольшой группе сторонников тестировались адресные строки сообщений, предполагаемые суммы пожертвований и даже формат электронных писем.

Приобретенные таким образом знания могут изменяться со временем (если сообщение однажды сработало, как будет во второй раз?), но ВКЭ используются во многих сферах помимо медицинской, например в экономике и образовании. Даже если вы никогда не проводили собственный ВКЭ, важно уметь оценивать результаты экспериментов для принятия решений.

Почему рандомизация

В XVIII веке Джеймс Линд задокументировал то, что считается первым в истории контролируемым экспериментом, – выяснил, что цитрусовые быстро излечивают цингу. На судне с экипажем, страдавшим от цинги, он прописал шести парам моряков с аналогичными симптомами шесть различных видов лечения. Помимо тестируемых Линдом средств, в число которых входили уксус, морская вода и, конечно же, лимоны и апельсины, моряки питались одинаково. Линд обнаружил, что те, кто ел цитрусовые, поправлялись очень быстро в сравнении с остальными, что привело его к заключению об эффективности такого лечения.

Но Линд назначил каждой паре только одно из средств, вместо того чтобы задействовать рандомизацию. Действительно, он отмечал, что пациенты, пившие морскую воду, болели сильнее остальных. Известно, что его результаты на самом деле оказались верными, но, если бы лечение выбиралось по степени заболевания, такое смещение могло исказить результаты (например, если пациентам с легкой формой цинги, которые и так чувствовали себя лучше, были бы прописаны цитрусовые) или привести к ситуации наподобие парадокса Симпсона (например, если бы пациенты, получавшие цитрусовые, были неизлечимы). Рандомизация в ВКЭ очень важна, чтобы избежать смещения в назначении воздействия.

Свойственное подобным исследованиям ограничение выбора – когда действовать и действовать ли вообще – может исказить наблюдаемые зависимости. К примеру, трудно проверить, действительно ли любовь к жестоким видеоиграм формирует жестокость в поведении. Поскольку не проводилось выборочного исследования детей по группам определенных видеоигр, даже если тут вообще присутствует корреляция, мы не можем знать, видеоигры формируют склонность к насилию или же склонность к насилию определяет любовь к соответствующим увлечениям, а может, причиной обеих переменных оказывается некий третий фактор.

Точно так же в исследовании здоровья медсестер: то, что женщины выбирали ГЗТ, зависит от их риск-факторов заболеваний сердца и склонности заботиться о своем состоянии. ГЗТ могла вообще никак не влиять на болезни сердца, но женщины, выбравшие этот вид лечения, делали какие-то другие вещи, снижавшие риск, и именно предоставление информации об этом сделало ГЗТ индикатором прогнозирования лучших исходов. Аналогичный пример – «слепое» использование препаратов для лечения пациентов, на которых другие средства не подействовали.

Это делает факт получения больными вмешательства и, следовательно, соответствующего результата зависимым от серьезности заболевания, качества медицинского обслуживания и так далее. Остаточные эффекты многих препаратов, которые принимались ранее, могут усилить искажения наблюдений, затрудняя возможность выяснить, почему лекарство не дало результата.

Основное преимущество рандомизации – придание жесткости ребру между выбором вмешательства и исходом.

Скажем, мы рандомизируем тринадцатилетних учащихся одной школы: одни получили СМС, убеждающие по 30 минут в день заниматься физкультурой, другие – сообщения с прогнозом погоды. Поскольку обе группы контактируют, мы не можем быть уверены, что школьники не поделились содержанием посланий и что те, кто получил текст о пользе спорта, не пригласят друзей присоединиться. Еще один пример «перемешивания» участников – совместный прием лекарств в клинических экспериментах, когда пациенты из команды вмешательства делятся препаратами с контрольной группой.

Чтобы предотвратить перемешивание, применяется кластерный метод рандомизации по группам, а не по отдельным лицам. В таком подходе вместо работы с учениками распределение по разным текстам сообщений проводится между школами.

Другой пример – рандомизация медицинской практики или больницы по методике лечения вместо рассмотрения отдельных пациентов. Здесь, чтобы добиться аналогичного уровня надежности результатов, нужны масштабные выборки, потому что отдельные лица в кластере могут коррелировать, а кластеры способны иметь разные размеры. В качестве кластера может выступать семья (которая будет сильно взаимосвязана благодаря генетике и окружающим условиям) или учебное заведение (соотношение может оказаться ниже, но все-таки присутствует из-за общего местонахождения).

* * *

В зависимости от уровня (индивидуального или группового) рандомизация двух одинаковых групп, отличающихся только вмешательством, грешит отсутствием детализации участников (группы не обязательно должны быть идентичны, просто сравнимы).

Давайте решим, кто подходит нам как участник эксперимента.

Скажем, мы тестируем лекарства от изжоги. Можно привлечь людей любого возраста и пола, однако у многих может не быть этого симптома. При условии, что данные для исследования ограничены и время эксперимента также имеет рамки, это неразумная трата ресурсов, и большинство не страдающих изжогой вряд ли захотят участвовать.

Очертим круг участников теми, у кого изжога в анамнезе. Следует ли включать сюда людей, страдающих изжогой из-за еще какого-то состояния, например беременности? Включать лиц любого возраста или исключить детей? Возможно, мы считаем, что физиологические процессы, лежащие в основе заболевания, фундаментально отличаются в каждом возрасте, поэтому решаем включить в наш пул всех, от 21 до 65 лет, с изжогой в истории болезни. Следующая проблема: некоторые, скорее всего, ежедневно принимают лекарства от этой хвори или страдают другими заболеваниями, способными влиять на действие тестируемого препарата. В идеале группа участников должна состоять из тех, кто не принимает никаких средств, потенциально готовых взаимодействовать с испытываемым медикаментом. Тогда мы протестируем препарат на участниках от 21 до 65 лет с изжогой в анамнезе, которые не принимают лекарства от нее ежедневно.

Выборка участников исследования может полностью определить результаты за счет ее смещения – из-за отдельных лиц, которые будут принимать решение о своем участии, или из-за иных факторов, определяющих, получат ли они такую возможность вообще. Как мы видели в , некоторые смещения могут приводить к поиску доказательств в пользу конкретного вывода или влиять на то, как мы оцениваем собранные аргументы. Методология эксперимента также способна смещать данные в том или ином направлении. К примеру, в политических телефонных опросах звонки только по стационарным аппаратам, исключая мобильную связь, могут исказить демографические данные участников. Так, в 2008 году исследовательский центр Пью обнаружил, что использование только домашних телефонов снизило перевес Обамы над Маккейном в среднем на 2–3 % в нескольких плебисцитах и на 5 % – в финальном, перед выборами.

Считается, что рандомизация ограничивает смещение выборки. Но множество выборов, необходимых при подготовке эксперимента, означает, что угроза такого смещения не устранена. Участие в эксперименте добровольное, поэтому характеристики испытуемых могут фундаментально отличаться от остальных. Если исследователь, набирающий состав, знает, к какой группе приписать каждого из них (например, если распределение просто изменяется в рамках команд или есть более сложный порядок, известный исследователю), это также может определять, кто получит возможность участвовать. Такое смещение влияет на способность эксперимента предоставить данные для причинно-следственных выводов (внутренняя валидность), а также на масштабы применимости его результатов в зависимости от репрезентативности выборки (внешняя валидность, которую мы обсудим далее).

Нужно определить, как быть, если отдельные участники не доходят до конца эксперимента. Одни могут сойти с дистанции по своим причинам, а другие, напротив, прекратить участие из-за вмешательства, которое посчитали неприемлемым, например из-за побочных эффектов, перевешивающих любой позитив. Когда понадобится связаться с участниками, чтобы получить сведения об их показателях, кто-то окажется вне досягаемости (напротив его фамилии появляется пометка «утрачен контакт для дальнейшего наблюдения»). К примеру, чтобы оценить состояние пациентов с инсультом через 3 и 6 месяцев после пребывания в больнице, протокол может предусматривать необходимость позвонить им и задать вопросы. Но порой одни не отвечают, другие сменили номер телефона или переехали, и у исследователей нет никакой возможности с ними связаться.

Некоторые эксперименты просто игнорируют пациентов, которых проблематично отследить при анализе данных. Это приводит к смещению результатов, которые намеренно не берутся в расчет, поэтому масса «утраченных контактов» может стать «красным флажком» при оценке работы. К примеру, мы тестируем вмешательство в виде физических упражнений в пожилом возрасте. По сравнению с контрольной группой, у которой оно отсутствует, те, кто упражнялся 10 часов в неделю, продемонстрировали пониженное содержание холестерина и прожили на 2 года дольше. Если, однако, 75 % этой выборки по вмешательству выпали из эксперимента из-за травм или усталости, исследователи, вероятнее всего, обнаружат, что те, здоровье которых позволяло тренироваться дольше часа в день, прожили дольше прочих.

То, что некто останется в эксперименте до конца, соблюдая это условие, будет ключевым фактором при оценке приемлемости вмешательства. Таким образом, просто не учитывая лиц с неполными данными, мы можем преувеличить эффективность воздействия и недооценить потенциальные побочные эффекты.

«Ошибка выжившего» – это разновидность смещения выборки, существующая при анализе только тех, кто выжил или остался в эксперименте до определенного момента. Но в более широком смысле это смещение появляется, когда анализируются результаты исключительно группы участников, достигших некоего измеряемого результата. Это могут быть компании, подававшие отчеты о прибылях и убытках не менее двух лет (при этом не учитываются те, кто обанкротился раньше); политики после первого срока в должности (не учитываются те, кто умер, ушел в отставку или был уволен); музыканты, записавшие хит (не учитываются те, кто вообще не добился контракта на запись).

Если наша цель – понять, какое значение имеют регулярные гастроли очень успешных музыкантов, последние как раз и могут стать корректной группой для исследования. С другой стороны, если цель – определить влияние художественного образования на музыкальные достижения, тогда включение в выборку только успешных музыкантов даст искаженный подход.

В ряде ситуаций мы просто не имеем возможности провести рандомизацию людей или ситуаций по этическим соображениям или просто из-за затратности, поэтому нужны иные типы экспериментов.

Исследование здоровья медсестер – пример когортного исследования, где одну группу лиц отслеживают в плановом порядке в течение некоторого времени. Недостатки такого подхода (помимо смещения выборки) следующие: можно собрать одинаковые данные на каждого участника, но отслеживание в течение долгого времени дорого стоит, к тому же может наблюдаться значительное число выбывших. Если интересующие экспериментаторов результаты встречаются редко, понадобится расширенная выборка. При этом нет гарантии, что наблюдение охватит достаточное количество случаев.

Еще один вариант – исследование методом «случай-контроль», которое в целом направлено в прошлое. Берутся две группы, различные по некоторому свойству (например, люди с рыжими волосами и без), и изучается различие между ними (к примеру, генетическая вариация). Но, поскольку модуляции только наблюдаются (без активного вмешательства), нельзя быть уверенным в отсутствии неизмеренных искажений.

Как контролировать

Вехой в истории медицины – и, возможно, первым примером выборочного контролируемого эксперимента – стал 1946 год, когда Брэдфорд Хилл с коллегами из Совета медицинских исследований Великобритании провели сравнительное исследование постельного режима и антибиотика стрептомицина в лечении туберкулеза. Каждый госпиталь, участвующий в исследовании, получил набор пронумерованных и запечатанных конвертов, в которых содержались врачебные предписания (пребывание в постели или стрептомицин). Когда все пациенты, участвующие в исследовании, были подобраны, конверты открывались строго по очереди.

Как и в исследовании Линда, ученые не просто смотрели на показатели до и после применения стрептомицина, но сравнивали препарат со стандартом лечения на тот момент, а именно постельным режимом. Это важно, поскольку сравнение состояния пациентов до и после воздействия может выявить улучшения даже при абсолютно неэффективной терапии, если самочувствие просто улучшается со временем или сам факт воздействия стал позитивным.

К примеру, больные, убежденные, что антибиотик поможет им справиться с вирусом гриппа, иногда требуют у врачей прописать лекарство, пока те наконец не сдаются. Если они в результате выздоравливают (как в целом большинство людей), это не имеет отношения к лекарству: просто таково неизбежное течение болезни. Что бы они ни предприняли в определенный момент заболевания – выпили чашку кофе или просидели несколько часов у телевизора, – все дало бы одинаковый эффект.

Еще один резон в пользу контрольной группы таков: в реальности мы не выбираем между новым лечением и его отсутствием вообще, мы хотим знать, какой набор вариантов самый эффективный. Соответствующая контрольная группа определяется как по этическим, так и по техническим соображениям, поскольку нельзя разграничивать действенную терапию и пациента, и важно учитывать роль воздействия на исход.

Иногда можно сравнить воздействие и стандартное лечение, иногда – применить плацебо. Это реально в отсутствие стандартной терапии или вследствие смещения в методике эксперимента. Как бы то ни было, лечение, которое намного хуже общепринятого, все же может оказаться лучше, чем ничего.

Определить соответствующее плацебо – штука непростая, но, по сути, оно сильнее всего напоминает реальное вмешательство, когда не известно ключевое эффективное свойство. В простейшем случае, если лекарство дается в виде таблетки, самое распространенное плацебо – это таблетка-пустышка. В другом случае, если воздействие – это рассылка сообщений на тему заботы о здоровье, в качестве плацебо могут выступать тексты с информацией, не касающейся здоровья. С другой стороны, пустышку для акупунктуры определить гораздо сложнее. В экстремальных экспериментах, объектом которых становится болезнь Паркинсона или другие проблемы со здоровьем, используется симуляция операционного вмешательства, чтобы учесть воздействие хирургии как таковой.

Эффект плацебо, когда вмешательство без применения известных активных ингредиентов все же улучшает исход, может дать странные результаты и даже иметь место, когда пациенты знают, что им дают пустышку. Отмечались случаи побочных действий при плацебо и, при сравнении с ним, – различия результатов в зависимости от дозировки (больше таблеток – сильнее проявление) и вида лекарства.

Еще один ключевой показатель исследования со стрептомицином: эксперимент был слепой, и ни пациенты, ни те, кто оценивал их состояние, не знали, кто какое лечение получает. Это важный шаг по предотвращению предвзятости, поскольку больные, ожидающие, что препарат принесет им пользу, могут по-разному сообщать врачу о симптомах, да и те могут предвзято судить о состоянии пациента, если будут знать о его терапии.

В исследовании, тестирующем виды борьбы с разными типами склероза, также оценивалось значение слепого эксперимента: одних и тех же пациентов проверяли неврологи, проводившие слепое лечение, и те, кто знал, кто в какой группе находится. Через два года регулярных наблюдений «слепые» неврологи обнаружили, что ни одно из применяемых ими воздействий не оказало эффекта. А оценки «неслепых» докторов в одной из групп выявили улучшение. Причина в том, что оценка пациентов носила качественный характер, и неврологи, знающие, к какой группе принадлежит тот или иной пациент, могли находиться под влиянием этого знания, расставляя рейтинги. Если выявление результатов эксперимента основано на подобном знании (и не важно, анализируется состояние пациентов при клинических испытаниях или рост цветов в вашем саду), то информация о распределении по группам может изменить интерпретацию имеющихся доказательств.

В целом одностороннее слепое исследование – это эксперимент, в рамках которого пациентам неизвестна группа их принадлежности, а ученым – известна. При двустороннем слепом исследовании ни больные, ни врачи не знают, кто в какой группе. Однако даже после того, как все данные собраны, их нельзя просто засунуть в «черный ящик» и получить на выходе однозначный результат. Для анализа требуется принять множество решений (например, какие статистические эксперименты проводить), и здесь также может влиять смещение. Альтернативой будет тройной слепой метод – как правило, это двустороннее слепое исследование, когда те, кто анализирует данные, не знают о распределении по группам.

Это не всегда практично, однако возможно заранее определить все этапы анализа данных до их сбора и зафиксировать ради доказательства, что программа строилась независимо от результатов.

Протоколы экспериментов и испытания лекарственных препаратов применяют именно этот принцип, когда аналитики должны подготовить программу до сбора любых данных. Такой подход не свободен от некоторых прикладных проблем, поскольку часто возникают неожиданные сценарии (хотя при этом выявляется смещение в сторону положительных результатов). В нашем гипотетическом эксперименте с изжогой можно было заранее определить, какие первичные сведения подлежат измерению (например, частота приступов), какие вторичные (например, сила приступа), какой из слепых методов будет применяться и какова приблизительная численность участников. Однако можно не суметь обеспечить целевую выборку или не предвидеть, что придется остановить эксперимент на ранней стадии из-за недостатка финансирования. В связи с этим придерживаться подготовленного плана не всегда получается.

Применимость результатов

Скажем, мы проводим эксперимент с изжогой, и, кажется, он будет удачным. Прием лекарства заметно снижает тяжесть заболевания и частоту приступов по сравнению с другим лечением, а сам препарат в итоге одобрен и выведен на рынок. У доктора, знакомого с результатами исследования, есть новый пациент 80 лет, который принимал 10 разных лекарств и имеет в анамнезе диабет и застойную сердечную недостаточность. Следует ли прописывать ему новый медикамент?

Контролируемый эксперимент, пытающийся обеспечить внутреннюю валидность (то есть возможность ответить на изначально поставленный вопрос), нередко выполняется ценой внешней валидности (то есть повышенной обобщаемости результатов). Изучение однородной группы населения может привести к изолированию возможной причины, но это ограничит полезность результатов для принятия решений по остальному населению. С другой стороны, высокая вариативность ведет к искажениям и невозможности выявить истинное следствие, если оно есть только в определенных подгруппах. Важно, что на каждом отдельном этапе выборочного эксперимента присутствует отбор.

Типовые клинические испытания начинаются с пула потенциальных пациентов. Они выбираются из числа тех, кто проходит лечение в рамках системы, проводящей исследование, или тех, к кому эта система имеет доступ. Но с самого начала не берутся в расчет те, кто не может или не хочет обращаться за медицинской помощью. Еще есть лечившиеся в отделении, где проводится эксперимент, и у врача, участвующего в нем. Здоровье этих пациентов может быть хуже, чем у населения в целом, или, напротив, эксперимент может исключать самых тяжелых больных, которые лечатся где-то еще. Существуют критерии отбора в рамках самого исследования, когда исключаются пациенты со множественными хроническими заболеваниями (как в нашем гипотетическом опыте с изжогой). К тому моменту, когда пациент соглашается участвовать, выборка весьма значительно сужается. Суть не в том, чтобы непременно охватить экспериментом всех и вся, однако немало практических факторов влияют на отбор участников. Это следует принимать во внимание, переходя от оценки валидности эксперимента к попытке применить его результаты.

О том, как определить применимость результатов некоего исследования к конкретному пациенту или группе населения, написано немало. Как правило, нам не приходится принимать решения в идеальном мире выборочного эксперимента, где пациенты страдают только одним заболеванием, и в большинстве случаев нет возможности ждать, пока кто-то проведет исследование, соответствующее нужному сценарию. Это справедливо и для врачей, определяющих программу лечения пациентов и пытающихся понять, в какой степени отчеты об испытаниях применимы к конкретному случаю. Проблема с ВКЭ состоит в том, что он подтверждает: лечение может вызвать определенное следствие только у отдельной группы населения. Другая же группа может не обладать свойствами, обеспечивающими эффективность воздействия.

Например, если, согласно ВКЭ, лекарство А лучше лекарства B, а другое исследование утверждает, что B лучше C, мы, вероятно, сделаем допущение, что А также лучше С. В одном обзоре нейролептических препаратов описаны как раз подобные случаи, но при этом выборочные эксперименты подтвердили, что C лучше А.

Откуда появляются такие аномальные заключения?

Многие испытания спонсируются производителями тестируемых медикаментов, однако противоречивые результаты возникают вне зависимости от того, кто оплачивает эксперимент. Даже если отчетные данные абсолютно правдивы и никто ничего не подтасовывает, с учетом огромного множества решений, которые необходимо принимать при проведении испытаний, возможность смещения результатов в пользу какого-либо исхода по-прежнему остается. Выбирая конкретную дозировку, критерии отбора, меры результатов и виды статистических тестов, можно смещать выводы в пользу определенного лекарства, когда оно очевидным образом будет смотреться лучше остальных.

Как мы увидим в , чтобы действительно знать, что полученный вывод можно применить к другой выборке, нужно быть уверенными, что свойства, определяющие эффективность причины, присутствуют в обеих выборках и что вторая не обладает характеристиками, отрицательно влияющими на причину. Но это достаточно обременительно, поскольку мы часто не знаем, что в точности необходимо для эффективного действия причины.

К примеру, мы проводим рандомизацию людей по различным видам офисных кресел, чтобы выяснить, действительно ли сидение на физиомячах помогает сбросить вес по сравнению с обычными креслами. В этом эксперименте физиомячи приводят к статистически значимой потере веса за шесть месяцев; но, если испробовать их на другой группе людей, эффект окажется нулевым. Такое может случиться, если люди из первой выборки решат, что сидеть на мячах неудобно, или будут с них постоянно падать, поэтому им придется либо стоять, либо прохаживаться в течение дня гораздо чаще. А люди из второй выборки будут использовать мячи как кресла, то есть сидеть на месте. Реальное вмешательство – это нечто (а не мяч), побуждающее людей чаще вставать, хотя в рамках эксперимента его выявить нельзя.

Точно так же метод реализации вмешательства в контролируемых условиях может не отражать реальности. Некоторые лекарства необходимо принимать каждый день в одно и то же время, и в реальных условиях их эффективность может оказаться ниже, чем в условиях эксперимента, если пациенты – участники исследования с большей вероятностью склонны следовать инструкциям.

На способ использования результатов исследования влияет множество других факторов, к примеру длительность периода отслеживания. Если в выборочном эксперименте по тестированию нового метода лечения пациенты наблюдаются непродолжительное время, стоит задуматься, будет ли терапия такой же эффективной в долгосрочном масштабе и не вызовет ли побочных действий, которые проявятся через несколько лет. Период исследования также влияет на внутреннюю валидность. Если в рамках тестирования влияния сообщений, напоминающих о необходимости принять препарат, на повышение приверженности к лечению пациенты отслеживаются только три дня, это не будет убедительным доказательством того, что СМС в целом повышают дисциплину заболевших на долгое время, поскольку энтузиазм в отношении новых вмешательств со временем сходит на нет. Но из-за затратности часто возникает компромисс между продолжительностью отслеживания и размерами выборки.

Были разработаны чек-листы и инструкции для оценки результатов и определения данных, которые необходимо включить в материалы исследования. Но главное, что необходимо оценивать и внутреннюю, и внешнюю валидность эксперимента. Важность каждого из этих факторов зависит от наших целей. Некоторые исследования с низкой внутренней валидностью можно усилить за счет высокой внешней валидности (что лучше соответствует конкретной выборке участников). Необходимо дать ответы на следующие ключевые вопросы: «Кто стал объектом изучения? Как проводился отбор? Где выполнялось исследование? Какова длительность отслеживания результатов? Кто входил в контрольную группу? Какой слепой метод использовался?»

 

Когда n = вы

Часто нам нужно не определить лучшее лекарство или диетические рекомендации для определенной группы населения, а принять определенное решение для самих себя.

Какой препарат лучше снимет мою головную боль? Что поможет мне быстрее прийти в себя после долгой пробежки, ледяная ванна или горячий душ? Сколько мне нужно выпить кофе утром?

Но даже к этим вопросам мы, как правило, не подходим систематически. Наш процесс решения, скажем, относительно выбора лекарства от аллергии больше напоминает метод проб и ошибок.

Сначала вы, возможно, идете к врачу, который прописывает некое лекарство. Попринимав его некоторое время, вы замечаете, что оно вызывает дискомфорт в желудке, поэтому снова идете к врачу. Возможно, он изменяет дозировку, но возвращаются аллергические симптомы, и вы идете в больницу еще раз и спрашиваете, нет ли другого средства. Принимаете следующий препарат в течение предписанного срока или прекращаете прием раньше, потому что почувствовали себя лучше. Когда вы приходите ко врачу в очередной раз, он спрашивает, как подействовало лекарство; жалоб у вас нет, и вы отвечаете, что оно подействовало хорошо.

Значит ли это, что следовало с самого начала принимать второй препарат?

По сути, именно с подобной проблемой мы столкнулись в . Такого рода несистематическое последовательное испытание двух лекарств не только не дает знания о том, какое из них лучше, но даже не сообщает, какое эффективнее конкретно для вас. Имея дело только с одним человеком, мы не способны провести рандомизацию между теми, кто получает экспериментальное или контрольное лечение.

Вместо рандомизации пациентов эксперимент с одним участником (который так и называется – исследование с участием одного пациента) рандомизирует последовательность воздействий. Тест с удобрениями оказался особенно слабым, поскольку мы изучали только одну последовательность (А-B), не зная, действовало ли А, когда мы рассматривали действие B, или же тест B проходил в более благоприятных условиях.

Единичная проверка каждого воздействия не обеспечивает строгих результатов, поэтому в целом необходимо несколько итераций. Правда, определить порядок вмешательств довольно сложно. Может показаться, что стоит просто повторить последовательность А-B и получить больше данных, например А-B-А-B. Хотя теперь у нас удвоенные сведения по каждому вмешательству, B всегда следует после А. Если показатель результата со временем медленно улучшается, то, даже если воздействия эквивалентны, B всегда будет в выигрыше, поскольку оценивается позже А. При слепом эксперименте это простое чередование может привести к тому, что человек просто угадает, какое воздействие применялось.

Теоретически возможно выбирать наугад между двумя воздействиями для каждого временного интервала, но эта стратегия не без недостатков. Нельзя гарантировать, что каждое воздействие будет применяться одинаковое количество раз или что они равномерно распределятся, так что может образоваться последовательность, когда за всеми А будут следовать все B. Помимо смещения результатов, эксперимент окажется уязвим, если его остановить преждевременно, до того как будет реализована последовательность B. Вместо этого можно рандомизировать каждую пару, тогда выбор первого вмешательства будет означать, что B будет следующим. Это по-прежнему может сгенерировать знакопеременную последовательность, когда любая опция будет заключаться в том, чтобы сбалансировать каждую пару А-B последующей B-А. В итоге для первой пары выбирается А-B или B-А, а пара, которую не выбрали, будет следующей. Итак, одна возможная последовательность – это B-A-A-B-A-B-B-A. Возвращаясь к разговору о нестационарности (), скажем: идея в том, чтобы попытаться снизить воздействие временных трендов, а также результатов последовательности вмешательств.

Скажем, мы принимаем решение о последовательности тестирования двух видов лечения, при этом эффект первого со временем нарастает. Тогда, по сути, B может получить преимущество из-за эффектов А. В стандартном ВКЭ каждый участник получает только одно лечение, поэтому не надо беспокоиться о кумулятивных эффектах множественных влияний или о взаимодействии лекарств. В последовательном эксперименте, однако, не только имеет значение порядок (например, при тестировании двух интерфейсов предпочтение всегда получит второй), но могут иметь место длительные следствия каждого из вмешательств (например, больший опыт работы с системой улучшит показатели). В примере с садом, если воздействие удобрения А происходит медленно, но, начавшись, приобретает устойчивый характер, может быть перекрытие между интервалом активности А и временем применения и измерения B.

Одно из возможных решений – добавить «отмывочный период» между окончанием А и началом B. Его цель – чтобы ко времени начала второго лечения все эффекты первого исчезли. Однако положительные следствия приема лекарства могут быстро спадать, в то время как побочные результаты будут иметь более длительный характер.

Есть еще ограничение: отмывочный период предполагает некоторый промежуток без всякого вмешательства, а отсутствие лечения даже короткое время может оказаться нежелательным (к примеру, если мы тестируем средства от боли). К тому же определение длительности отмывки требует базовых знаний о характере действия вмешательства.

Другой подход – применять терапию непрерывно, но не принимать в расчет некоторую часть данных в начале каждого вмешательства.

Эксперимент такого типа неприменим во многих ситуациях, поскольку целевой объект не должен быстро изменяться. Исследования одного пациента не имеют смысла при острых состояниях, например при гриппе, но успешно проводятся при хронических, таких как артрит. Аналогично последовательный эксперимент с одноразовыми событиями (например, с выборами), когда многие вещи постоянно изменяются за недели до таких событий, также не будет иметь смысла. Хороший выбор – это ситуации более-менее стационарные.

 

Воспроизводимость

Мы рассматривали массив электронных медицинских записей, чтобы выявить факторы риска застойной сердечной недостаточности, и поняли, что главным можно назвать диабет. Но, когда мы повторили эксперимент, взяв данные по второй выборке, не нашли никакой связи с диабетом, обнаружив вместо этого фактором риска назначение инсулина. Как интерпретировать такое расхождение?

Попытки репликации эксперимента с использованием аналогичной технологии в точно таких же условиях очень важны, чтобы методика была хорошо задокументирована, а сделанные на ее основе выводы стабильны. Отметим: это не воспроизведение вариации исследования, чтобы обобщить тест. Один из примеров репликации – совместный доступ к компьютерным кодам, необработанным данным и этапам выполнения операций. Если кто-то еще сможет воспроизвести на этой основе аналогичные результаты, анализ можно считать реплицируемым. Идеальное повторение довольно сложно выполнить, поскольку любые малые изменения легко вызывают весомые различия в ряде экспериментов. Даже если речь идет о компьютерной программе, которая, кажется, должна вести себя одинаково при каждом запуске, невыявленный баг может стать причиной ее непредсказуемого поведения.

Однако, говоря о репликации в научной сфере, мы часто имеем в виду именно воспроизводимость. То есть хотим знать, получат ли другие экспериментаторы результаты некоего исследования с иными вводными, если обстоятельства будут несколько отличаться. Это даст более строгие доказательства того, что заявленные результаты не были случайностью.

К примеру, в ходе изучения было обнаружено, что настроение детей улучшалось сильнее, если они получали 50 граммов шоколада, чем после угощения морковью. Главный вывод – шоколад делает детей счастливее, чем овощи; поэтому в другом эксперименте этот результат может быть получен на примере конфет M&M’s и брокколи, а в третьем это будут Hershey’s Kisses и сладкий картофель. Ни один из них не будет репликацией первого исследования, но все воспроизводят главный вывод (шоколад приносит больше удовольствия, чем овощи).

Воспроизведение результатов особенно важно при исследованиях методом наблюдений (где невозможность сделать это может говорить о наличии неизмеренных общих причин), но репродукция выводов экспериментальных изысканий также может стать способом получения обобщаемого знания. С учетом множества решений, принимаемых в рамках изучения, неудачные попытки воспроизвести результаты могут стать признаком потенциальных источников смещений или даже нарушения условий эксперимента.

В последних работах проскальзывает беспокойство из-за неудачных репродукций ключевых выводов. Фармацевтические компании утверждают, что удалось воспроизвести всего 20–25 % мишень-ориентированных препаратов, упомянутых в научных материалах. В другом исследовании выяснили, что только 11 % выводов из 53 ключевых экспериментов в области рака обладали воспроизводимостью, а статистика по нескольким примерам из области наблюдательных исследований еще хуже. Пытались в психологии репродуцировать выводы высокопрофильных исследований (часто формирующие базу для изысканий) – аналогичный эффект.

Но отчего истинная причинная зависимость, выявленная в одном эксперименте, не обнаруживается в другом?

Помимо проблем с подтасовкой и ненамеренными ошибками (к примеру, опечатка в электронной таблице или загрязнение лабораторных образцов), воспроизведение истинного взаимоотношения не так однозначно, как кажется. В случае с исследованием сердечной недостаточности условия репродукции результатов были соблюдены, однако потребовалась масса базовых знаний по значению переменной. Когда диагнозы диабета соединили в единый структурированный формат с временем их постановки, обнаружилась связь с болезнью сердца. Во второй выборке причиной оказался препарат инсулина. Дело в том, что лекарства были одним из нескольких сохраненных атрибутов, поэтому как их временной паттерн, так и факт присутствия/отсутствия оказались более определенными параметрами. В медицинских исследованиях с использованием больничных карт проблематично было даже выяснить достаточно определенно, кто и в каком состоянии находился.

Но в разных местах не всегда можно собрать одинаковые данные.

Скажем, воспроизведение не удалось. Значит ли это, что первый вывод оказался ложноположительным или просто он менее генерализован, чем ожидалось? Может, вывод не должен репродуцироваться на базе конкретной выборки. Например, в силу того, что исследования выявили культурные различия в причинном осмыслении, некий фактор может реально влиять на него в одном месте, но аналогичный результат нельзя воспроизвести в другом. Это не означает, что какой-то из экспериментов неверен; скорее конкретный вывод может быть специфически привязан к первичной выборке участников или некоему ее атрибуту, который не всегда известен. В этом случае ценной будет сама попытка репликации: она покажет, когда вывод применим, а когда нет.

Может также оказаться, что отношение было истинным на момент его обнаружения, но ко времени позднейших тестов система изменилась, так как стала известна каузальная зависимость. В финансовой сфере, например, подобная взаимосвязь влияет на поведение во время торгов.

Итак, взаимосвязь может быть истинной на момент исследования, но не реплицироваться, потому что теряет истинность с течением времени или из-за того, что используется для изменения поведения (подробнее об этом в ). Действие телерекламы за или против политического кандидата также может ослабевать, потому что люди теряют восприимчивость к сообщению, а оппоненты начинают ответную кампанию. И все-таки если эксперимент выходит за рамки специфической выборки и определенного временного периода, стараясь обобщить поведение, то неудача воспроизведения результатов опровергает его выводы.

Конечно, часто неудача с репродукцией результатов может означать, что выявленные взаимосвязи оказались ложными. Возможно, дело в искажениях применяемой методики из-за ошибок в анализе, или исследование проводилось предвзято. Многие факторы, воздействующие на внешнюю валидность, влияют и на воспроизводимость. Вспомним из главы 3, когда ложное заключение стало следствием большого числа тестов. Проблема была решена скорректированным количеством сравнений. Но, если полученные результаты не более чем помехи, попытки валидации с новым лососем (или двумя) должны выявить разные активные области.

 

Механизмы действия

Если я скажу, что пираты стали причиной глобального похолодания, вы, конечно же, сочтете это неправдоподобным. Но скептицизм не обоснован: вы же не вмешивались в поведение пиратов и не наблюдали за возможными температурными изменениями на планете, равно как и не выявляли корреляций между разными переменными. Нет, вы исходили из общего знания о том, как действуют мировые законы, потому что не можете представить себе способа, с помощью которого несколько пиратов могут менять климат. Точно так же некоторые причинные взаимоотношения объявляются достоверными именно в силу нашего механистического знания. Даже не имея данных наблюдения, можно предсказать возможную связь между посещениями солярия и раком кожи – при условии, что нам известно о зависимости между ультрафиолетовым облучением и онкологическими проблемами.

Такой тип знания относится к механизмам действия, или к пониманию схемы «причина-следствие». Мы можем обнаружить причины и, не зная, как именно они работают, увидеть механизмы действия – это еще одно доказательство в поддержку каузальности, которое способствует эффективному вмешательству. Причины объясняют, почему происходят те или иные вещи, а механизмы – как они происходят (сравним два утверждения: «курение – причина пожелтения пальцев» и «смолы сигаретного дыма вызывают пятна на коже»). Предпринималось несколько попыток определения каузальности в терминах механизма действия, где под механизмом понимается система взаимодействия частей, регулярно выполняющих некоторые изменения. Для наших целей, однако, механизмы действия более интересны как способы предоставления доказательств причинности.

Пока рассматриваемые виды аргументации каузальности касались того, как часто причина и следствие наблюдаются вместе, при этом использовались устойчивые паттерны событий, изменения вероятностей или зависимости между дозой и реакцией. При этом мы могли обнаружить, что грипп – причина лихорадки, пронаблюдав множество людей и увидев, что вероятность лихорадочного состояния становится выше после заражения гриппом. Но мы также могли сделать подобный вывод, базируясь на задействованных механизмах. Инфекция посылает сигналы в мозг (который регулирует температуру тела), а тот, в свою очередь, повышает температуру как реакцию на эту самую инфекцию. Один отрывок информации объясняет, как причина может правдоподобно вызвать следствие, а другой демонстрирует, что это воздействие было реально.

С другой стороны, объяснение сложного признака, такого как явка избирателей, в терминах всего двух генных вариаций будет недостоверным именно из-за механизма действия. С подобным случаем мы сталкиваемся, если гены связаны также со многими заболеваниями и прочими признаками. С точки зрения механизмов кажется невероятным, что один и тот же процесс одновременно повышает вероятность голосования избирателей и, скажем, вызывает синдром раздраженной кишки. Гораздо вероятнее, что оба явления провоцируются рядом факторов, и идентифицированные гены, возможно, лишь часть комплексного процесса.

Точно так же заявление, что две чашки кофе в день положительно влияют на здоровье, кажется недостоверным, поскольку трудно представить механизм, при котором две чашки кофе будут полезны, а скажем, полторы или две с половиной – уже нет. Даже если эксперимент показывает статистически значимый результат для конкретного количества кофе, мы, скорее всего, по-прежнему будем считать, что этому эффекту должно иметься какое-то иное объяснение. С другой стороны, зависимость «доза-реакция» или даже J-образная кривая (наподобие той, что мы наблюдали в ), не покажется удивительной, поскольку существует множество биологических процессов с подобным свойством и гораздо меньше таких, где только единичная доза дает следствие.

Но если предложить некий механизм, это поможет провести эксперименты, которые выявят причинно-следственные связи. К примеру, если неизвестно, что вызывает болезнь, но есть возможный механизм лечения и целевой препарат, то факт наличия или отсутствия эффекта от этого средства подтолкнет к поиску основополагающих причин.

Механизмы также помогают лучше планировать вмешательства. Если мы обнаружим, что инфицированные москиты вызывают малярию, но ничего не узнаем о способе заражения, единственно возможным методом предотвратить заболевание будет препятствие контакту с москитами. С другой стороны, зная, что происходит, когда в кровь попадают паразиты, мы получаем множество потенциальных целей для вмешательства: паразитов можно остановить в печени, можно помешать им размножаться и т. д.

Достаточно ли провести эксперимент, чтобы найти причину

Несмотря на большую пользу от экспериментов и выборочного тестирования, иногда мы не можем или не должны вмешиваться. Мы способны сделать вывод, что парашюты существенно снижают риск разбиться во время прыжков, и без проверки. Изначальная связь между курением и раком легких была открыта без экспериментов с участием людей. Хотя ясно, что мы способны научаться причинам, исходя из базового знания механизмов действия, важно осознавать: порой эксперименты также способны внушить ложные идеи.

Вот два примера того, что у следствия бывают дополнительные причины, а вмешательство дает побочные эффекты.

Когда требуется узнать, за какой фенотип отвечает конкретный ген, обычно проводится такой тест: берут ген в неактивном состоянии (метод генного нокаута) и смотрят, проявляется ли фенотип при этих условиях. Если ген отвечает за некую черту и она по-прежнему присутствует даже при нокауте, то этот ген не может быть причиной фенотипа. При этом, однако, предполагается, что следствие имеет только одну причину. В действительности, если фенотип сохраняется, для этого может быть дополнительная причина, проявляющая его, когда первый ген неактивен. Это справедливо для многих случаев из области биологии, когда для повышения устойчивости один и тот же ген одновременно воспроизводит черту и подавляет другой ген. Если первый ген становится неактивным, в действие вступает второй.

Аналогично, если следствие не наступает при устранении причины, это все равно не означает, что мы обнаружили ту самую причину. Если мы удалим кислород, пожара в доме не случится, потому что для возгорания кислород необходим. Но мы не сможем утверждать, что кислород приводит к пожарам (это условие недостаточное): нужно много других вещей (например, источник жара и горючий материал).

Скажем, мы пытаемся выяснить, правда ли бег на длинные дистанции помогает сбрасывать вес. Проводим рандомизацию участников по группам тех, кто тренируется для участия в марафонах и кто пробегает километр-другой несколько раз в неделю. Парадокс, но участники этого гипотетического исследования, преодолевающие длинные дистанции, не только не теряют вес, а набирают. Дело в том, что мы хотим оценить не что иное, как влияние долгих пробежек на вес, исходя из предположения, что все остальные факторы остаются неизменными. В действительности бег приводит к незапланированным последствиям. Возможно, участники эксперимента устают и начинают вести малоподвижный образ жизни в те часы, которые не посвящают физической активности. Также они могут начать больше есть, с избытком компенсируя сожженные калории.

Выходит, побочные эффекты, создавая проблемы при попытке использовать причины для планирования, к примеру, политической программы, могут также препятствовать поиску каузальных взаимосвязей.

Особо проблематичные ситуации – когда фактически существуют два пути от причины к следствию, которые могут нейтрализовать или обратить вспять ожидаемые зависимости. Именно этот парадокс мы наблюдали в , и такая ситуация вовсе не уникальна для исследований методом наблюдения.

Итак, эксперимент – отличный способ выяснения причин, но он не может быть ни необходимым, ни достаточным для этого условием.

 

8. Объяснение. Что означает утверждение «одно вызывает другое»

 

После ряда случаев хождения во сне житель Канзаса обратился в клинику расстройства сна, чтобы выяснить, что с ним не так. Чуть больше месяца спустя ему поставили диагноз «парасомния с отсутствием фазы быстрого сна» – нарушение ночного отдыха, которое вызывает необычное поведение, к примеру хождение или прием пищи во сне, причем человек об этом ничего не помнит. Спустя два месяца после постановки диагноза он увеличил дозу принимаемого лекарства, а еще через два дня его арестовали и предъявили обвинение в убийстве жены.

Случаи неосознанного убийства у больных парасомнией редки – но можно ли сказать, что эта ситуация из их числа? Определенные улики свидетельствовали в пользу этого. До ареста мужчина звонил в службу 911, при этом разговаривал как-то странно, казалось, был в замешательстве от того, что случилось, и это позволило предположить, что он в тот момент, возможно, спал (если принять в расчет историю болезни).

При дальнейшем изучении обстоятельств дела многие признаки, свойственные подобным преступлениям, не подтвердились. Он ссорился с женой (как правило, убийство совершается без повода); он не был рядом с ней (обычно близость к жертве необходима) и использовал несколько орудий убийства (в то время как обычно применяется всего одно). В конце концов он все же был признан преступником.

Дело в следующем: как раз потому, что парасомния может стать причиной убийства и оба этих фактора присутствуют, это не означает, что виновницей конкретного преступления стала именно болезнь.

* * *

Когда мы интересуемся, почему нечто имело место – почему начался бунт, почему машины столкнулись в ДТП, почему тот или иной кандидат победил на выборах, – мы хотим получить каузальное объяснение события, которое случилось или не случилось. Имеются и другие виды толкований – как причинных (ассоциации двух объектов), так и нет (большинство примеров из области математики) – и множество теорий научной трактовки. В этой главе мы будем исходить из того, что цель объяснения – найти причины конкретных событий (токен-причины – термин, который я буду употреблять как синоним каузальных объяснений). В большинстве ситуаций мы, как правило, ищем объяснения вещам, которые пошли не так, как ожидалось. Но, кроме того, нас порой интересует, как удалось предотвратить ядерную катастрофу или остановить эпидемию.

Хотя типовая причинность позволяет увидеть общие свойства (к примеру, «воздействие солнечных лучей вызывает ожоги»), конкретная каузальность (или уровень токен-причин) касается специфических событий (к примеру, «4 июля Марк получил солнечные ожоги, потому что провел весь день на пляже, не применив средство от загара»). На типовом уровне мы пытаемся получить знание, которое можно использовать для предсказания события или вмешательства общего порядка (к примеру, с помощью политической программы в рамках всего населения страны), чтобы это будущее изменить. С другой стороны, конкретная причинность касается одного специального случая. Если я хочу узнать, почему отменили мой рейс, информация о том, что погода и условия воздушного движения нередко приводят к задержке вылета, ничем не поможет, если конкретный полет был отложен из-за неполадок оборудования.

Конкретная причинность часто предполагает более высокие ставки – к примеру, при определении юридической ответственности или расстановке рейтингов в присуждении наград. Конечно, возможны и единичные события, которые не повторятся никогда, так что мы даже не будем знать о существовании каузальной взаимосвязи, пока такое событие не произойдет. Возможно, война между Францией и Мексикой началась частично из-за кондитерских изделий – никакой другой военный конфликт такой причины больше не имел. Некоторые побочные эффекты лекарственных средств, скорее всего, ни разу не проявлялись при клинических испытаниях, но они способны всплыть на фоне применения этого лекарства более широкой группой пациентов с разными характеристиками.

Именно подобное различение делает столь трудной задачу выявления конкретной причинности (которую также именуют сингулярной, или фактической). Если мы не можем исходить из допущения, что типовые причины – это маркеры, как узнать, почему произошло нечто?

Мы рассмотрим, что значит, если одна вещь становится причиной другой при конкретных условиях. И как этот случай отличается от более общих взаимоотношений, когда мы хотим выявить свойства, которые останутся истинными в долговременном масштабе. Как и всегда, существует множество способов осмысления сочетаний обоих указанных типов причин.

Мы можем вначале постараться выяснить общие свойства, а затем применить их к отдельным случаям; вначале получить знания на основе особых ситуаций, а потом вывести общие заключения; или разработать методы, совершенно не связанные между собой. Каждый из подходов требует фильтровать и оценивать имеющуюся информацию, но существует растущая область познания, с помощью которой ученые пытаются автоматизировать процесс каузального объяснения. Мы увидим, как это делается, и проанализируем некоторые сопутствующие проблемы. Наконец, изучим причинность в сфере закона и узнаем, как суд присяжных оценивает улики. Юридические ситуации так же несвободны от проблем, как и другие, но здесь добавляется необходимость вынесения решения. Способ, с помощью которого судьи сводят воедино набор разрозненных доказательств и дают четкое объяснение, одновременно определяя достоверность этих доказательств, поможет понять, как разбираться с другими ситуациями.

 

Поиск причин единичного события

Если я знаю, что краны текут из-за изношенных прокладок, объясняет ли это, почему в прошлый вторник сломался кран в квартире Энн? Можем ли мы сказать, что пассажиры опаздывают на рейсы по вине служб безопасности аэропортов, если Берни не успел на свой самолет, выстояв слишком длинную очередь на проверку?

В первом примере мы имеем дело с общей, типовой зависимостью и используем ее, чтобы объяснить специфический случай. Именно так работает большинство подходов, но альтернативный взгляд на вещи предлагает, чтобы вместо этого мы свели воедино ряд индивидуальных ситуаций и на их основе сделали заключения относительно общих свойств. Сосредоточимся на использовании типовых причин для объяснения конкретных ситуаций и обсудим некоторые из проблем такого подхода, прежде чем ослабить связь между типом и токеном и, наконец, полностью их разделить.

Множество причин

Скажем, мы хотим знать, что стало причиной конкретной автокатастрофы. Нельзя выявить закономерность на основе единичного наблюдения, но можно использовать первичное знание о том, что вызывает дорожные происшествия, а с его помощью объяснить то, которое нас интересует. Используя INUS-условия Маки (см. ), к примеру, мы получаем наборы факторов, и, если имеют место компоненты хотя бы одного набора, следствие определенно произойдет.

Но каждый такой набор не необходимое условие, поскольку может существовать множество групп факторов, достаточных, чтобы вызвать следствие.

Для предположения, что обледеневшая дорога стала конкретной (токен) причиной ДТП, нужно знать и другие факторы, необходимые для провокации аварии, поскольку (в этом примере) одного только льда недостаточно. Но что случится, если в наличии гололед, плохая видимость, водитель автомобиля нетрезв и на дороге плотное движение? Согласно , этих факторов также достаточно для катастрофы. Воспользовавшись анализом Маки, мы просто не сможем найти виноватых в таком сверхдетерминированном событии со множеством достаточных причин.

Другой способ осмысления единичных случаев – представление альтернативных вариантов. Если бы дорога не обледенела, произошла бы авария? Если бы водитель не выпил перед тем, как сесть за руль, развивались бы события иначе? Здесь причина – это некий фактор, присутствие которого изменило ход событий: если бы его не было, итог мог оказаться другим.

Это в точности пример контрфактуального рассуждения, которое мы рассматривали в : если бы не было причины, следствие также не произошло бы (а если бы существовала причина, существовало бы и следствие). Контрфактуальные подходы применяются в основном для объяснения; запомним эту идею о различиях в том, как происходят события.

Контрфактуальные утверждения встречаются повсеместно. Если бы я не принял лекарство, то не выздоровел бы; если бы лег в постель пораньше, не заработал бы головную боль; если бы не спешил, переходя дорогу, то не споткнулся бы и не упал. Существует немало сходства между контрфактуальным рассуждением и нашим объяснением, почему происходят те или иные вещи (в психологии это называется каузальной атрибуцией), но контрфактуальные высказывания не вполне объясняют процесс рассуждений. Бывает, когда контрфактуальный подход говорит, что каузальности не существует (хотя люди с этим не соглашаются). Случается, есть контрфактуальная зависимость, и люди считают, что зависимость имеет причинный характер.

Одно исследование проверяло связь между этими типами рассуждений. Участники читали рассказ, где герою дают медленно действующий яд, а он после этого перебегает через дорогу и становится жертвой автокатастрофы прежде, чем действует яд. Согласно сюжету, он вел преступную жизнь, из-за чего его и пытались убить. Затем участники должны были определить, что стало причиной смерти человека.

Здесь каждая из двух причин могла привести к гибели (яд и автоавария), поэтому контрфактуальной зависимости нет. И все же участники исследования не посчитали эти причины симметричными. Они рассматривали автокатастрофу как релевантный случай каузальности и давали разные ответы, когда их просили вынести контрфактуальные или причинные суждения. Экспериментируемые считали, что эти процессы осмысления не одно и то же. Они не рассматривали криминальную историю жертвы как повод к его гибели, но все же сочли этот фактор самым важным с контрфактуальной точки зрения. Вероятно, участники полагали, что, если бы можно было вернуться в прошлое и устранить этот фактор, исход изменился бы самым кардинальным образом.

Но люди могут и расходиться во мнениях. Заметьте: я упомянула о самых популярных ответах, но не сказала, что они были одинаковыми. Действительно, это наиболее общие причинные или контрфактуальные суждения, однако некоторые участники пришли к иным результатам. Далее в этой главе мы увидим, как делают выводы присяжные в суде – то есть как люди, оценивая один и тот же набор фактов, расходятся во мнениях о причине. Наша задача – разобраться, как мы мыслим, понять причину расхождений между философскими теориями и обыденными суждениями. Как мы видели в и , все мы пристрастны в поиске и оценке доказательства, причем это проявляется по-разному.

* * *

Иногда вполне приемлемо, что на исход ситуации влияют многие факторы, но порой необходимо учитывать относительную ответственность. Вспомним пример с расстрельной командой. Возможно, причиной смерти стали все стрелявшие, и нет нужды знать, кто именно «по-настоящему» ответственен за исход. С другой стороны, в юридических случаях соглашение достигается, исходя из относительного вклада каждого фактора в следствие. Скажем, человек страдает потерей слуха из-за постоянного громкого шума на рабочей площадке и черепно-мозговой травмы. Компенсация, присужденная ему, будет отличаться от той, которую получат люди, потеря слуха у которых полностью вызвана шумом на рабочем месте, и будет поделена между сторонами, ответственными за каждую из причин. Есть и практическая проблема: мы не имеем никакой возможности вычислить, что, скажем, 40 % потери слуха вызвано шумом, а 60 % – травмой.

Если невозможно наверняка утверждать, что причиной послужил конкретный фактор, предлагается решить распределение так: назначить компенсацию пропорционально доле каждого фактора в масштабах всего населения или доле страховых случаев после воздействия условия относительно частоты страховых случаев для всех потенциальных факторов риска. Здесь по-прежнему есть допущение, что общее число транслируется напрямую на единичный случай: невозможно определить, что для конкретного человека эти доли распределялись по-другому. Как мы вскоре увидим, можно добиться определенного прогресса путем подсчета вероятностей для единичных случаев, однако требуется гораздо больше знать об этих ситуациях.

Если мы будем объяснять более конкретно, это также может разрешить проблему кажущегося избыточного детерминизма. В рассмотренных ситуациях мы трактовали все примеры – скажем, смерти – как события одного типа. Мы не проводили различия между гибелью в ДТП в 2 часа дня и кончиной от отравления в 10 часов вечера. При условии, однако, что летальный исход все равно наступит, если подождать достаточно долго, мы уже принимаем во внимание, что он случится так или иначе, просто нечто может стать причиной раннего или позднего наступления.

Одна из поправок к контрфактуальному методу – исходить не просто из того, мог ли случиться тот или иной итог, а рассудить, мог ли он быть иным. Жертва в этом примере умерла бы иначе и в другое время, если бы не побежала через дорогу, а яд подействовал. Вот таким образом мы можем искать причины ситуаций, которые в противном случае казались бы сверхдетерминированными.

Объяснения могут быть субъективными

Если бы мы захотели узнать, почему в последнем примере герой умер, мы могли бы поинтересоваться, почему погиб именно он, а не какой-нибудь другой преступник, почему авария была с летальным исходом или почему это произошло именно в тот день, а не в другой.

То есть, даже если нам удается решить проблему сверхдетерминированности, нужно учитывать, что два человека, использующие одинаковый подход, могут прийти к разным определениям причинности. Точно так же, как выбор того, что измерять и как это описывать (например, вес или индекс массы тела), может изменить логические умозаключения на уровне типа и трансформировать объяснения на уровне конкретики.

Помимо выбора переменных есть дополнительная трудность: необходимо определить, что присутствует, а чего нет.

Вы могли бы заявить, что езда в автомобиле пьяным или трезвым – это факт либо истинный, либо ложный и, как и в отношении причинных зависимостей, есть данные, позволяющие судить об истинности этого факта. Но существуют разные степени опьянения. Это как один посещает концерт громкой музыки раз в год, а другой играет в рок-группе или ходит на подобные концерты раз в неделю: они подвержены разным рискам потери слуха. Между влиянием этого фактора на объяснение и причинное осмысление разница в том, что в последнем случае на основе данных мы определяем набор переменных (например, переводим вес и рост в индекс массы тела) и выводим зависимости между ними.

В случае с токенами мы прилагаем соответствующий сценарий к имеющемуся типовому знанию. Пусть предыдущее исследование выявило, что люди, которые много упражняются, имеют низкую частоту сердечных сокращений: теперь мы хотим знать, объясняют ли занятия спортом низкую ЧСС у Трейси. Если повезет, в первичном изучении будет указано, как долго человек должен упражняться (например, 6 раз в неделю по 30 минут), чтобы частота сердечных сокращений понизилась. Но это все равно будет субъективным мнением. Окажется ли такая зависимость истинной, если упражняться более трех месяцев? Можно ли сказать, что любые виды занятий дают идентичный эффект или йогу и плавание нужно оценивать по-разному? Имеет ли значение, что Трейси упражняется только в теплую погоду, а не всю зиму напролет?

Я упоминаю о сопоставлении наблюдений на уровнях токена и типа, поскольку не всегда очевидна субъективность в определении произошедшего.

Люди могут задавать разные вопросы о некоем событии и считать какие-то факторы более ярко выраженными (вероятно, исходя из того, что они способны контролировать), но это не изменяет фактического вклада каждого компонента в общую ситуацию. Например, на получение Нобелевской премии влияют многие вещи: усердный труд, везение, изучение наук с раннего детства, а может, и потребление шоколада, как говорилось в той статье, с которой мы знакомились ранее. Если некто сосредоточивается на том, чтобы изучить связь между Нобелевской премией и шоколадом, это изменяет лишь задаваемые вопросы, но не реальный факт, а именно: правда ли шоколад повлиял на исход дела сильнее, чем везение. Но, когда мы пытаемся автоматизировать объяснение, приходится отказываться от субъективных суждений и определять, какие свойства более важны. Чтобы истолковать последствия повторяющегося воздействия громкого шума, нужно знать историю жизни человека, поэтому нам понадобятся сведения о количестве посещенных концертов за неделю, а также подвергается ли он воздействию шума на работе или живет рядом со стройкой.

Когда имела место причина

Мы исходим из следующего допущения: если причиной ДТП явилось нетрезвое вождение, на момент катастрофы водитель был пьян. В другом случае, говоря об инфекциях с длительным инкубационным периодом, мы допускаем, что некогда было воздействие вируса. Заразиться гриппом от человека, с которым вы обедали год назад, совершенно невероятно, но точно так же нельзя заболеть через минуту после того, как вы сели за стол с носителем инфекции.

Очередная трудность при переводе объяснения с уровня типа на токен-причины – временной паттерн. Даже если информация на уровне типа, которой мы располагаем, не сообщает, сколько времени нужно для получения следствия, мы все равно не сможем обойтись без учета фактора времени, так как он влияет на релевантность информации по отношению к конкретному случаю. Если мы вообще ничего не знаем о временном паттерне, необходима некая степень суждения, чтобы определить истинность чего-либо. То есть, если мы пытаемся выяснить, действительно ли контакт с носителем вируса вызвал заболевание гриппа у конкретного лица, нам важно знать, когда произошел контакт, чтобы определить, мог ли он стать причиной заболевания именно в тот момент.

Некоторые методы причинных умозаключений предусматривают временные интервалы, или окна, поэтому мы узнаем, например, что заражение полиомиелитом может вызвать постполиосиндром через 15 лет после выздоровления. Наличие информации такого рода снимает необходимость в суждениях о времени, так как не требуется спорить, вызваны ли симптомы заболевания постполиосиндромом, если они обнаруживаются всего через несколько месяцев после выздоровления. Если человек болел полиомиелитом в пределах известного временного интервала, тогда это истинно для токен-случая, который мы стараемся объяснить, и два человека, имеющие одинаковые данные, должны прийти к одинаковому выводу: стал ли известный диагноз потенциальным объяснением симптоматики пациента.

Но, как обычно, это еще не конец. Скажем, мы обнаружили, что некое лекарство снимает головную боль за 30–60 минут. У Чарли болит голова, он принимает лекарство и через 62 минуты чувствует себя лучше. Помогло ли лекарство снять боль? Хотя 62 минуты выбиваются из известного нам временного окошка в 30–60 минут, вряд ли стоит жестко утверждать, что лекарство не сняло проблему, потому что временной паттерн не показывает идеального соответствия. Причина в том, что наши знания о действии препаратов от головной боли и опыте их применения делают неправдоподобной возможность того, что лекарство действует лишь в пределах тридцатиминутного окошка. То есть через 29 минут оно еще не действует, а по прошествии 30 минут сразу приобретает активность. Да, возможно, временное окно – первостепенный интервал, в рамках которого причина активна, но это не означает, что следствие не может случиться вне этого интервала; просто это менее вероятно. С другой стороны, лихорадка денге может развиться внезапно, и, взяв за основу многолетние данные по инфицированию, мы можем выявить минимальные и максимальные инкубационные периоды, которые когда-либо наблюдались. В этом случае гораздо выше наша уверенность, что инфицирование нельзя вызвать контактом вне соответствующего временного паттерна.

Случай Чарли не совпадает в точности с предыдущим знанием, но все же совпадения достаточно, если мы намерены применять методы оценки объяснений с достаточной степенью гибкости: тогда скажем, что именно лекарство избавило его от головной боли. В то же время нужно уметь разбираться с ситуациями при менее гибких временных паттернах. Таким образом, обнаруживая типовые взаимоотношения, желательно уметь определить, что представляют собой временные окна – единственный интервал, когда может случиться следствие, или всего лишь промежутки, когда следствие наиболее вероятно. Определенная степень гибкости в этом случае также означает, что известные паттерны времени привязаны к соответствующим базовым знаниям. Если они получены на основе небольшого набора данных, то, возможно, необычно короткий инкубационный период не был принят в расчет. Или измерения проводились так редко, что первый врачебный контроль был два дня спустя и из-за отрывистости сведений мы не в состоянии узнать, могло ли заболевание развиться в самый первый день.

Возможно, не имеет смысла строго придерживаться какого-то известного временного окна, если ошибочно наше знание о том, когда события произошли на токен-уровне. Если я скажу, что некое событие имело место неделю назад, степень вероятности будет такой же, как при сроке в 6, 7 или 8 дней. Точно так же «год назад» почти определенно не означает «точно 365 дней назад». Даже если мне известно, что одна вещь через год вызывает другую, жесткость в отношении временного окна не учитывает присущую сведениям неопределенность.

 

Объяснение с долей неопределенности

Одно из решений проблемы – ослабление связи между типом и токеном.

Поскольку мы понимаем, что наблюдаемое и известное могут не совпадать в точности из-за множества причин, попробуем включить эту неопределенность в объяснение. Головная боль, прошедшая через 29 минут, достовернее объясняется действием препарата, чем та же проблема, исчезнувшая через 290 минут после его приема.

Аналогично может быть некоторая неопределенность относительно случившегося события, и мы ею воспользуемся, чтобы дать более точные объяснения. Мы не знаем наверняка, что Чарли принимал парацетамол, однако видели рядом со стаканом воды открытую упаковку лекарства и воспользовались этой косвенной информацией для оценки вероятности того, что он действительно выпил препарат. Не станем вдаваться в детали, однако это суть метода – напрямую учесть неопределенность как первичной информации, так и знаний о токен-случаях.

INUS-подход Маки исходит из следующего допущения: нам известно достаточно о механизме действия тех или иных вещей, чтобы определить детерминистские причинные комплексы: в присутствии некоего набора факторов всегда случается следствие. Но, как мы уже видели, многие взаимоотношения носят вероятностный характер (по причине либо фактического индетерминизма, либо неполного знания о мироздании). Причина, имеющая очень низкий шанс генерирования следствия, все же способна оставаться причиной и в токен-случае. Но вероятности, или силы каузальных зависимостей, которые мы рассчитываем, дают некоторую информацию о ее возможности. Нужно использовать эти весовые коэффициенты, чтобы понять, насколько они основательны с точки зрения различных объяснений.

Посмотрим, как это работает.

Скажем, требуется выяснить, почему Ирен не спала прошлой ночью. У нас есть мера причинной значимости (см. ), и мы обнаруживаем, что 100 мл кофе эспрессо при бессоннице имеет коэффициент значимости 0,9, если некто пытается заснуть в пределах следующих 4 часов.

Если известно, что Ирен пробовала уснуть через 3 часа после того, как выпила именно столько эспрессо, значимость этого события для ее случая бессонницы будет 0,9. Если бы вместо сна она решила посмотреть телевизор, но через 6 часов после выпитого кофе не могла уснуть, значимость фактора напитка могла быть ниже 0,9, так как был нарушен предел обычного временного диапазона. На рис. 8.1 показана эта последовательность событий и известное временное окно причинной зависимости (серым цветом). Интервал в 6 часов больше известного окна, показанного серым прямоугольником, поэтому кажется невозможным, что бессонницу Ирен вызвал кофе, который она выпила ранее этого времени.

Рис. 8.1. Здесь эспрессо вызывает бессонницу в пределах 4 часов

Конечно, мы и не подумаем, что бессонница будет одинаково возможна в пределах всего временного окошка от 0 до 4 часов и через 4 часа ее вероятность будет стремиться к нулю. Скорее рассудим, что изображение на рис. 8.2 более правдоподобно: здесь шанс после четвертого часа снижается медленно. Оценивая значимость причины в различных временных точках до наступления следствия (или объясняя следствия в различные временные точки после конкретного случая причины), нужно комбинировать эту вероятность с коэффициентом значимости. То есть более сильная причина, немного выступающая за пределы известного временного интервала, более значима, чем слабая, когда временные паттерны типа и токена совпадают. Если в комнате Ирен слишком жарко, когда она пытается заснуть, это может повысить шанс нарушения сна, однако мы по-прежнему будем утверждать, что главный виновник бессонницы – кофе за 4,5 часа до того.

Рис. 8.2. Вероятность бессонницы с течением времени. На оси Х показаны часы после выпитого эспрессо

Основная идея такого подхода – оценка значимости на уровне типа с помощью информации на уровне токена. Мы можем обнаружить, что в специфических случаях значимость того или иного фактора ниже его значимости на уровне типа из-за различий временных паттернов или неопределенности событий. Исходя из известного механизма действия (например, медикамента) или предыдущей информации (вычисления вероятности следствия), мы можем создать функцию, которая покажет, как сопоставить наблюдение с шансом по-прежнему активной причины.

Рис. 8.3 дает представление о некоторых функциях. На рис. 8.3 (а) показаны только два значения вероятности: 0 и 1. Это означает, что временное окно – единственный период, когда причина может вызвать следствие, и временные точки вне его не значимы. С другой стороны, на рис. 8.3 (в) шанс того, что причина вызовет следствие вне временного окна, падает гораздо медленнее.

Рис. 8.3. Оценка различных возможных функций относительно известных временных паттернов. Сплошными линиями показаны интервалы, когда причины с наибольшей вероятностью вызывают следствие, а пунктирными – изменение вероятности до и после этих интервалов

Вместо того чтобы субъективно определять, относится ли ситуация к случаям знания на уровне типа, мы получаем более структурированный метод, сочетающий тип и токен.

Но что, если мы не знаем наверняка, пила ли Ирен эспрессо? Известно, что она встречалась в кофейне с подругой, и хотя она обычно пьет много кофе, иногда выбирает напиток без кофеина. Не зная непосредственно, имела место причина или нет, мы можем воспользоваться другой информацией, вычислить вероятность причины и заново взвесить значимость сведений на уровне типа.

Итак, если причина точно была, ее значимость будет одинакова как на уровне типа, так и на уровне токена. С другой стороны, если токен-причина несколько невероятна, принимая в расчет наши наблюдения, ее значимость соответственно снижается.

Есть набор причин и последовательность событий, которые мы наблюдали, и, чтобы определить значимость различных гипотез, мы их комбинируем. То есть результатом будет не бинарное утверждение «это стало (или не стало) причиной того», но ранжирование потенциальных причин, как показано на рис. 8.4. Мы получим ряд возможных каузальных объяснений следствия, и измерение значимости каждого из них будет представлять из себя комбинированное значение «тип-токен», показывая, насколько точен временной паттерн и с какой долей вероятности каждая из причин могла случиться в указанные временные интервалы. В отличие от других подходов, здесь необязательно иметь полное знание об истинности/ложности переменных, а временные паттерны на уровне токена могут отличаться от таких же на уровне типа, позволяя эффективнее разбираться с ситуациями каузальных цепочек и сверхдетерминированности.

Рис. 8.4. Пример объяснения бессонницы методом комбинирования взаимосвязей на уровне типа с информацией на уровне токена с ранжированием причин

 

Разделение типа и токена

Скажем, мы выявили набор факторов, определяющих результативность в баскетболе. Когда однажды в субботу днем во время матча игрок бросает мяч, все факторы наличествуют, однако в последнюю минуту он пролетает мимо сетки, потому что случается землетрясение. Таким образом, имеют место все факторы, которые должны обеспечить попадание мяча в корзину, но этого не происходит. Условия не стали причиной гола (потому что его не было), но, если не брать в расчет землетрясение, другие факторы также не могли стать причиной того, что игрок промазал.

Заметим, что до сих пор мы в основном сосредоточивались на объяснениях, почему произошли события, которые на самом деле произошли. В психологической литературе (см. ) приводится курьезный постулат: людям можно поставить в вину то, чего в действительности не было. Кого-то обвиняют в попытке совершения убийства, а студент, пробовавший списать на экзамене, все равно виновен, даже если его дерзание провалилось.

Если кто-то не полил цветок, а растение все равно выжило, как это можно объяснить? Здесь мы привлекаем внимание к тому, что цветок должен был завянуть, но в реальности не погиб. Отсутствие воды предшествовало, но не стало причиной выживания. Шансы цветка начали снижаться с первого дня, когда он перестал получать воду, и продолжали таять с течением времени. Интуитивно можно понять: когда нечто случается даже при свершении события, снижающего его вероятность, это нечто случается несмотря на, а не в результате этого события. Аналогично, если нечто не произошло несмотря на некое событие, повысившее его вероятность, оно также не произошло, несмотря на событие. К примеру, пациент умер, несмотря на отличный медицинский уход.

Скажем, Адам и Бетти больны гриппом. За неделю до того у Адама был обед с Клер, а та заболевает гриппом через день после второго обеда, с Бетти. Шансы на то, что Клер заболеет гриппом, росли после ее встречи с Адамом, но потом стали снижаться, когда наступил инкубационный период. Они возросли снова после обеда с Бетти и оставались высокими, пока та на самом деле не заболела. Это показано на рис. 8.5.

Рис. 8.5. Вероятность гриппа с течением времени. Шанс растет после первого обеда и снижается до второго. После второго контакта вероятность растет то того, пока человек действительно не заболевает гриппом

Несмотря на то что перед нами два примера причины-типа (контакт с носителем гриппа), мы видим, что здесь нет сверхдетерминированности, поскольку только один контакт стал причиной болезни. В предыдущем разделе мы разбирались с подобной ситуацией с помощью временных паттернов на уровне типа. Этот подход имеет отличия, поскольку здесь мы анализируем изменение вероятности на уровне токена. Это также поможет разобраться со случаями, где токен-вероятность отличается от вероятности-типа.

Известно, что вакцины в целом предотвращают летальный исход, но в некоторых редких случаях становятся его причиной; конкретное растение может погибнуть, если его полить кофе, даже если никакое другое растение от этого не погибало; можно возложить вину на человека, попытавшегося совершить убийство, даже если потенциальная жертва выжила. Ключевое ограничение в следующем: исходя из общей информации для объяснения конкретных случаев, мы допускаем, что значимость на уровне типа равна значимости на уровне токена.

Этот подход – посмотреть, как вероятность события меняется после наступления причины и как меняется со временем, – предложил философ Эллери Иллс. Проблема гораздо шире, чем наши возможности ее рассмотрения на этих страницах, однако суть подхода в том, что единичные вероятности трактуются иначе, чем общие, и в основе лежит изменение вероятности реального события с течением времени.

Использование вероятностей единичного случая, который мы пытаемся объяснить, означает, что мы можем провести различие между тем, что случается как правило, и тем, что случилось в действительности. Здесь по-прежнему учитывается причина, обычно предшествующая событию и влекущая его за собой.

Немаловажно, что при этом мы можем обновить аналитические выводы, приведя их в соответствие с тем, что наблюдаем. В одном из примеров Иллса озорные белки любили отталкивать мячи для гольфа от лунок, но однажды зверек помог игроку, направив мяч прямо в лунку. Если применить метод, основанный на вероятностях уровня типа, то, даже если мы в действительности видим, что траектория мяча делает попадание все более и более вероятным, и наблюдаем, как меняется его путь после того, как по нему ударили, мы все равно не сможем откорректировать уже имеющееся знание на уровне типа, чтобы учесть новые данные. И это приведет к получению не связанных между собой и контринтуитивных результатов.

Когда вероятность меняется после наступления события, становится высокой и остается такой, пока не случится следствие, говорят, что следствие произошло из-за причины. Наоборот, если вероятность события падает после наступления события, тогда следствие происходит, несмотря на событие. Трудности, характерные для этого подхода, имеют в основном практическую природу, поскольку, к примеру, непросто выяснить вероятность попадания мяча в лунку на каждой точке его траектории.

 

Автоматизация объяснения

Какими возможностями мы располагаем, чтобы протестировать контрфактуальные рассуждения? Как узнать, насколько изменилась вероятность со временем?

Одно из ограничений в целом многообещающих философских теорий состоит в том, что они, реально учитывая разницу между типом и токеном, требуют наличия порой невозможного количества информации о рассматриваемой ситуации. Да, хорошо знать, что в некий момент времени вероятность попадания мяча в лунку для гольфа составляла 0,5, а после удара по мячу возросла до 0,7. Но откуда взять такие данные?

Один из способов решения проблемы – построение модели интересующей нас системы. Взяв за основу простые законы физики и допущения о скорости ветра и вероятностях прочих действующих факторов, можно предсказать физическую траекторию мяча для гольфа до и после удара. Поскольку исход бывает не детерминирован, можно смоделировать ситуации для каждого положения мяча и рассчитать, как часто он будет оказываться в лунке с конкретной точки.

Чем дальше мяч, тем выше шансы на то, что ветер или еще какое-то неожиданное событие изменит его курс, а чем ближе он будет продвигаться к лунке, тем сильнее должно быть изменение, отклоняющее от цели. Контрфактуальный подход позволяет моделировать разнообразные Вселенные и разрабатывать количественные меры, чтобы оценить, насколько одна Вселенная подобна другой и насколько вероятно следствие без причины.

В сфере медицины мы, как правило, не располагаем достаточным объемом информации, чтобы достоверно смоделировать возможные варианты течения болезни. Однако мы способны взять за основу данные временных рядов других пациентов. Скажем, нужно знать, действительно ли пациент с пневмонией останется в живых через две недели после постановки диагноза, потому что ему давали антибиотики (то есть наша задача – определить, можно ли этими препаратами объяснить выздоровление). Тогда до начала терапии собираем все доступные сведения о больном, находим людей с похожими историями болезни и вычисляем процент выживаемости на двухнедельном временном отрезке. Теперь мы можем увидеть, как изменилась вероятность выживания после приема антибиотиков, рассмотрев только пациентов из первичной группы, получавших это лечение. По прошествии времени сужаем выборку участников, которую брали для сравнения, точно так же, как сужали выборку траекторий мяча для гольфа (когда он достигает определенного положения, учитываем только траектории, начинающиеся с этой точки).

Определение причин уровня типа на основании данных всегда было важной областью исследований в информатике, но методам автоматизации процесса объяснений уделялось гораздо меньше внимания. Эта проблема меньше поддавалась автоматизированным решениям, чем причинно-следственные заключения, частично из-за трудностей перевода таких подходов, как контрфактуальный, в инструкции, доступные для реализации машиной. Чтобы создать программу, которая усвоит некоторую информацию о ситуации и скажет, какова причина соответствующего исхода, нужно закодировать процесс объяснения в виде последовательности шагов, которые не требуют суждений или мнений.

Вторая ключевая проблема – как оценить подобные системы. Чтобы знать, работает ли алгоритм, необходимо сравнить его результат с правильными ответами. Но в конкретной причинности верный ответ ясен не всегда. Проблема становится особенно острой, если нужно провести оценку метода, определяющего вклад различных факторов в исход ситуации, к примеру выявить относительную ответственность двух отдельных факторов риска за болезнь пациента.

 

Причинность и закон

Эта книга начиналась примером того, как неверное использование вероятностей и неспособность понять суть причинности привела к ошибочному приговору Салли Кларк. Но если абстрагироваться от некачественной статистики – как же вышло, что апелляционные суды выносят разные решения, а присяжные, имея в распоряжении одни и те же доказательства, неделями не могут прийти к единому мнению?

Понимание причинности в области закона, в особенности того, как судьи делают заключения, поможет лучше оценивать доказательства в иных сферах. Это тот самый случай, когда люди стараются управиться с огромными объемами потенциально сложной и противоречивой информации, где есть не одна причина для одного следствия, но целая история причинно-следственных связей, а информация имеет жесткие внутренние соотношения (одно ложное заявление свидетеля может привести к тому, что другие его слова потеряют вес).

Согласно ряду философских теорий, определенные случаи просто нельзя разрешить – например, если событие сверхдетерминировано. Но это утверждение неприемлемо в области закона, где урегулирование ситуации обязательно. В случае когда человек подвергался одновременному воздействию асбеста и сигаретного дыма, мы не можем просто воздерживаться от определения пропорции. Здесь каждый из факторов риска ответственен за болезнь легких у пострадавшего. Если он требует компенсацию, нужно найти какой-то способ разделить вину между сторонами.

В медицине или исторической науке эксперты применяют навыки, наработанные обширным опытом и подготовкой, объясняя необычные симптомы пациента или узнавая, что вызвало к жизни политическое движение в конкретный момент времени. Нашу же ситуацию делает особо интересной то, что члены жюри присяжных никак не эксперты в области юриспруденции или специфике рассматриваемых дел. Для сравнения: они оценивают свидетельства из области медицины и экологии, чтобы определить, необычен ли набор онкологических диагнозов или действительно ли эти ДНК уникально идентифицируют подозреваемого, – при том что они не онкологи и не генетики. Цепь их логики очень похожа на наши обыденные суждения, когда ради достижения практических целей мы должны искать объяснения, не обязательно обладая глубокими знаниями в соответствующей области.

Причина «Если бы не»

Скажем, водитель вовремя не нажал на тормоза, и его авто столкнулось с другой машиной. Но он не знал, что тормоза автомобиля неисправны, так что, даже если бы и попытался их задействовать, все равно не смог бы вовремя остановиться. Этот часто используемый пример взят из материалов реального судебного разбирательства, когда фирма по аренде автомашин должным образом не провела техническое обслуживание и не проверила работоспособность тормозов.

Этот случай постоянно цитируется, потому что один из ключевых методов определения каузальной зависимости в юридических делах основан на контрфактуальных рассуждениях. Нас интересует: «если бы не» чьи-то действия (или несовершение каких-то действий), имело бы место следствие? Если бы, к примеру, электрики не создали скачок напряжения в сети, мой жесткий диск не был бы поврежден. Подобные рассуждения, которые также называют фактической причинностью, в точности соответствуют контрфактуальным рассуждениям. Есть допущение, что причина – решающий фактор, без которого следствие не было бы возможным.

Однако каузальные рассуждения «если бы не» не свободны от всех проблем, которые свойственны контрфактуальным. В юридических случаях основное препятствие в том, что этот метод не работает при сверхдетерминировании. Если электрик неправильно соединил провода, а мой стабилизатор напряжения в это время был неисправен и не смог бы защитить жесткий диск компьютера даже без действий электрика, результат имел бы место по любой причине, а поэтому ни та, ни другая не прошла тест «если бы не».

Вернемся к дорожному происшествию. Этот случай сверхдетерминирован двумя факторами (тормоза не сработали, они неисправны), любой из которых провоцировал аварию. Хотя тормоза были неисправны, они не могли вызвать ДТП, потому что не было попытки ими воспользоваться. В конечном счете не имело значения, использовались тормоза или нет, но даже несмотря на это водитель был объявлен виновным. Он не знал, что тормоза неисправны, и, следовательно, не задействовал их должным образом, чтобы избежать столкновения.

В сверхдетерминированных случаях два и более фактора могут вызвать следствие, и ни один не может быть точно назван его причиной. Но и в случаях с определением приоритетности есть два фактора, которые могут отвечать за следствие. В действительности причиной служит только один: к примеру, медсестра отключает пациента со смертельным диагнозом от аппаратуры обеспечения жизнедеятельности до того, как болезнь его убивает.

В исследовании участвовали 30 студентов первого курса юридической школы – им задали вопрос: кто виновен в том самом ДТП с неисправным автомобилем? Самым популярным ответом (43 %) был такой: состояние тормозов и водитель несут равную ответственность за аварию. 33 % возложили вину на человека, 23 % – на механизм.

В ряде инструкций для судей недвусмысленно предлагается решать подобную проблему в случаях сверхдетерминирования: либо заявляя, что причинами служат оба фактора, либо более пристально рассматривая следствие, как в слегка видоизмененном подходе Льюиса. Если два пиромана разожгли два отдельных огня, которые охватили дом быстрее, чем мог бы сделать любой из них по отдельности, то исходом может стать не простое разрушение дома, а немедленное, за 30 минут (не за 90); во втором случае пожар, возможно, удалось бы потушить.

Стандартный контрфактуальный подход здесь не работает, потому что ни одна причина не может быть названа каузальным фактором (так как при таком подходе всегда есть дополнительная причина). Хотя на интуитивном уровне определенную долю ответственности можно возложить на оба фактора. Одно из слабых мест этого подхода в том, что он рассматривает причины индивидуально, а не как части общего контекста, который привел к соответствующему исходу.

Ричард Райт (1985) для этих ситуаций ввел условия NESS, сходные с INUS-условиями Маки. Суть их в следующем: нечто считается причиной, если оно есть необходимый (N) элемент (E) достаточного (S) набора (S) условий. Как и в случае с условиями INUS, или причинными комплексами, это означает, что следствие происходит, когда присутствует полный набор, а причина – лишь один из необходимых компонентов. С другой стороны, если компонент в наборе отсутствует, следствия не происходит. В случае с ДТП неработающие тормоза – часть одного набора достаточных условий, а неисправность тормозов – часть другого. Тогда оба они считаются условиями NESS и в рамках ситуации оба, по видимости, несут ответственность за аварию.

Но здесь поиск правильного ответа также требует присутствия еще некоего фактора, выходящего за рамки причинных рассуждений. Когда мы говорим, что водитель должен был вести себя определенным образом с учетом его знаний на тот момент (даже если это не изменит исход ситуации), мы виним водителя за то, что он не действовал согласно правилам дорожного движения. Это возвращает нас к трудам на тему вины, которые мы обсуждали в , когда люди должны были судить нарушения поведенческих норм.

Ближайшая причина

Скажем, кто-то спугнул голубя, и тот, вспархивая, налетел на человека, переходящего улицу. Пешеход останавливается посреди дороги, и мотоциклист вынужден в последнюю минуту сделать вираж, чтобы не сбить его. При этом он оказывается на пути такси, которое ударяется о пожарный гидрант, поток воды из разбитого гидранта затапливает подвал соседнего здания и нарушает подачу электричества. Некто, спугнувший голубя, запустил цепочку событий, и можно поспорить, что именно он стал причиной последующих событий, но трудно будет найти того, кто посчитает, будто именно этого человека стоит винить за последующую цепочку событий – даже если согласиться, что именно он стал их причиной. Таким образом, инцидент, где никто не виноват, все же может иметь причину.

В дополнение к идеям о причинах «если бы не» и NESS-тестам нужно усвоить понятие о дистанции между причиной и следствием, чтобы принять в расчет промежуточные события, способные послужить факторами вмешательства и изменить исход. Ближайшая причина – это причина, непосредственно связанная со следствием. Непосредственная причинность в области закона также включает аспект предсказуемости, когда некто обязан предвидеть, что причина может привести к следствию. Но случай с птицей иной, поэтому возможно, что испугавшийся голубь – это причина «если бы не», но не ближайшая.

Ключевой момент: в ситуации с ближайшими причинами мы различаем причинность и ответственность. Сведение ответственности к ближайшим причинам освобождает отдаленные события (которые могли запустить цепь причин) от ответственности за непредсказуемые последствия. Самое слабое место таких подходов, как контрфактуальные умозаключения, – транзитивность.

Помимо поиска отдаленных причин, мы можем выяснить: нечто, предотвратившее следствие, на деле становится его причиной, потому что следствие происходит по-иному. Возможно, таксист, который не спеша вел машину, заставил вас пропустить обед в ресторане, где подали несвежие блюда; но в результате вы были вынуждены готовить дома и по чистой случайности сами спровоцировали пищевое отравление. Необходимость готовить дома зависит от того, насколько медленно едет таксист, а пищевое отравление – от вашей кулинарной сноровки.

Более жизненный сценарий – преступление, в котором жертва получила серьезное ранение, но в результате небрежного медицинского ухода позднее умерла. Даже если причиной потребности в медицинском вмешательстве стало правонарушение, в экстремальных случаях, когда доктора действовали вразрез со штатными процедурами, а уход за пострадавшим был «существенно неверным», утверждают, что именно лечение стало причиной смерти.

Один такой выходящий за рамки случай произошел в Великобритании (1956). Обвинение в убийстве и смертный приговор были сняты, поскольку гибель жертвы, которую ударили ножом, произошла не из-за ранения, а от медицинского ухода. Состояние раненого пациента улучшилось и стабилизировалось после оперативного вмешательства, и ему дали антибиотик, чтобы не допустить инфицирования. У него развилась аллергическая реакция; препарат прекратили вводить, но другой доктор возобновил назначение, несмотря на аллергию. Позднее аутопсия выявила, что причиной смерти жертвы стал прием медикамента, к которому организм был чувствителен, а также избыток внутривенных вливаний, из-за которых жидкость залила легкие. Таким образом, медицинское лечение нарушило цепь причинно-следственных связей от ранения до смерти.

С другой стороны, ближайшая причина не обязательно должна иметь место непосредственно перед исходом, если ее можно однозначно с ним связать. Аутопсия, проведенная после смерти Джеймса Брэди, пресс-секретаря президента США Рональда Рейгана, выявила, что он скончался из-за пулевого ранения, совершенного более 30 лет назад. Такие случаи именуют «отсроченная насильственная смерть», когда жертва умирает из-за ранений по прошествии времени. Более чем тридцатилетний период в этом случае придает ближайшей причине характер временной удаленности, но, поскольку имелись свидетельства того, как огнестрельное ранение может вызвать смерть подобного рода, медицинский эксперт квалифицировал ее как насильственную.

Суд присяжных

Если необходимо дать объяснение событиям повседневной жизни, стоит поискать новую информацию, которая поддержит либо опровергнет нашу гипотезу. Можно обратиться к любому количеству экспертов с вопросом: правда ли, что слишком яркая отделка соседского дома снижает цену вашей недвижимости? Нетрудно проверить квалификацию каждого эксперта, почитать материалы о ценах на жилье, провести эксперименты и т. д.

С другой стороны, члены жюри присяжных получают набор фактов из источников, которые они контролировать не способны. В некоторых случаях заседателям удается опросить свидетелей, но в основном они имеют информацию о доказательствах, не получая их напрямую. При всем наличии комплекса данных, которые, возможно, даже представлены не в хронологическом порядке, как присяжным скомбинировать показания и понять, что случилось?

Преобладает такая точка зрения: вместо того чтобы добавлять каждый новый факт в некий несвязанный пул свидетельств, который в итоге приходится оценивать целиком, или выносить решение о вине или невиновности, суммируя доказательства на конкретный момент времени, присяжные организуют информацию в единую историю по ходу судебного процесса. Повествовательная модель, предложенная в 1986 году Нэнси Пеннингтон и Рейдом Хасти, предлагает, чтобы члены жюри собрали доказательства в полный рассказ о случившемся, комбинируя представленные свидетельства (и их оценку) с собственными знаниями и опытом. Поскольку присяжные приходят к разным выводам, это может объясняться тем, что они составляют разные истории, как обнаружили Пеннингтон и Хасти в одном из экспериментов,.

Какое повествование покажется каждому из присяжных правдоподобным, частично зависит от его опыта, а частично от того, какое количество свидетельств оно может объяснить. Три ключевых фактора, определяющих доверие присяжных к истории, – это ее охват, логическая связность и уникальность. Если подсудимый имеет прочное алиби, тогда сюжеты, в которых он обладает значимостью для преступления, вызовут проблемы, поскольку не будут учитывать оправдательное доказательство. Это называется «охват истории». Аналогично повествование должно увязывать все факты в стройную систему. Если судья считает неправдоподобным, что следователь сфальсифицировал улики или что такой подлог противоречит остальной части сюжета, где следователь не имел мотивов для вмешательства, сценарии с такими чертами не будут логически связными. Иногда легко составить множество вероятных историй, сочетающихся с имеющимися фактами.

Если множество сюжетов окажутся логически связными, присяжные не будут уверены, какая трактовка самая вероятная. С другой стороны, если наличествует уникальная и логически связная история с хорошим охватом, вероятно, она и будет принята как объяснение.

И все-таки это не означает, что все присяжные составят и утвердят одну и ту же историю. То, что кажется достоверным одному, для другого выглядит иначе. Если у меня есть опыт общения со студентами, которые мошенничали с домашними заданиями, одновременно заявляя о своей невиновности, я, видимо, с большей долей вероятности составлю историю, в которой учащийся станет лгать, даже если это будет противоречить его словам. С другой стороны, кто-то, не имеющий такого опыта, может счесть неправдоподобным, чтобы студент мошенничал с домашней работой, которая ничего особенного не прибавит к его статусу, и при создании повествования сочтет его заявление более весомым.

Один из проблематичных аспектов судебного разбирательства – доказательства представляются в течение большого времени, притом необязательно в хронологическом порядке. Таким образом, судья может начать с составления истории, в которой студент не жульничал, а напротив, списывали другие учащиеся, слабее подготовленные. Но, если появятся новые свидетели, которые видели его обманные действия, эта новая информация будет включена в историю. Ситуацию еще более осложняет то, что многочисленные свидетельства зависят друг от друга. Если мы поверим свидетелям и, таким образом, снимем со счетов утверждение студента, что он не списывал, то и к другим его словам будет меньше доверия.

* * *

Большая часть экспериментальных свидетельств того, как именно рассуждают присяжные, взята из результатов изучения импровизированных жюри присяжных. Однако эти симуляции не всегда воспроизводят некоторые важнейшие атрибуты реального суда, где присяжные порой перегружены информацией за длительный период и могут вести себя по-разному в важных случаях (к примеру, когда необходимо решить, заслуживает ли обвиняемый смертного приговора, при этом зная, что за свои решения они не понесут наказания). Точно так же сам процесс выбора членов суда присяжных может дать разный состав участников в реальных случаях или симуляциях.

Однако в реальности обсуждение присяжными решения – процесс приватный. Известно единственное исключение – Аризонский проект видеозаписи (Arizona Filming Project), в рамках которого весь процесс судебного разбирательства, в том числе совещания присяжных, снимался на видео для последующего анализа. Исследователи обнаружили, что в 50 изученных случаях присяжные действительно составляли истории на основе имеющихся свидетельств, иногда делая это совместно во время совещаний, а порой обсуждая сценарии друг друга при оценке свидетельских показаний.

Ниже приведена выдержка из стенографической записи совещания в ходе судебного процесса, проходившего до того, как был представлен весь комплекс свидетельств.

Первый присяжный : «Он [истец] сказал, что увеличил скорость, когда увидел, что горит желтый сигнал светофора, а тот сменился на красный. Я не совсем понял: какой свет увидел [истец] , желтый или красный, когда [ответчик] на него наехал?»

Седьмой присяжный : «Это был красный свет, и он должен был продолжить движение, потому что иначе застрял бы посередине перекрестка».

Первый присяжный : «Но в следующий раз он [истец] сказал, что видел, как другой человек заметил изменение света, так что он [ответчик] увеличил скорость, или, возможно, это сказал ему [другой свидетель] . Стрелка поворота налево не горела».

Седьмой присяжный : «Если вы видите, как кто-то увеличивает скорость, что вы делаете? Я бы оставался на месте».

Первый присяжный : «Да».

Шестой присяжный : «Вот поэтому нам нужно подождать и поговорить с судьей… какие законы приняты в этом штате?»

Первый присяжный : «Да, считается, что вы не должны находиться на перекрестке…»

Шестой присяжный : «Значит, сигнал поворота не горел, правильно? Стрелка не горела? Так что он делал на перекрестке?»

Седьмой присяжный : «Нужно, чтобы свидетели сказали, проехал ли он на запрещающий сигнал светофора».

Здесь присяжные пытаются осмыслить порядок событий в ДТП. Имеет место путаница относительно того, какой сигнал светофора горел, красный или желтый, и седьмой присяжный дает разъяснения как насчет самого факта (свет был красный), так и насчет объяснения (ответчик должен был продолжать движение, потому что уже выехал на перекресток). Присяжные оценивают достоверность заявления истца, поскольку оно меняется; выясняют, было ли это его непосредственное наблюдение или свидетельство «из вторых рук»; и затем сводят истории воедино на основании собственного жизненного опыта. Наконец, они обсуждают, какие аргументы им нужны, чтобы общая картина имела смысл (свидетельские показания).

Хотя это не сильно отличается от того, как мы объясняем события повседневной жизни, различие все же есть: оно в уровне тщательности, с которой рассматриваются каждое свидетельство и их совокупность. С другой стороны, разрабатывая теории заговора, люди часто активно игнорируют противоречивую информацию, одновременно выискивая аргументы в подтверждение и пытаясь увязать с ними имеющиеся факты. Судебное разбирательство представляет собой рамочную систему объяснения событий: отыскать как оправдательные, так и уличающие доказательства причинной зависимости; тщательно изучить представленные факторы и определить, что же произошло в действительности; при этом решить, много правдоподобных объяснений или всего одно.

 

9. Действие. Как перейти от причин к решению

 

В 2008 году город Нью-Йорк принял закон, требующий, чтобы ресторанные сети, имеющие более 15 торговых точек, указывали калорийность блюд в меню на видном месте. Довод был таков: потребление высококалорийной пищи приводит к ожирению и вредит здоровью. Однако, в отличие от производителей продуктов, рестораны редко предоставляют информацию о питательной ценности блюд. Если бы люди знали, сколько калорий потребляют, наверное, смогли бы изменить привычки питания.

Тем не менее исследования, проведенные в Нью-Йорке и других городах с тех пор, как эта политика приобрела общегосударственные масштабы, обнаружили не так уж много свидетельств в пользу действенности принятого закона. Почему?

Программа указания калорийности блюд в меню исходит из допущений, что люди эту информацию заметят; что они пока недооценивают потребляемые калории; что они знают, как интерпретировать и использовать эти данные; и что такая политика будет одинаковой во всех сетевых ресторанах. Однако кардинального снижения потребления жирных блюд не случилось, напротив: в ряде случаев посетители заказывали в среднем больше «калорий», чем раньше.

Так случается из-за переоценки калорийности блюд людьми, которые сидят на диете или подсчитывают питательную ценность нездоровой пищи. Тогда истинная информация может стать для них приятным сюрпризом, после чего они начнут заказывать более жирную еду.

Потребление также может возрасти или по крайней мере не снизиться, если люди не умеют обращаться с количественными данными. Чтобы подсчет калорий изменил поведение клиентов, мы должны сделать допущение: они умеют оценивать информацию в соответствующем контексте и понимают, что именно представляет собой каждое число. Если же никто не знает, каким должен быть их диапазон калорийности для конкретного приема пищи, любая информация окажется бессмысленной.

Данные о питательной ценности вместе с флаерами, где указывались рекомендованные на день пределы потребления, не оказали статистически значимого воздействия на жирность заказываемых блюд. Порой поздно привлекать внимание к сведениям о калориях, когда посетители уже определились с заказом. Такая информация также может повлиять на поведение, заставляя людей выбирать другие рестораны. С другой стороны, исследования, основанные на системе светофора (когда здоровые продукты помечены зеленой иконкой, а самые вредные – красной), выявили больше доказательств изменения поведения.

Согласно одному из немногих исследований, продемонстрировавших вообще какую-то эффективность информации о калорийности в ресторанных меню, скромное снижение жирности заказываемых блюд, почти целиком отнесенное на счет еды, наблюдалось в Starbucks. Это шестипроцентное снижение (от 247 до 232 калорий в среднем за заказ) в основном стало следствием сокращения количества заказываемых блюд, а не менее калорийных продуктов. Но клиенты сетевых кофеен приходят туда, как правило, не за едой.

Значимо шестипроцентное сокращение или нет, зависит также от того, компенсируют ли клиенты недобранные калории в другое время. Тогда любое исследование, выявившее наличие эффекта, возможно, не учитывает рестораны другого типа, которые подают иную пищу и обслуживают посетителей с непохожими запросами. Даже если мы обнаружим, что заказы людей различаются, все равно не сможем тут же отнести этот факт на счет представленной информации о калориях. Может же случиться, что рестораны изменили состав меню, снизив жирность некоторых блюд или удалив какие-то позиции еще до того, как проставили данные о калориях. Хотя в каком-то смысле это может означать, что принятие закона увенчалось успехом, так как его следствием стало предложение более здоровой еды, но, скорее всего, воздействие печатных расчетов калорий на поведение потребителей преувеличено.

* * *

Как перейти от причин к решениям? Знания о том, что пробежки благотворно влияют на сердечно-сосудистую систему, вовсе не достаточно, чтобы решать, заниматься бегом или нет. Знания о том, что потребление соли у некоторых людей вызывает гипертензию, недостаточно, чтобы вынести решение о реализации политики в масштабах всей страны по поводу количества соли в пище. Будь мир идеален, мы бы решали, что делать, исходя из неопровержимых результатов тщательно спланированного эксперимента. Но в реальности мы вынуждены действовать на основе неполной и несовершенной информации. В одних случаях эксперимент невозможен, а в других может не хватать времени или ресурсов, чтобы дожидаться однозначных результатов.

В общем, информация бывает различной. В этой главе мы попытаемся увязать рассмотренные теории в единый комплекс соображений, которые следует принимать в расчет при оценке каузальных утверждений. Мы посмотрим, какого рода информация нужна для подтверждения причинной зависимости и что такое хорошее доказательство, в котором наличествуют необходимые свойства. Причина повышает вероятность следствия – это неотъемлемое свойство каузальности. Но различные способы это продемонстрировать могут привести к неожиданным выводам.

Выявление причин, разумеется, первый шаг, но для успешной выработки политики в отношении каждого человека и всего населения понадобится больше данных. Когда мы решаем предпринять некое действие, будь то смена значков ресторанного меню для поддержки здорового образа жизни или определение лекарства для снятия головной боли, мы выбираем из множества путей, ведущих к желаемому следствию. Причина, дающая результат в одном месте, может абсолютно не сработать в другом или вызвать побочные эффекты (как позитивные, так и негативные). Мы обсудим, как предсказать последствия вмешательства и сделать лучший выбор.

Не все причины равно поддаются вмешательствам, а наши воздействия не всегда и не только обусловливают реализацию причины, не меняя больше ничего.

Мы рассмотрим, почему нужно думать, какую причину использовать, чтобы вызвать к жизни следствие (например, печатать данные о питательной ценности или в обязательном порядке требовать считать калории в блюдах), а также как реализовать саму причину (например, бонусы за указание жирности или штрафы за невыполнение этого требования) и предсказать, что еще может измениться в итоге (например, переделка ресторанного меню ведет к росту потребления низкокалорийных подсластителей).

 

Оценка каузального утверждения

Не существует однозначного теста на причинную зависимость, работающего во всех случаях, однако на практике все равно приходится делать и оценивать каузальные утверждения.

Правдиво ли заявление, что телешоу 16 and Pregnant на канале MTV снижает уровень подростковой беременности в регионах, где его показывают?

Никто не проводил рандомизированного эксперимента по просмотру этого телешоу, и по большей части мы даже не знаем, смотрели ли его конкретные люди. Хотя теоретически можно случайным образом создать выборку молодых людей, любящих различные телешоу, подростковая беременность – явление не слишком распространенное, так что создавать достаточно крупную выборку для анализа следствия нерационально.

Мы обсуждали, как с успехом проводить выборочные эксперименты для выявления причин, однако во многих ситуациях это невозможно, и приходится оценивать другие доказательства, чтобы определить вероятность причинного характера зависимости. Есть различие между тем, что мы можем узнать посредством совершенного, идеально спланированного выборочного эксперимента, и данными любого реального эксперимента, который может выполняться не «вслепую», на базе малой выборки и большинство участников которого не доходят до его конца.

Кроме того, неправда, что ВКЭ (выборочный контролируемый эксперимент) в любом случае и наверняка превосходит любое исследование методом наблюдения. Если речь о том, что конкретный человек должен сделать выбор между различными вариантами лечения, долговременное наблюдение пациентов с аналогичными характеристиками может дать более ценную информацию, чем эксперимент на основе небольшой группы без сопутствующих патологий, как у этого человека, и о которых нельзя сказать, что после приема нескольких других лекарств не было никакого эффекта, как у него. Здесь мы как раз имеем дело с проблемой внешней валидности, которую рассматривали в .

Если ВКЭ неприменим в обстоятельствах, которые мы измеряем, то его результаты для этой цели не будут лучшими доказательствами. Даже если условия аналогичны: то, что реально в рамках исследования наблюдением (где можно повторно использовать данные, например, из электронных медицинских карт), будет отличаться от условий ВКЭ. Если мы хотим узнать, какое влияние оказывают на старение годы постоянных занятий спортом, чтобы разработать государственную политику в этой области, тогда данные наблюдений за 50 лет за десятками тысяч людей могут быть полезнее, чем двухлетний ВКЭ с сотней участников. Хотя ВКЭ позиционируется как золотой стандарт подтверждающей информации для каузальных утверждений, мы можем научаться причинности и без исследований, но для этого нужно знать, как оценивать неэкспериментальные свидетельства.

* * *

В 1960-х годах Брэдфорд Хилл разработал ряд факторов для оценки каузальных утверждений. Их, однако, иногда неверно трактуют как набор критериев, или чек-лист, для определения причинности. Не каждый аспект необходим (может иметь место причинно-следственная связь, где не каждое свойство истинно), а полный их набор – достаточен (даже при ложной каузальной зависимости могут присутствовать все свойства), но этот метод предоставляет набор объектов для анализа в тех случаях, когда эксперимент невозможен, и увязывает воедино множество рассмотренных теорий.

Набор факторов можно приблизительно поделить на указывающие значимость причины для следствия (сила, последовательность, биологический градиент) и дающие информацию о механизме действия (специфичность, временной характер, правдоподобность, логическая связность, эксперимент, аналогия). Хотя предложенный список не соответствует в точности порядку Хилла, я привожу его расшифровку, чтобы лучше ориентироваться в соответствующих статьях. Мы рассмотрим каждый из факторов и сформулируем некоторые вопросы для анализа и оценки.

Сила

Если указание калорийности в ресторанных меню снижает содержание калорий в блюдах, заказанных посетителями, тогда жирность блюд, заказанных в местах, где посетителям дают такие сведения, и теми, где не дают, должна существенно различаться.

Аналогично, если уровень рождения детей у юных матерей в регионах, где показывают телешоу о подростковой беременности, лишь ненамного ниже показателей для регионов, где такое шоу не идет, утверждение, что телепередача реально меняет показатели беременности, будет менее убедительно.

С другой стороны, если и потребление калорий, и показатели беременности значительно снижаются в обоих случаях, тогда это будет более весомым доказательством причинно-следственной связи. Этот метод тесно связан с вероятностными подходами к причинности (см. ), определяющими шансы следствия после причины, а также с мерами силы причинно-следственной связи (из ). Сила может означать, что событие становится гораздо более вероятным (информация о калорийности существенно увеличивает шансы на то, что клиенты закажут нежирные блюда) или что следствие будет иметь больший эффект (информация о калорийности приводит к пятидесятипроцентному снижению жирности блюд).

Однако отсутствие сильных связей не означает отсутствия каузальной зависимости. Возможно, сама причина не имеет достаточной силы – например, когда пассивное курение вызывает рак легких в гораздо меньшей степени, чем непосредственное. Это пример случая, когда причина слаба, но детерминирована: диета приводит к потере веса у любого, кто ей следует, но все теряют лишь небольшую долю массы тела в процентном отношении. Могут также существовать подгруппы, которые еще не идентифицированы: к примеру, информация о калорийности эффективна только для людей, которые уже считают калории. Если проанализировать данные для каждого, связь может показаться незначительной.

Точно так же мы обсуждали множество сильных корреляций, возникающих без соответствующей причинной зависимости. Один из примеров – синдром Дауна и очередность рождения детей в семье. Очередность рождения дает определенные сведения о возрасте матери (в среднем женщины, рожающие четвертого ребенка, старше первородящих) и, следовательно, сильно связана с синдромом Дауна, но не служит его фактической причиной. Действительно ли сила корреляции – убедительное доказательство каузальности, зависит от того, брались ли эти возможные общие причины в расчет и могут ли они объяснить связь между следствиями.

Если мы наблюдаем сильную корреляцию, возникает ряд вопросов, среди которых можно назвать следующие.

• Асимметрична ли зависимость (почему мы убеждены, что одно – причина, а другое – следствие)?

• Можно ли объяснить корреляцию общей причиной двух переменных?

• Возможно ли отнести это на счет методологических проблем (ограниченный диапазон, смещение выбора, ошибка)?

• Верно ли, что другие факторы, которые мы игнорируем, сильно коррелируют со следствием?

• С учетом данных временных рядов можно ли объяснить взаимозависимость нестационарностью обеих переменных (возможно, со временем они приобретают одинаковую восходящую тенденцию)?

Последовательность (повторяемость)

Если информация о калориях действительно снижает их потребление, такой результат должен быть подтвержден многими исследователями, которые используют разные методы, и должен быть истинным для большого количества ресторанов. Хотя это не совсем похоже на закономерности в теориях Юма и Маки, однако есть сходство: истинное причинное взаимоотношение должно наблюдаться не однократно, а во множестве экспериментов. Как мы говорили в , результаты могут не реплицироваться по разным причинам. Однако, выяснив, что информация о калориях не ведет к снижению жирности заказанных блюд во многих городах с различными группами населения (что утверждается учеными, применявшими несхожие методы), скажем: скорее всего, такой вывод не случайность. Вариации, имеющие место при повторении экспериментов, естественным образом повышают надежность утверждений о силе причинной взаимосвязи. С ними контрастирует постулат, что подсчет калорий привел к снижению жирности блюд в кофейнях в конкретном городе.

Непоследовательные результаты также можно использовать для опровержения причинных выводов, кажущихся сильными. В результате анализа множества статей о том, снижает или повышает та или иная пища риск заболевания раком, были найдены доказательства как за, так и против для почти любого протестированного продукта. Кто угодно может избирательно выдрать из контекста литературы на эту тему факты, убедительно поддерживающие любое утверждение: всеобъемлющий же анализ покажет несостоятельность такого тезиса. Точно так же ложноположительные выводы одномоментной проверки множества гипотез (так что по чистой случайности одна из них может показаться значимой) не будут отличаться повторяемостью.

Если утверждение непоследовательно, какие можно сделать выводы? Возможно, важные свойства, необходимые, чтобы признать причину эффективной, присутствовали в одном месте, но не в другом. Например, многочисленные укусы москитов не обязательно вызывают малярию, поскольку заражение наступает только в том случае, если эти москиты – переносчики инфекции. Если неизвестны ключевые свойства эффективности, следствие может непредсказуемо варьироваться. Отметим, что непоследовательные результаты эксперимента не то же самое, что непоследовательность самой причины. Как и в случае с малярией, возможно, изученные группы населения существенно разнились.

Последовательные заключения все равно могут быть следствием ошибки или недосмотра, общих для всех экспериментов. К примеру, если в исследованиях фиксировалась только очередность рождения, но не возраст матери, сильно влияющий на итог, связь между очередностью и синдромом Дауна будет последовательна, но не каузальна.

Точно так же во всех исследованиях может наблюдаться одна и та же математическая погрешность, или же в них используются одни и те же загрязненные образцы.

К вопросам для оценки последовательности причинной взаимосвязи относятся такие.

• Имела ли место значимая вариация участников или методов эксперимента, которая может объяснить неудавшуюся репликацию?

• Насколько последовательны значения силы следствия в рамках всех исследований?

• Достаточным ли был исследовательский аппарат, чтобы выявить следствие?

• Были ли различные исследования независимыми (или у них были общие источники финансирования, например, одна и та же фармацевтическая компания оплачивала оба испытания)?

Специфичность

Если бы я сказала, что одно лекарство лечит рак, обычную простуду и малярию, это показалось бы совершенно невероятным. С другой стороны, мы знаем, что курение вызывает массу негативных последствий разной степени тяжести для здоровья.

Специфичность имеет отношение не просто к тому, как варьируются следствия некой причины, но и к силе влияния причины на каждое следствие. Это не означает, что причина обязана иметь единственное следствие (это крайне неправдоподобно). Более специфичная зависимость может дать более сильное подтверждение – в противовес тому, когда причина кажется очень важной, но теряет значимость среди множества следствий. Например, одно лекарство не сможет полностью исцелить много разных болезней, но окажет основное воздействие на одну из них и менее выраженное – на прочие. Точно так же, если некто заявил бы, что катание на велосипеде снижает смертность, это показалось бы неправдоподобным. С другой стороны, более достоверно утверждение, что велосипедный спорт снижает главным образом риск ожирения и смерти от сердечно-сосудистых заболеваний.

В некотором смысле специфичность также имеет отношение к тому, насколько непосредственна зависимость, о которой мы судим. Здесь могут иметь место весьма тонкие взаимосвязи: к примеру, электронные сообщения с просьбами о пожертвованиях на избирательную кампанию, рассылаемые в среду утром, дают больше средств, чем отправленные в субботу вечером. Сравните это с утверждением, где просто говорится, что рассылка электронных писем связана с увеличением собранных средств.

Специфичность зависит от уровня знаний. Если нам мало известно о том, как работает причина и каковы ее основные следствия, мы, возможно, обнаружим только очень косвенные ее доказательства (например, если проанализировать только уровень смертности курильщиков по сравнению со случаями рака легких и их летального исхода). Специфичность не необходимое условие, но сильная прямая зависимость воспринимается с большей готовностью, чем косвенная. В целом, однако, она считается одним из наименее важных критериев.

Правдоподобность множества следствий зависит от механизма гипотетической взаимосвязи. Если мы думаем, что защитный эффект велосипедных шлемов заключается в том, что они сокращают вероятность травмы головы, заметное снижение показателей подобных травм при минимальном влиянии на другие виды повреждений будет более убедительно, чем уменьшение риска всех травм. Падение общего количества повреждений можно также объяснить тем, что носители шлемов – более осторожные или опытные велосипедисты, которые с меньшей вероятностью травмируются.

Таким образом, специфичность нужно рассматривать совместно с силой взаимосвязи, принимая в расчет предыдущее знание.

• Вызывает ли причина разнообразные следствия, идентичные по силе?

• Что можно сказать о степени следствий этой причины по сравнению с тем, что ожидалось?

Временной характер

Привело ли сокращение подростковой беременности к увеличению просмотров телешоу на эту тему или все было как раз наоборот?

Как мы подробно обсуждали в , порядок событий – ключ к причинности. Порой, однако, неизвестно, что было сначала: телефонные звонки изменили настрой избирателей или все дело заключалось в грамотно составленном списке на обзвон, поскольку предпочтения голосующих были спрогнозированы исходя из результатов анализа демографических данных?

Упорядочивание последовательности событий – ключ к определению истинного направления причинно-следственной связи.

К примеру, симптомы заболевания, выявленные на ранней стадии, могут предшествовать постановке диагноза, однако в действительности это болезнь вызывает симптомы. Порядок вмешательства и результат видны в выборочном эксперименте, и их также можно узнать из наблюдательных данных по временным рядам (допуская, что измерения проводились достаточно регулярно, если А происходит перед B, это наблюдается последовательно). Однако подобное соображение может создать проблемы при исследованиях единовременных событий. Подобные перекрестные эксперименты делают «моментальный снимок» выборки: к примеру, людей спрашивают, где они живут и какими аллергиями страдают. Но это лишь скажет о ситуации в конкретный момент, и мы не сможем узнать, имел ли некто это заболевание до того, как переехал, и не спровоцировал ли проблему именно переезд.

Хотя приоритет по времени означает, что причина была перед следствием, мы также должны учитывать, сколько времени прошло между ними. Правдоподобность большого временного интервала зависит от уже имеющихся знаний. Если вы видите, как кто-то хочет спуститься по крутому желобу-горке для катания, вы ждете, что он окажется внизу гораздо быстрее, чем если бы горка была менее крутая, так что длительная задержка неправдоподобна в первом случае, а короткая – во втором. Мы могли наблюдать это в психологических исследованиях (см. ), когда участники считали причинную взаимосвязь более вероятной при коротком запаздывании, за исключением случаев, когда им было известно, что механизм действия срабатывает медленнее. Если воздействие асбеста и развитие онкологического заболевания разделяет интервал всего в одну минуту, это крайне невероятно. А вот минута между прочтением информации о калорийности и изменением заказа вполне правдоподобна.

Аналогично, даже если причина случается перед следствием, она вполне может оказаться не единственной вещью, которая тогда произошла. Если расчет калорий представлен в то самое время, когда рестораны вносят кардинальные изменения в свои меню, трудно сказать, какое событие отвечает за перемены в поведении клиентов. К примеру, в некоторых работах утверждается, что учителя начальной школы могут влиять на уровень заработной платы бывшего ученика спустя десятилетия. Чтобы подтвердить достоверность этого, мы должны иметь определенные доводы в пользу существования некоего следствия, действие которого тянется с самого детства (и приводит к другой цепочке событий, связанных с зарплатой), что оно не искажается общей причиной и не объясняется другими промежуточными причинами.

Вне зависимости от того, наблюдаем ли мы причину, происходящую до следствия, ключевые соображения будут такими.

• Корректен ли видимый порядок событий, нет ли искажения или какой-нибудь погрешности в методе сбора данных?

• Достоверна ли задержка по времени с учетом возможного механизма действия причины?

• Если есть длительная задержка, нельзя ли отнести следствие на счет других факторов, вмешивающихся в ход событий после гипотетической причины?

• И наоборот, не произошли ли примерно в то же время другие события, способные объяснить следствие?

Биологический градиент

Можно ли сказать, что чем больше причина, тем больше и следствие? Именно на этом основан метод сопутствующих изменений Милля: если доза причины растет, реакция, которую она вызывает, также должна расти. Риск заболевания возрастает, если рабочие проводят больше времени в условиях загрязнения асбестом, поскольку его воздействие на организм увеличивается. С другой стороны, кажется неправдоподобным, что именно один бокал вина в день – доза, полезная для здоровья, поскольку маловероятно, что тело настолько чувствительно к чуть большему или чуть меньшему количеству вина.

«Доза» может также относиться к расстоянию: например, насколько близко к зараженной водяной колонке проживали обитатели Лондона, когда Сноу обнаружил, что в ней кроется причина заболевания холерой. Если каждый из проживающих на приличном удалении имел аналогичный риск заражения, это стало бы менее убедительным доказательством, чем если бы риск снижался с удалением от означенной колонки.

Если воздействие на человека меняется (он прекращает принимать лекарство, бросает курить, кладет в пищу меньше соли), это также должно изменять побочные эффекты, риск рака и гипертензии, если их причиной служит воздействие фактора риска. Но тогда необходимо допустить, что следствие не носит постоянного характера.

И все же здесь также применимы те же оговорки, что и в методе Милля. В случае с алкоголем и заболеванием сердца риск становится выше как при низком, так и при высоком уровне потребления, а снижается где-то посередине, и многие биологические зависимости характеризуются J-образной кривой подобного типа (как показано на ), когда риск выше при низкой дозировке, снижается к середине, а потом быстро растет по мере роста кривой.

Ключевые вопросы таковы.

• Как количество (или вероятность) следствия изменяется при различных значениях причины?

• Если мы можем контролировать воздействие на человека, изменит ли это для него риск или исход?

• Насколько точно измерена доза?

Правдоподобность и логическая связность

Если исходить из того, что нам известно на сегодня: существует ли потенциальный механизм, способный связать причину и следствие?

Если мы предположим, что избыточное потребление кофе приводит к преждевременной смерти, в это поверить было бы гораздо легче, имей мы понятие о том, как это может быть, которое вписывалось бы в рамки наших текущих знаний в области биологии. К примеру, если избыток кофеина вызывает у людей нервозность и снижает понимание текущей задачи, они, видимо, будут чаще попадать в аварии. С другой стороны, если мы решим, что в тот момент, когда президент появляется на публике в одежде теплых оттенков, рынок идет вверх, а холодные тона пригибают цены вниз, разрыв между нашими знаниями о рыночных механизмах и этим допущением будет слишком велик.

Согласно Хиллу, правдоподобность не абсолютно необходимый фактор – главным образом потому, что наши знания могут оказаться ошибочными и мы, возможно, просто не понимаем, как работает новая причина.

Однако важность наличия гипотетического механизма, посредством которого причина могла бы произвести свое следствие, подчеркивали и другие ученые. В конце концов, мы и не можем требовать подобного доказательства, однако оно повысит доверие к нашим выводам. Чем необычнее взаимосвязь, тем больше требуется информации в ее поддержку.

И аналогично: считается ли потенциальная зависимость логически связной, если исходить из имеющегося знания? Не противоречит ли она общепринятым фактам, совместима ли с нашим знанием?

Это, конечно, не крайний аргумент, так как наше знание может быть неверным. Если, однако, возможная причинная зависимость идет вразрез со всем, что нам известно из области физики, включая закон притяжения, тогда следует проявить достаточный скептицизм.

Стоит, однако, иметь в виду разницу между логической связностью и правдоподобностью. Правдоподобность означает: мы можем осознать, что взаимосвязь сработает, исходя из того, что нам известно. Что касается логической связности: мы можем не иметь представления о том, как причина производит следствие, однако связь между ними не противоречит нашим знаниям. Когда Сноу впервые обнаружил связь между зараженными водяными колонками и холерой, идея, что в грязной воде содержатся крошечные бактерии, шла вразрез с преобладающей точкой зрения, будто болезнь вызывается зараженным воздухом.

Итак, наша идея о том, что – логически связное, а что – возможное, со временем трансформируется, потому что меняются и наши знания.

Оценивая правдоподобность и логическую связность корреляции, мы должны также оценить то, что, по нашему мнению, знаем. И если новая взаимосвязь этому противоречит, в какой степени мы уверены в том, что наши знания (по нашему мнению) верны?

Эксперимент

Если мы вмешиваемся, чтобы включить в цепочку событий причину или повысить ее воздействие, наступит ли следствие?

Основное отличие между этим вопросом и другими в том, что здесь требуется активно манипулировать чем-то, в то время как иные соображения могут быть основаны на чистом наблюдении. Эксперименты, однако, не обязаны представлять собой выборочные контролируемые тесты на людях. В некоторых случаях это невыполнимо, или же понадобится слишком много времени, чтобы сделать вывод; поэтому результаты получают посредством изучения инвитро или на животных. К примеру, не было экспериментов, где бы людей заставляли курить, но исследования, доказавшие, что табачная смола, нанесенная на уши животных, провоцировала рак этой части тела, предоставили убедительные доказательства возможной канцерогенности компонента в составе сигарет. Экспериментирование дает возможность усилить связь между тем, что вызывает вмешательство, и тем, что из него следует. Таким образом, если существует общий мотив как фиктивной причины, так и следствия, манипулирование фиктивной причиной не окажет никакого воздействия.

Мы обсуждали в , что, скорее всего, не сумеем увидеть истинную каузальную взаимосвязь исходя из эксперимента (например, если размер выборки слишком мал) или обнаружим мнимую корреляцию (как в неслепых выборочных экспериментах). Что касается исследований на животных, даже если результаты окажутся положительными, придется тщательно проанализировать имеющиеся доказательства в пользу того, что причина здесь работает так же, как и в изученных системах, и у людей. К примеру, методы лечения сепсиса, которые должны были работать, если исходить из тестов на мышах, оказались безуспешными для людей. В результате возник вопрос, а действительно ли мыши – хороший аналог для изучения человеческих воспалительных заболеваний.

Если эксперимент не предусматривает участия людей или проводится инвитро, важно определить репрезентативность модели с точки зрения механизма действия причины на людей.

Аналогия

Наконец, если известна сходная причинная взаимосвязь, стандарты доказательств могут быть понижены, так как когда-то уже было показано, что эта причина способна произвести предполагаемое следствие.

Скажем, мы узнали, что указание содержания калорий в ресторанной еде ведет к снижению жирности заказываемых блюд. Тогда мы скорее поверим, что информация об этом способна менять поведение, так как нам уже известно о подобном влиянии. В других примерах вирус стал считаться более правдоподобной причиной различных видов рака после получения данных о том, что папилломавирус человека вызывает определенные виды рака шейки матки.

Эта аналогия позволяет также использовать результаты экспериментов над животными, чтобы лучше понимать людей или соотносить системы различных масштабов.

Мы должны оценить, насколько близко соответствие экспериментальных установок и интересующей нас системы. Точно так же необходимо проверить, какими доказательствами мы обладаем, применяя к одному сценарию то, что стало известно на основании другого.

* * *

Не забывая о том, что нет никакого чек-листа причинности и набора критериев, которые должны или удовлетворяются в любых случаях, скажем, что эти свойства увязывают вероятностные, механические, интервенционные и экспериментальные методы в единую группу объектов, которые необходимо учитывать. Кроме того, в каждом случае следует учитывать качество информации.

Выборочные эксперименты могут проводиться с нарушениями, выявленные связи – проистекать из смещения выборки, а животные модели – не подходить для конкретного заболевания. Стандарты доказательств также зависят от того, какой именно аргумент используется в поддержку некоего утверждения, а также от потенциальных рисков и затратности итоговых действий. Философы разработали теории аргументов, чтобы описать, каким должно быть доказательство научной гипотезы. Правда, все эти теории в целом очень отличаются от того, как на самом деле ученые рассматривают и используют факты, и часто игнорируют роль контекста, в котором используется конкретное доказательство.

К примеру, стандарты аргументов будут выше в судебном разбирательстве по делу об убийстве, чем при попытке узнать, кто из детей разбил вазу, так как последствия ошибки в первом случае намного тяжелее, чем во втором. Малоубедительное утверждение, что ежедневная плитка шоколада улучшает настроение, может оказаться достаточным для человека, который хочет продолжать есть шоколад, но неубедительным, чтобы разработать программу питания, цель которой – заставить всех каждый день есть шоколад.

 

От причин – к политическим программам

«Уменьшить объем бутылок с газированными напитками. Размещать информацию о калорийности в ресторанных сетях. Запретить трансжиры. Снизить содержание соли в ресторанных блюдах».

Это лишь несколько программных позиций, которые рассматривала или ввела в действие мэрия Нью-Йорка, чтобы улучшить здоровье жителей.

Если известно, что существует причинно-следственная связь между сахаром, высококалорийной пищей, трансжирами, солью и различными состояниями здоровья, улучшить которое – наша цель, можно ли знать заранее, какие действия городских властей окажутся успешными? Чтобы в этом разобраться, нужно понимать, каким будет следствие конкретного вмешательства и как сделать выбор между потенциальными воздействиями. Результатом, однако, необязательно будет конкретное следствие, которое мы хотим получить. Из одной причины может проистекать множество вещей, и, что досаднее всего, сам акт воздействия способен нарушить причинные взаимосвязи между объектами. Мы можем обнаружить, что лекарство, снижающее уровень холестерина в одних условиях, окажется совершенно бесполезным в других. Просто люди перестают следить за диетой, решив, что препарат в любом случае снизит холестерин. Или, например, оценки стандартизированных тестов изначально связаны с профессионализмом учителя. Но эта корреляция может ослабнуть, если оценки будут использоваться для аттестации учителей, которые в результате начнут ориентироваться в первую очередь на подготовку учеников к прохождению тестов.

Несмотря на это, мы хотим, чтобы решения основывались на доказательствах, а не байках и чтобы эти аргументации базировались на причинных зависимостях, а не корреляциях.

В пользу такого тезиса говорят научно-доказательная медицина, образование, проектирование и множество других направлений, основанных на доказательном подходе. Аргументации использовались в этих областях и ранее, просто сторонники подобных подходов предпринимают попытки формализовать понятие «надежного доказательства». Вместо того чтобы определить, говорят ли некие факты в поддержку конкретной гипотезы, они стараются провести различие между сильным и слабым аргументом и способствуют использованию наилучших. Результатом часто становится иерархия доказательств, где ВКЭ (или, точнее, систематический анализ различных ВКЭ) занимает безусловное место на вершине пирамиды.

И все же такие иерархии необязательно указывают, какая информация необходима для наших целей и как ее применять. В то время как идеально осуществленный выборочный эксперимент теоретически может дать лучшие из возможных доказательств, в реальности нельзя сравнить идеальное изучение с исследованием посредством наблюдения. Можно получить противоречивые результаты на основе необъективного исследования с малой выборкой участников и крупного, хорошо спланированного наблюдательного эксперимента или же иметь в распоряжении только неэкспериментальные аргументы.

Так как на практике приходится исходить из информации подобного рода, чрезвычайно важно знать, как использовать ее наилучшим образом, и мы изучим, что нужно иметь в виду при реализации политики на практике и как обобщать результаты.

Когда я говорю «политика» или «вмешательство», это может быть запрет городских властей на курение в общественных местах ради охраны здоровья, изменение государством учетной ставки в целях стимулирования экономики или просто ваше решение не пить кофе после четырех часов вечера, чтобы избавиться от бессонницы. Во всех этих случаях ради конкретной цели совершается изменение. Иногда нашим доказательством может быть реализация политики в каком-то месте (скажем, размещение в кафе и ресторанах Нью-Йорка информации о калорийности), и мы хотим использовать этот аргумент, чтобы достичь аналогичной цели где-то еще.

* * *

Многие города, например Нью-Йорк, Лондон и Париж, реализуют общественные программы проката велосипедов, когда его можно взять в одном месте и оставить там, куда направляешься. Цель этих программ – сократить количество поездок на личном автотранспорте и улучшить здоровье населения за счет физической активности. Достижение этой цели зависит от следующих допущений: 1) езда на велосипеде – эффективная форма физических упражнений; 2) результатом программы станет развитие велосипедного спорта (а не просто то, что люди пересядут с собственных велосипедов на прокатные). Но как узнать, разумны ли такие допущения и что случится, если мы попытаемся внедрить подобную программу в другом городе?

Модели, с которыми мы знакомились в , можно использовать для прогнозирования последствий вмешательств. При этом, однако, приходится допускать, что используемая модель полная и корректная, а то, что мы узнали из эксперимента или пилотного исследования, можно транслировать на реальный мир. В таких моделях вмешательство было точным инструментом, который устанавливал значение переменной как истинное или ложное, более ничего не изменяя. Модели, как правило, способны лишь сказать, что происходит, если мы манипулируем одним объектом за раз, но в реальности наши вторжения вносят перемены и приводят к результатам, которых модели не спрогнозируют.

Как только принимается решение о поддержке велосипедного спорта в целях улучшения здоровья, появляется множество способов его реализации. Можно дешево продавать технику, давать уроки езды, развивать прокат и т. д. Но каждое вмешательство может привести к разным последствиям.

Даже если выбрать одну цель воздействия – скажем, прокат транспорта, – доступно реализовать ее множеством способов. Необходимо определить, из каких средств проект будет финансироваться, где размещать велосипеды и стоит ли предлагать ездокам шлемы (или требовать их наличия) – это всего несколько соображений. Итак, мы не просто пытаемся выяснить, какую причину применить, чтобы вызвать следствие, но и как заставить случиться саму причину.

Контекст

Одна из первоочередных вещей, которые необходимо осмыслить, – это контекст вмешательства.

Будет ли работать прокат транспорта только там, где есть выделенные дорожки? Требуется ли наличие большого количества велосипедистов? Будет ли зависеть успех программы от ее реализации в густонаселенном городе, имеющем много пунктов, где можно оставлять велосипеды?

Метод Маки и секторные диаграммы из исходят из наличия набора условий, необходимых для того, чтобы причина произвела следствие.

Чтобы вмешательство оказалось успешным, нам нужно знать, какие факторы обусловливают эффективность причины и есть ли они там, где мы планируем реализовать нашу политику. Также надо убедиться в отсутствии факторов, способных помешать эффективному действию причины. Например, новое лекарство окажется бесполезным, если из-за высокой цены пациенты не смогут принимать рекомендованные дозы. Прокат велосипедов не приживется там, где нет велосипедных дорожек, потому что люди сочтут небезопасным делить проезжую часть с городским транспортом.

Согласно одному исследованию, наблюдалась корреляция между частотой использования станции проката велосипедов в Вашингтоне и наличием поблизости велосипедных дорожек.

Понимание контекста помогает спрогнозировать успешность вмешательства и объяснить его провал. Говоря «контекст», я подразумеваю другие части секторной диаграммы или иные условия INUS, необходимые, чтобы причина произвела следствие. Если они отсутствуют, возможно, не удастся воспроизвести результаты экспериментального исследования, доказывающие, что вмешательство уже где-то сработало.

Противомоскитные сетки – хорошая защита от малярии, но на пути их применения есть разнообразные препятствия, в том числе цена. Бесплатная раздача сеток должна, таким образом, снизить уровень заболеваемости малярией. Но это утверждение будет истинным, только если приспособления употреблять по назначению. Хотя в большинстве случаев это именно так, порой сетки использовались для рыбной ловли, потому что людям не хватало пищи, а голод – более насущная проблема для целевой группы населения, чем малярия. Таким образом, до вмешательства необходимы либо доказательства, что сетки будут применяться в установленных целях, либо политика, учитывающая препятствия.

Одно из затруднений в том, что не все факторы могут быть известны, потому что их никто никогда не измерял. Если правда, что велосипедные дорожки (а не пункты проката рядом с ними) способствуют езде на двухколесном транспорте, тогда программа может провалиться, если мы не будем располагать сведениями о наличии таких дорожек в новом месте или не будем убеждены в их необходимости.

Действенность и эффективность

Вмешательство, которое абсолютно не сумело достичь цели, – случай исключительный, однако то, что происходит в реальном мире (эффективность, effectiveness), порой существенно отличается от спрогнозированных результатов вмешательства, изученного на основе идеализированных установок (действенность, efficasy). Отличие между действенностью и эффективностью чаще всего встречается в медицине, однако оно достойно осмысления в каждом случае, когда для реализации вмешательств в ином контексте мы используем информацию, полученную на основе контролируемых установочных параметров.

К примеру, измерение уровня сахара с помощью глюкометров, берущих кровь из пальца, менее точно в домашних условиях, чем в контролируемых, потому что люди в быту гораздо менее внимательно следят за чистотой проб и реже моют руки. Лекарства, демонстрировавшие высокую действенность в условиях эксперимента, когда их принимали в одно и то же время каждый день, могут оказаться куда менее эффективны в реальности, когда график приема соблюдается не так четко. Итак, если исходить из простого допущения, что эффективность вмешательства будет такой же, как та, что наблюдается в условиях контролируемого эксперимента или исследования с другой выборкой участников, ее показатель может оказаться завышенным. Пациенты решат не принимать лекарство в нужное время и в правильных дозах или прервать курс лечения.

Вероятность расхождения (и его степени) между действенностью и эффективностью влияет на выбор вмешательства. Есть ли у нас основания верить, что можно поддерживать эффект аналогичного уровня в реальных условиях? Выбирая воздействие, мы должны не только проверить, какие из них работают (например, что действительно снижало калорийность блюд в заказе), но и в какой степени (например, на сколько именно снизилась жирность в расчете на заказ). Если в идеализированных условиях, которые, как правило, представляют собой самый оптимистичный сценарий, калорийность заказанных блюд снизилась незначительно, следует скептически отнестись к возможности существенно увеличить эффект в реальности. Точно так же нужно учитывать распределение степени воздействия эффекта. Если в среднем питательность блюд снизилась незначительно, стоит определить, будет ли этот показатель одинаковым при всех условиях или же среднее значение затемняет нижний и верхний экстремумы (в одном месте калорийность намного выше, в другом – намного ниже).

Понимание, как установочные параметры вмешательства могут отличаться от условий, принятых в исследованиях, которые выявили причинную зависимость, поможет спрогнозировать потенциальные неудачи и разработать стратегии воздействия, чтобы избежать провала.

Итак, одно из соображений, которые следует учитывать, принимая решение о вмешательстве, – это не только степень его эффективности, но и возможность его успеха с учетом реально существующих условий.

Непреднамеренные последствия

Выборочный эксперимент под названием Tennessee STAR program («Программа звезд Теннесси») обнаружил, что ученики из классов меньшей численности лучше сдавали стандартизированные экзамены, чем школьники из классов большей наполняемости. В этом случае нам известны подробности эксперимента с сокращением учащихся в классах. С помощью рандомизации групп эксперты устранили влияние любых факторов, которые могут стать причиной одновременно классов меньшей численности и лучших оценок на экзаменах. В конце концов, школы с малыми классами могут показывать лучшие результаты из-за чего угодно, и может оказаться, что небольшие классы – просто индикатор присутствия неких атрибутов.

Сомнения относительно больших классов в Калифорнии и положительные результаты Tennessee STAR program вызвали к жизни инициативу стоимостью в несколько миллиардов: сократить размеры учебных классов в Калифорнии. В теннессийском эксперименте ученики и учителя случайным образом были распределены по классам разных размеров. Чтобы стимулировать сокращение размеров классов, штат выплачивал бонус в размере 650 долларов на одного ученика.

Программа была быстро реализована, но, конечно, чтобы иметь небольшие классы и стабильную группу учеников, понадобилось намного больше учителей. Поскольку предложение преподавательских услуг не успевало за растущим спросом, возросла доля неопытных педагогов.

Районы с низкими доходами и населенные главным образом этническими меньшинствами, где реализация программы заняла больше времени из-за недостатка аудиторий, оказались в невыгодном положении: учителей не хватало, а новых поздно вводили в проект. В результате более 20 % учителей, начавших работать в этих школах, не имели достаточной квалификации.

И все-таки ВКЭ Tennessee STAR program дал возможность сделать ключевой вывод: от сокращения размеров класса максимальную пользу получили ученики из числа меньшинств. Быстрая реализация в Калифорнии этого подхода как программы льгот для всех школ, которая привела к резкому спросу на учителей и конкуренции между ними, означала, что как раз те учебные заведения, которые получили бы максимальную выгоду от проекта, остались за бортом.

В итоге затея была сочтена неудачной. Любые заявления о ее преимуществах звучали неубедительно или незначительно, и считалось, что программа увеличила неравенство в области образовательных возможностей. В то же самое время, несмотря на очень скромный эффект вмешательства в Калифорнии, проект внедрялся далеко не бесплатно. Он стоил миллиарды долларов, которые не были использованы на другие цели, к тому же потребовал дополнительных помещений для классных комнат, которые приходилось откуда-то забирать, например у специального образования, компьютерных лабораторий и библиотек.

Исследования, фокусирующиеся на доказательстве причинных зависимостей, в целом не занимаются подобным анализом стоимости/эффективности. Но этот момент очень важен с точки зрения реализации вмешательства, когда ресурсы ограничены и выполнение одной вещи означает, что сделать другую уже не получится.

В маломасштабной программе сокращения численности классов в Теннесси участвовали только школы, где уже имелось достаточно места для новых групп, а сам масштаб эксперимента был недостаточен, чтобы вмешаться в спрос на педагогический персонал.

Чтобы успешнее просчитать эффективность программы в Калифорнии еще до реализации, понадобилось бы учесть контекст и ограничения (например, наличие места) и определить, как изменятся другие переменные, например ресурсы, которые придется направить на реализацию этого проекта, забрав у других.

Непреднамеренные последствия принимают разные формы. В простейшем случае вмешательство имеет побочный эффект, означая, что оно становится причиной не только запланированного исхода, но и других моментов. К примеру, лекарство может снимать головную боль, одновременно вызывая слабость. Это, правда, не изменяет присущих системе свойств. С другой стороны, одна из проблем с прокатом велосипедов заключается в возможном ее негативном влиянии на здоровье, если, например, в программе примут участие неопытные велосипедисты, а езда на этом транспорте в городах – дело небезопасное.

Именно поэтому программа сокращения численности учеников в калифорнийских классах пошла не так. Она была просто введена, без изменения чего-либо другого. Масштабное и при этом скорое воплощение привело к различиям профессионализма учителей в некоторых районах, а также к сокращению финансирования и ограничению места для других проектов.

Сосредоточиваясь на вопросе о непосредственном достижении цели вмешательства, нужно проанализировать, к каким еще последствиям оно может привести. Если прогнозы делаются на основе модели, где переменная «размер класса» просто назначается истинной или ложной, они не учитывают, что случится, если сократить размеры классов за счет финансовых льгот, перенаправляя ресурсы из других программ, и если персонал для этих новых классов будет набран неквалифицированный.

Правда, более детализированная модель (каузальная, которой мы научаемся, или симуляционная, которую мы строим), предусматривающая не только причину, но и метод ее воплощения, поможет сравнить различные способы сокращения численности учеников. То есть мы сможем оценить следствия сначала таргетированием областей, где цель труднодостижима, вместо того чтобы перейти прямо к реализации программы в масштабе всего штата; сможем протестировать различные программы льгот и т. д.

Однако далеко не все непреднамеренные последствия негативны. Некоторые на самом деле могут дать лучшие доказательства в пользу результативности программы, если ее преимущества окажутся выше ожидаемых. Например, если прокат велосипедов снизил загрязнение воздуха, это положительный побочный эффект.

Такие побочные действия порой возникают потому, что мы не имеем возможности манипулировать единственной вещью изолированно от прочих. Вместо «того самого» вмешательства может понадобиться изменить много факторов одновременно. Мы, скорее всего, не сможем просто предоставить велосипеды для проката; вероятно, понадобится одновременно устроить выделенные велосипедные дорожки – либо желая развивать велосипедный спорт в целом, либо как необходимое условие безопасности программы.

Таким образом, в одно и то же время может быть введено в действие множество программ, непредсказуемо взаимодействующих. Например, программа проката велосипедов, не предусматривающая выдачи защитных шлемов, может стартовать одновременно с принятием закона, требующего носить такие шлемы. Следствием закона будет низкий уровень пользования программой, если люди не хотят носить с собой шлемы повсюду.

Ко множеству вещей, изменяющихся одновременно, добавляется проблема планирования и оценки вмешательств, так как нельзя сразу сказать, какое именно вызвало некие очевидные следствия. Если, однако, известно о различных компонентах, есть возможность их учесть.

 

10. Двигаемся дальше. Почему же все-таки причинность

 

Потребность в причинности

Тысячи лет спустя после эпохального труда Аристотеля о причинности, через сотни лет после того, как Юм сформулировал два ее определения, и десятилетия после того, как автоматизация причинно-следственных выводов стала возможной благодаря новым мощным компьютерам, каузальность по-прежнему остается неразрешенной проблемой. Люди склонны видеть причинно-следственные связи там, где их нет, а наши алгоритмы не имеют «защиты от дурака». Более того, как только мы находим причину, все равно остается трудность использования этой информации для предотвращения или продуцирования определенного результата, поскольку существуют ограничения относительно того, какую именно информацию мы собрали и до какой степени способны ее осмыслить.

Теперь, рассмотрев все случаи, когда методики не работают, а ученые и политики совершают досадные каузальные ошибки, вы можете спросить: а какое нам до этого дело? Мы же более не связаны рамками маломасштабных экспериментов, когда приходится систематически изменять только один объект за раз, чтобы узнать, как работает система. Теперь мы располагаем громадными объемами данных о покупательских привычках, медицинских записях и активности в Сети, и все это – в цифровом формате. Теперь, куда бы вы ни направлялись, можете взять с собой датчик ускорений и GPS «в одном флаконе» (то есть смартфон), а ваша деятельность в Сети отслеживается множеством способов. Природа интернета, распространение электронных медкарт и вездесущие сенсоры сделали возможным генерирование огромного объема информации о великом количестве видов деятельности большего числа людей, чем когда бы то ни было. При таком массиве исходного материала, может, и не слишком важно, как что-то там работает. Можно отыскать информацию для корреляции – и хватит.

Когда есть столько информации, да еще такой детальной – последовательность книг, которые приобретает человек; каждый шаг, который он делает; результаты миллионов телефонных звонков в рамках политической кампании, – продавцы могут составлять рекламные объявления в расчете на целевых покупателей, фитнес-центры – оценивать, сколько калорий вы сожгли, а политики – выискивать избирателей, которых можно привлечь на свою сторону. Да, огромный объем данных в самом деле может повысить точность прогнозов, и если все, что мы желаем знать, это кто с большей вероятностью купит пару туфель, увидев рекламу, тогда, возможно, и не важно, как эта реклама работает. Даже если какие-то прогнозы окажутся ошибочными.

В таком случае забудьте про теорию и объяснения механизмов действия; все ответы уже содержатся в имеющихся данных.

Конечно, слово «причина» используется не всегда. Анализ данных может охватывать ассоциации, корреляции, связи, тенденции, взаимоотношения, взаимосвязи и факторы риска. И даже в тех случаях, когда язык каузальности звучит уж слишком туманно, выводы и заключения часто все равно применяются так, как если бы они причинами и были. В конце концов, мы оперируем сведениями, чтобы выяснить вероятный итог и иметь возможность изменить его или проконтролировать.

Даже если вам не приходится анализировать данные такого рода по долгу службы и неинтересно забираться в дебри функционирования девайсов вроде вашего фитнес-трекера, вам все равно не укрыться от результатов аналитической работы, которую выполняют другие.

Стоит ли поддерживать новую политику, предусматривающую снижение страховой премии людям, которые носят шагомеры? Почему мы выбираем одно лекарство, а не другое? Как мы уже видели, корреляции здесь не помогут. Даже если бы мы могли делать безошибочные прогнозы и осуществлять вмешательства на их основе, мы все равно всегда хотим знать, почему происходит то или иное, – и дети со своим назойливым «почему», и взрослые, которым нужно решить, где ошибка и кто виноват.

Ни в коей мере не выступая в роли «реликта ушедшей эпохи», как утверждал больше века назад Бертран Рассел,, причинность – и способность ее критического осмысления – необходима больше, чем когда-либо, именно сейчас, когда мы собираем эти громадные базы данных. Осознание того, когда можно, а когда нельзя выяснить причину, – умение столь же фундаментальное, как способность читать и писать. Мы проводим миллионы экспериментов, чтобы вычленить какой-нибудь значимый сигнал в горах цифрового щебня, и шансы найти нечто ценное по чистой случайности все растут, как и необходимость скептического отношения ко всем находкам без исключения.

Там, где невозможна экспериментальная валидация каждой отдельной находки, на помощь приходит статистика, с помощью которой мнимые открытия можно контролировать (до известной степени). Но знание о том, почему возникают ложные взаимосвязи, также поможет понять, когда полученный вывод – всего лишь корреляция.

Существует неверное понимание, что так называемые большие данные – это всего-навсего больше сведений: больше людей, временных точек, переменных. Но сбор таких данных – это не просто расширение малого массива.

Чтобы получить несколько телефонных номеров, можно просмотреть адресную книгу и методично проверить каждый контакт. Звоня приятелю по телефону, мы точно знаем, кому соответствует этот номер, персональный он или принадлежит всему домовладению, домашний или мобильный. С другой стороны, когда нам нужны миллионы телефонных номеров, мы просто не способны знать каждого человека лично и должны собирать сведения из совокупности таких источников, как коммерческие базы данных и списки обзвона, которые, возможно, устарели или неверны и которые нельзя верифицировать в индивидуальном порядке. Кто-то мог переехать, кто-то зарегистрировал несколько номеров под разными именами, а кто-то просто отключил телефон.

Чем больше данных, тем выше шансы помех и ошибок, поэтому сопоставление не настолько однозначно, как кажется. По сравнению с небольшими контролируемыми наборами сведений возникает больше вопросов о качестве данных и потенциальных источников ошибок, смещений и упущенных моментов. При больших массивах информации переменные сложнее интерпретировать, а данные часто собираются по другим временным графикам.

Вместо того чтобы исчезнуть, становится только насущнее необходимость знать, почему происходит то или иное.

* * *

Мы нуждаемся не только в причинной зависимости, но и в глубоком знании соответствующего предмета, чтобы просто понять, был ли эксперимент успешным, и интерпретировать его результаты.

В ходе одного проекта я анализировала данные пациентов неврологического отделения интенсивной терапии, чтобы выяснить, что вызывает вторичные мозговые травмы у больных с инсультом. Чтобы ускорить исцеление, они содержатся в прохладных условиях, и у некоторых регистрировалась температура тела 20 °C. Этот показатель кажется необычно низким, но у таких пациентов вообще многие показатели аномальные, потому что они серьезно больны. Чтобы понимать, что 20 °C означают очень сильную гипотермию, и скептически отнестись к такому значению, нужно обладать определенными знаниями из области физиологии. А чтобы точно определить, почему зарегистрирована такая низкая температура, требуется еще больше специальных знаний. Многие клиницисты, однако, способны только взглянуть на этот показатель и немедленно понять, что произошло. Температура измеряется катетером, который вводится в мочевой пузырь, поэтому, если катетер выскальзывает, он начинает измерять температуру комнаты, которая как раз составляет около 20 °C. Это очевидно, если взглянуть на ситуацию в ретроспективе, но только тот, кто разбирается в данных и знает, откуда они берутся, способен все объяснить.

Без подобного понимания человек, перед которым просто вывалили беспорядочную кучу информации из базы и сказали «Ройся в ней, как твоей душе угодно», может ошибочно обнаружить, что низкая температура – индикатор улучшения состояния пациента, потому что медсестры после случая с выскользнувшим катетером начинают уделять ему больше внимания и быстро устранять проблемы. Действия на основе подобной корреляции способны стать причиной неэффективных вмешательств, когда охлаждение пациентов приблизится к опасному уровню.

В добавление к необходимости определять корректность значения переменной, узнавать, что она означает и когда ее нет, тоже может оказаться сложнее, чем представляется. Практически все вычислительные методы исходят из допущения, что общие причины измерены и мы располагаем «правильным» набором переменных. Этого, однако, недостаточно, если данные не показательны в отношении истинного состояния переменной или если общее следствие – единственный надежный индикатор того, что причина имела место.

Среди прочего, диагноз может упоминаться в медицинской карте пациента для выставления счета, потому что это предполагаемый диагноз или данные наследственности, а также по иным причинам (например, ошибка копирования). Даже если значение указано, оно может неэффективно экранировать последствия причины, наличие определенного заболевания отражается неточно, а если не указано, это может быть результатом недосмотра регистратора. Если пациент болен диабетом, но это неадекватно отражено в документации, можно вывести некорректное соотношение между высоким содержанием сахара в крови и инсулином.

В некоторых случаях необходимо обладать обширными знаниями, чтобы проводить различие между переменными, измеренными в разных временных рамках (сюда входят все теоретически измеримые временные точки), и теми, для которых недостает данных. Биллинговые коды в медицинских картах могут сказать, от чего лечился пациент, а иногда в картах содержатся перечни патологических состояний пациента.

Если в ходе одного визита к врачу астма указывается, а в ходе другого нет, как это истолковать? Маловероятно, чтобы астма обладала свойством истинности только в один конкретный момент: это хроническое состояние. Однако пациент мог получать соответствующее лечение только в одном случае (и, следовательно, счет выставили только за этот визит). Все же, чтобы узнать, какие сведения упущены (врач некорректно не указал астму в списке проблем), а какие ложные (острое состояние вроде гриппа со временем ослабевает), нужно понимать не только саму проблему, но и как именно генерируются данные.

Наиболее оптимистичный сценарий – когда ошибки представляют собой просто случайные помехи, влияющие на все переменные в равной степени. В реальности, однако, устройства имеют разные уровни помех, а люди могут отвечать на одни вопросы точнее, чем на другие. К примеру, если мы спросим некую группу, курят ли они, одни солгут, а другие решат, что их спрашивают, курят они сейчас или курили ли в прошлом. Измерения артериального давления печально известны своей ненадежностью, поэтому мы можем обнаружить, что лекарство от гипертензии – лучший индикатор, указывающий, страдает ли человек от повышенного давления на самом деле. Конечно, затем мы увидим корреляции между этим препаратом и другими состояниями, а не между гипертензией и сопутствующими патологиями. Необходимы знания в конкретной области, чтобы понять: лекарство – просто индикатор гипертензии, оно не может быть причиной заболеваний.

Наконец, корреляции, выведенные на основе крупных наборов данных, которые изначально не предназначались для научных целей, могут отличаться низким уровнем обобщаемости, ограничивая нашу способность применить новое знание к будущим ситуациям.

В 2010 году ученые проверили, действительно ли пользователи Facebook с большей вероятностью пойдут на выборы в американский Конгресс, если получат информацию о голосовании при входе в соцсеть. И в частности, действительно ли процент пришедших на избирательные участки вырастет, если люди узнают, что их друзья уже проголосовали. Более 60 миллионов человек получили извещения от Facebook с перечнем их друзей, которые указали, что уже проголосовали, а две группы поменьше (примерно по 600 000 человек в каждой) либо получили такую информацию в виде ссылки на местный избирательный участок, либо не получили никакой. Сравнив эти группы и кросс-ссылки с данными голосования, ученые заявили, что, по их оценкам, информирование в соцсети привело к увеличению числа проголосовавших примерно на 60 000 (а по косвенным данным – еще на 280 000).

И все же дополнительные 60 000 избирателей после рассылки извещений 61 миллиону – это прирост голосов менее чем на 0,1 %. Необработанные данные могут выглядеть внушительно, но только наличие громадной соцсети позволило применить подобный нецелевой метод. Если бы его пришлось реплицировать на соцсети меньшего охвата, то, чтобы получить значимую цифру новых голосов, понадобился бы иной, более прямой подход. В действительности фотографии близких друзей оказались намного эффективнее информации о том, что какие-то дальние знакомые посетили избирательные участки, однако фильтр подобного рода потребовал бы сведений о взаимоотношениях между людьми. С учетом слабого эффекта такого подхода, различий между пользователями Facebook и других соцсетей, а также несбалансированных размеров групп нельзя сказать, что это вмешательство эффективно и его можно с успехом использовать на примере других соцсетей или во время избирательных кампаний вне США. Вместо того чтобы отказываться от преимуществ причинности, лучше отказаться от идеи заиметь «черный ящик», который поглощает некий набор данных прямо из их источника и выдает поток причин, не требуя ни интерпретации, ни человеческого вмешательства. Каузальное осмысление необходимо и возможно, однако оно не идеально и, что более важно, требует специальных знаний.

 

Основные принципы

Легко может создаться впечатление, что множество не связанных между собой отраслей знания работают в изоляции друг от друга над мелкими частями проблемы, потому что ученые, затворившись в своих узкоспециальных башнях из слоновой кости, спорят о наилучших способах выявления и применения причин. Очевидного консенсуса не видно, а каждый подход страдает таким количеством ограничений, что все предприятие кажется просто безнадежным. Нужно понимать, что, даже если мы искренне хотим узнать причины, скорее всего, сделать этого так и не сможем.

Проблема каузальности не решена, и здесь нет никакой великой и единой теории. Мы не можем дать определение причины, работающее в каждом отдельном случае, с которым столкнемся, и не существует метода выявления причин на основе данных любого и каждого типа. Безусловно, азарт исследователей подогревается недосягаемыми горизонтами неизведанного. Но если вы не из их числа, что можете для себя вынести?

Нам, конечно, известно не все, но кое-что все-таки понятно. Еще важнее и обнадеживает, что наше понимание причинности постепенно совершенствуется.

Это стало возможным отчасти за счет лучшей информации и более мощных вычислительных систем, а отчасти за счет сближения узкоспециальных и междисциплинарных познаний.

Причинность и корреляция не синонимы

Итак, один из главных «сухих остатков» этой книги – понимание, как сложен поиск причин.

В подавляющем большинстве случаев, когда мы уверены, что отыскали причину, на самом деле мы обнаружили всего лишь корреляцию. А иногда даже и она мнимая. Это может быть результатом искажений (когда, не замерив правильные переменные, мы обнаруживаем ложную взаимосвязь между следствиями с общей причиной), смещений поиска и оценки информации (предвзятость подтверждения означает, что мы видим только положительные примеры) или многих других проанализированных нами факторов.

Очень важно знать все возможности обнаружения корреляций, которые не считаются причинными зависимостями, так как это поможет критически оценить наши выводы и допущения и предотвратить неэффективные вмешательства.

Скажем, я увидела корреляцию между дистанцией своих пробежек и уровнем энергетики организма. Неожиданный вывод: чем дольше я бегаю, тем энергичнее себя ощущаю. Но, если это происходит лишь потому, что я дольше бегаю в те дни, когда у меня больше свободного времени и я могу позже лечь спать, тогда в действительности я выяснила только следующее: энергией заряжает долгий сон, и любое предположение по поводу громадного вброса энергии после марафона определенно не сбудется. Также это значит, что для меня лучшая стратегия восстановиться – больше спать, а не бегать часами.

И не важно, насколько велик массив данных, – все равно не уйти от необходимости подвергнуть свои выводы сомнению и задать вопрос «почему».

К примеру, компания Google использовала корреляции между поисковыми критериями пользователей интернета и случаями заболевания гриппом, чтобы спрогнозировать тенденции болезни еще до того, как это успевали сделать Центры по контролю заболеваемости. Но подобный подход работает только в том случае, если люди ищут информацию в Сети, потому что уже наблюдают симптомы, а не потому, что их заботит распространение гриппа, симптомы появились у членов их семьи или стало известно об исследованиях Google. На деле эффективность сервиса Google Flu Trends со временем снизилась. В 2011 году предсказанные им уровни заболеваемости оказались намного выше того, что было в действительности, и завышение показателей продолжалось еще некоторое время после эпидемии. Не понимая, почему нечто становится прогностическим индикатором, нельзя избежать непредвиденных неудач.

Критический подход к смещению

Аналогично существует много областей, где мы можем ошибаться, но их выявление и учет помогут разработать усовершенствованные методы, избегать мнимых причинно-следственных выводов и проводить более эффективные вмешательства. Одна из причин, по которой мы посвятили целую главу психологии каузальности, такова: зная, где мы добились отличных результатов в поиске причин, мы сможем разработать лучшие методы автоматизации этого процесса, а зная, где кроются ошибки в осмыслении, сумеем уделить особое внимание слабым звеньям цепи. То есть мы будем внимательнее отслеживать когнитивные искажения и избегать их, разрабатывать алгоритмы, способные эффективно справляться со смещением выборки, или передавать обязанности по очистке и анализу данных другим людям. Главное – чтобы они не были знакомы с гипотезой, на которой строится конкретное исследование, чтобы избежать случайной предвзятости подтверждения.

Психология позволила глубже осмыслить извечные философские вопросы (такие как зависимости между моральными и каузальными суждениями), а также сформулировала предположение, что стоит обращать гораздо больше внимания на внешнюю валидность и на то, как именно мы оцениваем методы причинного осмысления и объяснения.

Во многих случаях необходимо собирать больше данных (притом из разных источников), чем планировалось изначально. Один из ключевых выводов психологической науки звучит так: люди могут в действительности расходиться во мнениях как насчет того, что именно стало причиной события, так и насчет относительной значимости различных причин единичного события. Эти разногласия могут корениться в культурных различиях, которые необходимо учитывать, разрабатывая методы поиска каузальных объяснений. В философии, где тестовые случаи оцениваются аналитически, чтобы доказать некую теорию, это означает, что интуитивные прозрения конкретного человека необязательно формируют общие понятия путем синтеза.

То, что, по мнению канадского профессора, заставило студента мошенничать на экзамене, необязательно совпадет с предположением фермера из индийской деревни. Даже в простейших исследованиях каузального восприятия, например в экспериментах Мишотта, не все участники воспринимают сюжеты одинаково.

Конкретная причинность намного более сложна, и потенциально могут быть правильными разные ответы, которые все же более-менее релевантны в различных случаях. Дорожные происшествия могут быть вызваны недосмотром автопроизводителя, невнимательным вождением и плохими погодными условиями – и все это в одно и то же время. Однако то, что будет важным в судебном разбирательстве, приобретет иную значимость в других целях. Подобные различия в объяснении также влияют на решения, принимаемые судьями, и в конечном счете на выбор присяжных. Труды в области экспериментальной философии ставят задачей определить вариативность подобных суждений и выяснить, какие факторы обусловливают разницу мнений и методов оценок различных случаев. Хотя мы до сих пор не располагаем идеальной теорией, объясняющей, как именно люди определяют виновность или идентифицируют токен-случаи, применение экспериментальных методов из области когнитивной психологии для решения философских проблем помогает выходить за рамки интуитивных прозрений отдельных лиц, оценивая сработавшие методы.

Для валидации методов необходима фундаментальная истина (то есть знание реальной причины события), чтобы иметь возможность сравнить ее с результатами, которые дало применение этого метода. Но, если объяснения субъективны, а истина изменяется в зависимости от того, кому задают вопросы, необходима переоценка наших схем валидации. К примеру, при опросе краудворкеров платформы Amazon Mechanical Turks или пользователей конкретной соцсети необходимо учесть культурные смещения в полученных результатах и реплицировать эксперимент в различных контекстах, чтобы обеспечить разнообразие демографических характеристик участников.

Время имеет значение

Вечером в день президентских выборов 1948 года Chicago Tribune опубликовала статью под печально известным заголовком «Дьюи победил Трумэна»,. Газету требовалось отдать в печать до того, как стали известны финальные результаты, а опросы Гэллапа, Ропера и Кроссли единодушно предсказывали убедительную победу Дьюи. В дополнение к проблемам, связанным с методом выборки участников плебисцита, который привел к преобладанию сторонников республиканской партии, агентства слишком рано приостановили работу – некоторые даже в сентябре, за два месяца до выборов, так как исходили из допущения, что желание участвовать в голосовании и выбор кандидата в последние месяцы уже не переменятся.

Но даже результаты опросов способны повлиять на исход процесса, поскольку видимая победа Дьюи могла вселить в его сторонников избыточную уверенность, и они легко проигнорировали выборы, в то время как сторонники Трумэна имели стимул прийти на избирательные участки.

Те, кто оценивает риск заболевания расчетными методами, могут переоценивать риск для целевой группы, беря за основу многолетние данные. И мы должны задать себе вопрос, не могли ли эти данные и причинные взаимосвязи со временем поменяться и применимы ли они по-прежнему в интересующий нас момент.

Устанавливаем ли мы причинную взаимосвязь между физическими явлениями (когда запаздывания при отсутствии механистического знания ослабляют каузальные суждения) или оцениваем политику (когда временные паттерны необходимы как для оценки рисков, так и для определения действенности), нельзя игнорировать временные паттерны событий. Время – центральный аспект нашего восприятия причинности, поскольку мы ожидаем, что следствие проявится вскоре после своей причины. Мы можем ожидать определенного запаздывания, если нам известно что-то о процессе, посредством которого причина производит следствие (например, курение провоцирует рак только по прошествии некоторого времени). Однако идея о первичности причины по отношении к следствию – ключ ко множеству философских теорий, которые мы рассматривали, и в ее поддержку говорят эксперименты из области психологии.

Эксперимент не лучше наблюдения

Вопрос, что лучше – исследования с использованием эксперимента или наблюдения, – представляет собой ложную дихотомию. В реальности мы не в состоянии проводить эксперименты в любом возможном случае (кто захочет войти в контрольную группу исследования, цель которого – узнать, правда ли парашюты предотвращают гибель во время прыжков?) и не всегда нуждаемся в этом (физика и инженерные знания, а также немного симуляций с успехом заменят парашютный ВКЭ). К тому же выборочные эксперименты нередко проводятся недобросовестно, а в некоторых случаях посредством наблюдения можно узнать больше.

Недовольная медленными темпами медицинского исследования, группа пациентов с диагнозом «амиотрофический боковой склероз» разработала собственное исследование, чтобы выяснить, действительно ли экспериментальное лечение замедляет прогрессирование заболевания. В подобного рода исследованиях проблема заключается в организации контрольной группы, поскольку пациенты сильно мотивированы и активно действуют, когда речь идет об их здоровье. Однако это исследование было основано на большом количестве данных, которыми участники и другие пациенты делились на социальном ресурсе PatientsLikeMe. При поддержке врачей экспериментальная группа добавляла литий в прописанное им лекарство и 12 месяцев тщательно отслеживала и документировала состояние своего здоровья.

Поскольку это исследование не было слепым или рандомизированным, оно оказалось несвободным от различных смещений. Чтобы решить эту проблему, каждому пациенту сопоставили не одного, а множество других, которые не принимали литий и у которых наблюдалось аналогичное течение болезни до начала исследования. Сравнив показатели после приема лития, можно было увидеть, наблюдаются ли различия в прогрессировании заболевания. Различий не было, и этот отрицательный результат был подтвержден многочисленными выборочными экспериментами.

В некотором смысле отрицательный результат имеет большую силу, чем результаты ВКЭ, поскольку множество факторов могли исказить результаты в пользу приема лекарства. Пациенты действовали не вслепую, а поскольку свои итоги они фиксировали сами, когнитивные смещения могли способствовать разной оценке значимости состояния. Больные же хотели, чтобы препарат сработал. Во множестве ситуаций продуманное комбинирование данных эксперимента и наблюдения способно снять ограничения, присущие методам. И еще: когда оба подхода дают одинаковые результаты, повышается доверие к каждому.

 

Богатый арсенал

Если все, что у вас есть, это молоток, вы попытаетесь каждую проблему свести к гвоздю.

Цель самого жесткого и подробного обсуждения слабых мест каждого метода не создать впечатление, будто ни один из них не работает, а скорее показать, что ни один метод не будет работать всегда и везде. Вероятностные модели нельзя считать единственным подходом к осмыслению причинности; точно так же контрфактуальность не единственный способ объяснения событий. Кроме того, в различных областях знания эти методы используются самым неожиданным образом. Причинность по Грэнджеру изначально разрабатывалась для финансовых временных рядов, однако применяется в анализе пакетов нейронных импульсов. Байесовские сети создавались для представления вероятностных зависимостей, а используются в моделировании психологических процессов, лежащих в основе причинного осмысления. Ни один метод и ни одна модель не работают всегда; возможно, в поисках решения своей проблемы вам придется выйти за рамки узкоспециальной области.

Если и существует какой-то ответ, то он может быть таким: мы нуждаемся в плюрализме методов. Каждый из них работает в конкретном случае, так что если у вас в наличии лишь один инструмент, которому вы доверяете, рано или поздно вы уткнетесь в его границы. Приложив массу усилий и пролив много пота, вы сможете адаптировать большинство из них к разным сценариям. Правда, это аналогично тому как, скажем, приспособить молоток к переворачиванию блинов на сковороде, прикрепив к нему клейкой лентой металлическую пластинку. Если вам известно о существовании кухонной лопаточки, вы избавитесь от массы разочарований.

В последние годы растет осознание необходимости иметь набор комплементарных методов в противовес поискам панацеи, решающей все проблемы разом. К примеру, Иллари и Руссо (2014) недавно представили подход, который назвали методом причинной мозаики (causal mosaic view). Точно так же, как невозможно понять роль отдельной плитки в мозаичной картине, выбор методик для применения зависит от контекста, то есть от насущной проблемы и заданной цели.

Это вписывается в рамки общей тенденции каузального плюрализма, и ко множеству вещей следует применять такой подход. Можно использовать его для определения причины, свидетельств в ее поддержку и сбора фактического материала.

Когда мы ставим перед собой практические задачи, нас, как правило, мало заботит метафизика каузальности или природа причин, однако следует помнить о различии между ними. Кто-то согласится, что есть множество типов свойств, на основе которых можно отличить причину от корреляции: к примеру, вероятностные, интервенционистские (воздействующие) и механистические подходы позволяют проникнуть в суть причин. Но, даже если вы сочтете вмешательство единственным способом обосновать причинные утверждения, существуют другие пути, которые могут представить аналогичную фактуру (вспомните разнообразные экспериментальные методы из ).

Точно так же есть множество мер причинной значимости для расстановки приоритетов в рамках различных свойств.

Для решения некоторых задач машинного обучения, таких как оптимизация, существует набор теорем под названием «Бесплатных обедов не бывает» (TANSTAAFL). То есть если метод заточен под один тип проблем, с другими он будет работать хуже, и ни один нельзя назвать наилучшим для всех. Это означает, что нереально провести оптимизацию для устранения всех проблем. Нет способа улучшить одно, не заплатив за это чем-то другим. В этом заключается некоторая трудность, поскольку, начав работу с новой проблемой, мы не знаем, какой метод применить.

Но мы не всегда приступаем к работе, не имея в багаже совсем никаких знаний. Если хоть что-то известно о поставленной проблеме и о том, на какой компромисс мы готовы пойти (к примеру, принять больше ложноотрицательных результатов, чтобы сократить количество ложноположительных), то не понадобится «лучший» метод – просто надо знать, как выбрать один из способов решения конкретной задачи.

Например, если я хочу оценить, действительно ли информация о калорийности блюд в ресторанах привела к снижению потребления калорий в отдельном городе, это будет вопрос из области конкретной каузальности, поэтому здесь лучше применить контрфактуальный подход, а не причинность по Грэнджеру. С другой стороны, если у меня есть данные шагомера и подключенных к Сети весов, а также информация о полученных калориях и мне нужно спрогнозировать вес, исходя из своих привычек в еде и отношения к физическим упражнениям, придется задавать другие вопросы и применять иной подход. Здесь хорошим выбором может стать байесовская сеть, так как она лучше прогнозирует вероятные значения переменной, исходя из показателей других объектов сети. Но, если бы я хотела узнать, как быстро после интенсивных занятий поднимется уровень сахара в крови, этот метод вряд ли подойдет. Вместо него стоит выбрать тот, который позволит узнать о временном паттерне этой зависимости на основе имеющихся данных.

Главное – причинность скрывает немало того, о чем нам пока неизвестно, и, адаптируя существующие методы под текущие задачи, мы загоняем себя в узкие рамки, упуская важные открытия.

 

Потребность в знании

С появлением новых и лучших методов выявления причин и прогнозирования будущих событий растет искушение автоматизировать все больше процессов, постепенно устраняя из цепочки человеческий фактор. Люди предвзяты, иррациональны и непредсказуемы, а компьютерные программы неуклонно ведут себя одинаково, каждый раз получая одинаковые вводные. Пока, однако, человеческие знания и суждения необходимы на каждом этапе: мы решаем, какие сведения собирать, подготавливаем их, выбираем метод анализа, интерпретируем результаты и, исходя из этого, определяем, как действовать.

Мы уже видели, как уводит в сторону поиск «черного ящика», который безукоризненно выполняет весь процесс от ввода «сырых» данных до причин на выходе, без ошибок и человеческого вмешательства. Но столь же неверно использовать причины аналогичным способом, исключающим человеческие суждения.

Если компания рекламирует продукт, который вам неинтересен, или сайт рекомендует фильм, который вам не нравится, стоимость ошибок в выборе не слишком велика. Но в массе иных случаев, таких как неправильное осуждение Салли Кларк или некорректное употребление каузальности, это приводит к очень серьезным последствиям. Возможно, мы слишком доверяем причинно-следственным выводам в одном сценарии, а в другом использованный алгоритм слишком зависит от общих знаний и не принимает в расчет специфику конкретной ситуации.

Когда доктор говорит, что у вас высокое давление и с этим нужно что-то делать, вы вряд ли обрадуетесь, если он слепо последует шаблонным инструкциям. Конечно, вы захотите, чтобы он принял в расчет другие лекарства, которые вы принимаете (и которые могут взаимодействовать с препаратами, снижающими давление), ваши предпочтения и задачи относительно терапии. Результат, возможно, не будет наилучшим с точки зрения общих рекомендаций по коррекции гипертензии, однако окажется оптимальным именно для вас. Дело в том, что высокое артериальное давление имеет серьезные последствия для состояния организма, но его снижение не единственная задача, и решать ее нужно в контексте других целей. Возможно, вы принимаете лекарства, которые взаимодействуют с предлагаемыми медикаментами, больше подходят для ежедневного приема, а не других временных интервалов или имеют ограничения, не вписывающиеся в вашу медицинскую страховку.

Поскольку на основании известной зависимости на уровне типа мы не можем сделать вывод, что некая вещь служит токен-причиной, информацию на уровне типа не следует использовать, чтобы принимать решения о токен-случаях.

И после того как мы нашли причины, решая, как их использовать (и использовать ли вообще), необходимо принимать в расчет не только валидность конкретной зависимости.

* * *

Как минимум 20 американских штатов приняли форму вынесения приговоров по уголовным делам на основании доказательств, когда при определении наказания рассчитывается риск рецидива. Во многом аналогично тому, как медицина продвигалась от стандартизированных процессов к целостному и качественному лечению, основанному на фактах, а не интуитивных догадках, новый подход предполагает использование более твердых принципов при определении риска, который собой представляет человек, и сокращение возможных искажений из-за особых полномочий или выводов отдельных судей.

С этими принципами и задачами трудно не согласиться. Однако подобные калькуляторы риска учитывают множество характеристик, помимо криминальных досье отдельных лиц (к примеру, финансовое положение и статус занятости), а также факторы вне контроля личности (например, пол). То есть, если два человека совершают одинаковые преступления, риск рецидива в одном случае будет считаться ниже, если обвиняемый имеет постоянную работу или проживает в районе с низким уровнем правонарушений. Расовый признак напрямую в расчет не принимается, но он коррелирует со многими учитываемыми условиями. Суть не в том, есть ли у человека криминальное прошлое и релевантность этого фактора совершенному преступлению. Скорее, этот подход напоминает использование таблиц смертности страховыми компаниями, которые устанавливают стоимость своих продуктов. На самом деле конкретная продолжительность жизни – величина неизвестная, поэтому с помощью таблиц она рассчитывается для индивидуальных клиентов исходя из показателя для соответствующей группы (например, на основе пола и возраста).

Если оставить в стороне вопрос, действительно ли разные сроки наказания снижают вероятность рецидива преступлений, и если не задумываться о корректности показателей, увязывающих последнее значение и число людей с различными характеристиками, следует ли пользоваться подобной информацией, определяя срок наказания по приговору суда?

Нельзя дать положительный ответ только потому, что некую причину можно использовать для более точного прогнозирования или принятия решений. Методы установления причинно-следственных связей могут только сказать, действительно ли среди каких-то групп больше рецидивистов, но умолчат о том, должно ли справедливое общество использовать подобные групповые свойства, чтобы суровее наказывать отдельных граждан.

Одна из опасностей, подстерегающих тех, кто слишком углубляется в большие объемы данных в поисках корреляций, состоит в незнании механизма действия отдельных вещей. При этом выводы о причинности могут применяться в оправдание несправедливых и дискриминационных практик, сохраняя видимость справедливости и объективности.

Ответственное использование причин означает, что необходимо оценивать не только статистическую и методологическую основательность заключений, но также их этический базис и последствия.

Вместо того чтобы все автоматизировать, лучше комбинировать преимущества вдумчивого человеческого суждения с достоинствами компьютеров, которые способны обрабатывать громадные количества данных. Каждый раз, оказавшись лицом к лицу с причинными зависимостями, мы должны не просто выискивать доказательства в их пользу, а подвергать их допросу, словно следователь с подозреваемым.

Не косвенное ли доказательство (как корреляция), прослеживается ли мотив (механистическое объяснение того, почему причина должна произвести следствие)? Имеются ли смягчающие обстоятельства, например общая причина или некоторое искажение данных?

Если затратность и риск, сопутствующие нашим заключениям, возрастают, так же должна расти и весомость доказательств. И если невозможно с достаточной долей достоверности определить причину, нужно быть готовыми учесть эту неопределенность, когда мы просто не знаем, что за причина имела место. И продолжать поиск.

 

Благодарности

Эта книга стала возможной только благодаря организациям, финансировавшим мои труды в области причинности. Во время исследований и написания книги я получала помощь Национальной медицинской библиотеки Национальных институтов здравоохранения США (НИЗ) и Национального научного фонда (ННФ). Любые мнения, выводы, заключения и рекомендации, которые приводятся в этой книге, принадлежат мне и необязательно отражают взгляды ННФ или НИЗ.

Я посвящаю книгу моей матери, которая стала ее истинной причиной.

 

Библиография

Afari, N. and Buchwald, D. (2003). Chronic Fatigue Syndrome: A Review. American Journal of Psychiatry, 160(2): 221–236.

Ahn, W.K. and Bailenson, J. (1996). Causal Attribution as a Search for Underlying Mechanisms: An Explanation of the Conjunction Fallacy and the Discounting Principle. Cognitive Psychology, 31(1): 82–123.

Ahn, W.K. and Kalish, C. W. (2000). The role of mechanism beliefs in causal reasoning. In F. C. Keil and R. A. Wilson (eds.), Explanation and cognition, pp. 199–225. The MIT Press, Cambridge, MA.

Ahn, W.K., Kalish, C. W., Medin, D. L., and Gelman, S. A. (1995). The role of covariation versus mechanism information in causal attribution. Cognition, 54(3): 299–352.

Alberts, B. (2011). Retraction of Lombardi et al. Science, 334(6063): 1636–1636.

Alexander, J. (2012). Experimental philosophy: An introduction. Polity, Cambridge, UK.

Alicke, M. D., Rose, D., and Bloom, D. (2011). Causation, Norm Violation, and Culpable Control. The Journal of Philosophy, 108(12): 670–696.

Alter, H. J., Mikovits, J. A., Switzer, W. M., Ruscetti, F. W., Lo, S. C., Klimas, N., Komaroff, A. L., Montoya, J. G., Bateman, L., Levine, S., Peterson, D., Levin, B., Hanson, M. R., Genfi, A., Bhat, M., Zheng, H., Wang, R., Li, B., Hung, G. C., Lee, L. L., Sameroff, S., Heneine, W., Coffin, J., Hornig, M., and Lipkin, W. I. (2012). A Multicenter Blinded Analysis Indicates No Association between Chronic Fatigue Syndrome/Myalgic Encephalomyelitis and either Xenotropic Murine Leukemia Virus-Related Virus or Polytropic Murine Leukemia Virus. mBio, 3(5): e00266– е00212.

Andersen, H. (2013). When to Expect Violations of Causal Faithfulness and Why It Matters. Philosophy of Science, 80(5): 672–683.

Anderson, C. (2008). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Retrieved from http://archive.wired.com/science/discoveries/magazine/16–07/pb_theory .

Appelbaum, B. (2011). Employment Data May Be the Key to the President’s Job. The New York Times, June: p. A1.

Aristotle (1924). Metaphysics. Oxford University Press, Oxford. Edited by W. D. Ross.

Aristotle (1936). Physics. Oxford University Press, Oxford. Edited by W. D. Ross.

Badler, J., Lefèvre, P., and Missal, M. (2010). Causality Attribution Biases Oculomotor Responses. The Journal of Neuroscience, 30(31): 10517–10525.

Badler, J. B., Lefèvre, P., and Missal, M. (2012). Divergence between oculomotor and perceptual causality. Journal of Vision, 12(5): 3.

Baird, S., Ferreira, F. H. G., Ӧzler, B., and Woolcock, M. (2013). Relative Effectiveness of Conditional and Unconditional Cash Transfers for Schooling Outcomes in Developing Countries: A Systematic Review. Campbell Systematic Reviews, 9(8).

Baker, S. G. and Kramer, B. S. (2001). Good for Women, Good for Men, Bad for People: Simpson’s Paradox and the Importance of Sex-Specific Analysis in Observational Studies. Journal of Women’s Health & Gender-Based Medicine, 10(9): 867–872.

Bareinboim, E. and Pearl, J. (2012). Controlling selection bias in causal inference. In Proceedings of the 15th International Conference on Artificial Intelligence and Statistics.

Barnett, L. and Seth, A. K. (2014). The MVGC multivariate Granger causality toolbox: A new approach to Granger-causal inference. Journal of Neuroscience Methods, 223: 50–68.

Beasley, N. A. (1968). The extent of individual differences in the perception of causality. Canadian Journal of Psychology, 22(5): 399–407.

Bechlivanidis, C. and Lagnado, D. A. (2013). Does the “Why” Tell Us the “When”? Psychological Science, 24(8): 1563–1572.

Beecher, H. K. (1955). The Powerful Placebo. Journal of the American Medical Association, 159(17): 1602–1606.

Begley, C. G. and Ellis, L. M. (2012). Drug development: Raise standards for preclinical cancer research. Nature, 483(7391): 531–533.

Bennett, C. M., Baird, A. A., Miller, M. B., and Wolford, G. L. (2011). Neural Correlates of Interspecies Perspective Taking in the Post-Mortem Atlantic Salmon: An Argument For Proper Multiple Comparisons Correction. Journal of Serendipitous and Unexpected Results, 1: 1–5.

Bhatt, A. (2010). Evolution of Clinical Research: A History Before and Beyond James Lind. Perspectives in Clinical Research, 1(1): 6–10.

Bickel, P. J., Hammel, E. A., and O’Connell, J. W. (1975). Sex Bias in Graduate Admissions: Data from Berkeley. Science, 187(4175): 398–404.

Blackwell, B., Bloomfield, S. S., and Buncher, C. R. (1972). Demonstration to medical students of placebo responses and non-drug factors. The Lancet, 299(7763): 1279–1282.

Blatchford, P. and Mortimore, P. (1994). The Issue of Class Size for Young Children in Schools: What can we learn from research? Oxford Review of Education, 20(4): 411–428.

Bohrnstedt, G. W. and Stecher, B. M. (eds.) (2002). What We Have Learned about Class Size Reduction in California. American Institutes for Research, Palo Alto, CA.

Bollinger, B., Leslie, P., and Sorensen, A. (2011). Calorie Posting in Chain Restaurants. American Economic Journal: Economic Policy, 3(1): 91–128.

Bond, R. M., Fariss, C. J., Jones, J. J., Kramer, A. D., Marlow, C., Settle, J. E., and Fowler, J. H. (2012). A 61-million-person experiment in social influence and political mobilization. Nature, 489(7415): 295–298.

Born, M. and Einstein, A. (1971). The Born Einstein Letters: Correspondence between Albert Einstein and Max and Hedwig Born from 1916 to 1955 with commentaries by Max Born. Macmillan Press, Basingstroke, UK. Translated by Irene Born.

Boyd, C. M., Darer, J., Boult, C., Fried, L. P., Boult, L., and Wu, A. W. (2005). Clinical Practice Guidelines and Quality of Care for Older Patients With Multiple Comorbid Diseases: Implications for Pay for Performance. JAMA, 294(6): 716–724.

Brandt, M. J., IJzerman, H., Dijksterhuis, A., Farach, F. J., Geller, J., Giner-Sorolla, R., Grange, J. A., Perugini, M., Spies, J. R., and Van’t Veer, A. (2014). The Replication Recipe: What makes for a convincing replication? Journal of Experimental Social Psychology, 50: 217–224.

Broadie, S. (2009). The Ancient Greeks. In H. Beebee, C. Hitchcock, and P. Menzies (eds.), The Oxford Handbook of Causation, pp. 21–39. Oxford University Press, Oxford; New York.

Buchanan, M. (2007). Statistics: Conviction by numbers. Nature, 445: 254–255.

Buck, D. and Buehler, R. (2012). Bike Lanes and Other Determinants of Capital Bikeshare Trips. In 91st Transportation Research Board Annual Meeting.

Buehner, M. J. and May, J. (2003). Rethinking temporal contiguity and the judgement of causality: Effects of prior knowledge, experience, and reinforcement procedure. The Quarterly Journal of Experimental Psychology, Section A, 56(5): 865–890.

Buehner, M. J. and May, J. (2004). Abolishing the effect of reinforcement delay on human causal learning. The Quarterly Journal of Experimental Psychology, Section B, 57(2): 179–191.

Buehner, M. J. and McGregor, S. (2006). Temporal delays can facilitate causal attribution: Towards a general timeframe bias in causal induction. Thinking & Reasoning, 12(4): 353–378.

Campbell, M. K., Elbourne, D. R., and Altman, D. G. (2004). CONSORT statement: Extension to cluster randomised trials. BMJ, 328: 702–708.

Caporael, L. R. (1976). Ergotism: The Satan Loosed in Salem. Science, 192(4234): 21–26.

Carels, R. A., Konrad, K., and Harper, J. (2007). Individual differences in food perceptions and calorie estimation: An examination of dieting status, weight, and gender. Appetite, 49(2): 450–458.

Carey, B. (2012). Father’s Age Is Linked to Risk of Autism and Schizophrenia. The New York Times, August: p. A1.

Carey, B. (2013). Sleep Therapy Seen as an Aid for Depression. The New York Times, November: p. A1.

Carpenter, C. E. (1932). Workable Rules for Determining Proximate Cause. California Law Review, 20(3): 229–259.

Cartwright, N. (1999). Causal Diversity and the Markov Condition. Synthese, 121(1–2): 3–27.

Cartwright, N. (2001). What Is Wrong with Bayes Nets? The Monist, 84(2): 242–264.

Cartwright, N. (2002). Against Modularity, the Causal Markov Condition, and Any Link Between the Two: Comments on Hausman and Woodward. British Journal for the Philosophy of Science, 53(3): 411–453.

Cartwright, N. (2004). Causation: One Word, Many Things. Philosophy of Science, 71(5): 805–819.

Cartwright, N. (2012). Presidential Address: Will This Policy Work for You? Predicting Effectiveness Better: How Philosophy Helps. Philosophy of Science, 79(5): 973–989.

Chambers, C. D., Feredoes, E., Muthukumaraswamy, S. D., and Etchells, P. J. (2014). Instead of “playing the game” it is time to change the rules: Registered Reports at AIMS Neuroscience and beyond. AIMS Neuroscience, 1(1): 4–17.

Charney, E. and English, W. (2012). Candidate Genes and Political Behavior. American Political Science Review, 106(1): 1–34.

Charniak, E. (1991). Bayesian Networks without Tears. AI magazine, 12(4): 50–63.

Cheng, P. W. (1997). From covariation to causation: A causal power theory. Psychological review, 104(2): 367–405.

Cheng, P. W. and Novick, L. R. (1990). A probabilistic contrast model of causal induction. Journal of Personality and Social Psychology, 58(4): 545–567.

Cheng, P. W. and Novick, L. R. (1992). Covariation in natural causal induction. Psychological Review, 99(2): 365–382.

Cherry, W. H. and Oldford, R. W. (2003). Picturing Probability: The poverty of Venn diagrams, the richness of Eikosograms. Unpublished manuscript.

Choi, I., Dalal, R., Chu, K. P., and Park, H. (2003). Culture and Judgement of Causal Relevance. Journal of Personality and Social Psychology, 84(1): 46–59.

Choi, I., Nisbett, R. E., and Norenzayan, A. (1999). Causal Attribution Across Cultures: Variation and Universality. Psychological Bulletin, 125(1): 47–63.

Chrystal, K. A. and Mizen, P. (2003). Goodhart’s Law: Its origins, meaning and implications for monetary policy. In P. Mizen (ed.), Central Banking, Monetary Theory and Practice: Essays in Honour of Charles Goodhart, vol. 1, pp. 221–243. Edward Elgar Publishing, Northampton, MA.

Chua, H. F., Boland, J. E., and Nisbett, R. E. (2005). Cultural variation in eye movements during scene perception. Proceedings of the National Academy of Sciences, 102(35): 12629–12633.

Claxton, A. J., Cramer, J., and Pierce, C. (2001). A systematic review of the associations between dose regimens and medication compliance. Clinical Therapeutics, 23(8): 1296–1310.

Cohen, J. (2011). Chronic fatigue syndrome researcher fired amidst new controversy. Science. Retrieved from http://news.sciencemag.org/2011/10/chronic-fatigue-syndrome-researcher-fired-amidst-new-controversy .

Cohen, L. B., Rundell, L. J., Spellman, B. A., and Cashon, C. H. (1999). Infants’ perception of causal chains. Psychological Science, 10(5): 412–418.

Collins, H. and Pinch, T. (2008). Dr. Golem: How to Think about Medicine. University of Chicago Press, Chicago.

Conley, R. H. and Conley, J. M. (2009). Stories from the Jury Room: How Jurors Use Narrative to Process Evidence. Studies in Law, Politics, and Society, 49(2): 25–56.

Cook, N. R. and Ridker, P. M. (2014). Response to Comment on the Reports of Overestimation of ASCVD Risk Using the 2013 AHA/ACC Risk Equation. Circulation, 129(2): 268–269.

Cooke, P. (2009). Clarifications and corrections to ‘On the attribution of probabilities to the causes of disease’ by Peter Cooke and Arianna Cowling (Law, Probability and Risk (2005), 4, 251–256). Law, Probability & Risk, 8: 67–68.

Cooke, P. and Cowling, A. (2006). On the attribution of probabilities to the causes of disease. Law, Probability & Risk, 4(4): 251–256.

Cooper, G. F. (1999). An Overview of the Representation and Discovery of Causal Relationships Using Bayesian Networks. In C. Glymour and G. F. Cooper (eds.), Computation, Causation, and Discovery, pp. 3–62. AAAI Press and MIT Press, Cambridge, MA.

Cooper, G. F. and Herskovits, E. (1992). A Bayesian Method for the Induction of Probabilistic Networks from Data. Machine Learning, 9(4): 309–347.

Corrao, G., Rubbiati, L., Bagnardi, V., Zambon, A., and Poikolainen, K. (2000). Alcohol and coronary heart disease: A meta-analysis. Addiction, 95(10): 1505–1523.

Craig, P., Dieppe, P., Macintyre, S., Michie, S., Nazareth, I., and Petticrew, M. (2008). Developing and evaluating complex interventions: The new Medical Research Council guidance. BMJ, 337: a1655.

Crofton, J. (2006). The MRC randomized trial of streptomycin and its legacy: A view from the clinical front line. Journal of the Royal Society of Medicine, 99(10): 531–534.

Cushing, J. T. (1998). Philosophical Concepts in Physics. Cambridge University Press, Cambridge.

Cushman, F. (2008). Crime and punishment: Distinguishing the roles of causal and intentional analyses in moral judgment. Cognition, 108(2): 353–380.

Dalakas, M. C. (1995). Post-Polio Syndrome As an Evolved Clinical Entity. Annals of the New York Academy of Sciences, 753: 68–80.

Damisch, L., Stoberock, B., and Mussweiler, T. (2010). Keep Your Fingers Crossed! How Superstition Improves Performance. Psychological Science, 21(7): 1014–1020.

Danks, D. (2005). The Supposed Competition Between Theories of Human Causal Inference. Philosophical Psychology, 18(2): 259–272.

Dash, D., Voortman, M., and De Jongh, M. (2013). Sequences of mechanisms for causal reasoning in artificial intelligence. In Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence.

David, L., Seinfeld, J., and Goldman, M. (writers) and Cherones, T. (director). (1991). The stranded [Television series episode]. In David, L. (producer), Seinfeld. CBS, Los Angeles.

DeMaio, P. (2009). Bike-sharing: History, Impacts, Models of Provision, and Future. Journal of Public Transportation, 12(4): 41–56.

Devine, D. J., Clayton, L. D., Dunford, B. B., Seying, R., and Pryce, J. (2001). Jury decision making: 45 years of empirical research on deliberating groups. Psychology, Public Policy, and Law, 7(3): 622–727.

Diamond, S. S. and Rose, M. R. (2005). Real Juries. Annual Review of Law and Social Science, 1: 255–284.

Diamond, S. S., Vidmar, N., Rose, M., Ellis, L., and Murphy, B. (2003). Juror Discussions during Civil Trials: Studying an Arizona Innovation. Arizona Law Review, 45: 1–83.

Dickey, D. A. and Fuller, W. A. (1981). Likelihood Ratio Statistics for Autoregressive Time Series with a Unit Root. Econometrica, 49(4): 1057–1072.

Downs, J. S., Wisdom, J., Wansink, B., and Loewenstein, G. (2013). Supplementing Menu Labeling With Calorie Recommendations to Test for Facilitation Effects. American Journal of Public Health, 103(9): 1604–1609.

Drummond, C. (2009). Replicability is not Reproducibility: Nor is it Good Science. In Proceedings of the Evaluation Methods for Machine Learning Workshop at the 26th ICML.

DuHigg, C. (2012). Psst, You in Aisle 5. The New York Times Magazine, February: p. MM30.

Dumanovsky, T., Huang, C. Y., Nonas, C. A., Matte, T. D., Bassett, M. T., and Silver, L. D. (2011). Changes in energy content of lunchtime purchases from fast food restaurants after introduction of calorie labelling: Cross sectional customer surveys. BMJ, 343: d4464.

Dwyer, M. (2013). Coffee drinking tied to lower risk of suicide. Harvard Gazette. Retrieved from http://news.harvard.edu/gazette/story/2013/07/drinking-coffee-may-reduce-risk-of-suicide-by-50/ .

Eells, E. (1991). Probabilistic Causality. Cambridge University Press, Cambridge.

Efron, B. (2010). Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction. Institute of Mathematical Statistics Monographs. Cambridge University Press, Cambridge.

Eichler, M. (2010). Graphical Gaussian Modelling of Multivariate Time Series with Latent Variables. In Proceedings of the 13th International Conference on Artificial Intelligence and Statistics.

Einstein, A., Podolsky, B., and Rosen, N. (1935). Can Quantum-Mechanical Description of Physical Reality Be Considered Complete? Physical Review, 47(10): 777–780.

Elbel, B., Kersh, R., Brescoll, V. L., and Dixon, L. B. (2009). Calorie Labeling And Food Choices: A First Look At The Effects On Low-Income People In New York City. Health Affairs, 28(6):w 1110–w1121.

Ellison, B., Lusk, J. L., and Davis, D. (2014). The Effect of Calorie Labels on Caloric Intake and Restaurant Revenue: Evidence from Two Full-Service Restaurants. Journal of Agricultural and Applied Economics, 46(2): 173–191.

Entner, D. and Hoyer, P. O. (2010). On Causal Discovery from Time Series Data using FCI. In Proceedings of the 5th European Workshop on Probabilistic Graphical Models.

Erickson, J. D. (1978). Down syndrome, paternal age, maternal age and birth order. Annals of Human Genetics, 41(3): 289–298.

Erlwein, O., Kaye, S., McClure, M. O., Weber, J., Wills, G., Collier, D., Wessely, S., and Cleare, A. (2010). Failure to Detect the Novel Retrovirus XMRV in Chronic Fatigue Syndrome. PloS ONE, 5(1): e8519.

Faro, D., McGill, A. L., and Hastie, R. (2013). The influence of perceived causa-tion on judgments of time: An integrative review and implications for decision-making. Frontiers in Psychology, 4: 217.

Fewtrell, M. S., Kennedy, K., Singhal, A., Martin, R. M., Ness, A., Hadders-Algra, M., Koletzko, B., and Lucas, A. (2008). How much loss to follow-up is acceptable in long-term randomised trials and prospective studies? Archives of Disease in Childhood, 93(6): 458–461.

Fischer, D. A. (1992). Causation in Fact in Omission Cases. Utah Law Review, pp. 1335–1384.

Fischer, D. A. (2006). Insufficient Causes. Kentucky Law Journal, 94: 277–37.

Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver and Boyd, Edinburgh.

Fitelson, B. and Hitchcock, C. (2011). Probabilistic measures of causal strength. In P. M. Illari, F. Russo, and J. Williamson (eds.), Causality in the Sciences, pp. 600–627. Oxford University Press, Oxford.

Fleming, P. J., Blair, P., Bacon, P., and Berry, J. (eds.) (2000). Sudden unexpected deaths in infancy: The CESDI SUDI studies 1993–1996. The Stationery Office, London.

Fowler, J. H. and Dawes, C. T. (2008). Two Genes Predict Voter Turnout. The Journal of Politics, 70(3): 579–594.

Frank, S. A., Wilson, R., Holloway, R. G., Zimmerman, C., Peterson, D. R., Kieburtz, K., and Kim, S. Y. H. (2008). Ethics of sham surgery: Perspective of patients. Movement Disorders, 23(1): 63–68.

Freedman, D. and Humphreys, P. (1999). Are There Algorithms That Discover Causal Structure? Synthese, 121(1–2): 29–54.

Fugelsang, J. A. and Thompson, V. A. (2003). A dual-process model of belief and evidence interactions in causal reasoning. Memory & Cognition, 31(5): 800–815.

Fumerton, R. and Kress, K. (2001). Causation and the Law: Preemption, Lawful Sufficiency, and Causal Sufficiency. Law and Contemporary Problems, 64(4): 83–105.

Gabriel, A. and Mercado, C. P. (2011). Data retention after a patient withdraws consent in clinical trials. Open Access Journal of Clinical Trials, 3: 15–19.

Gemelli, A. and Cappellini, A. (1958). The influence of the subject’s attitude in perception. Acta Psychologica, 14: 12–23.

Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., and Brilliant, L. (2009). Detecting influenza epidemics using search engine query data. Nature, 457: 1012–1014.

Glasgow, R. E., Lichtenstein, E., and Marcus, A. C. (2003). Why Don’t We See More Translation of Health Promotion Research to Practice? Rethinking the Efficacy-to-Effectiveness Transition. American Journal of Public Health, 93(8): 1261–1267.

Glennan, S. (1996). Mechanisms and the Nature of Causation. Erkenntnis, 44(1): 49–71.

Glennan, S. (2002). Rethinking Mechanistic Explanation. Philosophy of Science, 69(3): S342–S353.

Godfrey-Smith, P. (2010). Causal Pluralism. In H. Beebee, C. R. Hitchcock, and P. Menzies (eds.), Oxford Handbook of Causation, pp. 326–337. Oxford University Press, Oxford.

Goldman, D. P., Joyce, G. F., and Zheng, Y. (2007). Prescription Drug Cost Sharing: Associations With Medication and Medical Utilization and Spending and Health. Journal of the American Medical Association, 298(1): 61–69.

Good, I. J. (1961). A Causal Calculus (I). British Journal for the Philosophy of Science, 11(44): 305–318.

Gopnik, A., Sobel, D. M., Schulz, L. E., and Glymour, C. (2001). Causal Learning Mechanisms in Very Young Children: Two-, Three-, and Four-Year-Olds Infer Causal Relations From Patterns of Variation and Covariation. Developmental Psychology, 37(5): 620–629.

Gopnik, A., Glymour, C., Sobel, D. M., Schulz, L. E., Kushnir, T., and Danks, D. (2004). A Theory of Causal Learning in Children: Causal Maps and Bayes Nets. Psychological Review, 111(1): 3–32.

Granger, C. W. J. (1980). Testing for Causality: A Personal Viewpoint. Journal of Economic Dynamics and Control, 2: 329–352.

Green, J. (2012). The Science Behind Those Obama Campaign E-Mails. Bloomberg Businessweek. Retrieved from http://www.businessweek.com/articles/2012-11-29/the-science-behind-those-obama-campaign-e-mails .

Greville, W. J. and Buehner, M. J. (2010). Temporal Predictability Facilitates Causal Learning. Journal of Experimental Psychology: General, 139(4): 756–771.

Griffiths, T. L., Sobel, D. M., Tenenbaum, J. B., and Gopnik, A. (2011). Bayes and Blickets: Effects of Knowledge on Causal Induction in Children and Adults. Cognitive Science, 35(8): 1407–1455.

Griffiths, T. L. and Tenenbaum, J. B. (2005). Structure and strength in causal induction. Cognitive Psychology, 51(4): 334–384.

Grodstein, F., Stampfer, M. J., Colditz, G. A., Willett, W. C., Manson, J. E., Joffe, M., Rosner, B., Fuchs, C., Hankinson, S. E., Hunter, D. J., Hennekens, C. H., and Speizer, F. E. (1997). Postmenopausal Hormone Therapy and Mortality. The New England Journal of Medicine, 336(25): 1769–1775.

Groves, R. M., Fowler Jr., F. J., Couper, M. P., Lepkowski, J. M., Singer, E., and Tourangeau, R. (2009). Survey Methodology, 2nd edition. John Wiley & Sons, Hoboken, NJ 2nd edition.

Grünbaum, A. (1981). The placebo concept. Behaviour Research and Therapy, 19(2): 157–167.

Grzegorczyk, M. and Husmeier, D. (2009). Non-stationary continuous dynamic Bayesian networks. In Proceedings of the 23rd Annual Conference on Neural Infor-mation Processing Systems.

Guyatt, G. H., Oxman, A. D., Vist, G. E., Kunz, R., Falck-Ytter, Y., Alonso-Coello, P., and Schünemann, H. J. (2008). GRADE: An emerging consensus on rating quality of evidence and strength of recommendations. BMJ, 336(7650): 924–926.

Gweon, H. and Schulz, L. (2011). 16-Month-Olds Rationally Infer Causes of Failed Actions. Science, 332(6037): 1524.

Hajjar, E. R., Cafiero, A. C., and Hanlon, J. T. (2007). Polypharmacy in elderly patients. The American Journal of Geriatric Pharmacotherapy, 5(4): 345–351.

Halpern, J. Y. and Hitchcock, C. R. (2010). Actual Causation and the Art of Modeling. In R. Dechter, H. Geffner, and J. Y. Halpern (eds.), Heuristics, Probability and Causality: A Tribute to Judea Pearl, pp. 383–406. College Publications, London.

Hanushek, E. A. (2011). The economic value of higher teacher quality. Economics of Education Review, 30(3): 466–479.

Hart, H. L. A. and Honoré, T. (1985). Causation in the Law. Oxford University Press, Oxford.

Haskins, R. and Sawhill, I. V. (2009). Creating an Opportunity Society. Brookings Institution Press, Washington, DC.

Hastie, R. and Pennington, N. (1996). The O. J. Simpson Stories: Behavioral Scientists’ Reflections on The People of the State of California v. Orenthal James Simpson. University of Colorado Law Review, 67: 957–976.

Haushofer, J. and Shapiro, J. (2013). Household response to income changes: Evidence from an unconditional cash transfer program in Kenya. Technical report.

Hausman, D. M. (2005). Causal Relata: Tokens, Types, or Variables? Erkenntnis, 63(1): 33–54.

Heeger, D. J. and Ress, D. (2002). What does fMRI tell us about neuronal activity? Nature Reviews Neuroscience, 3(2): 142–151.

Heider, F. and Simmel, M. (1944). An Experimental Study of Apparent Behavior. The American Journal of Psychology, 57(2): 243–259.

Henning, A. S. (1948). Dewey defeats Truman. Chicago Tribune, November: p. 1.

Henrich, J., Heine, S. J., and Norenzayan, A. (2010). The weirdest people in the world? Behavioral and Brain Sciences, 33(2–3): 61–83.

Heres, S., Davis, J., Maino, K., Jetzinger, E., Kissling, W., and Leucht, S. (2006). Why Olanzapine Beats Risperidone, Risperidone Beats Quetiapine, and Quetia-pine Beats Olanzapine: An Exploratory Analysis of Head-to-Head Comparison Studies of Second-Generation Antipsychotics. American Journal of Psychiatry, 163(2): 185–194.

Hernan, M. A., Clayton, D., and Keiding, N. (2011). The Simpson’s paradox unraveled. International Journal of Epidemiology, 40(3): 780–785.

Herndon, T., Ash, M., and Pollin, R. (2014). Does high public debt consistently stifle economic growth? A critique of Reinhart and Rogoff. Cambridge Journal of Economics, 38(2): 257–279.

Hill, A. B. (1965). The Environment and Disease: Association or Causation? Proceedings of the Royal Society of Medicine, 58(5): 295–300.

Hitchcock, C. and Knobe, J. (2009). Cause and norm. Journal of Philosophy, 106(11): 587–612.

Hitchcock, C. R. (1995). The Mishap at Reichenbach Fall: Singular vs. General Causation. Philosophical Studies, 78(3): 257–291.

Ho, Y. C. and Pepyne, D. L. (2002). Simple Explanation of the No-Free-Lunch Theorem and Its Implications. Journal of Optimization Theory and Applications, 115(3): 549–570.

Höfer, T., Przyrembel, H., and Verleger, S. (2004). New evidence for the Theory of the Stork. Paediatric and Perinatal Epidemiology, 18(1): 88–92.

Höfler, M. (2005). The Bradford Hill considerations on causality: A counterfactual perspective. Emerging Themes in Epidemiology, 2: 11.

Holgate, S. T., Komaroff, A. L., Mangan, D., and Wessely, S. (2011). Chronic fatigue syndrome: Understanding a complex illness. Nature Reviews Neuroscience, 12(9): 539–544.

Holson, L. M. (2009). Putting a Bolder Face on Google. The New York Times, February: p. B1.

Holyoak, K. J. and Cheng, P. W. (2011). Causal Learning and Inference as a Rational Process: The New Synthesis. Annual Review of Psychology, 62: 135–163.

Howick, J. (2011). Placebo Controls: Problematic and Misleading Baseline Measures of Effectiveness, pp. 80–95. Wiley-Blackwell, Chichester, West Sussex, UK.

Howick, J., Chalmers, I., Glasziou, P., Greenhalgh, T., Heneghan, C., Liberati, A., Moschetti, I., Phillips, B., and Thornton, H. (2011). Explanation of the 2011 Oxford Centre for Evidence-Based Medicine (OCEBM) Levels of Evidence (Back-ground Document).

Howick, J., Glasziou, P., and Aronson, J. K. (2009). The evolution of evidence hierarchies: What can Bradford Hill’s ‘guidelines for causation’ contribute? The Journal of the Royal Society of Medicine, 102(5): 186–194.

Hripcsak, G., Elhadad, N., Chen, Y. H., Zhou, L., and Morrison, F. P. (2009). Using Empiric Semantic Correlation to Interpret Temporal Assertions in Clinical Texts. Journal of the American Medical Informatics Association, 16(2):220–227.

Hué, S., Gray, E. R., Gall, A., Katzourakis, A., Tan, C. P., Houldcroft, C. J., McLaren, S., Pillay, D., Futreal, A., and Garson, J. A. (2010). Disease-associated XMRV sequences are consistent with laboratory contamination. Retrovirology, 7(1): 111.

Hulley, S., Grady, D., Bush, T., Furberg, C., Herrington, D., Riggs, B., and Vittinghoff, E. (1998). Randomized Trial of Estrogen Plus Progestin for Secondary Prevention of Coronary Heart Disease in Postmenopausal Women. JAMA, 280(7): 605–613.

Hume, D. (1739). A Treatise of Human Nature. London. Reprint, Prometheus Books, 1992. Citations refer to the Prometheus edition.

Hume, D. (1748). An Enquiry Concerning Human Understanding. London. Reprint, Dover Publications, 2004.

Illari, P. and Russo, F. (2014). Causality: Philosophical Theory Meets Scientific Practice. Oxford University Press, Oxford.

Issenberg, S. (2012). The Victory Lab: The Secret Science of Winning Campaigns. Crown, New York.

Jepsen, C. and Rivkin, S. (2009). Class Reduction and Student Achievement: The Potential Tradeoff between Teacher Quality and Class Size. Journal of Human Resources, 44(1): 223–250.

Johnson, S. R. (2008). The Trouble with QSAR (or How I Learned To Stop Worrying and Embrace Fallacy). Journal of Chemical Information and Modeling, 48(1): 25–26.

Joynson, R. B. (1971). Michotte’s experimental methods. British Journal of Psychology, 62(3): 293–302.

Kahneman, D., Lovallo, D., and Sibony, O. (2011). Before You Make That Big Decision… Harvard Business Review, 89(6): 50–60.

Kant, I. (1902). Prolegomena to Any Future Metaphysics. Open Court Publishing, Chicago. Translated by Paul Carus.

Kant, I. (1998). Critique of Pure Reason. Cambridge University Press, Cambridge. Translated by Paul Guyer and Allen W. Wood.

Kaptchuk, T. J., Friedlander, E., Kelley, J. M., Sanchez, M. N., Kokkotou, E., Singer, J. P., Kowalczykowski, M., Miller, F. G., Kirsch, I., and Lembo, A. J. (2010). Placebos without Deception: A Randomized Controlled Trial in Irritable Bowel Syndrome. PloS ONE, 5(12): e15591.

Kearney, M. S. and Levine, P. B. (2014). Media Influences on Social Outcomes: The Impact of MTV’s 16 and Pregnant on Teen Childbearing. Technical Report 19795, National Bureau of Economic Research.

Keeter, S., Dimock, M., and Christian, L. (2008). Calling Cell Phones in ’08 Pre-Election Polls. The Pew Research Center for the People and the Press.

Kiszko, K. M., Martinez, O. D., Abrams, C., and Elbel, B. (2014). The Influence of Calorie Labeling on Food Orders and Consumption: A Review of the Literature. Journal of Community Health, 39(6): 1248–1269.

Klein, R. A., Ratliff, K. A., Vianello, M., et al. (2014). Investigating Variation in Replicability. Social Psychology, 45(3): 142–152.

Kleinberg, S. (2012). Causality, Probability, and Time. Cambridge University Press, New York.

Kleinberg, S. and Elhadad, N. (2013). Lessons Learned in Replicating Data-Driven Experiments in Multiple Medical Systems and Patient Populations. In AMIA Annual Symposium.

Knobe, J. (2003). Intentional Action and Side Effects in Ordinary Language. Analysis, 63(279): 190–194.

Knobe, J. and Fraser, B. (2008). Causal Judgment and Moral Judgment: Two Experiments. In W. Sinnott-Armstrong (ed.), Moral Psychology, volume 2, pp. 441–448. The MIT Press, Cambridge, MA.

Knobe, J. and Mendlow, G. S. (2004). The Good, the Bad and the Blameworthy: Understanding the Role of Evaluative Reasoning in Folk Psychology. Journal of Theoretical and Philosophical Psychology, 24(2): 252–258.

Knobe, J. and Nichols, S. (2008). Experimental Philosophy. Oxford University Press, Oxford.

Koch, R. (1932). Die Aetiologie der Tuberkulose. Journal of Molecular Medicine, 11(12): 490–492.

Koppett, L. (1978). Carrying Statistics to Extremes. Sporting News.

Korja, M., Silventoinen, K., Laatikainen, T., Jousilahti, P., Salomaa, V., Hernes-niemi, J., and Kaprio, J. (2013). Risk Factors and Their Combined Effects on the Incidence Rate of Subarachnoid Hemorrhage – A Population-Based Cohort Study. PLoS ONE, 8(9): e73760.

Kravitz, R. L. and Duan, N. (eds.) (2014). Design and Implementation of N-of-1 Trials: A User’s Guide. Agency for Healthcare Research and Quality, Rockville, MD.

Krieger, J. and Saelens, B. E. (2013). Impact of Menu Labeling on Consumer Behavior: A 2008–2012 Update. Robert Wood Johnson Foundation.

Krueger, A. B. (2003). Economic Considerations and Class Size. The Economic Journal, 113(485): F34–F63.

Krueger, A. B. and Whitmore, D. M. (2001). The effect of attending a small class in the early grades on college-test taking and middle school test results: Evidence from Project STAR. The Economic Journal, 111(468): 1–28.

van Kuppeveld, F. J., de Jong, A. S., Lanke, K. H., Verhaegh, G. W., Melchers, W. J., Swanink, C. M., Bleijenberg, G., Netea, M. G., Galama, J. M., and van Der Meer, J. W. (2010). Prevalence of xenotropic murine leukaemia virus-related virus in patients with chronic fatigue syndrome in the Netherlands: Retrospective analysis of samples from an established cohort. BMJ, 340: c1018.

Kushnir, T. and Gopnik, A. (2005). Young Children Infer Causal Strength from Probabilities and Interventions. Psychological Science, 16(9): 678–683.

Kwiatkowski, D., Phillips, P. C., Schmidt, P., and Shin, Y. (1992). Testing the null hypothesis of stationarity against the alternative of a unit root: How sure are we that economic time series have a unit root? Journal of Econometrics, 54(1): 159–178.

Lagnado, D. A. and Channon, S. (2008). Judgments of cause and blame: The effects of intentionality and foreseeability. Cognition, 108(3): 754–770.

Lagnado, D. A. and Harvey, N. (2008). The impact of discredited evidence. Psychonomic Bulletin & Review, 15(6): 1166–1173.

Lagnado, D. A. and Sloman, S. (2004). The Advantage of Timely Intervention. Journal of Experimental Psychology: Learning, Memory, and Cognition, 30(4): 856–876.

Lagnado, D. A. and Sloman, S. A. (2006). Time as a Guide to Cause. Journal of Experimental Psychology: Learning, Memory, and Cognition, 32(3): 451–460.

Lagnado, D. A. and Speekenbrink, M. (2010). The Influence of Delays in Real-Time Causal Learning. The Open Psychology Journal, 3(2): 184–195.

Lagnado, D. A., Waldmann, M. R., Hagmayer, Y., and Sloman, S. A. (2007). Beyond Covariation. In A. Gopnik and L. Schulz (eds.), Causal learning: Psychology, Philosophy, and Computation, pp. 154–172. Oxford University Press, Oxford.

Lange, M. (2013). What Makes a Scientific Explanation Distinctively Mathematical? The British Journal for the Philosophy of Science, 64(3): 485–511.

Lazer, D. M., Kennedy, R., King, G., and Vespignani, A. (2014). The Parable of Google Flu: Traps in Big Data Analysis. Science, 343(6176): 1203–1205.

Leibovici, L. (2001). Effects of remote, retroactive intercessory prayer on outcomes in patients with bloodstream infection: Randomised controlled trial. BMJ, 323(7327): 1450–1451.

Leslie, A. M. (1982). The perception of causality in infants. Perception, 11(2): 173–186.

Leslie, A. M. and Keeble, S. (1987). Do six-month-old infants perceive causality? Cognition, 25(3): 265–288.

Lewis, D. (1973). Causation. The Journal of Philosophy, 70(17): 556–567. Reprinted in Lewis 1986a.

Lewis, D. (1976). The paradoxes of time travel. American Philosophical Quarterly, 13(2): 145–152.

Lewis, D. (1986a). Philosophical Papers, volume 2. Oxford University Press, Oxford.

Lewis, D. (1986b). Postscripts to “Causation”. In Philosophical Papers, vol. 2, pp. 172–213. Oxford University Press, Oxford.

Lewis, D. (2000). Causation as Influence. The Journal of Philosophy, 97(4): 182–197.

Lin, P. and Gill, J. R. (2009). Delayed Homicides and the Proximate Cause. American Journal of Forensic Medicine & Pathology, 30(4): 354–357.

Lind, J. (1757). A Treatise on the Scurvy: In Three Parts, Containing an Inquiry Into the Nature, Causes, and Cure, of that Disease. A. Millar, London.

Linthwaite, S. and Fuller, G. N. (2013). Milk, chocolate and Nobel prizes. Practical Neurology, 13(1):63–63.

Lo, S.-C., Pripuzova, N., Li, B., Komaroff, A. L., Hung, G.-C., Wang, R., and Alter, H. J. (2010). Detection of MLV-related virus gene sequences in blood of patients with chronic fatigue syndrome and healthy blood donors. Proceedings of the National Academy of Sciences, 107(36): 15874–15879.

Lo, S.-C., Pripuzova, N., Li, B., Komaroff, A. L., Hung, G.-C., Wang, R., and Alter, H. J. (2012). Retraction for Lo et al., Detection of MLV-related virus gene sequences in blood of patients with chronic fatigue syndrome and healthy blood donors. Proceedings of the National Academy of Sciences, 109(1): 346–346.

Lombardi, V. C., Ruscetti, F. W., Gupta, J. D., Pfost, M. A., Hagen, K. S., Peterson, D. L., Ruscetti, S. K., Bagni, R. K., Petrow-Sadowski, C., Gold, B., Dean, M., Silverman, R. H., and Mikovits, J. A. (2009). Detection of an Infectious Retrovirus, XMRV, in Blood Cells of Patients with Chronic Fatigue Syndrome. Science, 326(5952): 585–589.

Lopes, L. (1993). Two conceptions of the juror. In R. Hastie (ed.), Inside the Juror: The Psychology of Juror Decision Making, pp. 255–262. Cambridge University Press, Cambridge.

Machamer, P., Darden, L., and Craver, C. F. (2000). Thinking about Mechanisms. Philosophy of Science, 67(1): 1–25.

Mackie, J. L. (1974). The Cement of the Universe. Clarendon Press, Oxford.

Macklin, R. (1999). The Ethical Problems with Sham Surgery in Clinical Research. The New England Journal of Medicine, 341(13): 992–996.

Malle, B. F., Guglielmo, S., and Monroe, A. E. (2014). A Theory of Blame. Psychological Inquiry: An International Journal for the Advancement of Psychological Theory, 25(2): 147–186.

Mandel, D. R. (2003). Judgment Dissociation Theory: An Analysis of Differences in Causal, Counterfactual, and Covariational Reasoning. Journal of Experimental Psychology: General, 132(3): 419–434.

March, L., Irwig, L., Schwarz, J., Simpson, J., Chock, C., and Brooks, P. (1994). n of 1 trials comparing a non-steroidal anti-inflammatory drug with paracetamol in osteoarthritis. BMJ, 309(6961): 1041–1045.

Matossian, M. A. K. (1989). Poisons of the Past: Molds, Epidemics, and History. Yale University Press, New Haven, CT.

Matthews, R. (2000). Storks Deliver Babies (p=0.008). Teaching Statistics, 22(2): 36–38.

Maurage, P., Heeren, A., and Pesenti, M. (2013). Does Chocolate Consumption Really Boost Nobel Award Chances? The Peril of Over-Interpreting Correlations in Health Studies. The Journal of Nutrition, 143(6): 931–933.

McLean, K. A., Byanaku, A., Kubikonse, A., Tshowe, V., Katensi, S., and Lehman, A. G. (2014). Fishing with bed nets on Lake Tanganyika: A randomized survey. Malaria Journal, 13: 395.

McLean, R. D. and Pontiff, J. (2015). Does Academic Research Destroy Stock Return Predictability? Journal of Finance, forthcoming. Retrieved from http://ssrn.com/abstract=2156623 .

Meadow, R. (2002). A case of murder and the BMJ. BMJ, 324(7328): 41–43.

Meek, C. (1995). Strong completeness and faithfulness in Bayesian networks. In Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence.

Meeks, R. R. (2004). Unintentionally Biasing the Data: Reply to Knobe. Journal of Theoretical and Philosophical Psychology, 24(2): 220–223.

Messerli, F. H. (2012). Chocolate Consumption, Cognitive Function, and Nobel Laureates. The New England Journal of Medicine, 367(16): 1562–1564.

Michotte, A. (1946). La Perception de la Causalité. Editions de l’Institut Supйrieur de Philosophie, Louvain. English translation by T. Miles & E. Miles. The Perception of Causality, Basic Books, 1963. Citations refer to the translated edition.

Mill, J. S. (1843). A System of Logic. Parker, London. Reprint, Lincoln-Rembrandt Pub., 1986.

Miller, J. G. (1984). Culture and the Development of Everyday Social Explanation. Journal of Personality and Social Psychology, 46(5): 961–978.

Mitofsky, W. J. (1998). Review: Was 1996 a Worse Year for Polls Than 1948? The Public Opinion Quarterly, 62(2): 230–249.

Mitsumoto, H., Brooks, B. R., and Silani, V. (2014). Clinical trials in amyotrophic lateral sclerosis: Why so many negative trials and how can trials be improved? The Lancet Neurology, 13(11): 1127–1138.

Moher, D., Schulz, K. F., and Altman, D. G. (2001). The CONSORT statement: Revised recommendations for improving the quality of reports of parallel-group randomised trials. The Lancet, 357(9263): 1191–1194.

Morris, M. W. and Peng, K. (1994). Culture and Cause: American and Chinese Attributions for Social and Physical Events. Journal of Personality and Social Psychology, 67(6): 949–971.

Mosca, L., Manson, J. E., Sutherland, S. E., Langer, R. D., Manolio, T., and Barrett-Connor, E. (1997). Cardiovascular disease in women: A statement for healthcare professionals from the American Heart Association. Writing Group. Circulation, 96(7): 2468–2482.

Mostofsky, E., Rice, M. S., Levitan, E. B., and Mittleman, M. A. (2012). Habitual Coffee Consumption and Risk of Heart Failure: A Dose-Response Meta-Analysis. Circulation: Heart Failure, 5(4): 401–405.

Mott, N. L. (2003). The Current Debate on Juror Questions: To Ask or Not to Ask, That Is the Question. Chicago-Kent Law Review, 78: 1099.

Muntner, P., Safford, M. M., Cushman, M., and Howard, G. (2014). Comment on the Reports of Over-estimation of ASCVD Risk Using the 2013 AHA/ACC Risk Equation. Circulation, 129(2): 266–267.

Murphy, K. (2002). Dynamic Bayesian Networks: Representation, Inference and Learning. PhD thesis, University of California, Berkley.

Nadelhoffer, T. (2004). On Praise, Side Effects, and Folk Ascriptions of Intentionality. Journal of Theoretical and Philosophical Psychology, 24(2): 196–213.

Narayanan, A. and Shmatikov, V. (2008). Robust Deanonymization of Large Sparse Datasets. In Proceedings of the IEEE Symposium on Security and Privacy.

Newburger, J. W., Takahashi, M., Gerber, M. A., Gewitz, M. H., Tani, L. Y., Burns, J. C., Shulman, S. T., Bolger, A. F., Ferrieri, P., Baltimore, R. S., Wilson, W. R., Baddour, L. M., Levison, M. E., Pallasch, T. J., Falace, D. A., and Taubert, K. A. (2004). Diagnosis, Treatment, and Long-Term Management of Kawasaki Disease. Circulation, 110(17): 2747–2771.

Nieman, D. C. (1994). Exercise, Infection, and Immunity. International Journal of Sports Medicine, 15(S 3):S131–S141.

Norenzayan, A. and Schwarz, N. (1999). Telling what they want to know: Participants tailor causal attributions to researchers’ interests. European Journal of Social Psychology, 29(8): 1011–1020.

Normore, A. H. and Ilon, L. (2006). Cost-Effective School Inputs: Is Class Size Reduction the Best Educational Expenditure for Florida? Educational Policy, 20(2): 429–454.

Noseworthy, J. H., Ebers, G. C., Vandervoort, M. K., Farquhar, R. E., Yetisir, E., and Roberts, R. (1994). The impact of blinding on the results of a randomized, placebo-controlled multiple sclerosis clinical trial. Neurology, 44(1): 16–20.

Novick, L. R. and Cheng, P. W. (2004). Assessing Interactive Causal Influence. Psychological Review, 111(2): 455–485.

Oakes, B., Tai, A. K., Cingцz, O., Henefield, M. H., Levine, S., Coffin, J. M., and Huber, B. T. (2010). Contamination of human DNA samples with mouse DNA can lead to false detection of XMRV-like sequences. Retrovirology, 7: 109.

Oakes, L. M. (1994). Development of Infants’ Use of Continuity Cues in Their Perception of Causality. Developmental Psychology, 30(6): 869–879.

O’Malley, K. J., Cook, K. F., Price, M. D., Wildes, K. R., Hurdle, J. F., and Ashton, C. M. (2005). Measuring Diagnoses: ICD Code Accuracy. Health Services Research, 40(5p2): 1620–1639.

Ou, Z. Y., Pereira, S. F., Kimble, H. J., and Peng, K. C. (1992). Realization of the Einstein-Podolsky-Rosen paradox for continuous variables. Physics Review Letters, 68(25): 3663–3666.

Paprotka, T., Delviks-Frankenberry, K. A., Cingöz, O., Martinez, A., Kung, H.-J., Tepper, C. G., Hu, W.-S., Fivash, M. J., Coffin, J. M., and Pathak, V. K. (2011). Recombinant origin of the retrovirus XMRV. Science, 333(6038): 97–101.

Patberg, W. R. and Rasker, J. J. (2004). Weather effects in rheumatoid arthritis: From controversy to consensus. A review. The Journal of Rheumatology, 31(7): 1327–1334.

Pearl, J. (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press, Cambridge.

Pearl, J. (2014). Understanding Simpson’s Paradox. The American Statistician, 68(1): 8–13.

Pearson, K., Lee, A., and Bramley-Moore, L. (1899). Mathematical Contributions to the Theory of Evolution. VI. Genetic (Reproductive) Selection: Inheritance of Fertility in Man, and of Fecundity in Thoroughbred Racehorses. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathe-matical or Physical Character, 192: 257–330.

Peng, K. and Knowles, E. D. (2003). Culture, Education, and the Attribution of Physical Causality. Personality and Social Psychology Bulletin, 29(10): 1272–1284.

Pennington, N. and Hastie, R. (1986). Evidence Evaluation in Complex Decision Making. Journal of Personality and Social Psychology, 51(2): 242–258.

Pennington, N. and Hastie, R. (1988). Explanation-based decision making: Effects of memory structure on judgment. Journal of Experimental Psychology: Learning, Memory, and Cognition, 14(3): 521–533.

Pennington, N. and Hastie, R. (1992). Explaining the Evidence: Tests of the Story Model for Juror Decision Making. Journal of Personality and Social Psychology, 62(2): 189–206.

Perales, J. C., Shanks, D. R., and Lagnado, D. (2010). Causal Representation and Behavior: The Integration of Mechanism and Covariation. Open Psychology Journal, 3(1): 174–183.

Perotte, A. and Hripcsak, G. (2013). Temporal Properties of Diagnosis Code Time Series in Aggregate. IEEE Journal of Biomedical and Health Informatics, 17(2): 477–483.

Perwien, A. R., Johnson, S. B., Dymtrow, D., and Silverstein, J. (2000). Blood Glucose Monitoring Skills in Children with Type I Diabetes. Clinical Pediatrics, 39(6): 351–357.

Phillips, C. V. and Goodman, K. J. (2004). The missed lessons of Sir Austin Bradford Hill. Epidemiologic Perspectives & Innovations, 1(1): 3.

Pivovarov, R. and Elhadad, N. (2012). A hybrid knowledge-based and data-driven approach to identifying semantically similar concepts. Journal of Biomedical Informatics, 45(3): 471–481.

Power, D. J. (2002). Ask Dan! What is the “true story” about data mining, beer and diapers? DSS News, 3(23).

Price, D. D., Finniss, D. G., and Benedetti, F. (2008). A Comprehensive Review of the Placebo Effect: Recent Advances and Current Thought. Annual Review of Psychology, 59: 565–590.

Price, H. (1997). Time’s Arrow and Archimedes’ Point: New Directions for the Physics of Time. Oxford University Press, Oxford.

Prinz, F., Schlange, T., and Asadullah, K. (2011). Believe it or not: How much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery, 10(9): 712–713.

Pritchard, C. (2012). Does chocolate make you clever? BBC News. Retrieved from http://www.bbc.com/news/magazine-20356613 .

Pronin, E., Wegner, D. M., McCarthy, K., and Rodriguez, S. (2006). Everyday Magical Powers: The Role of Apparent Mental Causation in the Overestimation of Personal Influence. Journal of Personality and Social Psychology, 91(2): 218–231.

Psillos, S. (2010). Causal Pluralism. In R. Vanderbeeken and B. D’Hooghe (eds.), World-views, Science and Us: Studies of Analytical Metaphysics, pp. 131–151. World Scientific Publishers, Singapore.

R v. Jordan (1956). 4 °Cr App R. 152.

Radelet, M. L. and Pierce, G. L. (1991). Choosing Those Who Will Die: Race and the Death Penalty in Florida. Florida Law Review, 43(1): 1–34.

Redelmeier, D. A. and Tversky, A. (1996). On the belief that arthritis pain is related to the weather. Proceedings of the National Academy of Sciences, 93(7): 2895–2896.

Reichenbach, H. (1956). The Direction of Time. University of California Press, Berkeley. Reprint, Dover Publications, 2000.

Reiss, J. (2007). Time Series, Nonsense Correlations and the Principle of the Common Cause. In F. Russo and J. Williamson (eds.), Causality and Probability in the Sciences, pp. 179–196. College Publications, London.

Reiss, J. (2014). What’s Wrong With Our Theories of Evidence? Theoria, 29(2): 283–306.

Rescorla, R. A. and Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. In A. H. Black and W. F. Prokasy (eds.), Classical Conditioning II: Current Theory and Research, pp. 64–99. Appleton-Century-Crofts, New York.

Rhonheimer, J. (writer) and Fryman, P. (director). (2007). Lucky penny [Television series episode]. In Bays, C. and Thomas, C. (producers), How I met your mother. CBS, Los Angeles.

Ridker, P. M. and Cook, N. R. (2013). Statins: New American guidelines for prevention of cardiovascular disease. The Lancet, 382(9907): 1762–1765.

Robins, J. M., Rotnitzky, A., and Scharfstein, D. O. (2000). Sensitivity Analysis for Selection bias and unmeasured Confounding in missing Data and Causal inference models. In M. E. Halloran and D. Berry (eds.), Statistical Models in Epidemiology: The Environment and Clinical Trials, pp. 1–94. Springer-Verlag, New York.

Robinson, J. W. and Hartemink, A. J. (2010). Learning Non-Stationary Dynamic Bayesian Networks. Journal of Machine Learning Research, 11(Dec): 3647–3680.

Robinson, M. J., Erlwein, O. W., Kaye, S., Weber, J., Cingoz, O., Patel, A., Walker, M. M., Kim, W.-J. J., Uiprasertkul, M., Coffin, J. M., and McClure, M. O. (2010). Mouse DNA contamination in human tissue tested for XMRV. Retrovirology, 7: 108.

de Rooij, N. K., Linn, F. H. H., van der Plas, J. A., Algra, A., and Rinkel, G. J. E. (2007). Incidence of subarachnoid haemorrhage: A systematic review with emphasis on region, age, gender and time trends. Journal of Neurology, Neurosurgery & Psychiatry, 78(12): 1365–1372.

Roser, M. E., Fugelsang, J. A., Dunbar, K. N., Corballis, P. M., and Gazzaniga, M. S. (2005). Dissociating Processes Supporting Causal Perception and Causal Inference in the Brain. Neuropsychology, 19(5): 591–602.

Rothman, K. J. (1976). Causes. American Journal of Epidemiology, 104(6):587–592. Reprinted in 141(2), 1995.

Rothman, K. J. (1990). No Adjustments Are Needed for Multiple Comparisons. Epidemiology, 1(1): 43–46.

Rothman, K. J. and Greenland, S. (2005). Causation and Causal Inference in Epidemiology. American Journal of Public Health, 95(S1): S144–S150.

Rothwell, P. M. (2005). External validity of randomised controlled trials: “To whom do the results of this trial apply?” The Lancet, 365(9453): 82–93.

Russell, B. (1912). On the Notion of Cause. Proceedings of the Aristotelian Society, 13(1912–1913): 1–26.

Russo, F. (2006). The Rationale of Variation in Methodological and Evidential Pluralism. Philosophica, 77(1): 97–124.

Russo, F. and Williamson, J. (2007). Interpreting Causality in the Health Sciences. International Studies in the Philosophy of Science, 21(2): 157–170.

Salganik, M. J., Dodds, P. S., and Watts, D. J. (2006). Experimental Study of Inequality and Unpredictability in an Artificial Cultural Market. Science, 311(5762): 854–856.

Sandvei, M., Mathiesen, E., Vatten, L., Müller, T., Lindekleiv, H., Ingebrigtsen, T., NjØlstad, I., Wilsgaard, T., LØchen, M.-L., Vik, A., et al. (2011). Incidence and mortality of aneurysmal subarachnoid hemorrhage in two Norwegian cohorts, 1984–2007. Neurology, 77(20): 1833–1839.

Sato, E., Furuta, R. A., and Miyazawa, T. (2010). An Endogenous Murine Leukemia Viral Genome Contaminant in a Commercial RT-PCR Kit is Amplified Using Standard Primers for XMRV. Retrovirology, 7(1): 110.

Saunders System Birmingham Co. v. Adams (1928). 217 Ala. 621, 117 So. 72.

Scheines, R. (1997). An Introduction to Causal Inference. In V. R. McKim and S. P. Turner (eds.), Causality in Crisis, pp. 185–199. University of Notre Dame Press, Notre Dame, IN.

Schlottmann, A. (1999). Seeing It Happen and Knowing How It Works: How Children Understand the Relation Between Perceptual Causality and Underlying Mechanism. Developmental Psychology, 35(5): 303–317.

Schlottmann, A., Allen, D., Linderoth, C., and Hesketh, S. (2002). Perceptual Causality in Children. Child Development, 73(6): 1656–1677.

Schlottmann, A., Ray, E. D., and Surian, L. (2012). Emerging perception of causality in action-and-reaction sequences from 4 to 6 months of age: Is it domain-specific? Journal of Experimental Child Psychology, 112(2): 208–230.

Schlottmann, A. and Shanks, D. R. (1992). Evidence for a distinction between judged and perceived causality. The Quarterly Journal of Experimental Psychology, 44(2): 321–342.

Schoenfeld, J. D. and Ioannidis, J. P. (2013). Is everything we eat associated with cancer? A systematic cookbook review. The American Journal of Clinical Nutrition, 97(1): 127–134.

Schulz, K. F. and Grimes, D. A. (2002). Blinding in randomised trials: Hiding who got what. The Lancet, 359(9307): 696–700.

Schulz, L. E., Gopnik, A., and Glymour, C. (2007). Preschool children learn about causal structure from conditional interventions. Developmental Science, 10(3): 322–332.

Schwarz, G. (1978). Estimating the Dimension of a Model. The Annals of Statistics, 6(2): 461–464.

Scriven, M. (1966). Causes, connections and conditions in history. In W. H. Dray (ed.), Philosophical Analysis and History, pp. 238–264. Harper & Row, New York.

Seok, J., Warren, H. S., Cuenca, A. G., Mindrinos, M. N., Baker, H. V., et al. (2013). Genomic responses in mouse models poorly mimic human inflammatory diseases. Proceedings of the National Academy of Sciences, 110(9): 3507–3512.

Shalizi, C. R. and Thomas, A. C. (2011). Homophily and Contagion Are Generically Confounded in Observational Social Network Studies. Sociological Methods Research, 40(2): 211–239.

Shanks, D. R. (1985). Forward and backward blocking in human contingency judgement. The Quarterly Journal of Experimental Psychology, 37(1): 1–21.

Shanks, D. R. (1995). The Psychology of Associative Learning. Cambridge University Press, Cambridge.

Shanks, D. R., Pearson, S. M., and Dickinson, A. (1989). Temporal Contiguity and the Judgement of Causality by Human Subjects. The Quarterly Journal of Experimental Psychology, 41 B(2): 139–159.

Sidhu, D. (2015). Moneyball Sentencing. Boston College Law Review, 56(2): 671–731.

Silverman, R. H., Das Gupta, J., Lombardi, V. C., Ruscetti, F. W., Pfost, M. A., Hagen, K. S., Peterson, D. L., Ruscetti, S. K., Bagni, R. K., Petrow-Sadowski, C., Gold, B., Dean, M., and Mikovits, J. (2011). Partial retraction. Science, 334(6053): 176.

Simpson, E. H. (1951). The Interpretation of Interaction in Contingency Tables. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 13(2): 238–241.

Skyrms, B. (1984). EPR: Lessons for Metaphysics. Midwest Studies in Philosophy, 9(1): 245–255.

Slobogin, C. (2012). Risk Assessment. In J. Petersilia and K. R. Reitz (eds.), Oxford Handbook of Sentencing and Corrections, pp. 196–214. Oxford University Press, New York.

Sloman, S. A. and Lagnado, D. (2015). Causality in Thought. Annual Review of Psychology, 66: 223–247.

Smith, G. C. S. and Pell, J. P. (2003). Parachute use to prevent death and major trauma related to gravitational challenge: Systematic review of randomised controlled trials. BMJ, 327(7429): 1459–1461.

Snow, J. (1854). The Cholera Near Golden Square, and at Deptford. Medical Times and Gazette, 9: 321–322.

Snow, J. (1855). On the Mode of Communication of Cholera. John Churchill, London.

Sobel, D. M. and Kirkham, N. Z. (2006). Blickets and babies: The development of causal reasoning in toddlers and infants. Developmental Psychology, 42(6): 1103–1115.

Sobel, D. M. and Kushnir, T. (2006). The importance of decision making in causal learning from interventions. Memory & Cognition, 34(2): 411–419.

Sobel, D. M., Tenenbaum, J. B., and Gopnik, A. (2004). Children’s causal inferences from indirect evidence: Backwards blocking and Bayesian reasoning in preschoolers. Cognitive Science, 28(3): 303–333.

Sober, E. (1987). Parsimony, Likelihood, and the Principle of the Common Cause. Philosophy of Science, 54(3): 465–469.

Sober, E. (2001). Venetian Sea Levels, British Bread Prices, and the Principle of the Common Cause. British Journal for the Philosophy of Science, 52(2): 331–346.

Sober, E. and Papineau, D. (1986). Causal Factors, Causal Inference, Causal Explanation. Proceedings of the Aristotelian Society, Supplementary Volumes, 60: 97–136.

Sonnenberg, L., Gelsomin, E., Levy, D. E., Riis, J., Barraclough, S., and Thorndike, A. N. (2013). A traffic light food labeling intervention increases consumer awareness of health and healthy choices at the point-of-purchase. Preventive Medicine, 57(4): 253–257.

Spanos, N. P. and Gottlieb, J. (1976). Ergotism and the Salem Village Witch Trials. Science, 194(4272): 1390–1394.

Spellman, B. A. (1996). Acting as Intuitive Scientists: Contingency Judgments Are Made while Controlling for Alternative Potential Causes. Psychological Science, 7(6): 337–342.

Spellman, B. A. and Kincannon, A. (2001). The Relation between Counterfactual (“But for”) and Causal Reasoning: Experimental Findings and Implications for Jurors’ Decisions. Law and Contemporary Problems, 64(4): 241–264.

Spencer, S. J., Steele, C. M., and Quinn, D. M. (1999). Stereotype Threat and Women’s Math Performance. Journal of Experimental Social Psychology, 35(1): 4–28.

Spirtes, P. (2005). Graphical models, causal inference, and econometric models. Journal of Economic Methodology, 12(1): 3–34.

Spirtes, P., Glymour, C., and Scheines, R. (2000). Causation, Prediction, and Search, 2nd edition. The MIT Press, Cambridge, MA. First published 1993.

Spirtes, P., Meek, C., and Richardson, T. (1995). Causal Inference in the Presence of Latent Variables and Selection Bias. In Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence.

Starr, S. B. (2014). Evidence-Based Sentencing and the Scientific Rationalization of Discrimination. Stanford Law Review, 66: 803.

Steyvers, M., Tenenbaum, J. B., Wagenmakers, E. J., and Blum, B. (2003). Inferring causal networks from observations and interventions. Cognitive Science, 27(3): 453–489.

Stone, N. J., Robinson, J., Lichtenstein, A. H., Merz, C. N. B., Blum, C. B., Eckel, R. H., Goldberg, A. C., Gordon, D., Levy, D., Lloyd-Jones, D. M., McBride, P., Schwartz, J. S., Shero, S. T., Smith, S. C., Watson, K., and Wilson, P. W. (2013). 2013 ACC/AHA Guideline on the Treatment of Blood Cholesterol to Reduce Atherosclerotic Cardiovascular Risk in Adults: A Report of the American College of Cardiology/American Heart Association Task Force on Practice Guidelines. Journal of the American College of Cardiology, 63(25): 2889–2934.

Stoppard, T. (director). (1990). Rosencrantz & Guildenstern Are Dead [Motion picture]. Cinecom Pictures, New York.

Subbotsky, E. (2004). Magical thinking in judgments of causation: Can anomalous phenomena affect ontological causal beliefs in children and adults? British Journal of Developmental Psychology, 22(1): 123–152.

Sudman, S. and Blair, E. (1999). Sampling in the Twenty-First Century. Journal of the Academy of Marketing Science, 27(2): 269–277.

Sullivan, W. (1982). New Study Backs Thesis on Witches. The New York Times, August: p. 30.

Suppes, P. (1970). A Probabilistic Theory of Causality. North-Holland, Amsterdam.

Susser, M. (1991). What is a Cause and How Do We Know One? A Grammar for Pragmatic Epidemiology. American Journal of Epidemiology, 133(7): 635–648.

Swartz, J. J., Braxton, D., and Viera, A. J. (2011). Calorie menu labeling on quick-service restaurant menus: An updated systematic review of the literature. International Journal of Behavioral Nutrition and Physical Activity, 8(1): 135.

Takao, K. and Miyakawa, T. (2014). Genomic responses in mouse models greatly mimic human inflammatory diseases. Proceedings of the National Academy of Sciences, 112(4): 1167–1172.

Tatonetti, N. P., Denny, J. C., Murphy, S. N., Fernald, G. H., Krishnan, G., Castro, V., Yue, P., Tsau, P. S., Kohane, I., Roden, D. M., and Altman, R. B. (2011). Detecting Drug Interactions From Adverse-Event Reports: Interaction Between Paroxetine and Pravastatin Increases Blood Glucose Levels. Clinical Pharmacology & Therapeutics, 90(1): 133–142.

Thompson, W. C. and Schumann, E. L. (1987). Interpretation of statistical evidence in criminal trials: The prosecutor’s fallacy and the defense attorney’s fallacy. Law and Human Behavior, 11(3): 167–187.

Thurman, W. N. and Fisher, M. E. (1988). Chickens, Eggs, and Causality, or Which Came First? American Journal of Agricultural Economics, 70(2): 237–238.

Tulppo, M. P., Hautala, A. J., Mäkikallio, T. H., Laukkanen, R. T., Nissilä, S., Hughson, R. L., and Huikuri, H. V. (2003). Effects of aerobic training on heart rate dynamics in sedentary subjects. Journal of Applied Physiology, 95(1): 364–372.

Turner, E. H., Matthews, A. M., Linardatos, E., Tell, R. A., and Rosenthal, R. (2008). Selective Publication of Antidepressant Trials and Its Influence on Apparent Efficacy. The New England Journal of Medicine, 358(3): 252–260.

Tversky, A. and Kahneman, D. (1974). Judgment under Uncertainty: Heuristics and Biases. Science, 185(4157): 1124–1131.

Uttich, K. and Lombrozo, T. (2010). Norms inform mental state ascriptions: A rational explanation for the side-effect effect. Cognition, 116(1): 87–100.

Vandenbroucke, J. P. (2004). When are observational studies as credible as randomised trials? The Lancet, 363(9422): 1728–1731.

Vickers, A. (2010). What is a P-value anyway?: 34 stories to help you actually understand statistics. Addison-Wesley, Boston.

Vlahos, J. (2012). The Case of the Sleeping Slayer. Scientific American, 307(3): 48–53.

Waldmann, M. R. and Hagmayer, Y. (2005). Seeing Versus Doing: Two Modes of Accessing Causal Knowledge. Journal of Experimental Psychology: Learning, Memory, and Cognition, 31(2): 216–227.

Ward, A. C. (2009). The role of causal criteria in causal inferences: Bradford Hill’s “aspects of association.” Epidemiologic Perspectives & Innovations, 6(1): 2.

Watts, D. J. (2011). Everything Is Obvious: How Common Sense Fails Us. Crown Business, New York.

Waxman, O. B. (2012). Secret to Winning a Nobel Prize? Eat More Chocolate. TIME.com . Retrieved from http://healthland.time.com/2012/10/12/can-eating-chocolate-help-you-win-a-nobel-prize/ .

Weiss, N. S. (2002). Can the “Specificity” of an Association be Rehabilitated as a Basis for Supporting a Causal Hypothesis? Epidemiology, 13(1): 6–8.

White, P. (2013). Apportionment of responsibility in medical negligence. North East Law Review, 1: 147–151.

Wicks, P., Vaughan, T. E., Massagli, M. P., and Heywood, J. (2011). Accelerated clinical discovery using self-reported patient data collected online and a patient-matching algorithm. Nature Biotechnology, 29(5): 411–414.

Wiener, N. (1956). The theory of prediction. In E. Beckenbach (ed.), Modern Mathematics for the Engineer, pp. 165–190. McGraw-Hill, New York.

Wolpert, D. H. and Macready, W. G. (1997). No free lunch theorems for optimization. IEEE Transactions on Evolutionary Computation, 1(1): 67–82.

Woodward, J. (2005). Making Things Happen: A Theory of Causal Explanation. Oxford University Press, New York.

Woolf, A. (2000). Witchcraft or Mycotoxin? The Salem Witch Trials. Clinical Toxicology, 38(4): 457–460.

Wright, R. W. (1985). Causation in Tort Law. California Law Review, 73(6): 1735–1828.

Wright, R. W. (1987). Causation, Responsibility, Risk, Probability, Naked Statistics, and Proof: Pruning the Bramble Bush by Clarifying the Concepts. Iowa Law Review, 73: 1001–1077.

Wright, R. W. (2007). Acts and Omissions as Positive and Negative Causes. In J. W. Neyers, E. Chamberlain, and S. G. A. Pitel (eds.), Emerging Issues in Tort Law, pp. 287–307. Hart Publishing, Oxford.

Writing Group for the Women’s Health Initiative Investigators (2002). Risks and Benefits of Estrogen Plus Progestin in Healthy Postmenopausal Women: Principal Results From the Women’s Health Initiative Randomized Controlled Trial. JAMA, 288(3): 321–333.

Young, S. S. and Karr, A. (2011). Deming, data and observational studies. Significance, 8(3): 116–120.

Yule, G. U. (1903). Notes on the Theory of Association of Attributes in Statistics. Biometrika, 2(2): 121–134.

Zou, X., Tam, K.-P., Morris, M. W., Lee, S.-L., Lau, I. Y.-M., and Chiu, C.-Y. (2009). Culture as common sense: Perceived consensus versus personal beliefs as mechanisms of cultural influence. Journal of Personality and Social Psychology, 97(4): 579–597.

 

Эту книгу хорошо дополняют:

Тим Филлипс

Чарльз Уилан

Грейди Клейн и Алан Дебни

Марк Джеффри

Ссылки

[1] Фандрайзинг ( англ . fundraising) – привлечение денежных и иных ресурсов (человеческих, материальных, информационных и т. д.), которые организация не может обеспечить самостоятельно и которые необходимы для реализации определенного проекта или деятельности. Прим. ред .

[2] Гипогликемия – патологическое состояние, которое характеризуется низким уровнем содержания глюкозы в крови (ниже 3,3 ммоль/л). Прим. ред .

[3] Каузальный (от лат . causa – «причина») – причинный, обусловленный, причинно-следственный. Прим. ред .

[4] Солиситор – категория адвокатов в Великобритании, ведущих подготовку судебных материалов для ведения дел барристерами – адвокатами высшего ранга. Прим. ред.

[5] Статистические сведения, использованные Мидоу, можно найти в Fleming et al. (2000). Комментарии Мидоу относительно его использования этой статистики см. Meadow (2002).

[6] Мидоу, использовавший эти цифры в свидетельских показаниях, был признан виновным в нарушении профессиональной этики и вычеркнут из медицинских списков, лишившись возможности практиковать (позже апелляционная комиссия восстановила его в правах).

[7] См. Thompson and Schumann (1987). Еще один известный пример – дело Люсии де Берк, голландской медсестры, которая, как и Кларк, была несправедливо обвинена, но позднее оправдана. Де Берк обслуживала ряд пациентов, которые неожиданно скончались, и эксперт-свидетель рассчитал, что вероятность случайного смертельного исхода составляла 1: 342 000 000. Подробнее о деле Люсии де Берк см. Buchana (2007). Как и в деле Кларк, эта цифра равнялась шансам на невиновность де Берк, при этом обвинение утверждало: вероятность столь ничтожна, что наверняка должна быть ложной.

[8] Следует иметь в виду, что СВДС – не единственная возможная причина смерти младенцев. Действительно, в деле Кларк имелось важное свидетельство о том, что один ребенок имел бактериальную инфекцию, которая могла привести к смерти. Однако это свидетельство не было представлено патологоанатомом (позднее его обвинили в серьезном профессиональном нарушении и лишили права заниматься практикой на три года).

[9] Mega Millions – популярная американская лотерея, проходящая в 44 штатах, округе Колумбия и на Виргинских островах. Она основана на базе 12 лотерей, проводившихся в США, первый тираж состоялся в 2002 году. Минимальный анонсируемый джекпот Mega Millions – 15 млн долларов, а самый крупный разыгранный суперприз составил 656 млн долларов. Прим. ред.

[10] Рассуждения Аристотеля о причинности можно найти в Aristotle (1924, 1936). For an introduction to causality in ancient Greece, см. Broadie (2009).

[11] Фома Аквинский (ок. 1225–1274) – итальянский философ и теолог, систематизатор ортодоксальной схоластики, учитель церкви, основатель томизма, член ордена доминиканцев. С 1879 года признан наиболее авторитетным католическим религиозным философом, связавшим христианское вероучение с философией Аристотеля. Сформулировал пять доказательств бытия Бога. Прим. ред.

[12] Дэвид Юм (1711–1776) – шотландский философ, представитель эмпиризма, психологического атомизма, номинализма и скептицизма, агностик, экономист и историк, публицист, один из крупнейших деятелей шотландского Просвещения. Прим. ред.

[13] Hume (1739, 1748).

[14] См. Hripcsak et al. (2009), где подробно рассказывается о взаимозависимости специфичности и неопределенности временн ы х суждений.

[15] См., например, Lagnado and Speekenbrink (2010).

[16] Отметим, что Юм не согласился бы с такой оценкой, поскольку был убежден: если между причиной и следствием есть временн а я задержка или пространственный разрыв, можно найти цепочку близких по времени или месту непосредственных причин, которые связывают их.

[17] Конъюнкция – от лат . conjunctio – «союз, связь». Прим. ред .

[18] Иммануил Кант (1724–1804) – немецкий философ, родоначальник немецкой классической философии, стоящий на грани эпох Просвещения и романтизма. Прим. ред.

[19] Подробности см. Kant (1902, 1998).

[20] Подробности см. Cartwright (1999, 2004) и Skyrms (1984).

[21] Джон Мэки (1917–1981) – австралийский философ. Внес значительный вклад в философию религии, метафизику, философию языка. Прим. ред .

[22] Mackie (1974).

[23] Патрик Суппес (1922–2014) – американский философ, логик и психолог. Область его исследований – от общих до специальных вопросов философии физики, психологии и педагогики. Развивал вероятностную концепцию причинности, был резко против лапласовского детерминизма, концепций абсолютной достоверности и полноты научного знания. Прим. ред.

[24] Suppes (1970).

[25] Lewis (1973).

[26] Джуда Перл (р. 1936) – американо-израильский ученый, автор математического аппарата байесовских сетей, создатель математической и алгоритмической базы вероятностного вывода, автор алгоритма распространения доверия для графических вероятностных моделей, do-исчисления и исчисления противофактических условных. В 2011 году стал лауреатом премии Тьюринга за «фундаментальный вклад в искусственный интеллект посредством разработки исчисления для проведения вероятностных и причинно-следственных рассуждений». Прим. ред.

[27] Техническое вступление к этой работе можно найти у Pearl (2000) и Spirtes et al. (2000).

[28] Lind (1757).

[29] Snow (1855).

[30] Koch (1932).

[31] Hill (1965).

[32] ЭЭГ – электроэнцефалограмма; МРТ – магнитно-резонансная томография. Прим. перев.

[33] Клайв Грэнджер (1934–2009) – английский экономист, лауреат Нобелевской премии по экономике (2003) «за разработку методов анализа экономических временных рядов с общими трендами». Прим. ред .

[34] Granger (1980).

[35] Чтобы познакомиться с экспериментальной психологией, см. Alexander (2012) и Knobe and Nichols (2008).

[36] Это яркий пример ситуации, когда в каузальных суждениях есть культурные различия. К примеру, одни рассматривают навык как врожденную способность, которой люди либо обладают, либо нет, а другие считают, что он может меняться в зависимости от контекста и прилагаемых усилий.

[37] Праймериз (первичные, предварительные выборы) – тип голосования, в котором выбирается один кандидат от политической партии. Прим. ред.

[38] Appelbaum (2011).

[39] Прекрасный комикс, иллюстрирующий все случайные паттерны, можно найти на http://xkcd.com/1122/ .

[40] Уже избран 45-й президент США – Дональд Трамп. Прим. перев.

[41] Иммунный ответ – сложная многокомпонентная, кооперативная реакция иммунной системы организма, индуцированная антигеном, уже распознанным как чужеродный, и направленная на его элиминацию (исключение). Явление иммунного ответа лежит в основе иммунитета. Прим. перев .

[42] Аллель (от греч . аllelon – друг друга, взаимно) – аллеломорфа, одно из возможных структурных состояний гена. Прим. ред.

[43] Caporael (1976).

[44] Matossian (1989).

[45] Spanos and Gottlieb (1976).

[46] Spanos and Gottlieb (1976); Woolf (2000).

[47] Sullivan (1982).

[48] Перцепция ( лат . perceptio – представление, восприятие, от percipio – ощущаю, воспринимаю) – то же, что восприятие. Прим. ред .

[49] Schlottmann and Shanks (1992).

[50] Roser et al. (2005).

[51] Альберт Мишотт (1881–1965) – бельгийский психолог, доктор философии, специалист в области психологии восприятия. Особую известность ему принесли эксперименты по изучению восприятия причинности и сохранения объекта (эффект туннеля). Прим. ред.

[52] Michotte (1946).

[53] Leslie (1982); Leslie and Keeble (1987). Обратите внимание, что в другом исследовании шесть месяцев спустя были получены сходные результаты с последовательностью не просто запускающих, но и «догоняющих» событий (Schlottmann et al., 2012).

[54] Oakes (1994).

[55] Cohen et al. (1999).

[56] Schlottmann et al. (2002).

[57] Schlottmann (1999).

[58] Окулография (айтрекинг) – это отслеживание движения глаз относительно определенной плоской поверхности (например, экрана). Прежде всего регистрируются моменты задержки взгляда в определенном месте, а также скорость движения взгляда. Для окулографии используются так называемые айтрекеры (отслеживатели глаз). Прим. перев.

[59] Badler et al. (2010).

[60] Badler et al. (2012).

[61] Тайминг – временное соотношение, хронометраж. Прим. ред .

[62] Больше о связи между механистическими и ковариантными теориями см. Danks (2005).

[63] Что интересно: шестилетние дети изначально скептически относились к волшебству, но с готовностью меняли свое мнение при очевидных доказательствах обратного (Subbotsky, 2004).

[64] Rescorla and Wagner (1972); Shanks (1995).

[65] Подробнее о психологических теориях см. Cheng and Novick (1990, 1992) (разница вероятностей), Cheng (1997) (сила причинности) и Novick and Chen (2004) (сила причинности).

[66] Gopnik et al. (2001); Sobel and Kirkham (2006).

[67] Gweon and Schulz (2011).

[68] Sobel et al. (2004).

[69] Shanks (1985); Spellman (1996).

[70] Sobel et al. (2004). Обратите внимание, что на этапе обучения им показывали механизм, который сам заводит машину, то есть дети знали, что механизм может работать самостоятельно.

[71] Общий обзор см. Holyoak and Cheng (2011).

[72] Ahn and Kalish (2000).

[73] Ahn and Bailenson (1996).

[74] Ahn et al. (1995).

[75] Fugelsang and Thompson (2003).

[76] Griffiths et al. (2011). Подробнее об интеграции механистической и ковариантной информации см. Perales et al. (2010).

[77] См. Gopnik et al. (2004); Griffiths and Tenenbaum (2005).

[78] Общий обзор см. Lagnado et al. (2007).

[79] Lagnado and Sloman (2004); Steyvers et al. (2003).

[80] Schulz et al. (2007). В других работах роль вмешательств увязывалась с логико-математической формализацией байесовских сетей. См. Gopnik et al. (2004); Waldmann and Hagmayer (2005).

[81] Kushnir and Gopnik (2005); Sobel and Kushnir (2006).

[82] Полное описание «проблемы ручек» см. Knobe and Fraser (2008).

[83] Джошуа Кноб – профессор философии Йельского университета. Благодаря применению новых научных методов ему удалось сделать одно из самых знаменитых открытий, известное как эффект Кноба: человеческое суждение может считаться преднамеренным в зависимости от того, хорошие или плохие у него последствия. Прим. ред .

[84] Об открытии эффекта Кноба и подробное описание эксперимента с председателем см. Knobe (2003).

[85] Примеры см. Knobe and Mendlow (2004); Nadelhoffer (2004); Uttich and Lombrozo (2010).

[86] Lagnado and Channon (2008).

[87] В оригинале статьи парк, где проводилось исследование, не был назван, как и возраст и демографические характеристики участников. В последующей работе (Meeks, 2004) указывалось, что имелись в виду Вашингтон-сквер в центре Нью-Йоркского университета и Томпкинс-сквер, где любят бывать студенты и молодежь. В интервью Кноб упомянул, что набирал участников и в Центральном парке, и в Вашингтон-сквер и обнаружил статистически значимые различия в их ответах, хотя в опубликованную работу они не вошли. См. http://www.full-stop.net/2012/03/07/interviews/michael-schapira/joshua-knobe-part-2/ .

[88] Cushman (2008).

[89] Подробнее о взглядах на нормы см. Hitchcock and Knobe (2009).

[90] Alicke et al. (2011).

[91] Подробнее об этом см. Malle et al. (2014), а также развернутые ответы в том же выпуске журнала.

[92] Henrich et al. (2010).

[93] Choi et al. (2003).

[94] Choi et al. (1999); Morris and Peng (1994).

[95] Norenzayan and Schwarz (1999).

[96] Zou et al. (2009).

[97] Большинство исследователей не сумели продемонстрировать культурные различия в каузальной атрибуции физических событий или причинном восприятии, хотя некоторые все же показали разницу свойств, упоминавшихся в объяснениях (Peng and Knowles, 2003), и в движениях глаз во время восприятия сценки (Chua et al., 2005).

[98] Не всегда можно однозначно определить, что представляет собой плацебо, и то, что будет плацебо в одной ситуации, в другой таковым не будет. Подробнее см. Grünbaum (1981) and Howick (2011).

[99] Kaptchuk et al. (2010).

[100] Damisch et al. (2010).

[101] Spencer et al. (1999).

[102] Pronin et al. (2006).

[103] XMR (XMRV) – ретровирус; xenotropic murine leukaemia virus-related virus – ксенотропный вирус мышиной лейкемии. Ученым пока неизвестно точно, на самом ли деле вирус вызывает синдром хронической усталости или его размножение идет лучше в организме людей с нарушенной выработкой антивирусного фермента, но полагают, что именно вирус вызывает СХУ. Прим. ред.

[104] Lombardi et al. (2009).

[105] Обзорный материал, где обсуждаются некоторые из множества существующих исследований и теорий, см. Afari an Buchwald (2003).

[106] Краткое резюме трудностей, встречающихся при исследовании СХУ, включая различия в дефинициях, см. Holgate et al. (2011).

[107] Среди исследований, в рамках которых не удалось реплицировать взаимосвязь СХУ/XMRV, Erlwein et al. (2010) и van Kuppeveld et al. (2010).

[108] Lo et al. (2010).

[109] Вторую из вышедших статей авторы отозвали (Lo et al., 2012), а статья группы Миковитц в Science была отозвана некоторыми из авторов сначала частично (Silverman et al., 2011), а потом целиком (Alberts, 2011).

[110] Другие группы показали, какими могут быть результаты при заражении XMRV, и определили, что вирус в действительности был создан в лаборатории путем рекомбинирования двух других вирусов. Четыре материала, опубликованные в журнале Retrovirology, рассматривали вопрос заражения (Hué et al., 2010; Oakes et al., 2010; Robinson et al., 2010; Sato et al., 2010), а позднейшая работа исследовала происхождение XMRV (Paprotka et al., 2011).

[111] Cohen (2011).

[112] Alter et al. (2012).

[113] В математическом выражении коэффициент корреляции Пирсона (предложенный Карлом Пирсоном) выглядит так:

FB2Library.Elements.ImageItem

[113] где  #i_058.jpg обозначает среднее значение. Обратите внимание: в числителе мы суммируем производное величины отклонения Х и  Y в одной измеренной точке от их средних значений. В знаменателе получаем индивидуальную вариацию.

[114] Коэффициент корреляции Пирсона предусматривает деление на производное стандартных отклонений переменных. Тогда, если какое-либо стандартное отклонение равно нулю, показатель будет неопределенным, как результат деления на ноль.

[115] Salganik et al. (2006), к примеру, показали один из вариантов непредсказуемого исхода ситуации, когда песня должна была стать хитом, поскольку успех определяется не только и единственно качеством. Подробнее об этом см. Watts (2011).

[116] Неквантованный – то есть не преобразованный из непрерывной формы в дискретную (прерывную), не оцифрованный. Прим. ред .

[117] Фи-коэффициент применяется для анализа связи между двумя бинарными переменными. Прим. науч. ред.

[118] Noseworthy et al. (1994).

[119] Подробнее о других когнитивных смещениях см. Tversky and Kahnema (1974).

[120] Patberg and Rasker (2004); Redelmeier and Tversky (1996).

[121] DuHigg (2012).

[122] IMDb (The Internet Movie Database) – интерактивная база данных, связанная с фильмами, телевизионными программами и видеоиграми, включая актеров, производство, биографии, сюжет и рецензии. Прим. ред .

[123] Narayanan and Shmatikov (2008).

[124] Супербоул ( англ . Super Bowl) – так в американском футболе называется матч за звание чемпиона Национальной футбольной лиги. Матч и сопутствующие ему торжественные мероприятия Super Bowl Sunday превратились в США в национальный праздник. Прим. перев .

[125] Koppett (1978).

[126] Messerli (2012).

[127] Pritchard (2012).

[128] Waxman (2012).

[129] Höfer et al. (2004); Matthews (2000).

[130] Linthwaite and Fuller (2013).

[131] Heeger and Ress (2002).

[132] P -значение ( англ . p-value) – величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью p -значения служит альтернативой классической процедуре проверки через критическое значение распределения . Прим. ред .

[133] Bennett et al. (2011).

[134] Вообще, более привычна обратная постановка: нуль-гипотеза – причинной зависимости нет, альтернативная – зависимость есть. Таким образом, стандартное исследование сводится к попытке отвергнуть нуль-гипотезу на некотором заранее выбранном уровне. То есть если получаем p=0,000001, значит можем отвергнуть нуль-гипотезу об отсутствии зависимости на уровне 0,001. Иными словами, p-величину можно рассматривать как вероятность получения нехарактерного результата при истинности нуль-гипотезы. Прим. науч. ред.

[135] Fisher (1925) изначально предположил, что значение 0,05 может хорошо работать, а не то, что его следует применять во всех случаях.

[136] Stoppard (1990). Интересно, что количество орлов, выпадающих подряд, увеличилось со времени первой игры.

[137] P -значение равно 0,022, так как вероятность 10 орлов (или 10 решек) равна 0,001, а вероятность 9 орлов (или 9 решек) – 0,01, и мы складываем эти значения.

[138] Подробное (техническое) введение в корректировку при тестировании множества гипотез см. Efron (2010).

[139] Больше о точке зрения, что не стоит проводить корректировку для множественных сравнений, см. Rothman (1990).

[140] В главе 6 мы рассмотрим вопрос подробнее и увидим, как эти так называемые нарушения допущений о верности влияют на нашу способность определять причины вычислительными методами.

[141] Leibovici (2001). Отклики на статью были опубликованы в выпуске BMJ от 27 апреля 2002 г.

[142] Еще одно возможное определение, учитывающее аспект асимметрии, гласит, что вмешательство в причину изменяет следствие, в то время как вмешательство в следствие влияния на причину не оказывает. Здесь, однако, иные затруднения, поскольку часто мы не можем вмешиваться вообще или делать так, чтобы вмешательство более ничего не изменяло.

[143] Michotte (1946).

[144] Подробнее об этом см. Joynson (1971).

[145] Michotte (1946), 69, 166. Точные описания, данные участниками исследования, и количество участников, использовавших каждое из описаний, не приводятся.

[146] Michotte (1946), 63.

[147] В ранней работе Heider and Simmel (1944) создали аналогичный, только более длинный видеофильм, где были зафиксированы сложные движения. Участники по собственному почину описывали события в терминах одушевленных объектов, которые имеют собственные намерения и заняты различными видами деятельности, например сражаются и преследуют друг друга, хотя объектами были всего лишь треугольники и круги.

[148] Michotte (1946), 249, 347.

[149] 64 % участников у Beasley (1968) описывали движение как причинно зависимое, в то время как у Gemelli and Cappellini (1958) – 87 %.

[150] Michotte (1946), 347.

[151] Buehner and May (2004).

[152] Greville and Buehner (2010); Lagnado and Speekenbrink (2010).

[153] Faro et al. (2013).

[154] Bechlivanidis and Lagnado (2013).

[155] Когортное исследование – проспективное исследование факторов, которые могут послужить причиной развития того или иного заболевания. В ходе когортного исследования из лиц без изучаемого клинического исхода формируются две группы, в одной из которых участники подвергаются воздействию вредного фактора, а в другой нет. Прим. перев .

[156] Поскольку дружеские отношения часто устанавливаются между людьми, обладающими множеством сходных черт (похожие личности или одинаковое окружение), в целом невозможно провести различие между этими объяснениями, даже имея данные о временн ы х паттернах, вследствие искажающего эффекта таких (часто ненаблюдаемых) общих свойств. См. Shalizi an Thomas (2011).

[157] Ганс Рейхенбах (1891–1953) – немецко-американский философ, представитель логического позитивизма, основатель Берлинского общества научной философии. Прим. ред.

[158] Reichenbach (1956).

[159] Введение в байесовские сети см. Scheines (1997).

[160] ЭПР-парадокс – попытка указания на неполноту квантовой механики с помощью мысленного эксперимента, заключающегося в измерении параметров микрообъекта косвенным образом, без воздействия на объект. Прим. ред .

[161] Einstein et al. (1935).

[162] Born and Einstein (1971).

[163] Хотя парадокс Эйнштейна – Подольского – Розена (ЭПР) был изначально предложен в качестве мысленного эксперимента, позднее он был экспериментально продемонстрирован Ou et al. (1992).

[164] Обзор проблемы см. Cushing (1998).

[165] Подробнее о времени и путешествиях во времени см. Price (1997) and Lewis (1976).

[166] Эта корреляция взята с сайта, который автоматически генерирует корреляции между различными временн ы ми рядами: http://www.tylervigen.com .

[167] Пример был впервые использован в Johnson (2008). Данные об уровне смертности взяты с http://www-fars.nhtsa.dot.gov/Main/index.aspx . Сведения по лимонам оценивались исходя из оригинальных цифр в Johnson (2008).

[168] Информация с сайтов http://www.autismspeaks.org и http://www.telegraph.co.uk/finance/newsbysector/retailandconsumer/8505866/Forty-years-young-A-history-of Starbucks.html .

[169] Домохозяйство (household) – это субъект экономики, который состоит из одного ведущего самостоятельное хозяйство индивидуума или, чаще, группы людей, живущих совместно и ведущих общее хозяйство. Как правило, такая группа лиц объединена родственными или семейными связями. Прим. ред .

[170] Stone et al. (2013).

[171] Ridker and Cook (2013).

[172] См. http://www.cdc.gov/tobacco/data_statistics/fact_sheets/fast_facts/ .

[173] Велись дискуссии относительно этой критики калькулятора, некоторые утверждали, что сравнения когорт занижали данные о случаях инсультов и сердечных приступов. См. Muntner et al. (2014).

[174] Эллиот Собер (1948) – профессор Висконсинского университета в Мэдисоне. Известен работами в философии биологии и общей философии науки. Прим. ред .

[175] Sober (1987, 2001).

[176] Можно повторно дифференцировать данные или проводить различение по годам, чтобы устранить сезонный фактор. Классические тесты на стационарность см. Dickey and Fuller (1981); Kwiatkowski et al. (1992).

[177] Аргументацию против дифференциации см. Reiss (2007).

[178] Синдром Кавасаки – детское острое лихорадочное заболевание, характеризующееся поражением коронарных и других сосудов с возможным образованием аневризм, тромбозов и разрывов сосудистой стенки. Прим. перев .

[179] Newburger et al. (2004).

[180] Seinfeld («Сайнфелд») – американский телесериал, транслировавшийся с 1989 по 1998 год. В 2002 году стал первым в списке 50 лучших телешоу, по версии журнала TV. Прим. перев .

[181] David et al. (1991).

[182] В работе, откуда взята эта статистика, на самом деле сказано так: «Тем, кто окончил школу, трудится полный рабочий день и вступает в брак, прежде чем завести детей, гарантировано место в среднем классе. Всего около 2 % этой группы живут в бедности» (Haskins and Sawhill, 2009, 9).

[183] Существуют определенные доказательства идеи: если главным препятствием становится нехватка средств, денежные переводы могут быть эффективным вмешательством. См. Baird et al. (2013) для сравнения условных и безусловных программ и Haushofer and Shapiro (2013) для обзора одной безусловной программы денежных переводов.

[184] 16 and Pregnant («Беременна в 16») – реалити-шоу на телеканале MTV. Серия эпизодов, созданных в документальном стиле, об очень молодых беременных девушках. Они еще учатся в школе, не зарабатывают, живут с родителями, они сами еще дети. Каждый выпуск рассказывает об одной девушке на 4–9-м месяце беременности, захватывает и несколько месяцев жизни новорожденного. Прим. ред .

[185] «Фрамингемское исследование сердца» проводится Национальным институтом сердца во Фрамингеме (Массачусетс) на протяжении десятков лет. Это позволило разработать концепцию факторов риска, связанных с холестерином, артериальным давлением, физической активностью, курением и ожирением. Программа еще продолжается. В эксперименте задействованы уже четыре поколения жителей города. Прим. ред.

[186] Это исследование отслеживает состояние здоровья многих поколений жителей Фрамингема. Подробную информацию см. http://www.framinghamheartstudy.org .

[187] Джон Милль (1806–1873) – британский философ, экономист и политический деятель. Внес значительный вклад в обществознание, политологию и политическую экономию. Считается наиболее заметным англоязычным философом XIX века. Прим. ред .

[188] Mill (1843).

[189] Есть другое значение достаточности, которое относится к вычислительным методам. Здесь определяется, какие переменные включены в массив данных.

[190] В зависимости от гипотетических механизмов действия (как именно причина производит следствие) может возникнуть случай, когда зависимость должна быть детерминирована.

[191] Corrao et al. (2000).

[192] Nieman (1994).

[193] Mostofsky et al. (2012).

[194] Snow (1855).

[195] Snow (1854).

[196] Snow (1854).

[197] Кеннет Ротман (р. 1945) – американский эпидемиолог, профессор эпидемиологии в школе общественного здравоохранения Бостонского университета, почетный член RTI International. Прим. ред .

[198] Rothman (1976).

[199] Джон Маки (1953) – один из основателей компании Whole Foods Market, которая начиналась с магазина натуральных продуктов и выросла до списка Fortune 300 и сети из 347 магазинов. Соучредитель движения «Сознательный капитализм». Многократно попадал в списки лучших предпринимателей США. Прим. ред .

[200] Mackie (1974).

[201] VO 2 max (МПК, максимальное потребление кислорода, максимальная аэробная мощность) – это максимальный объем кислорода (в кубических миллиметрах), потребляемый за 1 минуту, деленный на 1 килограмм массы тела. Измеряется при максимальной нагрузке. Означает способность организма усваивать кислород. Чем больше ваш VO 2 max, тем лучше и быстрее кислород попадает в мускулы и тем дольше и быстрее вы бежите. Чтобы похудеть, необходимо повышать VO 2 max. Показатель влияет на общую эффективность бега и выносливость сердечно-сосудистой системы. Прим. ред .

[202] Микродиализ – это сложный метод прижизненного определения биохимических параметров в ткани органа. Прим. ред .

[203] Carey (2013).

[204] Dwyer (2013).

[205] Carey (2012).

[206] Введение в понятие статистической мощности см. Vickers, 2010.

[207] Показатели несколько варьируются по странам, однако есть ряд масштабных регистровых исследований субарахноидального кровоизлияния, где приводятся аналогичные цифры (Korja et al., 2013; de Rooij et al., 2007; Sandvei et al., 2011).

[208] Диаграммы Маримекко – это составные диаграммы, на которых ширина столбца пропорциональна общей сумме значений столбца. Высота отдельных сегментов представляет собой процент от общего значения соответствующего столбца. Прим. ред .

[209] Т , tails – решка, Н , heads – орел (как сторона монеты) ( англ .). Прим. ред.

[210] Эйкосограммы, использующиеся для отображения вероятностей, введены Cherry and Oldford (2003).

[211] Maurage et al. (2013).

[212] Подробнее об экранировании см. Reichenbach (1956).

[213] Машинное обучение – обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей и дискретного анализа и извлекающая знания из данных. Прим. ред.

[214] Парадокс Симпсона (парадокс Юла – Симпсона) – эффект в статистике, когда при объединении двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, направление зависимости меняется на противоположное. Это явление было описано У. Юлом в 1903 году и Э. Симпсоном в 1951 году. Название впервые предложил К. Блайт. Однако, так как Симпсон не был первооткрывателем этого эффекта, порой используются и безличные названия, например «парадокс объединения». Прим. ред.

[215] Симпсон (1951) известен популяризацией кажущихся парадоксальными результатов, которые могут образоваться на основе этого взаимодействия подгрупп. Ранее, однако, это явление было описано в Yule (1903), поэтому иногда его называют «парадокс Юла – Симпсона». Можно также отнести его к Pearson et al. (1899), которые работали с Юлом.

[216] Baker and Kramer (2001).

[217] Bickel et al. (1975).

[218] Radelet and Pierce (1991).

[219] Simpson (1951), 241.

[220] Подробнее об обсуждении парадокса Симпсона и попытках решить эту проблему см. Hernan et al. (2011); Pearl (2014).

[221] Hume (1739), 172.

[222] Подробнее об этом см. Lewis (1986b).

[223] Подробнее о структурных уравнениях и контрфактуальных утверждениях см. Pearl (2000); Woodward (2005).

[224] Льюис (2000) позднее пересмотрел свою теорию контрфактуальности, чтобы можно было учитывать характер наступления следствия, и различия в следствии наблюдались безотносительно различий в этом характере.

[225] «Как я встретил вашу маму» (How I Met Your Mother) – американский комедийный телесериал. В основе сюжета рассказ одного из главных героев – Теда Мосби, который в 2030 году описывает своим детям события жизни его и друзей в Нью-Йорке 2000-х годов. Отличается нелинейным построением многих серий. Прим. перев.

[226] Rhonheimer and Fryman (2007).

[227] Система отчетности по неблагоприятным событиям FDA (AERS); см. http://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ .

[228] Tatonetti et al. (2011).

[229] Tatonetti et al. (2011).

[230] Рандомизация – процедура случайного распределения участников эксперимента по группам или порядка предъявления им экспериментальных условий. Также процедура, обеспечивающая случайный отбор респондентов при построении случайной выборки. Прим. ред.

[231] Один из ключевых методов – быстрое установление причинной зависимости (обозначается аббревиатурой FCI, или fast causal inference). Подробности см. Spirtes et al. (2000). Предпринимались также попытки распространить FCI на данные временн ы х рядов (Eichler, 2010; Entner and Hoyer, 2010).

[232] Meek (1995); Spirtes (2005).

[233] Подробности см. Andersen (2013).

[234] Помимо попыток придать данным стационарность, специально были разработаны методы установления причинных зависимостей в нестационарных временн ы х рядах. Например, см. Grzegorczyk and Husmeier (2009); Robinson and Hartemink (2010).

[235] Например, см. Pivovarov and Elhadad (2012).

[236] Обзорную информацию см. Scheines (1997).

[237] По этому вопросу философы высказывают противоречивые мнения. Аргументацию против см. Cartwright (2001, 2002); Freedman and Humphreys (1999).

[238] Байесовская сеть (или байесова сеть) – графическая вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей по Байесу. Математический аппарат байесовских сетей создан американским ученым Джудой Перлом. Формально это направленный ациклический граф, каждой вершине которого соответствует случайная переменная, а дуги графа кодируют отношения условной независимости между этими переменными. Прим. ред .

[239] Подробнее о байесовских сетях см. Charniak (1991).

[240] Граф – геометрическая схема, представляющая собой систему линий, которые связывают заданные точки. Прим. ред.

[241] То есть P ( B, A ) = P ( B | A ) P ( A ).

[242] Подробнее о динамических байесовских сетях см. Murphy (2002).

[243] Обзор и сравнение программного обеспечения см. http://www.cs.ubc.ca/~murphyk/Software/bnsoft.html .

[244] Один из первых методов подобного рода описан Cooper and Herskovits (1992).

[245] Общим будет байесовский информационный критерий (Schwarz, 1978).

[246] Cooper (1999).

[247] См. http://www.federalreserve.gov/faqs/currency_12773.htm .

[248] S&P 500 – фондовый индекс, в корзину которого включено 500 избранных акционерных компаний США, имеющих наибольшую капитализацию . Прим. ред .

[249] По мере роста числа переменных количество потенциальных графов увеличивается сверхэкспоненциально.

[250] Cooper and Herskovits (1992). Еще один фокус – периодически перезапускать поиск с новым графом, сгенерированным случайным образом.

[251] Один из методов, основанных на ограничениях, – FCI (Spirtes et al., 2000).

[252] Подробнее о байесовских сетях см. Cooper (1999); Spirtes et al. (2000).

[253] Аппроксимация – приближенное решение сложной функции с помощью более простых, ускоряющее и упрощающее решение задач. В экономике – укрупнение характеристик моделируемых объектов. Прим. ред .

[254] Kleinberg (2012).

[255] Обзор дан у Fitelson and Hitchcock (2011).

[256] См. Eells (1991) со средним уровнем причинной значимости.

[257] См. Kleinberg (2012). Обратите внимание, что в этой работе причины могут быть более сложными, чем переменные, и включать последовательности событий или свойства, остающиеся истинными долгое время.

[258] Подробнее о вычислениях причинной значимости и выборе предельных уровней статистической значимости см. главы 4 и 6 в Kleinberg (2012).

[259] Подробнее об этом см. Kleinberg (2012) и Efron (2010).

[260] Больше о том, как определить временной паттерн каузальных отношений на основе данных, см. главу 5 в Kleinberg (2012).

[261] См. оригинальный документ (Granger, 1980).

[262] Математики Вальтер Турман и Марк Фишер в работе Chickens, Eggs, and Causality, or Which Came First? используя аппарат математической статистики, доказали, что яйца были раньше курицы. Прим. ред .

[263] Вариант инструментария для тестирования многомерной причинности по Грэнджеру предложен у Barnet and Seth (2014). Тесты двумерной причинности имеются для многих платформ, включая R и MATLAB.

[264] Grodstein et al. (1997).

[265] Mosca et al. (1997).

[266] Hulley et al. (1998).

[267] Писательская группа исследователей «Инициативы во имя здоровья женщин» (2002).

[268] Одна из первых интервенционистских теорий причинности предложена Woodwar (2005).

[269] Holson (2009).

[270] Больше о ВКЭ в недавних политических кампаниях см. Issenberg (2012).

[271] Green (2012).

[272] Lind (1757). Больше об истории ВКЭ до и после Линда см. Bhat (2010).

[273] Lind (1757), 149.

[274] Такое имело место, к примеру, в некоторых испытаниях лекарства против СПИДа (Collins and Pinch, 2008).

[275] Такая структура имеет ряд сложностей, включая обеспечение сравнимости между группами и существенное количество кластеров (Campbell et al., 2004).

[276] Keeter et al. (2008). Подробнее об исследованиях методом опроса см. Groves et al. (2009).

[277] В некоторых экспериментах утверждение комитета по этике (IRB) не позволяет ученым использовать данные, собранные участниками, которые не дошли до конца исследования, хотя в ряде инструкций это все же требуется во избежание смещений. К примеру, в инструкциях FDA рекомендуется включать в анализ данные, собранные до выхода участников из исследования (Gabriel and Mercado, 2011).

[278] Подробнее о проблеме «утраченного контакта для дальнейшего наблюдения» см. Fewtrell et al. (2008).

[279] Историю испытаний стрептомицина см. Crofton (2006).

[280] Чтобы обеспечить гендерный баланс между группами, для мужчин и женщин разрабатывались разные задания и соответствующий конверт для каждой группы открывался по очереди.

[281] Больше об этической стороне вопроса см. Macklin (1999). Исследование перспектив для пациентов см. Frank et al. (2008).

[282] Обзор эффекта плацебо см. Price et al. (2008).

[283] Некоторые примеры см. Kaptchuk et al. (2010).

[284] Beecher (1955).

[285] Blackwell et al. (1972).

[286] Для общего ознакомления см. Schulz and Grimes (2002).

[287] Noseworthy et al. (1994).

[288] Тройной слепой метод может также означать, что люди, получающие или администрирующие лечение, а также оценивающие результаты, не знают, кто к какой группе приписан.

[289] Young and Karr (2011).

[290] Один из недавних примеров – новая модель публикации регистрационного отчета (Chambers e al., 2014).

[291] В одном исследовании сравнивались зарегистрированные и опубликованные результаты испытаний антидепрессантов, и его выводы сильно коррелировали с опубликованными результатами (Turner et al., 2008).

[292] Это не столь неправдоподобно, как может показаться. См. Boyd et al. (2005); Hajjar et al. (2007).

[293] Например, см. Rothwell (2005).

[294] Heres et al. (2006).

[295] Физиомяч – тренажер для укрепления спины. Применяется при терапевтических и профилактических разминках. Его можно широко использовать, способен служить мебелью. Прим. перев .

[296] Например, см. Moher et al. (2001).

[297] Rothwell (2005).

[298] Общий обзор см. Kravitz and Duan (2014).

[299] Отмывочный период – это интервал между двумя периодами активного лечения, в течение которого пациент получает только плацебо (и, если необходимо, дополнительную или неотложную терапию, не имеющую отношения к исследуемым препаратам). Цель отмывочного периода – удалить клинически значимые следовые количества первого препарата из организма пациента до начала приема второго. В конце отмывочного периода оценивают показатели исходного состояния пациента. Прим. перев .

[300] March et al. (1994).

[301] Kleinberg and Elhadad (2013).

[302] Обсуждение этого различия в контексте компьютерного знания см. Drummond (2009).

[303] Prinz et al. (2011).

[304] Begley and Ellis (2012).

[305] Young and Karr (2011).

[306] Klein et al. (2014).

[307] Herndon et al. (2014).

[308] К примеру, некоторые возможности, которые обеспечивает арбитражное разбирательство, исчезают после опубликования научных трудов о них (McLean and Pontiff, 2015).

[309] Подробнее о механистической причинности см. Glennan (2002); Machamer et al. (2000).

[310] Russo and Williamson (2007).

[311] Например, см. Charney and English (2012); Fowler and Dawes (2008).

[312] Эта история описана у Vlahos (2012).

[313] См. Lange (2013).

[314] Подробнее об объяснениях в области истории см. Scriven (1966).

[315] Известна история этой войны. Во время очередного переворота в Мексике (1828) голодные офицеры не расплатились за круассаны в кондитерской француза-эмигранта Ремонтеля, а в ответ на его протесты разграбили заведение. Ремонтель безрезультатно судился с властями 10 лет и в итоге обратился к королю Франции Луи-Филиппу. Франция выставила счет Мексике в 600 000 песо (средний дневной заработок рабочего был 1 песо). Страна платить отказалась. Тогда французский адмирал Шарль Боден с национальным флотом блокировал все порты Мексики, высадил десант и занял город Веракрус. Мексику принудили заплатить. Прим. ред .

[316] Кондитерская война 1938 года началась с разрушения французской кондитерской в Мексике.

[317] Подробнее об этом см. Hausman (2005). Дискуссию о некоторых проблемах см. Hitchcock (1995).

[318] Общий обзор см. Sloman and Lagnado (2015).

[319] Mandel (2003).

[320] Некоторые примеры и эксперименты, демонстрирующие этот вопрос, см. Spellman and Kincannon (2001).

[321] Cooke (2009); Cooke and Cowling (2006).

[322] Lewis (2000).

[323] Во многих исследованиях этот эффект указан у тренированных спортсменов. Он также продемонстрирован людьми, которые ранее вели малоподвижный образ жизни, а потом получили программу физических упражнений, например, см. Tulppo et al. (2003).

[324] Альтернативную точку зрению, гласящую, что в этом случае субъективность – свойство, а не недостаток, см. Halpern and Hitchcock (2010).

[325] Постполиосиндром, постполиомиелитный синдром – повторное нарастание мышечной слабости и атрофии спустя длительный период компенсации после перенесенного полиомиелита. Прим. перев .

[326] Dalakas (1995).

[327] Лихорадка денге – острое вирусное заболевание. Протекает с высокой температурой, интоксикацией, миалгией, артралгией, сыпью и увеличением лимфатических узлов. Прим. перев .

[328] Изучение этой неопределенности в медицине см. Hripcsak et al. (2009).

[329] Подробное обсуждение этого подхода см. Kleinberg (2012).

[330] Эта идея, получившая название «принцип взаимосвязи», была введена Sober and Papineau (1986).

[331] Более полное описание такого подхода см. у Kleinberg (2012).

[332] Траектории вероятности обсуждаются у Eells (1991).

[333] В Eells (1991) описывается еще две зависимости. Если вероятность не меняется, следствие не зависит от причины, а если растет и затем падает (как в первом примере контакта с больным гриппом), следствие наступает автономно.

[334] Большинство подходов сосредоточено на алгоритмах высокого уровня, а не на деталях их реализации и применения. Одно из исключений – Dash et al. (2013).

[335] Классический текст см. Hart and Honoré (1985).

[336] Saunders System Birmingham Co. против Adams (1928).

[337] Подробное обсуждение этого случая и положений закона см. Wright (2007).

[338] Fischer (2006). Подробнее об интуитивных выводах и юридических заключениях также см. Fischer (1992).

[339] Примеры подобного типа подробнее обсуждаются у Spellman and Kincanno (2001), где также содержатся примеры различных указаний присяжным.

[340] Некоторые проблемы подхода NESS см. Fumerton and Kress (2001).

[341] Necessary (N) element (E) of a sufficient (S) set (S) of conditions. Прим. перев .

[342] Подробнее см. Carpenter (1932); Wright (1987).

[343] Транзитивность (переходность) в логике определяется как свойство отношений, при котором из того, что первый элемент находится в определенном отношении ко второму, а второй – к третьему, следует, что первый элемент находится в этом же отношении к третьему (из aRb и bRc следует aRc). Прим. ред .

[344] R v. Jordan (1956).

[345] Следует отметить, что относительно этого дела есть ряд разногласий. Кроме того, высказывались доводы в пользу его неверного разрешения. См. White (2013).

[346] Lin and Gill (2009).

[347] Обзор этой практики см. Mott (2003).

[348] Lopes (1993).

[349] Р. Хасти, С. Пенрод и Н. Пеннингтон провели амбициозное исследование, подтвердившее групповую поляризацию в жюри присяжных. Они сформировали 69 жюри из граждан, исполняющих обязанности присяжных. Каждому жюри демонстрировали реконструкцию реального суда над убийцей; роли судьи и адвоката исполняли опытный судья и настоящий адвокат. Затем им предоставили неограниченное время для дискуссии. Вина подсудимого была доказана. До обсуждения 80 % присяжных проголосовали за обвинение, однако квалифицировали убийство как непредумышленное и склонялись к нестрогому наказанию. После обсуждения почти все согласились, что подсудимый виновен и это умышленное убийство. Во время дискуссии первоначальные склонности присяжных усилились. Прим. ред .

[350] Pennington and Hastie (1992).

[351] Конкретный пример того, как это сработало в деле О. Симпсона, см. Hastie and Pennington (1996).

[352] Подробнее об эффекте порядка представления доказательств см. Pennington an Hastie (1988).

[353] Дискредитация на основании взаимосвязанных свидетельств была продемонстрирована в экспериментах с импровизированными жюри присяжных (Lagnado and Harvey, 2008).

[354] Devine et al. (2001).

[355] Обзор экспериментов с реальными судьями см. Diamond and Rose (2005).

[356] Diamond et al. (2003).

[357] Подробнее о составлении историй с реальными судьями см. Conley and Conley (2009).

[358] Diamond et al. (2003), 38.

[359] Обзоры разнообразных исследований в этой области см. Swartz et al. (2011). Этот анализ позднее был расширен и обновлен, чтобы включить в него гипотетический выбор продуктов (Kiszko et al., 2014). Cм. также Krieger and Saelens (2013).

[360] Elbel et al. (2009).

[361] Carels et al. (2007).

[362] Downs et al. (2013).

[363] См. Ellison et al. (2014) и Sonnenberg et al. (2013).

[364] Bollinger et al. (2011).

[365] Например, Dumanovsky et al. (2011) рассматривает некоторые изменения в меню после принятия закона в Нью-Йорке.

[366] Kearney and Levine (2014).

[367] Vandenbroucke (2004).

[368] Как подчеркивает сатирическая статья Smith and Pell (2003), никогда не проводился ВКЭ по проверке парашютов.

[369] Hill (1965).

[370] Подробнее о том, почему его нельзя считать чек-листом, см. Rothman an Greenland (2005) и Phillips and Goodman (2004).

[371] Подробное обсуждение соображений Хилла см. Höfler (2005); Ward (2009).

[372] Erickson (1978).

[373] Подробное обсуждение этого вопроса см. Howick et al. (2009).

[374] Schoenfeld and Ioannidis (2013).

[375] Подробнее о репликациях и их оценке см. Brandt et al. (2014).

[376] Хилл (1965), например, не считал, что это может потребоваться, и другие еще сильнее противились ее включению. Хотя критика в основном касалась вопроса о том, требуются ли причины, чтобы произвести единственное следствие (Rothman and Greenland, 2005). Более позитивный взгляд на специфичность см. Weiss (2002).

[377] Этот пример взят из Weiss (2002).

[378] Hanushek (2011).

[379] См. главу 5 о дискуссии, а также Mill (1843).

[380] Snow (1854).

[381] Механизмы действия обсуждаются в главе 7 . Подробнее см. Glennan (1996) и Machamer et al. (2000).

[382] Russo and Williamson (2007).

[383] Подробнее о типах логической связности см. Susser (1991).

[384] Инвитро ( лат . in vitro – «в стекле») – технология выполнения экспериментов, когда опыты проводятся «в пробирке», вне живого организма. Прим. ред .

[385] Даже ученые, анализировавшие одинаковые данные различными методами, приходят к несхожим выводам по этой проблеме (Seok et al., 2013; Takao and Miyakawa, 2014).

[386] Обзорную информацию см. Reiss (2014).

[387] Так называемый закон Гудхарта гласит, что, как только мы применяем показатель производительности в политических целях, он более не служит точной мерой производительности. Подробнее см. Chrystal and Mizen (2003).

[388] Например, Guyatt et al. (2008); Howick et al. (2011).

[389] DeMaio (2009).

[390] Goldman et al. (2007).

[391] Buck and Buehler (2012).

[392] McLean et al. (2014).

[393] Подробное обсуждение роли поддерживающих факторов см. Cartwright (2012).

[394] Обзор проблем перевода действенности в эффективность в области здоровья см. Glasgow et al. (2003).

[395] Глюкометр – прибор для измерения уровня глюкозы в органических жидкостях (кровь, ликвор и т. п.). Прим. ред.

[396] Например, Perwien et al. (2000).

[397] Blatchford and Mortimore (1994).

[398] Bohrnstedt and Stecher (2002).

[399] Jepsen and Rivkin (2009).

[400] Bohrnstedt and Stecher (2002).

[401] Bohrnstedt and Stecher (2002).

[402] Например, сокращение численности классов необходимо сравнивать с другими инициативами, которые могут дать аналогичный исход при ином уровне затрат (Normore and Ilon, 2006). См. также Krueger (2003); Krueger and Whitmore (2001).

[403] Таргетирование (от англ . target – цель, мишень) – назначение или определение цели, создание условий и критериев для сбора. Прим. ред .

[404] Например, в Craig et al. (2008) охватывается вопрос планирования и оценки комплексных медицинских вмешательств, и многие из представленных инструкций применимы в других областях.

[405] Предложено еще в 2008 году Крисом Андерсоном на сайте Wired: Petabytes allow us to say: ‘Correlation is enough’ («Петабайты позволяют нам заявить: корреляции вполне достаточно») (Anderson, 2008).

[406] Бертран Рассел (1872–1970) – британский философ, общественный деятель и математик. Известен работами в защиту пацифизма, атеизма, а также либерализма и левых политических течений. Внес неоценимый вклад в математическую логику, историю философии и теорию познания. Менее известны его труды по эстетике, педагогике и социологии. Рассел считается одним из основателей английского неореализма, а также неопозитивизма. Прим. ред.

[407] Russell (1912).

[408] См. дискуссию о множественных сравнениях в главе 3 .

[409] Большие данные ( англ . big data) – совокупность подходов, инструментов и методов обработки объемных данных (структурированных и неструктурированных) для получения воспринимаемых человеком результатов. Прим. перев .

[410] Подробнее о некоторых факторах, влияющих на точность кода диагноза, см. O’Malley et al. (2005).

[411] Биллинг – комплекс процессов и решений на предприятиях, ответственных за сбор информации об использовании услуг, их тарификацию, выставление счетов, обработку платежей. Прим. ред .

[412] Подробнее о проведении различий между хроническими и острыми состояниями на основании документационных схем см. Perotte and Hripcsak (2013).

[413] Bond et al. (2012).

[414] Ginsberg et al. (2009).

[415] Google Flu Trends – веб-сервис, который позволяет определить скорость распространения вируса гриппа в различных странах. Прим. ред .

[416] Lazer et al. (2014).

[417] Обратите внимание: даже осведомленность о смещении не означает, что мы способны полностью избегать его влияния. Нетехнический обзор проблемы в контексте принятия решений см. Kahneman et al. (2011).

[418] Некоторые примеры см. Bareinboim and Pearl (2012); Robins et al. (2000); Spirtes et al. (1995).

[419] Подробнее о методологических соображениях см. Young and Karr (2011).

[420] Краудворкер – специалист, работающий через интернет. Прим. ред .

[421] Когда на президентских выборах победил Гарри Трумэн, обойдя соперника Томаса Дьюи, издание Chicago Daily Tribune выпустило номер с заголовком «Дьюи победил Трумэна». Газета попала в руки к избранному президенту, которого эта ошибка очень развеселила, поскольку Chicago Daily Tribune поддерживала Дьюи и дважды называла Трумэна «размазней». Прим. ред .

[422] Henning (1948).

[423] Mitofsky (1998); Sudman and Blair (1999).

[424] Амиотрофический боковой склероз – хроническое прогрессирующее заболевание нервной системы, обусловленное преимущественным поражением двигательных клеток (мотонейронов) спинного мозга и мозгового ствола, а также корковых двигательных клеток. В клинической картине это спастико-атрофические парезы и параличи. Прим. ред.

[425] Wicks et al. (2011).

[426] PatientsLikeMe – сеть пациентов на исследовательской платформе в интернете. Пациенты онлайн общаются с другими больными, имеющими такое же заболевание или состояние, отслеживают его и делятся опытом. Прим. ред.

[427] Расширенное обсуждение исследований лечения амиотрофического бокового склероза, а также различных экспериментов по литию см. Mitsumoto et al. (2014).

[428] На самом деле один из немногих пакетов программного обеспечения, включающих многомерную причинность по Грэнджеру, был разработан нейробиологами (Barnett and Seth, 2014).

[429] Общий обзор см. Holyoak and Cheng (2011).

[430] Обзорную информацию см. Godfrey-Smith (2010).

[431] Это называется «метафизический плюрализм» (Psillos, 2010).

[432] Russo (2006).

[433] TANSTAAFL – аббревиатура фразы «There ain’t no such thing as a free lunch» («Бесплатных обедов не бывает»). Аналогично русскому варианту «Бесплатный сыр бывает только в мышеловке». Прим. ред .

[434] Краткое объяснение см. Ho and Pepyne (2002). Более глубокое объяснение см. Wolpert and Macready (1997).

[435] Во многих исследованиях рассматривалась связь между схемами приема препарата и тем, насколько успешно люди ему следуют. Пример обзора см. Claxton et al. (2001).

[436] Обзорную информацию см. Slobogin (2012). Обсуждение соответствующих проблем и этики см. Sidhu (2015); Starr (2014).

[437] Таблица смертности (таблица дожития) – упорядоченный по возрасту ряд чисел, характеризующий порядок вымирания поколения людей; один из важнейших инструментов демографической статистики, широко используется в страховании. Страховая премия рассчитывается таким образом, чтобы исходя из вероятности дожития страхователя до определенного возраста она позволила страховщику безубыточно погасить свои обязательства перед страхователем, а также покрыть расходы на ведение дел. Прим. ред .

[438] Если валидация инструментария осуществляется исходя из сравнения произведенных арестов и отчетности, это все равно не скажет, сколько преступлений было совершено в действительности, – только число пойманных лиц. Количество арестов может быть в одних районах выше, чем в других, даже при одинаковом уровне криминальной активности.

Содержание