Почему. Руководство по поиску причин и принятию решений

Клейнберг Саманта

7. Эксперимент. Как найти причины путем вмешательства в действия людей и систем

 

 

Многие утверждения относительно здоровья имеют обратимый характер, если выждать достаточное время. Один из самых поразительных сдвигов заметен в понимании связи между гормонозаместительной терапией (ГЗТ) и сердечными приступами: ранние исследования утверждали, что ГЗТ предотвращает их, а позднейшие эксперименты не подтвердили этого вообще или даже отметили увеличение количества приступов.

Первое доказательство преимуществ ГЗТ было предоставлено в рамках исследования здоровья медицинских сестер, когда огромная группа зарегистрированных медсестер (почти 122 000) обследовалась каждые два года с начала проекта в 1976 году. Анализ данных в 1997 году показал, что у пациенток в период постменопаузы, получающих ГЗТ, риск летального исхода был на 37 % ниже, и такой результат объяснялся в основном снижением смертности от ишемической болезни сердца.

После этого были изданы справочники, предписывающие применение ГЗТ для снижения риска сердечно-сосудистых заболеваний. Но в работе, опубликованной всего через год после исследования здоровья медицинских сестер, говорилось, что гормонозаместительная терапия не оказывает никакого воздействия на ИБС. В отличие от исследования медсестер, где просто отслеживалось поведение участниц, в изучении влияния эстрогена/прогестерона на сердце пациенткам выборочно давали ГЗТ или плацебо. Таким образом обследовались 2763 женщины в течение четырех лет, но проект вызвал вопросы, поскольку частота сердечных приступов в группе ГЗТ на самом деле возросла в первый год его проведения, а в следующие два года эффект обратился вспять.

В рамках «Инициативы во имя здоровья женщин» было проведено рандомизированное контролируемое исследование большего количества пациенток ради изучения долгосрочных исходов: состояние здоровья участниц отслеживалось 8,5 года. Исследование было прекращено после 5,2 года из-за значительного увеличения случаев рака груди. Самое удивительное, что количество сердечных приступов возросло на 29 % (с 30 до 37 случаев на 10 000 человек в год).

Как же получилось, что ГЗТ для женщин одновременно и снижала, и повышала риск сердечного приступа? Секрет кроется в методах эксперимента. Исследование медсестер занималось специфической группой населения и регулярно фиксировало их результаты, принимаемые медикаменты и другие показатели. В такого рода наблюдательном проекте не может быть известно, что отвечает за итог – конкретный препарат или же некая общая причина, которая определяет и выбор лечения, и лучший исход. Возможно, забота о здоровье привела одновременно и к снижению риска, и к выбору ГЗТ.

Напротив, рандомизированное исследование исключает любой паттерн между характеристиками пациента и методом лечения.

Вмешательства нередко воспринимаются как золотой стандарт причинного осмысления. Если мы можем выборочно распределять людей по группам (это могут быть пациенты, получающие реальное лечение, или трейдеры, применяющие различные торговые стратегии), это устраняет многие искажающие факторы, а стало быть, человек может выбирать вмешательство или стратегию. Реальность, однако, намного сложнее, поскольку такие воздействия не всегда возможны и могут давать побочные эффекты. К примеру, люди, принимающие препараты для снижения холестерина, менее внимательно следят за диетой.

В этой главе мы рассмотрим, каким образом экспериментальные исследования облегчают выяснение причин; почему эксперименты, утверждающие о найденных причинных зависимостях, не всегда удается воспроизвести; и почему порой так трудно повлиять на одну конкретную вещь. Наконец, мы проанализируем ситуации, когда вмешательства на деле дают ложное представление о базовых причинных зависимостях.

 

Как вывести причины из вмешательств

Скажем, нужно выяснить, какие удобрения обеспечат наилучший рост вашим посадкам. Вы испытываете подкормку А и замечаете, что розы не цветут. Затем пробуете B. Внезапно ваш сад оживает, и вы исполняетесь уверенности, что это все благодаря B – волшебному удобрению.

Итак, в чем же подвох?

Первый момент, который следует отметить: интересующий вас результат – «наилучший» рост растений – субъективен. Возможно, вы хотите поверить, что B работает лучше, потому что оно обошлось вам вдвое дороже, чем А. Или надеетесь, что дешевое удобрение такое же действенное, как и дорогое. В любом случае, эти убеждения придают различную окраску вашим суждениям об эффекте (вспомните предвзятость подтверждения из ).

Теперь, допустим, мы решаем эти вопросы с помощью количественной оценки. Можно подсчитать число цветов больше 2 дюймов в диаметре и записать их высоту. Но та же схема сада будет применяться в обоих случаях, поэтому вполне допустимо, что отсроченное действие А окажется причиной того, что вы наблюдали при использовании B. Именно в этом часто кроется проблема с изысканиями, где тестируются лекарства, диеты и другие вмешательства. В перекрестном исследовании А и B тестируются последовательно на отдельно взятых участниках.

Имеет значение не только порядок, но и остаточные эффекты от А при оценке B. К примеру, диетическая добавка может оставаться в крови некоторое время после ее получения. В подобных случаях нужен интервал между окончанием одного вмешательства и началом другого, чтобы устранить любые остаточные эффекты от первого. Наконец, поскольку удобрения тестировались не одновременно, возможно, что между двумя периодами и другие факторы также изменились. Что, если в течение второго временного сегмента чаще шел дождь или было больше солнечного света и это обеспечило лучшие условия для роста? Получается, любые улучшения могли стать просто следствиями изменений в промежутке между использованием А и B.

Когда мы вмешиваемся для сравнения причин или их выявления, на самом деле хотим узнать, что случится, если все прочее останется без изменений, когда мы добавим или удалим возможную причину.

Связь между причинами и вмешательствами существует на интуитивном уровне, потому что нередко мы воспринимаем причины как стратегии реализации событий и стремимся выявить именно их. Втайне мы надеемся, что манипулирование поводом позволит управлять и следствием. Одна из проблем при использовании данных наблюдения для поиска причин состоит в том, что порой сложно провести различие между структурой с общей причиной для двух следствий и структурой с цепочкой причин.

К примеру, в одном случае речи кандидата от политической партии могут привести одновременно к росту его популярности и пожертвований на проведение кампании, а в другом изменится только популярность, которая затем приведет к увеличению взносов. Имея возможность манипулировать благотворительными дарами и популярностью независимо друг от друга, мы могли бы с легкостью провести различие между двумя возможностями.

В первом примере рост популярности не служит хорошим способом получения пожертвований (они только коррелируют), в то время как в другом – вполне (поскольку оказывается для этого непосредственной причиной).

Исходя из существования подобной связи, некоторые исследователи пытались дать определение причинности в терминах вмешательства. Грубо говоря, идея заключается в том, что правильное изменение причины приводит к перемене следствия. Конечно, «правильное» изменение – это когда мы не вызываем одновременно другие причины или само следствие. Вместо этого хотим быть уверены, что любое воздействие на следствие проходит только через причину и что вмешательство не может обойти причину, оказывая прямое воздействие на другие причины или вызывая их к жизни.

К примеру, мы можем предположить, что отношение между речами, популярностью и пожертвованиями такое, как на рис. 7.1 (a). Чтобы проверить, действительно ли пунктирное ребро отражает реальную причинную зависимость, мы можем вмешаться (повысить популярность) и взглянуть, повлияет ли это на взносы. Но это способно повысить узнаваемость имени, что приведет к росту благотворительности напрямую, а не через популярность. Это изображено на рис. 7.1 (б), где узнаваемость имени – прямая причина пожертвований. Точно так же на рис. 7.1 (в) узнаваемость имени косвенно влияет на рост добровольных взносов, увеличивая количество выступлений (речей). В первом случае вмешательство напрямую вызывает следствие, а во втором активирует другую причину вместо изначальной цели. В обоих случаях проблема в том, что вмешательство ведет к следствию не напрямую через тестируемую причину, а косвенно.

Рис. 7.1. а) пунктиром отмечен объект тестирования; б) и в) сплошные ребра активны, пунктирные неактивны

 

Выборочный контролируемый эксперимент

Манипулирование единственным объектом таким идеальным путем, как показано выше, затруднительно; выборочные (рандомизированные) контролируемые эксперименты (ВКЭ, РКЭ) лишь частично решают проблему. В подобного рода экспериментах участники выборочно распределяются по двум или более группам, при этом различие в воздействии между этими группами предположительно единственное. Если исходы отличаются, это объясняется воздействием, поскольку распределение всех других свойств одинаково. На самом деле это не идеализированное вмешательство, когда можно напрямую изменить один параметр (к примеру, повысить потребление соли, не меняя объема жидкости). Но такой подход ближе всех к идеальному.

Однако этот жесткий протокол также становится ограничением, когда дело доходит до использования результатов ВКЭ. Здесь оценивается только один фактор, но в реальном мире результаты необязательно используются именно так. К примеру, мы можем решить, что лекарство эффективно и не имеет побочных эффектов в рамках ВКЭ, но в жизни, возможно, его часто принимают со вторым препаратом, и они интенсивно взаимодействуют. Как это случалось много раз, такое взаимовлияние трудно предположить, пока лекарство не выйдет на рынок.

ВКЭ обычно рассматривается в медицинском контексте, но это просто разновидность экспериментальных исследований, которая может применяться во многих других сферах. Как известно, Google использовал данные по кликам, чтобы сделать выбор из 41 оттенка синего для своего логотипа, а пользовательские предпочтения можно протестировать, рандомизируя визиты или пользователей по конкретным оттенкам или текущей цветовой гамме и сравнивая количество кликов. В политических кампаниях также применяют выборочные эксперименты, чтобы определить, какое послание обнародовать и каким образом. Вместо того чтобы искать корреляции между поведением избирателей и демографическими данными или разрабатывать теории о способах голосования, политические гуру пользуются обширными списками рассылки электронных писем и детализированными персональными данными, чтобы тестировать эффективность различных вмешательств. К примеру, в рамках кампании можно рандомизировать группу лиц с конкретными характеристиками по различным текстам электронных сообщений или скриптам телефонных звонков с просьбой о благотворительности. Тут есть четкий результат (количество пожертвованных денег), и при достаточно большой выборке можно протестировать множество сообщений для разнообразных групп. Во время кампании Обамы 2012 года было сделано именно это: на небольшой группе сторонников тестировались адресные строки сообщений, предполагаемые суммы пожертвований и даже формат электронных писем.

Приобретенные таким образом знания могут изменяться со временем (если сообщение однажды сработало, как будет во второй раз?), но ВКЭ используются во многих сферах помимо медицинской, например в экономике и образовании. Даже если вы никогда не проводили собственный ВКЭ, важно уметь оценивать результаты экспериментов для принятия решений.

Почему рандомизация

В XVIII веке Джеймс Линд задокументировал то, что считается первым в истории контролируемым экспериментом, – выяснил, что цитрусовые быстро излечивают цингу. На судне с экипажем, страдавшим от цинги, он прописал шести парам моряков с аналогичными симптомами шесть различных видов лечения. Помимо тестируемых Линдом средств, в число которых входили уксус, морская вода и, конечно же, лимоны и апельсины, моряки питались одинаково. Линд обнаружил, что те, кто ел цитрусовые, поправлялись очень быстро в сравнении с остальными, что привело его к заключению об эффективности такого лечения.

Но Линд назначил каждой паре только одно из средств, вместо того чтобы задействовать рандомизацию. Действительно, он отмечал, что пациенты, пившие морскую воду, болели сильнее остальных. Известно, что его результаты на самом деле оказались верными, но, если бы лечение выбиралось по степени заболевания, такое смещение могло исказить результаты (например, если пациентам с легкой формой цинги, которые и так чувствовали себя лучше, были бы прописаны цитрусовые) или привести к ситуации наподобие парадокса Симпсона (например, если бы пациенты, получавшие цитрусовые, были неизлечимы). Рандомизация в ВКЭ очень важна, чтобы избежать смещения в назначении воздействия.

Свойственное подобным исследованиям ограничение выбора – когда действовать и действовать ли вообще – может исказить наблюдаемые зависимости. К примеру, трудно проверить, действительно ли любовь к жестоким видеоиграм формирует жестокость в поведении. Поскольку не проводилось выборочного исследования детей по группам определенных видеоигр, даже если тут вообще присутствует корреляция, мы не можем знать, видеоигры формируют склонность к насилию или же склонность к насилию определяет любовь к соответствующим увлечениям, а может, причиной обеих переменных оказывается некий третий фактор.

Точно так же в исследовании здоровья медсестер: то, что женщины выбирали ГЗТ, зависит от их риск-факторов заболеваний сердца и склонности заботиться о своем состоянии. ГЗТ могла вообще никак не влиять на болезни сердца, но женщины, выбравшие этот вид лечения, делали какие-то другие вещи, снижавшие риск, и именно предоставление информации об этом сделало ГЗТ индикатором прогнозирования лучших исходов. Аналогичный пример – «слепое» использование препаратов для лечения пациентов, на которых другие средства не подействовали.

Это делает факт получения больными вмешательства и, следовательно, соответствующего результата зависимым от серьезности заболевания, качества медицинского обслуживания и так далее. Остаточные эффекты многих препаратов, которые принимались ранее, могут усилить искажения наблюдений, затрудняя возможность выяснить, почему лекарство не дало результата.

Основное преимущество рандомизации – придание жесткости ребру между выбором вмешательства и исходом.

Скажем, мы рандомизируем тринадцатилетних учащихся одной школы: одни получили СМС, убеждающие по 30 минут в день заниматься физкультурой, другие – сообщения с прогнозом погоды. Поскольку обе группы контактируют, мы не можем быть уверены, что школьники не поделились содержанием посланий и что те, кто получил текст о пользе спорта, не пригласят друзей присоединиться. Еще один пример «перемешивания» участников – совместный прием лекарств в клинических экспериментах, когда пациенты из команды вмешательства делятся препаратами с контрольной группой.

Чтобы предотвратить перемешивание, применяется кластерный метод рандомизации по группам, а не по отдельным лицам. В таком подходе вместо работы с учениками распределение по разным текстам сообщений проводится между школами.

Другой пример – рандомизация медицинской практики или больницы по методике лечения вместо рассмотрения отдельных пациентов. Здесь, чтобы добиться аналогичного уровня надежности результатов, нужны масштабные выборки, потому что отдельные лица в кластере могут коррелировать, а кластеры способны иметь разные размеры. В качестве кластера может выступать семья (которая будет сильно взаимосвязана благодаря генетике и окружающим условиям) или учебное заведение (соотношение может оказаться ниже, но все-таки присутствует из-за общего местонахождения).

* * *

В зависимости от уровня (индивидуального или группового) рандомизация двух одинаковых групп, отличающихся только вмешательством, грешит отсутствием детализации участников (группы не обязательно должны быть идентичны, просто сравнимы).

Давайте решим, кто подходит нам как участник эксперимента.

Скажем, мы тестируем лекарства от изжоги. Можно привлечь людей любого возраста и пола, однако у многих может не быть этого симптома. При условии, что данные для исследования ограничены и время эксперимента также имеет рамки, это неразумная трата ресурсов, и большинство не страдающих изжогой вряд ли захотят участвовать.

Очертим круг участников теми, у кого изжога в анамнезе. Следует ли включать сюда людей, страдающих изжогой из-за еще какого-то состояния, например беременности? Включать лиц любого возраста или исключить детей? Возможно, мы считаем, что физиологические процессы, лежащие в основе заболевания, фундаментально отличаются в каждом возрасте, поэтому решаем включить в наш пул всех, от 21 до 65 лет, с изжогой в истории болезни. Следующая проблема: некоторые, скорее всего, ежедневно принимают лекарства от этой хвори или страдают другими заболеваниями, способными влиять на действие тестируемого препарата. В идеале группа участников должна состоять из тех, кто не принимает никаких средств, потенциально готовых взаимодействовать с испытываемым медикаментом. Тогда мы протестируем препарат на участниках от 21 до 65 лет с изжогой в анамнезе, которые не принимают лекарства от нее ежедневно.

Выборка участников исследования может полностью определить результаты за счет ее смещения – из-за отдельных лиц, которые будут принимать решение о своем участии, или из-за иных факторов, определяющих, получат ли они такую возможность вообще. Как мы видели в , некоторые смещения могут приводить к поиску доказательств в пользу конкретного вывода или влиять на то, как мы оцениваем собранные аргументы. Методология эксперимента также способна смещать данные в том или ином направлении. К примеру, в политических телефонных опросах звонки только по стационарным аппаратам, исключая мобильную связь, могут исказить демографические данные участников. Так, в 2008 году исследовательский центр Пью обнаружил, что использование только домашних телефонов снизило перевес Обамы над Маккейном в среднем на 2–3 % в нескольких плебисцитах и на 5 % – в финальном, перед выборами.

Считается, что рандомизация ограничивает смещение выборки. Но множество выборов, необходимых при подготовке эксперимента, означает, что угроза такого смещения не устранена. Участие в эксперименте добровольное, поэтому характеристики испытуемых могут фундаментально отличаться от остальных. Если исследователь, набирающий состав, знает, к какой группе приписать каждого из них (например, если распределение просто изменяется в рамках команд или есть более сложный порядок, известный исследователю), это также может определять, кто получит возможность участвовать. Такое смещение влияет на способность эксперимента предоставить данные для причинно-следственных выводов (внутренняя валидность), а также на масштабы применимости его результатов в зависимости от репрезентативности выборки (внешняя валидность, которую мы обсудим далее).

Нужно определить, как быть, если отдельные участники не доходят до конца эксперимента. Одни могут сойти с дистанции по своим причинам, а другие, напротив, прекратить участие из-за вмешательства, которое посчитали неприемлемым, например из-за побочных эффектов, перевешивающих любой позитив. Когда понадобится связаться с участниками, чтобы получить сведения об их показателях, кто-то окажется вне досягаемости (напротив его фамилии появляется пометка «утрачен контакт для дальнейшего наблюдения»). К примеру, чтобы оценить состояние пациентов с инсультом через 3 и 6 месяцев после пребывания в больнице, протокол может предусматривать необходимость позвонить им и задать вопросы. Но порой одни не отвечают, другие сменили номер телефона или переехали, и у исследователей нет никакой возможности с ними связаться.

Некоторые эксперименты просто игнорируют пациентов, которых проблематично отследить при анализе данных. Это приводит к смещению результатов, которые намеренно не берутся в расчет, поэтому масса «утраченных контактов» может стать «красным флажком» при оценке работы. К примеру, мы тестируем вмешательство в виде физических упражнений в пожилом возрасте. По сравнению с контрольной группой, у которой оно отсутствует, те, кто упражнялся 10 часов в неделю, продемонстрировали пониженное содержание холестерина и прожили на 2 года дольше. Если, однако, 75 % этой выборки по вмешательству выпали из эксперимента из-за травм или усталости, исследователи, вероятнее всего, обнаружат, что те, здоровье которых позволяло тренироваться дольше часа в день, прожили дольше прочих.

То, что некто останется в эксперименте до конца, соблюдая это условие, будет ключевым фактором при оценке приемлемости вмешательства. Таким образом, просто не учитывая лиц с неполными данными, мы можем преувеличить эффективность воздействия и недооценить потенциальные побочные эффекты.

«Ошибка выжившего» – это разновидность смещения выборки, существующая при анализе только тех, кто выжил или остался в эксперименте до определенного момента. Но в более широком смысле это смещение появляется, когда анализируются результаты исключительно группы участников, достигших некоего измеряемого результата. Это могут быть компании, подававшие отчеты о прибылях и убытках не менее двух лет (при этом не учитываются те, кто обанкротился раньше); политики после первого срока в должности (не учитываются те, кто умер, ушел в отставку или был уволен); музыканты, записавшие хит (не учитываются те, кто вообще не добился контракта на запись).

Если наша цель – понять, какое значение имеют регулярные гастроли очень успешных музыкантов, последние как раз и могут стать корректной группой для исследования. С другой стороны, если цель – определить влияние художественного образования на музыкальные достижения, тогда включение в выборку только успешных музыкантов даст искаженный подход.

В ряде ситуаций мы просто не имеем возможности провести рандомизацию людей или ситуаций по этическим соображениям или просто из-за затратности, поэтому нужны иные типы экспериментов.

Исследование здоровья медсестер – пример когортного исследования, где одну группу лиц отслеживают в плановом порядке в течение некоторого времени. Недостатки такого подхода (помимо смещения выборки) следующие: можно собрать одинаковые данные на каждого участника, но отслеживание в течение долгого времени дорого стоит, к тому же может наблюдаться значительное число выбывших. Если интересующие экспериментаторов результаты встречаются редко, понадобится расширенная выборка. При этом нет гарантии, что наблюдение охватит достаточное количество случаев.

Еще один вариант – исследование методом «случай-контроль», которое в целом направлено в прошлое. Берутся две группы, различные по некоторому свойству (например, люди с рыжими волосами и без), и изучается различие между ними (к примеру, генетическая вариация). Но, поскольку модуляции только наблюдаются (без активного вмешательства), нельзя быть уверенным в отсутствии неизмеренных искажений.

Как контролировать

Вехой в истории медицины – и, возможно, первым примером выборочного контролируемого эксперимента – стал 1946 год, когда Брэдфорд Хилл с коллегами из Совета медицинских исследований Великобритании провели сравнительное исследование постельного режима и антибиотика стрептомицина в лечении туберкулеза. Каждый госпиталь, участвующий в исследовании, получил набор пронумерованных и запечатанных конвертов, в которых содержались врачебные предписания (пребывание в постели или стрептомицин). Когда все пациенты, участвующие в исследовании, были подобраны, конверты открывались строго по очереди.

Как и в исследовании Линда, ученые не просто смотрели на показатели до и после применения стрептомицина, но сравнивали препарат со стандартом лечения на тот момент, а именно постельным режимом. Это важно, поскольку сравнение состояния пациентов до и после воздействия может выявить улучшения даже при абсолютно неэффективной терапии, если самочувствие просто улучшается со временем или сам факт воздействия стал позитивным.

К примеру, больные, убежденные, что антибиотик поможет им справиться с вирусом гриппа, иногда требуют у врачей прописать лекарство, пока те наконец не сдаются. Если они в результате выздоравливают (как в целом большинство людей), это не имеет отношения к лекарству: просто таково неизбежное течение болезни. Что бы они ни предприняли в определенный момент заболевания – выпили чашку кофе или просидели несколько часов у телевизора, – все дало бы одинаковый эффект.

Еще один резон в пользу контрольной группы таков: в реальности мы не выбираем между новым лечением и его отсутствием вообще, мы хотим знать, какой набор вариантов самый эффективный. Соответствующая контрольная группа определяется как по этическим, так и по техническим соображениям, поскольку нельзя разграничивать действенную терапию и пациента, и важно учитывать роль воздействия на исход.

Иногда можно сравнить воздействие и стандартное лечение, иногда – применить плацебо. Это реально в отсутствие стандартной терапии или вследствие смещения в методике эксперимента. Как бы то ни было, лечение, которое намного хуже общепринятого, все же может оказаться лучше, чем ничего.

Определить соответствующее плацебо – штука непростая, но, по сути, оно сильнее всего напоминает реальное вмешательство, когда не известно ключевое эффективное свойство. В простейшем случае, если лекарство дается в виде таблетки, самое распространенное плацебо – это таблетка-пустышка. В другом случае, если воздействие – это рассылка сообщений на тему заботы о здоровье, в качестве плацебо могут выступать тексты с информацией, не касающейся здоровья. С другой стороны, пустышку для акупунктуры определить гораздо сложнее. В экстремальных экспериментах, объектом которых становится болезнь Паркинсона или другие проблемы со здоровьем, используется симуляция операционного вмешательства, чтобы учесть воздействие хирургии как таковой.

Эффект плацебо, когда вмешательство без применения известных активных ингредиентов все же улучшает исход, может дать странные результаты и даже иметь место, когда пациенты знают, что им дают пустышку. Отмечались случаи побочных действий при плацебо и, при сравнении с ним, – различия результатов в зависимости от дозировки (больше таблеток – сильнее проявление) и вида лекарства.

Еще один ключевой показатель исследования со стрептомицином: эксперимент был слепой, и ни пациенты, ни те, кто оценивал их состояние, не знали, кто какое лечение получает. Это важный шаг по предотвращению предвзятости, поскольку больные, ожидающие, что препарат принесет им пользу, могут по-разному сообщать врачу о симптомах, да и те могут предвзято судить о состоянии пациента, если будут знать о его терапии.

В исследовании, тестирующем виды борьбы с разными типами склероза, также оценивалось значение слепого эксперимента: одних и тех же пациентов проверяли неврологи, проводившие слепое лечение, и те, кто знал, кто в какой группе находится. Через два года регулярных наблюдений «слепые» неврологи обнаружили, что ни одно из применяемых ими воздействий не оказало эффекта. А оценки «неслепых» докторов в одной из групп выявили улучшение. Причина в том, что оценка пациентов носила качественный характер, и неврологи, знающие, к какой группе принадлежит тот или иной пациент, могли находиться под влиянием этого знания, расставляя рейтинги. Если выявление результатов эксперимента основано на подобном знании (и не важно, анализируется состояние пациентов при клинических испытаниях или рост цветов в вашем саду), то информация о распределении по группам может изменить интерпретацию имеющихся доказательств.

В целом одностороннее слепое исследование – это эксперимент, в рамках которого пациентам неизвестна группа их принадлежности, а ученым – известна. При двустороннем слепом исследовании ни больные, ни врачи не знают, кто в какой группе. Однако даже после того, как все данные собраны, их нельзя просто засунуть в «черный ящик» и получить на выходе однозначный результат. Для анализа требуется принять множество решений (например, какие статистические эксперименты проводить), и здесь также может влиять смещение. Альтернативой будет тройной слепой метод – как правило, это двустороннее слепое исследование, когда те, кто анализирует данные, не знают о распределении по группам.

Это не всегда практично, однако возможно заранее определить все этапы анализа данных до их сбора и зафиксировать ради доказательства, что программа строилась независимо от результатов.

Протоколы экспериментов и испытания лекарственных препаратов применяют именно этот принцип, когда аналитики должны подготовить программу до сбора любых данных. Такой подход не свободен от некоторых прикладных проблем, поскольку часто возникают неожиданные сценарии (хотя при этом выявляется смещение в сторону положительных результатов). В нашем гипотетическом эксперименте с изжогой можно было заранее определить, какие первичные сведения подлежат измерению (например, частота приступов), какие вторичные (например, сила приступа), какой из слепых методов будет применяться и какова приблизительная численность участников. Однако можно не суметь обеспечить целевую выборку или не предвидеть, что придется остановить эксперимент на ранней стадии из-за недостатка финансирования. В связи с этим придерживаться подготовленного плана не всегда получается.

Применимость результатов

Скажем, мы проводим эксперимент с изжогой, и, кажется, он будет удачным. Прием лекарства заметно снижает тяжесть заболевания и частоту приступов по сравнению с другим лечением, а сам препарат в итоге одобрен и выведен на рынок. У доктора, знакомого с результатами исследования, есть новый пациент 80 лет, который принимал 10 разных лекарств и имеет в анамнезе диабет и застойную сердечную недостаточность. Следует ли прописывать ему новый медикамент?

Контролируемый эксперимент, пытающийся обеспечить внутреннюю валидность (то есть возможность ответить на изначально поставленный вопрос), нередко выполняется ценой внешней валидности (то есть повышенной обобщаемости результатов). Изучение однородной группы населения может привести к изолированию возможной причины, но это ограничит полезность результатов для принятия решений по остальному населению. С другой стороны, высокая вариативность ведет к искажениям и невозможности выявить истинное следствие, если оно есть только в определенных подгруппах. Важно, что на каждом отдельном этапе выборочного эксперимента присутствует отбор.

Типовые клинические испытания начинаются с пула потенциальных пациентов. Они выбираются из числа тех, кто проходит лечение в рамках системы, проводящей исследование, или тех, к кому эта система имеет доступ. Но с самого начала не берутся в расчет те, кто не может или не хочет обращаться за медицинской помощью. Еще есть лечившиеся в отделении, где проводится эксперимент, и у врача, участвующего в нем. Здоровье этих пациентов может быть хуже, чем у населения в целом, или, напротив, эксперимент может исключать самых тяжелых больных, которые лечатся где-то еще. Существуют критерии отбора в рамках самого исследования, когда исключаются пациенты со множественными хроническими заболеваниями (как в нашем гипотетическом опыте с изжогой). К тому моменту, когда пациент соглашается участвовать, выборка весьма значительно сужается. Суть не в том, чтобы непременно охватить экспериментом всех и вся, однако немало практических факторов влияют на отбор участников. Это следует принимать во внимание, переходя от оценки валидности эксперимента к попытке применить его результаты.

О том, как определить применимость результатов некоего исследования к конкретному пациенту или группе населения, написано немало. Как правило, нам не приходится принимать решения в идеальном мире выборочного эксперимента, где пациенты страдают только одним заболеванием, и в большинстве случаев нет возможности ждать, пока кто-то проведет исследование, соответствующее нужному сценарию. Это справедливо и для врачей, определяющих программу лечения пациентов и пытающихся понять, в какой степени отчеты об испытаниях применимы к конкретному случаю. Проблема с ВКЭ состоит в том, что он подтверждает: лечение может вызвать определенное следствие только у отдельной группы населения. Другая же группа может не обладать свойствами, обеспечивающими эффективность воздействия.

Например, если, согласно ВКЭ, лекарство А лучше лекарства B, а другое исследование утверждает, что B лучше C, мы, вероятно, сделаем допущение, что А также лучше С. В одном обзоре нейролептических препаратов описаны как раз подобные случаи, но при этом выборочные эксперименты подтвердили, что C лучше А.

Откуда появляются такие аномальные заключения?

Многие испытания спонсируются производителями тестируемых медикаментов, однако противоречивые результаты возникают вне зависимости от того, кто оплачивает эксперимент. Даже если отчетные данные абсолютно правдивы и никто ничего не подтасовывает, с учетом огромного множества решений, которые необходимо принимать при проведении испытаний, возможность смещения результатов в пользу какого-либо исхода по-прежнему остается. Выбирая конкретную дозировку, критерии отбора, меры результатов и виды статистических тестов, можно смещать выводы в пользу определенного лекарства, когда оно очевидным образом будет смотреться лучше остальных.

Как мы увидим в , чтобы действительно знать, что полученный вывод можно применить к другой выборке, нужно быть уверенными, что свойства, определяющие эффективность причины, присутствуют в обеих выборках и что вторая не обладает характеристиками, отрицательно влияющими на причину. Но это достаточно обременительно, поскольку мы часто не знаем, что в точности необходимо для эффективного действия причины.

К примеру, мы проводим рандомизацию людей по различным видам офисных кресел, чтобы выяснить, действительно ли сидение на физиомячах помогает сбросить вес по сравнению с обычными креслами. В этом эксперименте физиомячи приводят к статистически значимой потере веса за шесть месяцев; но, если испробовать их на другой группе людей, эффект окажется нулевым. Такое может случиться, если люди из первой выборки решат, что сидеть на мячах неудобно, или будут с них постоянно падать, поэтому им придется либо стоять, либо прохаживаться в течение дня гораздо чаще. А люди из второй выборки будут использовать мячи как кресла, то есть сидеть на месте. Реальное вмешательство – это нечто (а не мяч), побуждающее людей чаще вставать, хотя в рамках эксперимента его выявить нельзя.

Точно так же метод реализации вмешательства в контролируемых условиях может не отражать реальности. Некоторые лекарства необходимо принимать каждый день в одно и то же время, и в реальных условиях их эффективность может оказаться ниже, чем в условиях эксперимента, если пациенты – участники исследования с большей вероятностью склонны следовать инструкциям.

На способ использования результатов исследования влияет множество других факторов, к примеру длительность периода отслеживания. Если в выборочном эксперименте по тестированию нового метода лечения пациенты наблюдаются непродолжительное время, стоит задуматься, будет ли терапия такой же эффективной в долгосрочном масштабе и не вызовет ли побочных действий, которые проявятся через несколько лет. Период исследования также влияет на внутреннюю валидность. Если в рамках тестирования влияния сообщений, напоминающих о необходимости принять препарат, на повышение приверженности к лечению пациенты отслеживаются только три дня, это не будет убедительным доказательством того, что СМС в целом повышают дисциплину заболевших на долгое время, поскольку энтузиазм в отношении новых вмешательств со временем сходит на нет. Но из-за затратности часто возникает компромисс между продолжительностью отслеживания и размерами выборки.

Были разработаны чек-листы и инструкции для оценки результатов и определения данных, которые необходимо включить в материалы исследования. Но главное, что необходимо оценивать и внутреннюю, и внешнюю валидность эксперимента. Важность каждого из этих факторов зависит от наших целей. Некоторые исследования с низкой внутренней валидностью можно усилить за счет высокой внешней валидности (что лучше соответствует конкретной выборке участников). Необходимо дать ответы на следующие ключевые вопросы: «Кто стал объектом изучения? Как проводился отбор? Где выполнялось исследование? Какова длительность отслеживания результатов? Кто входил в контрольную группу? Какой слепой метод использовался?»

 

Когда n = вы

Часто нам нужно не определить лучшее лекарство или диетические рекомендации для определенной группы населения, а принять определенное решение для самих себя.

Какой препарат лучше снимет мою головную боль? Что поможет мне быстрее прийти в себя после долгой пробежки, ледяная ванна или горячий душ? Сколько мне нужно выпить кофе утром?

Но даже к этим вопросам мы, как правило, не подходим систематически. Наш процесс решения, скажем, относительно выбора лекарства от аллергии больше напоминает метод проб и ошибок.

Сначала вы, возможно, идете к врачу, который прописывает некое лекарство. Попринимав его некоторое время, вы замечаете, что оно вызывает дискомфорт в желудке, поэтому снова идете к врачу. Возможно, он изменяет дозировку, но возвращаются аллергические симптомы, и вы идете в больницу еще раз и спрашиваете, нет ли другого средства. Принимаете следующий препарат в течение предписанного срока или прекращаете прием раньше, потому что почувствовали себя лучше. Когда вы приходите ко врачу в очередной раз, он спрашивает, как подействовало лекарство; жалоб у вас нет, и вы отвечаете, что оно подействовало хорошо.

Значит ли это, что следовало с самого начала принимать второй препарат?

По сути, именно с подобной проблемой мы столкнулись в . Такого рода несистематическое последовательное испытание двух лекарств не только не дает знания о том, какое из них лучше, но даже не сообщает, какое эффективнее конкретно для вас. Имея дело только с одним человеком, мы не способны провести рандомизацию между теми, кто получает экспериментальное или контрольное лечение.

Вместо рандомизации пациентов эксперимент с одним участником (который так и называется – исследование с участием одного пациента) рандомизирует последовательность воздействий. Тест с удобрениями оказался особенно слабым, поскольку мы изучали только одну последовательность (А-B), не зная, действовало ли А, когда мы рассматривали действие B, или же тест B проходил в более благоприятных условиях.

Единичная проверка каждого воздействия не обеспечивает строгих результатов, поэтому в целом необходимо несколько итераций. Правда, определить порядок вмешательств довольно сложно. Может показаться, что стоит просто повторить последовательность А-B и получить больше данных, например А-B-А-B. Хотя теперь у нас удвоенные сведения по каждому вмешательству, B всегда следует после А. Если показатель результата со временем медленно улучшается, то, даже если воздействия эквивалентны, B всегда будет в выигрыше, поскольку оценивается позже А. При слепом эксперименте это простое чередование может привести к тому, что человек просто угадает, какое воздействие применялось.

Теоретически возможно выбирать наугад между двумя воздействиями для каждого временного интервала, но эта стратегия не без недостатков. Нельзя гарантировать, что каждое воздействие будет применяться одинаковое количество раз или что они равномерно распределятся, так что может образоваться последовательность, когда за всеми А будут следовать все B. Помимо смещения результатов, эксперимент окажется уязвим, если его остановить преждевременно, до того как будет реализована последовательность B. Вместо этого можно рандомизировать каждую пару, тогда выбор первого вмешательства будет означать, что B будет следующим. Это по-прежнему может сгенерировать знакопеременную последовательность, когда любая опция будет заключаться в том, чтобы сбалансировать каждую пару А-B последующей B-А. В итоге для первой пары выбирается А-B или B-А, а пара, которую не выбрали, будет следующей. Итак, одна возможная последовательность – это B-A-A-B-A-B-B-A. Возвращаясь к разговору о нестационарности (), скажем: идея в том, чтобы попытаться снизить воздействие временных трендов, а также результатов последовательности вмешательств.

Скажем, мы принимаем решение о последовательности тестирования двух видов лечения, при этом эффект первого со временем нарастает. Тогда, по сути, B может получить преимущество из-за эффектов А. В стандартном ВКЭ каждый участник получает только одно лечение, поэтому не надо беспокоиться о кумулятивных эффектах множественных влияний или о взаимодействии лекарств. В последовательном эксперименте, однако, не только имеет значение порядок (например, при тестировании двух интерфейсов предпочтение всегда получит второй), но могут иметь место длительные следствия каждого из вмешательств (например, больший опыт работы с системой улучшит показатели). В примере с садом, если воздействие удобрения А происходит медленно, но, начавшись, приобретает устойчивый характер, может быть перекрытие между интервалом активности А и временем применения и измерения B.

Одно из возможных решений – добавить «отмывочный период» между окончанием А и началом B. Его цель – чтобы ко времени начала второго лечения все эффекты первого исчезли. Однако положительные следствия приема лекарства могут быстро спадать, в то время как побочные результаты будут иметь более длительный характер.

Есть еще ограничение: отмывочный период предполагает некоторый промежуток без всякого вмешательства, а отсутствие лечения даже короткое время может оказаться нежелательным (к примеру, если мы тестируем средства от боли). К тому же определение длительности отмывки требует базовых знаний о характере действия вмешательства.

Другой подход – применять терапию непрерывно, но не принимать в расчет некоторую часть данных в начале каждого вмешательства.

Эксперимент такого типа неприменим во многих ситуациях, поскольку целевой объект не должен быстро изменяться. Исследования одного пациента не имеют смысла при острых состояниях, например при гриппе, но успешно проводятся при хронических, таких как артрит. Аналогично последовательный эксперимент с одноразовыми событиями (например, с выборами), когда многие вещи постоянно изменяются за недели до таких событий, также не будет иметь смысла. Хороший выбор – это ситуации более-менее стационарные.

 

Воспроизводимость

Мы рассматривали массив электронных медицинских записей, чтобы выявить факторы риска застойной сердечной недостаточности, и поняли, что главным можно назвать диабет. Но, когда мы повторили эксперимент, взяв данные по второй выборке, не нашли никакой связи с диабетом, обнаружив вместо этого фактором риска назначение инсулина. Как интерпретировать такое расхождение?

Попытки репликации эксперимента с использованием аналогичной технологии в точно таких же условиях очень важны, чтобы методика была хорошо задокументирована, а сделанные на ее основе выводы стабильны. Отметим: это не воспроизведение вариации исследования, чтобы обобщить тест. Один из примеров репликации – совместный доступ к компьютерным кодам, необработанным данным и этапам выполнения операций. Если кто-то еще сможет воспроизвести на этой основе аналогичные результаты, анализ можно считать реплицируемым. Идеальное повторение довольно сложно выполнить, поскольку любые малые изменения легко вызывают весомые различия в ряде экспериментов. Даже если речь идет о компьютерной программе, которая, кажется, должна вести себя одинаково при каждом запуске, невыявленный баг может стать причиной ее непредсказуемого поведения.

Однако, говоря о репликации в научной сфере, мы часто имеем в виду именно воспроизводимость. То есть хотим знать, получат ли другие экспериментаторы результаты некоего исследования с иными вводными, если обстоятельства будут несколько отличаться. Это даст более строгие доказательства того, что заявленные результаты не были случайностью.

К примеру, в ходе изучения было обнаружено, что настроение детей улучшалось сильнее, если они получали 50 граммов шоколада, чем после угощения морковью. Главный вывод – шоколад делает детей счастливее, чем овощи; поэтому в другом эксперименте этот результат может быть получен на примере конфет M&M’s и брокколи, а в третьем это будут Hershey’s Kisses и сладкий картофель. Ни один из них не будет репликацией первого исследования, но все воспроизводят главный вывод (шоколад приносит больше удовольствия, чем овощи).

Воспроизведение результатов особенно важно при исследованиях методом наблюдений (где невозможность сделать это может говорить о наличии неизмеренных общих причин), но репродукция выводов экспериментальных изысканий также может стать способом получения обобщаемого знания. С учетом множества решений, принимаемых в рамках изучения, неудачные попытки воспроизвести результаты могут стать признаком потенциальных источников смещений или даже нарушения условий эксперимента.

В последних работах проскальзывает беспокойство из-за неудачных репродукций ключевых выводов. Фармацевтические компании утверждают, что удалось воспроизвести всего 20–25 % мишень-ориентированных препаратов, упомянутых в научных материалах. В другом исследовании выяснили, что только 11 % выводов из 53 ключевых экспериментов в области рака обладали воспроизводимостью, а статистика по нескольким примерам из области наблюдательных исследований еще хуже. Пытались в психологии репродуцировать выводы высокопрофильных исследований (часто формирующие базу для изысканий) – аналогичный эффект.

Но отчего истинная причинная зависимость, выявленная в одном эксперименте, не обнаруживается в другом?

Помимо проблем с подтасовкой и ненамеренными ошибками (к примеру, опечатка в электронной таблице или загрязнение лабораторных образцов), воспроизведение истинного взаимоотношения не так однозначно, как кажется. В случае с исследованием сердечной недостаточности условия репродукции результатов были соблюдены, однако потребовалась масса базовых знаний по значению переменной. Когда диагнозы диабета соединили в единый структурированный формат с временем их постановки, обнаружилась связь с болезнью сердца. Во второй выборке причиной оказался препарат инсулина. Дело в том, что лекарства были одним из нескольких сохраненных атрибутов, поэтому как их временной паттерн, так и факт присутствия/отсутствия оказались более определенными параметрами. В медицинских исследованиях с использованием больничных карт проблематично было даже выяснить достаточно определенно, кто и в каком состоянии находился.

Но в разных местах не всегда можно собрать одинаковые данные.

Скажем, воспроизведение не удалось. Значит ли это, что первый вывод оказался ложноположительным или просто он менее генерализован, чем ожидалось? Может, вывод не должен репродуцироваться на базе конкретной выборки. Например, в силу того, что исследования выявили культурные различия в причинном осмыслении, некий фактор может реально влиять на него в одном месте, но аналогичный результат нельзя воспроизвести в другом. Это не означает, что какой-то из экспериментов неверен; скорее конкретный вывод может быть специфически привязан к первичной выборке участников или некоему ее атрибуту, который не всегда известен. В этом случае ценной будет сама попытка репликации: она покажет, когда вывод применим, а когда нет.

Может также оказаться, что отношение было истинным на момент его обнаружения, но ко времени позднейших тестов система изменилась, так как стала известна каузальная зависимость. В финансовой сфере, например, подобная взаимосвязь влияет на поведение во время торгов.

Итак, взаимосвязь может быть истинной на момент исследования, но не реплицироваться, потому что теряет истинность с течением времени или из-за того, что используется для изменения поведения (подробнее об этом в ). Действие телерекламы за или против политического кандидата также может ослабевать, потому что люди теряют восприимчивость к сообщению, а оппоненты начинают ответную кампанию. И все-таки если эксперимент выходит за рамки специфической выборки и определенного временного периода, стараясь обобщить поведение, то неудача воспроизведения результатов опровергает его выводы.

Конечно, часто неудача с репродукцией результатов может означать, что выявленные взаимосвязи оказались ложными. Возможно, дело в искажениях применяемой методики из-за ошибок в анализе, или исследование проводилось предвзято. Многие факторы, воздействующие на внешнюю валидность, влияют и на воспроизводимость. Вспомним из главы 3, когда ложное заключение стало следствием большого числа тестов. Проблема была решена скорректированным количеством сравнений. Но, если полученные результаты не более чем помехи, попытки валидации с новым лососем (или двумя) должны выявить разные активные области.

 

Механизмы действия

Если я скажу, что пираты стали причиной глобального похолодания, вы, конечно же, сочтете это неправдоподобным. Но скептицизм не обоснован: вы же не вмешивались в поведение пиратов и не наблюдали за возможными температурными изменениями на планете, равно как и не выявляли корреляций между разными переменными. Нет, вы исходили из общего знания о том, как действуют мировые законы, потому что не можете представить себе способа, с помощью которого несколько пиратов могут менять климат. Точно так же некоторые причинные взаимоотношения объявляются достоверными именно в силу нашего механистического знания. Даже не имея данных наблюдения, можно предсказать возможную связь между посещениями солярия и раком кожи – при условии, что нам известно о зависимости между ультрафиолетовым облучением и онкологическими проблемами.

Такой тип знания относится к механизмам действия, или к пониманию схемы «причина-следствие». Мы можем обнаружить причины и, не зная, как именно они работают, увидеть механизмы действия – это еще одно доказательство в поддержку каузальности, которое способствует эффективному вмешательству. Причины объясняют, почему происходят те или иные вещи, а механизмы – как они происходят (сравним два утверждения: «курение – причина пожелтения пальцев» и «смолы сигаретного дыма вызывают пятна на коже»). Предпринималось несколько попыток определения каузальности в терминах механизма действия, где под механизмом понимается система взаимодействия частей, регулярно выполняющих некоторые изменения. Для наших целей, однако, механизмы действия более интересны как способы предоставления доказательств причинности.

Пока рассматриваемые виды аргументации каузальности касались того, как часто причина и следствие наблюдаются вместе, при этом использовались устойчивые паттерны событий, изменения вероятностей или зависимости между дозой и реакцией. При этом мы могли обнаружить, что грипп – причина лихорадки, пронаблюдав множество людей и увидев, что вероятность лихорадочного состояния становится выше после заражения гриппом. Но мы также могли сделать подобный вывод, базируясь на задействованных механизмах. Инфекция посылает сигналы в мозг (который регулирует температуру тела), а тот, в свою очередь, повышает температуру как реакцию на эту самую инфекцию. Один отрывок информации объясняет, как причина может правдоподобно вызвать следствие, а другой демонстрирует, что это воздействие было реально.

С другой стороны, объяснение сложного признака, такого как явка избирателей, в терминах всего двух генных вариаций будет недостоверным именно из-за механизма действия. С подобным случаем мы сталкиваемся, если гены связаны также со многими заболеваниями и прочими признаками. С точки зрения механизмов кажется невероятным, что один и тот же процесс одновременно повышает вероятность голосования избирателей и, скажем, вызывает синдром раздраженной кишки. Гораздо вероятнее, что оба явления провоцируются рядом факторов, и идентифицированные гены, возможно, лишь часть комплексного процесса.

Точно так же заявление, что две чашки кофе в день положительно влияют на здоровье, кажется недостоверным, поскольку трудно представить механизм, при котором две чашки кофе будут полезны, а скажем, полторы или две с половиной – уже нет. Даже если эксперимент показывает статистически значимый результат для конкретного количества кофе, мы, скорее всего, по-прежнему будем считать, что этому эффекту должно иметься какое-то иное объяснение. С другой стороны, зависимость «доза-реакция» или даже J-образная кривая (наподобие той, что мы наблюдали в ), не покажется удивительной, поскольку существует множество биологических процессов с подобным свойством и гораздо меньше таких, где только единичная доза дает следствие.

Но если предложить некий механизм, это поможет провести эксперименты, которые выявят причинно-следственные связи. К примеру, если неизвестно, что вызывает болезнь, но есть возможный механизм лечения и целевой препарат, то факт наличия или отсутствия эффекта от этого средства подтолкнет к поиску основополагающих причин.

Механизмы также помогают лучше планировать вмешательства. Если мы обнаружим, что инфицированные москиты вызывают малярию, но ничего не узнаем о способе заражения, единственно возможным методом предотвратить заболевание будет препятствие контакту с москитами. С другой стороны, зная, что происходит, когда в кровь попадают паразиты, мы получаем множество потенциальных целей для вмешательства: паразитов можно остановить в печени, можно помешать им размножаться и т. д.

Достаточно ли провести эксперимент, чтобы найти причину

Несмотря на большую пользу от экспериментов и выборочного тестирования, иногда мы не можем или не должны вмешиваться. Мы способны сделать вывод, что парашюты существенно снижают риск разбиться во время прыжков, и без проверки. Изначальная связь между курением и раком легких была открыта без экспериментов с участием людей. Хотя ясно, что мы способны научаться причинам, исходя из базового знания механизмов действия, важно осознавать: порой эксперименты также способны внушить ложные идеи.

Вот два примера того, что у следствия бывают дополнительные причины, а вмешательство дает побочные эффекты.

Когда требуется узнать, за какой фенотип отвечает конкретный ген, обычно проводится такой тест: берут ген в неактивном состоянии (метод генного нокаута) и смотрят, проявляется ли фенотип при этих условиях. Если ген отвечает за некую черту и она по-прежнему присутствует даже при нокауте, то этот ген не может быть причиной фенотипа. При этом, однако, предполагается, что следствие имеет только одну причину. В действительности, если фенотип сохраняется, для этого может быть дополнительная причина, проявляющая его, когда первый ген неактивен. Это справедливо для многих случаев из области биологии, когда для повышения устойчивости один и тот же ген одновременно воспроизводит черту и подавляет другой ген. Если первый ген становится неактивным, в действие вступает второй.

Аналогично, если следствие не наступает при устранении причины, это все равно не означает, что мы обнаружили ту самую причину. Если мы удалим кислород, пожара в доме не случится, потому что для возгорания кислород необходим. Но мы не сможем утверждать, что кислород приводит к пожарам (это условие недостаточное): нужно много других вещей (например, источник жара и горючий материал).

Скажем, мы пытаемся выяснить, правда ли бег на длинные дистанции помогает сбрасывать вес. Проводим рандомизацию участников по группам тех, кто тренируется для участия в марафонах и кто пробегает километр-другой несколько раз в неделю. Парадокс, но участники этого гипотетического исследования, преодолевающие длинные дистанции, не только не теряют вес, а набирают. Дело в том, что мы хотим оценить не что иное, как влияние долгих пробежек на вес, исходя из предположения, что все остальные факторы остаются неизменными. В действительности бег приводит к незапланированным последствиям. Возможно, участники эксперимента устают и начинают вести малоподвижный образ жизни в те часы, которые не посвящают физической активности. Также они могут начать больше есть, с избытком компенсируя сожженные калории.

Выходит, побочные эффекты, создавая проблемы при попытке использовать причины для планирования, к примеру, политической программы, могут также препятствовать поиску каузальных взаимосвязей.

Особо проблематичные ситуации – когда фактически существуют два пути от причины к следствию, которые могут нейтрализовать или обратить вспять ожидаемые зависимости. Именно этот парадокс мы наблюдали в , и такая ситуация вовсе не уникальна для исследований методом наблюдения.

Итак, эксперимент – отличный способ выяснения причин, но он не может быть ни необходимым, ни достаточным для этого условием.