В 2008 году город Нью-Йорк принял закон, требующий, чтобы ресторанные сети, имеющие более 15 торговых точек, указывали калорийность блюд в меню на видном месте. Довод был таков: потребление высококалорийной пищи приводит к ожирению и вредит здоровью. Однако, в отличие от производителей продуктов, рестораны редко предоставляют информацию о питательной ценности блюд. Если бы люди знали, сколько калорий потребляют, наверное, смогли бы изменить привычки питания.
Тем не менее исследования, проведенные в Нью-Йорке и других городах с тех пор, как эта политика приобрела общегосударственные масштабы, обнаружили не так уж много свидетельств в пользу действенности принятого закона. Почему?
Программа указания калорийности блюд в меню исходит из допущений, что люди эту информацию заметят; что они пока недооценивают потребляемые калории; что они знают, как интерпретировать и использовать эти данные; и что такая политика будет одинаковой во всех сетевых ресторанах. Однако кардинального снижения потребления жирных блюд не случилось, напротив: в ряде случаев посетители заказывали в среднем больше «калорий», чем раньше.
Так случается из-за переоценки калорийности блюд людьми, которые сидят на диете или подсчитывают питательную ценность нездоровой пищи. Тогда истинная информация может стать для них приятным сюрпризом, после чего они начнут заказывать более жирную еду.
Потребление также может возрасти или по крайней мере не снизиться, если люди не умеют обращаться с количественными данными. Чтобы подсчет калорий изменил поведение клиентов, мы должны сделать допущение: они умеют оценивать информацию в соответствующем контексте и понимают, что именно представляет собой каждое число. Если же никто не знает, каким должен быть их диапазон калорийности для конкретного приема пищи, любая информация окажется бессмысленной.
Данные о питательной ценности вместе с флаерами, где указывались рекомендованные на день пределы потребления, не оказали статистически значимого воздействия на жирность заказываемых блюд. Порой поздно привлекать внимание к сведениям о калориях, когда посетители уже определились с заказом. Такая информация также может повлиять на поведение, заставляя людей выбирать другие рестораны. С другой стороны, исследования, основанные на системе светофора (когда здоровые продукты помечены зеленой иконкой, а самые вредные – красной), выявили больше доказательств изменения поведения.
Согласно одному из немногих исследований, продемонстрировавших вообще какую-то эффективность информации о калорийности в ресторанных меню, скромное снижение жирности заказываемых блюд, почти целиком отнесенное на счет еды, наблюдалось в Starbucks. Это шестипроцентное снижение (от 247 до 232 калорий в среднем за заказ) в основном стало следствием сокращения количества заказываемых блюд, а не менее калорийных продуктов. Но клиенты сетевых кофеен приходят туда, как правило, не за едой.
Значимо шестипроцентное сокращение или нет, зависит также от того, компенсируют ли клиенты недобранные калории в другое время. Тогда любое исследование, выявившее наличие эффекта, возможно, не учитывает рестораны другого типа, которые подают иную пищу и обслуживают посетителей с непохожими запросами. Даже если мы обнаружим, что заказы людей различаются, все равно не сможем тут же отнести этот факт на счет представленной информации о калориях. Может же случиться, что рестораны изменили состав меню, снизив жирность некоторых блюд или удалив какие-то позиции еще до того, как проставили данные о калориях. Хотя в каком-то смысле это может означать, что принятие закона увенчалось успехом, так как его следствием стало предложение более здоровой еды, но, скорее всего, воздействие печатных расчетов калорий на поведение потребителей преувеличено.
* * *
Как перейти от причин к решениям? Знания о том, что пробежки благотворно влияют на сердечно-сосудистую систему, вовсе не достаточно, чтобы решать, заниматься бегом или нет. Знания о том, что потребление соли у некоторых людей вызывает гипертензию, недостаточно, чтобы вынести решение о реализации политики в масштабах всей страны по поводу количества соли в пище. Будь мир идеален, мы бы решали, что делать, исходя из неопровержимых результатов тщательно спланированного эксперимента. Но в реальности мы вынуждены действовать на основе неполной и несовершенной информации. В одних случаях эксперимент невозможен, а в других может не хватать времени или ресурсов, чтобы дожидаться однозначных результатов.
В общем, информация бывает различной. В этой главе мы попытаемся увязать рассмотренные теории в единый комплекс соображений, которые следует принимать в расчет при оценке каузальных утверждений. Мы посмотрим, какого рода информация нужна для подтверждения причинной зависимости и что такое хорошее доказательство, в котором наличествуют необходимые свойства. Причина повышает вероятность следствия – это неотъемлемое свойство каузальности. Но различные способы это продемонстрировать могут привести к неожиданным выводам.
Выявление причин, разумеется, первый шаг, но для успешной выработки политики в отношении каждого человека и всего населения понадобится больше данных. Когда мы решаем предпринять некое действие, будь то смена значков ресторанного меню для поддержки здорового образа жизни или определение лекарства для снятия головной боли, мы выбираем из множества путей, ведущих к желаемому следствию. Причина, дающая результат в одном месте, может абсолютно не сработать в другом или вызвать побочные эффекты (как позитивные, так и негативные). Мы обсудим, как предсказать последствия вмешательства и сделать лучший выбор.
Не все причины равно поддаются вмешательствам, а наши воздействия не всегда и не только обусловливают реализацию причины, не меняя больше ничего.
Мы рассмотрим, почему нужно думать, какую причину использовать, чтобы вызвать к жизни следствие (например, печатать данные о питательной ценности или в обязательном порядке требовать считать калории в блюдах), а также как реализовать саму причину (например, бонусы за указание жирности или штрафы за невыполнение этого требования) и предсказать, что еще может измениться в итоге (например, переделка ресторанного меню ведет к росту потребления низкокалорийных подсластителей).
Оценка каузального утверждения
Не существует однозначного теста на причинную зависимость, работающего во всех случаях, однако на практике все равно приходится делать и оценивать каузальные утверждения.
Правдиво ли заявление, что телешоу 16 and Pregnant на канале MTV снижает уровень подростковой беременности в регионах, где его показывают?
Никто не проводил рандомизированного эксперимента по просмотру этого телешоу, и по большей части мы даже не знаем, смотрели ли его конкретные люди. Хотя теоретически можно случайным образом создать выборку молодых людей, любящих различные телешоу, подростковая беременность – явление не слишком распространенное, так что создавать достаточно крупную выборку для анализа следствия нерационально.
Мы обсуждали, как с успехом проводить выборочные эксперименты для выявления причин, однако во многих ситуациях это невозможно, и приходится оценивать другие доказательства, чтобы определить вероятность причинного характера зависимости. Есть различие между тем, что мы можем узнать посредством совершенного, идеально спланированного выборочного эксперимента, и данными любого реального эксперимента, который может выполняться не «вслепую», на базе малой выборки и большинство участников которого не доходят до его конца.
Кроме того, неправда, что ВКЭ (выборочный контролируемый эксперимент) в любом случае и наверняка превосходит любое исследование методом наблюдения. Если речь о том, что конкретный человек должен сделать выбор между различными вариантами лечения, долговременное наблюдение пациентов с аналогичными характеристиками может дать более ценную информацию, чем эксперимент на основе небольшой группы без сопутствующих патологий, как у этого человека, и о которых нельзя сказать, что после приема нескольких других лекарств не было никакого эффекта, как у него. Здесь мы как раз имеем дело с проблемой внешней валидности, которую рассматривали в .
Если ВКЭ неприменим в обстоятельствах, которые мы измеряем, то его результаты для этой цели не будут лучшими доказательствами. Даже если условия аналогичны: то, что реально в рамках исследования наблюдением (где можно повторно использовать данные, например, из электронных медицинских карт), будет отличаться от условий ВКЭ. Если мы хотим узнать, какое влияние оказывают на старение годы постоянных занятий спортом, чтобы разработать государственную политику в этой области, тогда данные наблюдений за 50 лет за десятками тысяч людей могут быть полезнее, чем двухлетний ВКЭ с сотней участников. Хотя ВКЭ позиционируется как золотой стандарт подтверждающей информации для каузальных утверждений, мы можем научаться причинности и без исследований, но для этого нужно знать, как оценивать неэкспериментальные свидетельства.
* * *
В 1960-х годах Брэдфорд Хилл разработал ряд факторов для оценки каузальных утверждений. Их, однако, иногда неверно трактуют как набор критериев, или чек-лист, для определения причинности. Не каждый аспект необходим (может иметь место причинно-следственная связь, где не каждое свойство истинно), а полный их набор – достаточен (даже при ложной каузальной зависимости могут присутствовать все свойства), но этот метод предоставляет набор объектов для анализа в тех случаях, когда эксперимент невозможен, и увязывает воедино множество рассмотренных теорий.
Набор факторов можно приблизительно поделить на указывающие значимость причины для следствия (сила, последовательность, биологический градиент) и дающие информацию о механизме действия (специфичность, временной характер, правдоподобность, логическая связность, эксперимент, аналогия). Хотя предложенный список не соответствует в точности порядку Хилла, я привожу его расшифровку, чтобы лучше ориентироваться в соответствующих статьях. Мы рассмотрим каждый из факторов и сформулируем некоторые вопросы для анализа и оценки.
Сила
Если указание калорийности в ресторанных меню снижает содержание калорий в блюдах, заказанных посетителями, тогда жирность блюд, заказанных в местах, где посетителям дают такие сведения, и теми, где не дают, должна существенно различаться.
Аналогично, если уровень рождения детей у юных матерей в регионах, где показывают телешоу о подростковой беременности, лишь ненамного ниже показателей для регионов, где такое шоу не идет, утверждение, что телепередача реально меняет показатели беременности, будет менее убедительно.
С другой стороны, если и потребление калорий, и показатели беременности значительно снижаются в обоих случаях, тогда это будет более весомым доказательством причинно-следственной связи. Этот метод тесно связан с вероятностными подходами к причинности (см. ), определяющими шансы следствия после причины, а также с мерами силы причинно-следственной связи (из ). Сила может означать, что событие становится гораздо более вероятным (информация о калорийности существенно увеличивает шансы на то, что клиенты закажут нежирные блюда) или что следствие будет иметь больший эффект (информация о калорийности приводит к пятидесятипроцентному снижению жирности блюд).
Однако отсутствие сильных связей не означает отсутствия каузальной зависимости. Возможно, сама причина не имеет достаточной силы – например, когда пассивное курение вызывает рак легких в гораздо меньшей степени, чем непосредственное. Это пример случая, когда причина слаба, но детерминирована: диета приводит к потере веса у любого, кто ей следует, но все теряют лишь небольшую долю массы тела в процентном отношении. Могут также существовать подгруппы, которые еще не идентифицированы: к примеру, информация о калорийности эффективна только для людей, которые уже считают калории. Если проанализировать данные для каждого, связь может показаться незначительной.
Точно так же мы обсуждали множество сильных корреляций, возникающих без соответствующей причинной зависимости. Один из примеров – синдром Дауна и очередность рождения детей в семье. Очередность рождения дает определенные сведения о возрасте матери (в среднем женщины, рожающие четвертого ребенка, старше первородящих) и, следовательно, сильно связана с синдромом Дауна, но не служит его фактической причиной. Действительно ли сила корреляции – убедительное доказательство каузальности, зависит от того, брались ли эти возможные общие причины в расчет и могут ли они объяснить связь между следствиями.
Если мы наблюдаем сильную корреляцию, возникает ряд вопросов, среди которых можно назвать следующие.
• Асимметрична ли зависимость (почему мы убеждены, что одно – причина, а другое – следствие)?
• Можно ли объяснить корреляцию общей причиной двух переменных?
• Возможно ли отнести это на счет методологических проблем (ограниченный диапазон, смещение выбора, ошибка)?
• Верно ли, что другие факторы, которые мы игнорируем, сильно коррелируют со следствием?
• С учетом данных временных рядов можно ли объяснить взаимозависимость нестационарностью обеих переменных (возможно, со временем они приобретают одинаковую восходящую тенденцию)?
Последовательность (повторяемость)
Если информация о калориях действительно снижает их потребление, такой результат должен быть подтвержден многими исследователями, которые используют разные методы, и должен быть истинным для большого количества ресторанов. Хотя это не совсем похоже на закономерности в теориях Юма и Маки, однако есть сходство: истинное причинное взаимоотношение должно наблюдаться не однократно, а во множестве экспериментов. Как мы говорили в , результаты могут не реплицироваться по разным причинам. Однако, выяснив, что информация о калориях не ведет к снижению жирности заказанных блюд во многих городах с различными группами населения (что утверждается учеными, применявшими несхожие методы), скажем: скорее всего, такой вывод не случайность. Вариации, имеющие место при повторении экспериментов, естественным образом повышают надежность утверждений о силе причинной взаимосвязи. С ними контрастирует постулат, что подсчет калорий привел к снижению жирности блюд в кофейнях в конкретном городе.
Непоследовательные результаты также можно использовать для опровержения причинных выводов, кажущихся сильными. В результате анализа множества статей о том, снижает или повышает та или иная пища риск заболевания раком, были найдены доказательства как за, так и против для почти любого протестированного продукта. Кто угодно может избирательно выдрать из контекста литературы на эту тему факты, убедительно поддерживающие любое утверждение: всеобъемлющий же анализ покажет несостоятельность такого тезиса. Точно так же ложноположительные выводы одномоментной проверки множества гипотез (так что по чистой случайности одна из них может показаться значимой) не будут отличаться повторяемостью.
Если утверждение непоследовательно, какие можно сделать выводы? Возможно, важные свойства, необходимые, чтобы признать причину эффективной, присутствовали в одном месте, но не в другом. Например, многочисленные укусы москитов не обязательно вызывают малярию, поскольку заражение наступает только в том случае, если эти москиты – переносчики инфекции. Если неизвестны ключевые свойства эффективности, следствие может непредсказуемо варьироваться. Отметим, что непоследовательные результаты эксперимента не то же самое, что непоследовательность самой причины. Как и в случае с малярией, возможно, изученные группы населения существенно разнились.
Последовательные заключения все равно могут быть следствием ошибки или недосмотра, общих для всех экспериментов. К примеру, если в исследованиях фиксировалась только очередность рождения, но не возраст матери, сильно влияющий на итог, связь между очередностью и синдромом Дауна будет последовательна, но не каузальна.
Точно так же во всех исследованиях может наблюдаться одна и та же математическая погрешность, или же в них используются одни и те же загрязненные образцы.
К вопросам для оценки последовательности причинной взаимосвязи относятся такие.
• Имела ли место значимая вариация участников или методов эксперимента, которая может объяснить неудавшуюся репликацию?
• Насколько последовательны значения силы следствия в рамках всех исследований?
• Достаточным ли был исследовательский аппарат, чтобы выявить следствие?
• Были ли различные исследования независимыми (или у них были общие источники финансирования, например, одна и та же фармацевтическая компания оплачивала оба испытания)?
Специфичность
Если бы я сказала, что одно лекарство лечит рак, обычную простуду и малярию, это показалось бы совершенно невероятным. С другой стороны, мы знаем, что курение вызывает массу негативных последствий разной степени тяжести для здоровья.
Специфичность имеет отношение не просто к тому, как варьируются следствия некой причины, но и к силе влияния причины на каждое следствие. Это не означает, что причина обязана иметь единственное следствие (это крайне неправдоподобно). Более специфичная зависимость может дать более сильное подтверждение – в противовес тому, когда причина кажется очень важной, но теряет значимость среди множества следствий. Например, одно лекарство не сможет полностью исцелить много разных болезней, но окажет основное воздействие на одну из них и менее выраженное – на прочие. Точно так же, если некто заявил бы, что катание на велосипеде снижает смертность, это показалось бы неправдоподобным. С другой стороны, более достоверно утверждение, что велосипедный спорт снижает главным образом риск ожирения и смерти от сердечно-сосудистых заболеваний.
В некотором смысле специфичность также имеет отношение к тому, насколько непосредственна зависимость, о которой мы судим. Здесь могут иметь место весьма тонкие взаимосвязи: к примеру, электронные сообщения с просьбами о пожертвованиях на избирательную кампанию, рассылаемые в среду утром, дают больше средств, чем отправленные в субботу вечером. Сравните это с утверждением, где просто говорится, что рассылка электронных писем связана с увеличением собранных средств.
Специфичность зависит от уровня знаний. Если нам мало известно о том, как работает причина и каковы ее основные следствия, мы, возможно, обнаружим только очень косвенные ее доказательства (например, если проанализировать только уровень смертности курильщиков по сравнению со случаями рака легких и их летального исхода). Специфичность не необходимое условие, но сильная прямая зависимость воспринимается с большей готовностью, чем косвенная. В целом, однако, она считается одним из наименее важных критериев.
Правдоподобность множества следствий зависит от механизма гипотетической взаимосвязи. Если мы думаем, что защитный эффект велосипедных шлемов заключается в том, что они сокращают вероятность травмы головы, заметное снижение показателей подобных травм при минимальном влиянии на другие виды повреждений будет более убедительно, чем уменьшение риска всех травм. Падение общего количества повреждений можно также объяснить тем, что носители шлемов – более осторожные или опытные велосипедисты, которые с меньшей вероятностью травмируются.
Таким образом, специфичность нужно рассматривать совместно с силой взаимосвязи, принимая в расчет предыдущее знание.
• Вызывает ли причина разнообразные следствия, идентичные по силе?
• Что можно сказать о степени следствий этой причины по сравнению с тем, что ожидалось?
Временной характер
Привело ли сокращение подростковой беременности к увеличению просмотров телешоу на эту тему или все было как раз наоборот?
Как мы подробно обсуждали в , порядок событий – ключ к причинности. Порой, однако, неизвестно, что было сначала: телефонные звонки изменили настрой избирателей или все дело заключалось в грамотно составленном списке на обзвон, поскольку предпочтения голосующих были спрогнозированы исходя из результатов анализа демографических данных?
Упорядочивание последовательности событий – ключ к определению истинного направления причинно-следственной связи.
К примеру, симптомы заболевания, выявленные на ранней стадии, могут предшествовать постановке диагноза, однако в действительности это болезнь вызывает симптомы. Порядок вмешательства и результат видны в выборочном эксперименте, и их также можно узнать из наблюдательных данных по временным рядам (допуская, что измерения проводились достаточно регулярно, если А происходит перед B, это наблюдается последовательно). Однако подобное соображение может создать проблемы при исследованиях единовременных событий. Подобные перекрестные эксперименты делают «моментальный снимок» выборки: к примеру, людей спрашивают, где они живут и какими аллергиями страдают. Но это лишь скажет о ситуации в конкретный момент, и мы не сможем узнать, имел ли некто это заболевание до того, как переехал, и не спровоцировал ли проблему именно переезд.
Хотя приоритет по времени означает, что причина была перед следствием, мы также должны учитывать, сколько времени прошло между ними. Правдоподобность большого временного интервала зависит от уже имеющихся знаний. Если вы видите, как кто-то хочет спуститься по крутому желобу-горке для катания, вы ждете, что он окажется внизу гораздо быстрее, чем если бы горка была менее крутая, так что длительная задержка неправдоподобна в первом случае, а короткая – во втором. Мы могли наблюдать это в психологических исследованиях (см. ), когда участники считали причинную взаимосвязь более вероятной при коротком запаздывании, за исключением случаев, когда им было известно, что механизм действия срабатывает медленнее. Если воздействие асбеста и развитие онкологического заболевания разделяет интервал всего в одну минуту, это крайне невероятно. А вот минута между прочтением информации о калорийности и изменением заказа вполне правдоподобна.
Аналогично, даже если причина случается перед следствием, она вполне может оказаться не единственной вещью, которая тогда произошла. Если расчет калорий представлен в то самое время, когда рестораны вносят кардинальные изменения в свои меню, трудно сказать, какое событие отвечает за перемены в поведении клиентов. К примеру, в некоторых работах утверждается, что учителя начальной школы могут влиять на уровень заработной платы бывшего ученика спустя десятилетия. Чтобы подтвердить достоверность этого, мы должны иметь определенные доводы в пользу существования некоего следствия, действие которого тянется с самого детства (и приводит к другой цепочке событий, связанных с зарплатой), что оно не искажается общей причиной и не объясняется другими промежуточными причинами.
Вне зависимости от того, наблюдаем ли мы причину, происходящую до следствия, ключевые соображения будут такими.
• Корректен ли видимый порядок событий, нет ли искажения или какой-нибудь погрешности в методе сбора данных?
• Достоверна ли задержка по времени с учетом возможного механизма действия причины?
• Если есть длительная задержка, нельзя ли отнести следствие на счет других факторов, вмешивающихся в ход событий после гипотетической причины?
• И наоборот, не произошли ли примерно в то же время другие события, способные объяснить следствие?
Биологический градиент
Можно ли сказать, что чем больше причина, тем больше и следствие? Именно на этом основан метод сопутствующих изменений Милля: если доза причины растет, реакция, которую она вызывает, также должна расти. Риск заболевания возрастает, если рабочие проводят больше времени в условиях загрязнения асбестом, поскольку его воздействие на организм увеличивается. С другой стороны, кажется неправдоподобным, что именно один бокал вина в день – доза, полезная для здоровья, поскольку маловероятно, что тело настолько чувствительно к чуть большему или чуть меньшему количеству вина.
«Доза» может также относиться к расстоянию: например, насколько близко к зараженной водяной колонке проживали обитатели Лондона, когда Сноу обнаружил, что в ней кроется причина заболевания холерой. Если каждый из проживающих на приличном удалении имел аналогичный риск заражения, это стало бы менее убедительным доказательством, чем если бы риск снижался с удалением от означенной колонки.
Если воздействие на человека меняется (он прекращает принимать лекарство, бросает курить, кладет в пищу меньше соли), это также должно изменять побочные эффекты, риск рака и гипертензии, если их причиной служит воздействие фактора риска. Но тогда необходимо допустить, что следствие не носит постоянного характера.
И все же здесь также применимы те же оговорки, что и в методе Милля. В случае с алкоголем и заболеванием сердца риск становится выше как при низком, так и при высоком уровне потребления, а снижается где-то посередине, и многие биологические зависимости характеризуются J-образной кривой подобного типа (как показано на ), когда риск выше при низкой дозировке, снижается к середине, а потом быстро растет по мере роста кривой.
Ключевые вопросы таковы.
• Как количество (или вероятность) следствия изменяется при различных значениях причины?
• Если мы можем контролировать воздействие на человека, изменит ли это для него риск или исход?
• Насколько точно измерена доза?
Правдоподобность и логическая связность
Если исходить из того, что нам известно на сегодня: существует ли потенциальный механизм, способный связать причину и следствие?
Если мы предположим, что избыточное потребление кофе приводит к преждевременной смерти, в это поверить было бы гораздо легче, имей мы понятие о том, как это может быть, которое вписывалось бы в рамки наших текущих знаний в области биологии. К примеру, если избыток кофеина вызывает у людей нервозность и снижает понимание текущей задачи, они, видимо, будут чаще попадать в аварии. С другой стороны, если мы решим, что в тот момент, когда президент появляется на публике в одежде теплых оттенков, рынок идет вверх, а холодные тона пригибают цены вниз, разрыв между нашими знаниями о рыночных механизмах и этим допущением будет слишком велик.
Согласно Хиллу, правдоподобность не абсолютно необходимый фактор – главным образом потому, что наши знания могут оказаться ошибочными и мы, возможно, просто не понимаем, как работает новая причина.
Однако важность наличия гипотетического механизма, посредством которого причина могла бы произвести свое следствие, подчеркивали и другие ученые. В конце концов, мы и не можем требовать подобного доказательства, однако оно повысит доверие к нашим выводам. Чем необычнее взаимосвязь, тем больше требуется информации в ее поддержку.
И аналогично: считается ли потенциальная зависимость логически связной, если исходить из имеющегося знания? Не противоречит ли она общепринятым фактам, совместима ли с нашим знанием?
Это, конечно, не крайний аргумент, так как наше знание может быть неверным. Если, однако, возможная причинная зависимость идет вразрез со всем, что нам известно из области физики, включая закон притяжения, тогда следует проявить достаточный скептицизм.
Стоит, однако, иметь в виду разницу между логической связностью и правдоподобностью. Правдоподобность означает: мы можем осознать, что взаимосвязь сработает, исходя из того, что нам известно. Что касается логической связности: мы можем не иметь представления о том, как причина производит следствие, однако связь между ними не противоречит нашим знаниям. Когда Сноу впервые обнаружил связь между зараженными водяными колонками и холерой, идея, что в грязной воде содержатся крошечные бактерии, шла вразрез с преобладающей точкой зрения, будто болезнь вызывается зараженным воздухом.
Итак, наша идея о том, что – логически связное, а что – возможное, со временем трансформируется, потому что меняются и наши знания.
Оценивая правдоподобность и логическую связность корреляции, мы должны также оценить то, что, по нашему мнению, знаем. И если новая взаимосвязь этому противоречит, в какой степени мы уверены в том, что наши знания (по нашему мнению) верны?
Эксперимент
Если мы вмешиваемся, чтобы включить в цепочку событий причину или повысить ее воздействие, наступит ли следствие?
Основное отличие между этим вопросом и другими в том, что здесь требуется активно манипулировать чем-то, в то время как иные соображения могут быть основаны на чистом наблюдении. Эксперименты, однако, не обязаны представлять собой выборочные контролируемые тесты на людях. В некоторых случаях это невыполнимо, или же понадобится слишком много времени, чтобы сделать вывод; поэтому результаты получают посредством изучения инвитро или на животных. К примеру, не было экспериментов, где бы людей заставляли курить, но исследования, доказавшие, что табачная смола, нанесенная на уши животных, провоцировала рак этой части тела, предоставили убедительные доказательства возможной канцерогенности компонента в составе сигарет. Экспериментирование дает возможность усилить связь между тем, что вызывает вмешательство, и тем, что из него следует. Таким образом, если существует общий мотив как фиктивной причины, так и следствия, манипулирование фиктивной причиной не окажет никакого воздействия.
Мы обсуждали в , что, скорее всего, не сумеем увидеть истинную каузальную взаимосвязь исходя из эксперимента (например, если размер выборки слишком мал) или обнаружим мнимую корреляцию (как в неслепых выборочных экспериментах). Что касается исследований на животных, даже если результаты окажутся положительными, придется тщательно проанализировать имеющиеся доказательства в пользу того, что причина здесь работает так же, как и в изученных системах, и у людей. К примеру, методы лечения сепсиса, которые должны были работать, если исходить из тестов на мышах, оказались безуспешными для людей. В результате возник вопрос, а действительно ли мыши – хороший аналог для изучения человеческих воспалительных заболеваний.
Если эксперимент не предусматривает участия людей или проводится инвитро, важно определить репрезентативность модели с точки зрения механизма действия причины на людей.
Аналогия
Наконец, если известна сходная причинная взаимосвязь, стандарты доказательств могут быть понижены, так как когда-то уже было показано, что эта причина способна произвести предполагаемое следствие.
Скажем, мы узнали, что указание содержания калорий в ресторанной еде ведет к снижению жирности заказываемых блюд. Тогда мы скорее поверим, что информация об этом способна менять поведение, так как нам уже известно о подобном влиянии. В других примерах вирус стал считаться более правдоподобной причиной различных видов рака после получения данных о том, что папилломавирус человека вызывает определенные виды рака шейки матки.
Эта аналогия позволяет также использовать результаты экспериментов над животными, чтобы лучше понимать людей или соотносить системы различных масштабов.
Мы должны оценить, насколько близко соответствие экспериментальных установок и интересующей нас системы. Точно так же необходимо проверить, какими доказательствами мы обладаем, применяя к одному сценарию то, что стало известно на основании другого.
* * *
Не забывая о том, что нет никакого чек-листа причинности и набора критериев, которые должны или удовлетворяются в любых случаях, скажем, что эти свойства увязывают вероятностные, механические, интервенционные и экспериментальные методы в единую группу объектов, которые необходимо учитывать. Кроме того, в каждом случае следует учитывать качество информации.
Выборочные эксперименты могут проводиться с нарушениями, выявленные связи – проистекать из смещения выборки, а животные модели – не подходить для конкретного заболевания. Стандарты доказательств также зависят от того, какой именно аргумент используется в поддержку некоего утверждения, а также от потенциальных рисков и затратности итоговых действий. Философы разработали теории аргументов, чтобы описать, каким должно быть доказательство научной гипотезы. Правда, все эти теории в целом очень отличаются от того, как на самом деле ученые рассматривают и используют факты, и часто игнорируют роль контекста, в котором используется конкретное доказательство.
К примеру, стандарты аргументов будут выше в судебном разбирательстве по делу об убийстве, чем при попытке узнать, кто из детей разбил вазу, так как последствия ошибки в первом случае намного тяжелее, чем во втором. Малоубедительное утверждение, что ежедневная плитка шоколада улучшает настроение, может оказаться достаточным для человека, который хочет продолжать есть шоколад, но неубедительным, чтобы разработать программу питания, цель которой – заставить всех каждый день есть шоколад.
От причин – к политическим программам
«Уменьшить объем бутылок с газированными напитками. Размещать информацию о калорийности в ресторанных сетях. Запретить трансжиры. Снизить содержание соли в ресторанных блюдах».
Это лишь несколько программных позиций, которые рассматривала или ввела в действие мэрия Нью-Йорка, чтобы улучшить здоровье жителей.
Если известно, что существует причинно-следственная связь между сахаром, высококалорийной пищей, трансжирами, солью и различными состояниями здоровья, улучшить которое – наша цель, можно ли знать заранее, какие действия городских властей окажутся успешными? Чтобы в этом разобраться, нужно понимать, каким будет следствие конкретного вмешательства и как сделать выбор между потенциальными воздействиями. Результатом, однако, необязательно будет конкретное следствие, которое мы хотим получить. Из одной причины может проистекать множество вещей, и, что досаднее всего, сам акт воздействия способен нарушить причинные взаимосвязи между объектами. Мы можем обнаружить, что лекарство, снижающее уровень холестерина в одних условиях, окажется совершенно бесполезным в других. Просто люди перестают следить за диетой, решив, что препарат в любом случае снизит холестерин. Или, например, оценки стандартизированных тестов изначально связаны с профессионализмом учителя. Но эта корреляция может ослабнуть, если оценки будут использоваться для аттестации учителей, которые в результате начнут ориентироваться в первую очередь на подготовку учеников к прохождению тестов.
Несмотря на это, мы хотим, чтобы решения основывались на доказательствах, а не байках и чтобы эти аргументации базировались на причинных зависимостях, а не корреляциях.
В пользу такого тезиса говорят научно-доказательная медицина, образование, проектирование и множество других направлений, основанных на доказательном подходе. Аргументации использовались в этих областях и ранее, просто сторонники подобных подходов предпринимают попытки формализовать понятие «надежного доказательства». Вместо того чтобы определить, говорят ли некие факты в поддержку конкретной гипотезы, они стараются провести различие между сильным и слабым аргументом и способствуют использованию наилучших. Результатом часто становится иерархия доказательств, где ВКЭ (или, точнее, систематический анализ различных ВКЭ) занимает безусловное место на вершине пирамиды.
И все же такие иерархии необязательно указывают, какая информация необходима для наших целей и как ее применять. В то время как идеально осуществленный выборочный эксперимент теоретически может дать лучшие из возможных доказательств, в реальности нельзя сравнить идеальное изучение с исследованием посредством наблюдения. Можно получить противоречивые результаты на основе необъективного исследования с малой выборкой участников и крупного, хорошо спланированного наблюдательного эксперимента или же иметь в распоряжении только неэкспериментальные аргументы.
Так как на практике приходится исходить из информации подобного рода, чрезвычайно важно знать, как использовать ее наилучшим образом, и мы изучим, что нужно иметь в виду при реализации политики на практике и как обобщать результаты.
Когда я говорю «политика» или «вмешательство», это может быть запрет городских властей на курение в общественных местах ради охраны здоровья, изменение государством учетной ставки в целях стимулирования экономики или просто ваше решение не пить кофе после четырех часов вечера, чтобы избавиться от бессонницы. Во всех этих случаях ради конкретной цели совершается изменение. Иногда нашим доказательством может быть реализация политики в каком-то месте (скажем, размещение в кафе и ресторанах Нью-Йорка информации о калорийности), и мы хотим использовать этот аргумент, чтобы достичь аналогичной цели где-то еще.
* * *
Многие города, например Нью-Йорк, Лондон и Париж, реализуют общественные программы проката велосипедов, когда его можно взять в одном месте и оставить там, куда направляешься. Цель этих программ – сократить количество поездок на личном автотранспорте и улучшить здоровье населения за счет физической активности. Достижение этой цели зависит от следующих допущений: 1) езда на велосипеде – эффективная форма физических упражнений; 2) результатом программы станет развитие велосипедного спорта (а не просто то, что люди пересядут с собственных велосипедов на прокатные). Но как узнать, разумны ли такие допущения и что случится, если мы попытаемся внедрить подобную программу в другом городе?
Модели, с которыми мы знакомились в , можно использовать для прогнозирования последствий вмешательств. При этом, однако, приходится допускать, что используемая модель полная и корректная, а то, что мы узнали из эксперимента или пилотного исследования, можно транслировать на реальный мир. В таких моделях вмешательство было точным инструментом, который устанавливал значение переменной как истинное или ложное, более ничего не изменяя. Модели, как правило, способны лишь сказать, что происходит, если мы манипулируем одним объектом за раз, но в реальности наши вторжения вносят перемены и приводят к результатам, которых модели не спрогнозируют.
Как только принимается решение о поддержке велосипедного спорта в целях улучшения здоровья, появляется множество способов его реализации. Можно дешево продавать технику, давать уроки езды, развивать прокат и т. д. Но каждое вмешательство может привести к разным последствиям.
Даже если выбрать одну цель воздействия – скажем, прокат транспорта, – доступно реализовать ее множеством способов. Необходимо определить, из каких средств проект будет финансироваться, где размещать велосипеды и стоит ли предлагать ездокам шлемы (или требовать их наличия) – это всего несколько соображений. Итак, мы не просто пытаемся выяснить, какую причину применить, чтобы вызвать следствие, но и как заставить случиться саму причину.
Контекст
Одна из первоочередных вещей, которые необходимо осмыслить, – это контекст вмешательства.
Будет ли работать прокат транспорта только там, где есть выделенные дорожки? Требуется ли наличие большого количества велосипедистов? Будет ли зависеть успех программы от ее реализации в густонаселенном городе, имеющем много пунктов, где можно оставлять велосипеды?
Метод Маки и секторные диаграммы из исходят из наличия набора условий, необходимых для того, чтобы причина произвела следствие.
Чтобы вмешательство оказалось успешным, нам нужно знать, какие факторы обусловливают эффективность причины и есть ли они там, где мы планируем реализовать нашу политику. Также надо убедиться в отсутствии факторов, способных помешать эффективному действию причины. Например, новое лекарство окажется бесполезным, если из-за высокой цены пациенты не смогут принимать рекомендованные дозы. Прокат велосипедов не приживется там, где нет велосипедных дорожек, потому что люди сочтут небезопасным делить проезжую часть с городским транспортом.
Согласно одному исследованию, наблюдалась корреляция между частотой использования станции проката велосипедов в Вашингтоне и наличием поблизости велосипедных дорожек.
Понимание контекста помогает спрогнозировать успешность вмешательства и объяснить его провал. Говоря «контекст», я подразумеваю другие части секторной диаграммы или иные условия INUS, необходимые, чтобы причина произвела следствие. Если они отсутствуют, возможно, не удастся воспроизвести результаты экспериментального исследования, доказывающие, что вмешательство уже где-то сработало.
Противомоскитные сетки – хорошая защита от малярии, но на пути их применения есть разнообразные препятствия, в том числе цена. Бесплатная раздача сеток должна, таким образом, снизить уровень заболеваемости малярией. Но это утверждение будет истинным, только если приспособления употреблять по назначению. Хотя в большинстве случаев это именно так, порой сетки использовались для рыбной ловли, потому что людям не хватало пищи, а голод – более насущная проблема для целевой группы населения, чем малярия. Таким образом, до вмешательства необходимы либо доказательства, что сетки будут применяться в установленных целях, либо политика, учитывающая препятствия.
Одно из затруднений в том, что не все факторы могут быть известны, потому что их никто никогда не измерял. Если правда, что велосипедные дорожки (а не пункты проката рядом с ними) способствуют езде на двухколесном транспорте, тогда программа может провалиться, если мы не будем располагать сведениями о наличии таких дорожек в новом месте или не будем убеждены в их необходимости.
Действенность и эффективность
Вмешательство, которое абсолютно не сумело достичь цели, – случай исключительный, однако то, что происходит в реальном мире (эффективность, effectiveness), порой существенно отличается от спрогнозированных результатов вмешательства, изученного на основе идеализированных установок (действенность, efficasy). Отличие между действенностью и эффективностью чаще всего встречается в медицине, однако оно достойно осмысления в каждом случае, когда для реализации вмешательств в ином контексте мы используем информацию, полученную на основе контролируемых установочных параметров.
К примеру, измерение уровня сахара с помощью глюкометров, берущих кровь из пальца, менее точно в домашних условиях, чем в контролируемых, потому что люди в быту гораздо менее внимательно следят за чистотой проб и реже моют руки. Лекарства, демонстрировавшие высокую действенность в условиях эксперимента, когда их принимали в одно и то же время каждый день, могут оказаться куда менее эффективны в реальности, когда график приема соблюдается не так четко. Итак, если исходить из простого допущения, что эффективность вмешательства будет такой же, как та, что наблюдается в условиях контролируемого эксперимента или исследования с другой выборкой участников, ее показатель может оказаться завышенным. Пациенты решат не принимать лекарство в нужное время и в правильных дозах или прервать курс лечения.
Вероятность расхождения (и его степени) между действенностью и эффективностью влияет на выбор вмешательства. Есть ли у нас основания верить, что можно поддерживать эффект аналогичного уровня в реальных условиях? Выбирая воздействие, мы должны не только проверить, какие из них работают (например, что действительно снижало калорийность блюд в заказе), но и в какой степени (например, на сколько именно снизилась жирность в расчете на заказ). Если в идеализированных условиях, которые, как правило, представляют собой самый оптимистичный сценарий, калорийность заказанных блюд снизилась незначительно, следует скептически отнестись к возможности существенно увеличить эффект в реальности. Точно так же нужно учитывать распределение степени воздействия эффекта. Если в среднем питательность блюд снизилась незначительно, стоит определить, будет ли этот показатель одинаковым при всех условиях или же среднее значение затемняет нижний и верхний экстремумы (в одном месте калорийность намного выше, в другом – намного ниже).
Понимание, как установочные параметры вмешательства могут отличаться от условий, принятых в исследованиях, которые выявили причинную зависимость, поможет спрогнозировать потенциальные неудачи и разработать стратегии воздействия, чтобы избежать провала.
Итак, одно из соображений, которые следует учитывать, принимая решение о вмешательстве, – это не только степень его эффективности, но и возможность его успеха с учетом реально существующих условий.
Непреднамеренные последствия
Выборочный эксперимент под названием Tennessee STAR program («Программа звезд Теннесси») обнаружил, что ученики из классов меньшей численности лучше сдавали стандартизированные экзамены, чем школьники из классов большей наполняемости. В этом случае нам известны подробности эксперимента с сокращением учащихся в классах. С помощью рандомизации групп эксперты устранили влияние любых факторов, которые могут стать причиной одновременно классов меньшей численности и лучших оценок на экзаменах. В конце концов, школы с малыми классами могут показывать лучшие результаты из-за чего угодно, и может оказаться, что небольшие классы – просто индикатор присутствия неких атрибутов.
Сомнения относительно больших классов в Калифорнии и положительные результаты Tennessee STAR program вызвали к жизни инициативу стоимостью в несколько миллиардов: сократить размеры учебных классов в Калифорнии. В теннессийском эксперименте ученики и учителя случайным образом были распределены по классам разных размеров. Чтобы стимулировать сокращение размеров классов, штат выплачивал бонус в размере 650 долларов на одного ученика.
Программа была быстро реализована, но, конечно, чтобы иметь небольшие классы и стабильную группу учеников, понадобилось намного больше учителей. Поскольку предложение преподавательских услуг не успевало за растущим спросом, возросла доля неопытных педагогов.
Районы с низкими доходами и населенные главным образом этническими меньшинствами, где реализация программы заняла больше времени из-за недостатка аудиторий, оказались в невыгодном положении: учителей не хватало, а новых поздно вводили в проект. В результате более 20 % учителей, начавших работать в этих школах, не имели достаточной квалификации.
И все-таки ВКЭ Tennessee STAR program дал возможность сделать ключевой вывод: от сокращения размеров класса максимальную пользу получили ученики из числа меньшинств. Быстрая реализация в Калифорнии этого подхода как программы льгот для всех школ, которая привела к резкому спросу на учителей и конкуренции между ними, означала, что как раз те учебные заведения, которые получили бы максимальную выгоду от проекта, остались за бортом.
В итоге затея была сочтена неудачной. Любые заявления о ее преимуществах звучали неубедительно или незначительно, и считалось, что программа увеличила неравенство в области образовательных возможностей. В то же самое время, несмотря на очень скромный эффект вмешательства в Калифорнии, проект внедрялся далеко не бесплатно. Он стоил миллиарды долларов, которые не были использованы на другие цели, к тому же потребовал дополнительных помещений для классных комнат, которые приходилось откуда-то забирать, например у специального образования, компьютерных лабораторий и библиотек.
Исследования, фокусирующиеся на доказательстве причинных зависимостей, в целом не занимаются подобным анализом стоимости/эффективности. Но этот момент очень важен с точки зрения реализации вмешательства, когда ресурсы ограничены и выполнение одной вещи означает, что сделать другую уже не получится.
В маломасштабной программе сокращения численности классов в Теннесси участвовали только школы, где уже имелось достаточно места для новых групп, а сам масштаб эксперимента был недостаточен, чтобы вмешаться в спрос на педагогический персонал.
Чтобы успешнее просчитать эффективность программы в Калифорнии еще до реализации, понадобилось бы учесть контекст и ограничения (например, наличие места) и определить, как изменятся другие переменные, например ресурсы, которые придется направить на реализацию этого проекта, забрав у других.
Непреднамеренные последствия принимают разные формы. В простейшем случае вмешательство имеет побочный эффект, означая, что оно становится причиной не только запланированного исхода, но и других моментов. К примеру, лекарство может снимать головную боль, одновременно вызывая слабость. Это, правда, не изменяет присущих системе свойств. С другой стороны, одна из проблем с прокатом велосипедов заключается в возможном ее негативном влиянии на здоровье, если, например, в программе примут участие неопытные велосипедисты, а езда на этом транспорте в городах – дело небезопасное.
Именно поэтому программа сокращения численности учеников в калифорнийских классах пошла не так. Она была просто введена, без изменения чего-либо другого. Масштабное и при этом скорое воплощение привело к различиям профессионализма учителей в некоторых районах, а также к сокращению финансирования и ограничению места для других проектов.
Сосредоточиваясь на вопросе о непосредственном достижении цели вмешательства, нужно проанализировать, к каким еще последствиям оно может привести. Если прогнозы делаются на основе модели, где переменная «размер класса» просто назначается истинной или ложной, они не учитывают, что случится, если сократить размеры классов за счет финансовых льгот, перенаправляя ресурсы из других программ, и если персонал для этих новых классов будет набран неквалифицированный.
Правда, более детализированная модель (каузальная, которой мы научаемся, или симуляционная, которую мы строим), предусматривающая не только причину, но и метод ее воплощения, поможет сравнить различные способы сокращения численности учеников. То есть мы сможем оценить следствия сначала таргетированием областей, где цель труднодостижима, вместо того чтобы перейти прямо к реализации программы в масштабе всего штата; сможем протестировать различные программы льгот и т. д.
Однако далеко не все непреднамеренные последствия негативны. Некоторые на самом деле могут дать лучшие доказательства в пользу результативности программы, если ее преимущества окажутся выше ожидаемых. Например, если прокат велосипедов снизил загрязнение воздуха, это положительный побочный эффект.
Такие побочные действия порой возникают потому, что мы не имеем возможности манипулировать единственной вещью изолированно от прочих. Вместо «того самого» вмешательства может понадобиться изменить много факторов одновременно. Мы, скорее всего, не сможем просто предоставить велосипеды для проката; вероятно, понадобится одновременно устроить выделенные велосипедные дорожки – либо желая развивать велосипедный спорт в целом, либо как необходимое условие безопасности программы.
Таким образом, в одно и то же время может быть введено в действие множество программ, непредсказуемо взаимодействующих. Например, программа проката велосипедов, не предусматривающая выдачи защитных шлемов, может стартовать одновременно с принятием закона, требующего носить такие шлемы. Следствием закона будет низкий уровень пользования программой, если люди не хотят носить с собой шлемы повсюду.
Ко множеству вещей, изменяющихся одновременно, добавляется проблема планирования и оценки вмешательств, так как нельзя сразу сказать, какое именно вызвало некие очевидные следствия. Если, однако, известно о различных компонентах, есть возможность их учесть.