Почему. Руководство по поиску причин и принятию решений

Клейнберг Саманта

6. Вычисления. Как автомаизировать поиск причин

 

 

Какие лекарства, принятые вместе, вызывают побочные эффекты?

Выборочные испытания лекарственных препаратов мало скажут об этом, поскольку, как правило, исследователи стараются не давать участникам несколько лекарств сразу. Чтобы спрогнозировать некоторые взаимодействия, можно использовать моделирование, но для этого требуется внушительное базовое знание. Можно протестировать некоторые пары медикаментов экспериментально, но с учетом затрат времени и средств это реально только для небольшого набора комбинаций. Хуже того, из миллионов доступных пар всего несколько способны интенсивно взаимодействовать и лишь у определенных групп населения.

Однако, после того как лекарство выведено на рынок, пациенты, фармацевтические компании и медицинские учреждения доводят подозрительные случаи до Управления по контролю за качеством пищевых продуктов и лекарственных препаратов (Food and Drug Administration, FDA), а там их вводят в базу данных. И если вы начинаете принимать лекарство от аллергии, а через несколько дней получаете сердечный приступ, то вы или ваш лечащий врач смело можете подавать соответствующее заявление. Следует знать, что такие заявления не верифицируются (не проверяются). Может быть, сердечный приступ у человека в действительности произошел из-за отрыва тромба, а недавний репортаж в новостях о том, как лекарства провоцируют сердечные приступы, придал объяснению правдоподобность.

Во многих ситуациях данные содержат мнимые причинные зависимости. Возможно, к сердечному приступу привели какие-то другие факторы в жизни пациента (например, невыявленный диабет); сведения могли быть неверны (например, загрязненный образец для анализа или неверная постановка диагноза); имела место некорректная последовательность событий (например, лабораторные исследования обнаружили повышенное содержание сахара в крови, но показатель повысился еще до принятия лекарства). Кроме того, многие реальные неблагоприятные события остаются незарегистрированными, если никто не додумался связать их с приемом препарата или если пациент не обращается за врачебной помощью и сам о факте не сообщает.

Но, даже если некоторые заявления и некорректны, такие данные помогают формулировать гипотезы для проверки. Если мы решили экспериментально подтвердить результаты – на пациентах, которым прописана комбинация лекарственных средств или каждое из них по отдельности, – это может привести к запоздалому выявлению взаимосвязи и, соответственно, риску для большего числа пациентов. Но, если вместо этого использовать другой набор наблюдательных данных – из больниц, – мы выясним в точности, что происходит, когда нуждающиеся в лечении принимают лекарства одновременно.

Именно это и сделали исследователи из Стэнфорда. Взяв сведения по неблагоприятным событиям из базы данных FDA, они обнаружили, что определенный препарат для понижения холестерина в крови и антидепрессант (а именно правастатин и пароксетин) способны при одновременном приеме повышать сахар в крови. Затем, используя больничные карты, ученые сравнили результаты лабораторных тестов пациентов, принимавших лекарства вместе или по отдельности, и выяснили, что сахар в крови повысился гораздо сильнее при совместном приеме препаратов.

Мы не можем знать наверняка, что больные пили предписанные им лекарства; или, возможно, те, кто принимал комбинацию препаратов, чем-то отличались от других. Для подобного вида данных есть немало ограничений, но результаты были подтверждены на основании сведений, полученных из трех разных больниц и после испытаний на мышах.

В этом исследовании ученые не отталкивались от гипотезы о возможном взаимодействии медикаментов, а вывели гипотезу на основе данных. Напротив, все работы, которые мы обсуждали до сих пор, предусматривали анализ конкретных каузальных утверждений: к примеру, требовалось определить, действительно ли избыточное потребление сахара провоцирует диабет.

Но если мы не имеем понятия, что вызывает успешные взаимодействия, почему растут повторные поступления пациентов в больницы или что влияет на посещаемость сайтов, то что и когда мы можем узнать из баз данных, таких как обмен сообщениями на сайтах свиданий, клинические медицинские карты или поисковые запросы в Сети?

С помощью комбинации вычислительных возможностей и методов эффективного обнаружения причин на основе данных мы можем перейти от оценки одной причины к интеллектуальному анализу данных, чтобы вскрыть многие каузальные отношения одновременно. Методы автоматизации также помогают выявлять более сложные взаимодействия, чем те, которые человек способен наблюдать непосредственно. К примеру, нам удастся обнаружить последовательность этапов (и каждый включает множество необходимых компонентов), которая приводит к восстановлению сознания у пациентов, перенесших инсульт.

В этой главе мы исследуем методы перехода от данных к причинам. Первое, что нужно обсудить, – вопрос о том, какие сведения пригодны для каузального осмысления. Не каждый набор данных позволяет делать корректные умозаключения, поэтому мы рассмотрим, какие необходимы допущения (чтобы быть уверенными в достоверности результатов) и к каким выводам можно прийти, если допущения не выполняются.

Известно множество методов причинного осмысления, но мы ограничимся двумя основными категориями: теми, в задачу которых входит поиск модели, объясняющей данные (и, в конечном счете, одновременное изучение всех заключенных в ней причинных взаимосвязей), и теми, которые фокусируются на оценке силы каждой индивидуальной взаимосвязи. Главное, что нужно осознать, – нет варианта, который в любой ситуации окажется лучше всех. Хотя в вычислительных методах уже произошел крупный прорыв, эта область по-прежнему открыта для исследований, а проблема абсолютно точного причинного осмысления в отсутствие базового знания для всех случаев без исключения остается нерешенной.

 

Допущения

Прежде чем переходить к методам причинного осмысления, нужно дать некоторые вводные сведения. Под термином «причинное осмысление» я имею в виду следующее. Набор измеримых переменных (например, исторические цены на акции) закладывается в компьютерную программу. На основе обработанной информации делается вывод, какие переменные оказались причиной других (к примеру, рост цен на акцию А вызывает рост цен на акцию B). Это может означать выявление силы взаимоотношений в каждой паре переменных или выяснение модели их взаимодействия. Данные могут быть временной последовательностью событий (к примеру, дневные изменения цен на акции) или взятыми на конкретный момент. Во втором случае вариация берется в пределах неких выборок вместо изучения временных изменений. Один из примеров такого рода данных – одномоментное исследование группы, а не экспертное отслеживание отдельных участников в течение долгого времени.

Допущения для различных методов слегка варьируются по критерию используемых данных, однако некоторые свойства оказываются общими практически для всех методов и влияют на любые заключения.

В отсутствие скрытой общей причины

Вероятно, самое важное и универсальное допущение звучит так: все общие причины переменных, зависимости между которыми мы рассматриваем, измеримы. Это также называют причинной достаточностью в методах графических моделей (к ним мы вскоре перейдем).

Если мы, имея набор переменных, хотим найти между ними каузальные зависимости, то должны быть уверены, что уже измерили все общие причины этих переменных. Если истинно утверждение, что кофеин приводит к недосыпанию и повышает давление – и что это единственная взаимосвязь между сном и сердечным ритмом, – то, не измерив потребления кофеина, мы можем сделать некорректные выводы при выявлении отношений между его следствиями. Причины, отсутствующие в наборе данных, называются скрытыми или латентными переменными. Неизмеренные причины двух или более переменных, способных привести к ложным умозаключениям, именуются скрытыми общими причинами или латентными искажающими факторами, а возникающие вследствие этого проблемы называются искажением (что чаще встречается в информационных технологиях и философской литературе) и смещением из-за пропущенных переменных (что более присуще статистике и экономике). Это одно из ключевых ограничений исследований наблюдением, а также вводных данных в вычислительных методах, поскольку приводит как к выявлению ложных взаимосвязей, так и к переоценке силы причин.

Немного изменим этот пример. Кофе напрямую влияет на сон – а теперь он будет влиять на сон и через фактор частоты сердечных сокращений (ЧСС), как на рис. 6.1. Даже если ЧСС служит причиной недосыпа, мы видим, что этот фактор более/менее значим, чем если бы мы не измеряли потребление кофе. То есть, поскольку кофеин вызывает сердцебиение, высокий показатель последнего может дать нам некую информацию о статусе тонизирующего напитка (присутствие/отсутствие). В мы увидим, как экспериментальными методами посредством рандомизации можно решать эту проблему.

Рис. 6.1. Кофеин – общая причина учащения пульса и недосыпания, однако ЧСС также напрямую влияет на сон

Хотя практически любой метод, основанный на данных наблюдения, допускает, что нет никаких скрытых общих причин, на практике редко можно быть уверенным в этом. Заметим, однако: мы не обязаны допускать, что измерена каждая причина – только общие.

На рис. 6.2 (а) показано, что кофеин изменяет как качество сна, так и сердечный ритм; алкоголь вызывает аналогичный эффект. Не располагая данными по потреблению алкоголя, мы не сумеем выявить эту причину изменений сна, однако в результате не будут сделаны некорректные выводы об их взаимоотношениях. Аналогично, если кофе воздействует на сон посредством промежуточной переменной, отношения будут примерно такими: кофеин вызывает повышенное сердцебиение, а оно провоцирует недосып (рис. 6.2 (б)), и если при этом мы не измеряем сердцебиение, то просто найдем более неявную причину, а не некорректную структуру. Таким образом, необязательно наблюдать каждое индивидуальное звено в каузальной цепи.

Рис. 6.2. Если алкоголь (слева) и сердцебиение (справа) не измерены, это не ведет к искажению связи между кофеином и сном

Некоторые вычислительные методы исходят из допущения, что все общие причины измерены, и определяют, в каких случаях может существовать невыявленная причина, или иногда помогают обнаружить саму причину. Однако это, как правило, возможно только при очень жестких условиях и затруднительно при наличии комплексных временных рядов. Но как быть, если мы не знаем, что все общие причины измерены, и не в состоянии применить эти методы для выяснения причин?

В методах графических моделей, о которых мы поговорим далее, доступно только одно: найти все возможные модели, соответствующие данным, включая те, которые имеют скрытые переменные.

К примеру, если мы найдем видимую причинную зависимость между сном и сердцебиением и при этом будем знать, что могут существовать неизмеренные причины обоих факторов, то одной из возможных моделей будет скрытая переменная, которая вызывает оба наблюдаемых фактора. Преимущество в том, что иногда возникают некие общие для всех моделей взаимосвязи, объясняющие имеющиеся данные. Тогда, даже когда есть множество возможных структур, нетрудно вывести некие заключения относительно потенциальных корреляций.

Во всех случаях, однако, уверенность в выводах о каузальных взаимосвязях должна быть пропорциональна убежденности, что нет никакой потенциально неизмеренной причины, а заключение, сделанное на основе данных наблюдения, может стать точкой отсчета для будущих экспериментов, которые подтвердят его или опровергнут.

Репрезентативное распределение

Помимо уверенности, что мы располагаем верным набором переменных, необходимо также знать, что наблюдаемые события отражают истинное поведение системы. По существу, если нет сведений, что наличие тревожной сигнализации становится причиной ограблений, нужно верить, что – при наших данных – ограбления зависят от отсутствия системы сигнализации.

Мы уже изучили несколько ситуаций, когда сведения не были репрезентативными: 1) анализ данных в ограниченном диапазоне не позволил выявить корреляции между интенсивностью учебы и экзаменационными баллами (); 2) парадокс Симпсона стал причиной исчезновения или обращения вспять причинно-следственных связей между лекарствами и исходом заболеваний в зависимости от того, брались данные агрегированно или изучались отдельно для мужчин и женщин ().

Также мы видели пример, как можно нивелировать взаимозависимости, чтобы выявлять причинности без корреляций. В мы наблюдали две цепочки между занятиями бегом и потерей веса, когда бег давал положительный эффект и отрицательный, поскольку занятия спортом вызывали повышенный аппетит. При неудачном распределении это значит, что мы можем вообще не обнаружить никакой взаимосвязи между пробежками и потерей веса. Поскольку осмысление причинности зависит от наблюдения реальных зависимостей, мы, как правило, вынуждены делать допущение, что такого типа нивелирования нет. Подобное допущение часто называют верностью (речь о видах ассоциации), поскольку данные, не отражающие истинную структуру, на которой все построено, в некотором смысле ей «неверны».

Кое-кто утверждает, что такой тип нарушения связи редок, но на деле некоторые системы – к примеру, биологические – структурированы так, что практически гарантируют нарушение. Когда множественные гены продуцируют фенотип, даже если мы возьмем за основу неактивный ген, фенотип по-прежнему будет присутствовать, что приведет к видимой зависимости между причиной и следствием. Многие системы, вынужденные поддерживать равновесие, включают подобного рода резервные причины.

И все же нам даже не нужна точная нивелировка или вообще какая-либо зависимость, чтобы нарушить допущения о верности. Это потому, что на практике большинство вычислительных методов требует выбирать статистический предел, на основании которого зависимость будет принята или отвергнута (здесь используются p-значения или другие критерии). Вероятность следствия не должна быть в точности равна его вероятности под условием причины – просто достаточно близка, чтобы результат оставался в пределах допустимого. Например, вероятность потери веса после пробежки может не равняться вероятности потери веса вообще, без бега, однако может привести к нарушению допущения о верности, если отличие будет незначительным.

* * *

Еще один вариант нерепрезентативности распределения, касающегося истинного набора зависимостей, – смещение выборки. Скажем, есть данные из больницы, куда включены диагнозы и результаты лабораторных испытаний. Однако один из тестов крайне дорогой, поэтому врачи просят сделать его только в том случае, если у пациента необычная картина болезни и другим способом диагноз поставить нельзя. В большинстве случаев тест дает положительный результат. Из этих наблюдений, однако, нельзя узнать истинную вероятность такого исхода, потому что тест заказывают только при высоких шансах на положительный ответ. По результатам медицинских проверок мы, как правило, видим лишь ограниченный диапазон данных – например, когда измерения делаются только у самых больных пациентов (как инвазивный мониторинг в отделении интенсивной терапии). Диапазон наблюдаемых значений включает заболевших, состояние которых достаточно плохое для проведения подобного мониторинга. Ситуация проблематичная, поскольку это значит, что, если мы выявим причинную зависимость для такой ограниченной группы, она может не быть истинной для населения в целом. Аналогично можно не распознать истинную зависимость из-за отсутствия в выборке вариации.

Это называется проблемой упущенных данных. К искажению могут приводить упущенные переменные, но и упущенные измерения действуют аналогично, формируя нерепрезентативные распределения относительно истинного базового распределения. Упущенные значения, как правило, не результат случайного их удаления из набора данных, скорее, они зависят от других измеренных и неизмеренных переменных.

К примеру, в больнице для проведения медицинской процедуры у пациента нужно отключить несколько мониторов (что приведет к пробелу в регистрации сведений), или данные не зафиксируются из-за сбоя аппаратуры. Возможно, сахар в крови будет замеряться с меньшими интервалами, если этот показатель выходит за пределы нормы, поэтому большие пробелы в измерениях не окажутся независимыми от фактических значений, а существующие значения могут отклоняться вплоть до экстремумов. Данные, упущенные из-за скрытой причины, способны вести к искажениям, в то время как сбой аппаратуры может означать, что и другие близкие измерения также ложны (и могут искажать результаты).

В действительности мы только допускаем, что распределения отражают истинную структуру, поскольку размер выборки становится достаточно большим. Если я звоню другу и в этот момент раздается звонок в дверь, трудно сказать, повторится ли снова эта ситуация. Но что если это случается 5 или 15 раз? В общем, мы допускаем, что по мере увеличения массива данных мы все ближе подходим к наблюдению истинного распределения событий. Если бросить монетку всего несколько раз, можно не увидеть равного распределения орлов и решек; но по мере того, как число бросков будет стремиться к бесконечности, распределение приблизится к соотношению 50/50. Здесь увеличение массива данных означает снижение вероятности необычной цепочки событий, которая не будет отражать истинные базовые вероятности (такие как последовательность бросков игральных костей, когда выпадают одни шестерки).

Мы делаем аналогичное допущение для причинного осмысления: у нас достаточно данных, и мы можем усмотреть реальную вероятность (а не аномалию) того, что следствие наступает после причины. Нетрудно возразить, что для некоторых систем, например нестационарных, даже бесконечно большой набор данных может не удовлетворять этому допущению, и стоит исходить из предположения, что со временем отношения останутся стабильными. Вспомним: термин «нестационарные» означает, что свойства (например, средняя дневная прибыль от ценной бумаги) со временем меняются. На рис. 6.3 скидки (временные ряды обозначены пунктиром) и покупки горячего шоколада (сплошные линии) фактически не коррелируют по составным временным рядам, однако сильно взаимосвязаны в период, показанный серым цветом (который обозначает зимний сезон).

Рис. 6.3. Зависимость между двумя переменными со временем меняется, и они связаны только в период, обозначенный серым

Итак, если бы мы использовали все данные, то не выяснили бы, что скидки ведут к росту продаж горячего шоколада. Но, если бы воспользовались только сведениями по зимнему сезону, могли бы найти сильную зависимость. Стоит отметить, что увеличение объема данных не решает проблему – делать это нужно другими способами, о которых мы говорили в .

Правильная переменная

Задача большинства методов, основанных на логических выводах, – найти зависимости между переменными. Если вы располагаете данными по финансовым рынкам, переменными будут отдельные ценные бумаги. В политологии ими могут быть дневные пожертвования в фонд политической кампании или количество телефонных звонков.

Мы можем либо начать с набора уже измеренных факторов, либо провести некоторые измерения, и обычно мы считаем каждый измеренный фактор переменной. Однако есть некоторая неопределенность: нужно не только измерить правильные вещи, но и быть уверенными в их верном описании.

Помимо простого решения, включить в массив некие данные или нет, придется сделать множество выборов относительно организации самой информации. В рамках некоторых исследований обычное ожирение и патологическое (морбидное) могут входить в одну категорию понятий (и мы просто фиксируем, истинны эти состояния или нет для каждого человека). Но в исследованиях, посвященных лечению пациентов с ожирением, различие может оказаться критическим.

Измерение веса дает набор численных значений, которые заносятся на карту категорий. Возможно, самое важное здесь не вес, а то, меняется ли он, и если да, как быстро. Тогда вместо использования первичных данных о весе можно вычислить дневные или недельные отличия. Каково бы ни было решение, оно изменит результаты, поскольку они всегда относительны с точки зрения набора переменных. Если удалить некоторые переменные, может оказаться, что другие причины приобретут видимую значимость (например, снятие резервной причины может придать оставшейся больше видимой силы), а если добавить, то значимость других может снизиться (например, дополнительная общая причина может удалить ошибочную зависимость между следствиями такой причины).

Вернемся к примеру из начала главы, когда два медикамента по отдельности не повышали содержание сахара в крови, но иногда, принятые вместе, оказывали значительное воздействие на этот показатель. Вывод о причинной зависимости между отдельными переменными и разнообразными физиологическими измерениями, к примеру глюкозы, может помешать выявлению связи, но, если взять пару переменных вместе, удастся обнаружить неблагоприятное следствие. В этом случае правильная переменная – наличие двух медикаментов. Ее определение может быть проблематичным, но это единственная причина, по которой можно упустить из виду важные логические выводы, сделанные на основе определенного набора данных.

 

Графические модели

Нередко, пытаясь описать причинные взаимосвязи кому-то другому или понять, как вещи работают вместе, мы рисуем картинки. Такие изображения можно соотнести с вероятностными теориями причинности, которые разрабатывают философы. Взглянем на рисунок ниже, где показано, как вероятность одной переменной зависит от другой.

Прежде всего видно, что между рекламными объявлениями и покупательским поведением есть взаимосвязь. Мы знаем, что эта взаимосвязь действует в одном направлении – реклама влияет на покупки, а не наоборот.

А теперь добавим переменную.

Если мы захотим предсказать, будет ли совершена покупка, что нам требуется? Способ взаимосвязи переменных говорит: все еще необходимо знать лишь о том, видел ли некто рекламу. Визуально погода стоит справа особняком, а отсутствие ориентированного ребра (стрелки) от погоды к покупке означает, что этот фактор нельзя использовать для воздействия или предсказания предполагаемого следствия.

Идея о том, что для прогнозирования переменной нужно знать только о прямых ее причинах, называется причинным условием Маркова. Говоря технически, переменная не зависит от своих «непотомков» («потомки» – это следствия, следствия следствий и т. д.) при условии наличия их причин. Здесь ребра идут от причины к следствию, поэтому прямые причины – те, что связаны со следствием стрелкой.

Чтобы наглядно продемонстрировать полезность этой идеи, добавим причину рекламных объявлений.

Если маркетинговые стратегии влияют на покупки только посредством рекламы, то и вероятность покупки зависит лишь от рекламы – ее прямой причины. Как только значение объявления установлено, причина его появления теряет важность. Даже если мы обнаружим множество других причин объявлений, это не изменит фактора информации, которая нужна для прогнозирования покупок, так как все воздействия других переменных работают через объявления.

Перейдем к следующему рисунку.

Если мы захотим что-нибудь узнать о статусе покупок, не нужно выяснять, были ли объявления частью спланированной кампании или просто запущена массированная реклама. Чтобы понять, совершится ли покупка, важно лишь знать о факте показа рекламных объявлений. Эта идея аналогична скринингу, который мы наблюдали в . В теории это говорит о том, что если мы в силах прямо воздействовать на рекламу, никак не меняя при этом маркетинговые стратегии или бюджет, увидим и изменение в покупках. Дело в том, что они полностью определяются тем, как мы установим значение рекламных объявлений. На деле, однако, может оказаться невозможным вмешаться только в одну переменную, независимо от остальных на рисунке (подробнее об этом в ). Рекламу нельзя включить и отключить по мановению волшебной палочки, а вмешательства порой провоцируют непредвиденные побочные эффекты.

Рисунки такого вида не могут отобразить все возможные зависимости. Увеличение покупок также может приводить к расширению рекламы или к изменению стратегии, а это создает на изображении цикличность. Предложенные здесь иллюстрации – это графический режим представления данных, известный как байесовские сети,, а именно тип ориентированных и ациклических графов. «Ациклический» означает всего лишь отсутствие петель на графе, так что нижеследующее недопустимо.

Если представить, что вы прокладываете себе путь через ациклический граф, то закончить маршрут в том узле, с которого вы начали, невозможно. Такое свойство оказывается до удивления важным, когда мы применяем эти структуры в целях упрощения вероятностных расчетов. Скажем, требуется узнать вероятность одновременно покупок и рекламы, и мы ограничимся простым случаем, когда и то и другое может быть истинным или ложным. В отсутствие цикла, когда есть только ориентированное ребро (стрелка) от рекламы к покупкам, вероятность обоих событий вместе становится простой вероятностью покупки при условии рекламы, помноженной на вероятность того, что реклама истинна. То есть поскольку покупки зависят только от рекламы, просто нужно знать вероятность покупки, если известно, что реклама истинна, а затем учесть вероятность того, что происходит в действительности. К примеру, если вероятность покупки после просмотра рекламы составляет 1, но реклама имеет более низкую вероятность – скажем, 0,01, – шанс увидеть то и другое вместе будет равен 0,01.

Но если между двумя факторами есть петля обратной связи, вероятность рекламы также зависит от вероятности покупки. Это затрудняет расчеты, если мы хотим, чтобы воздействие случилось одновременно, однако проблему можно решить, добавив фактор времени.

Скажем, покупка в некоторый момент времени воздействует на рекламу с запаздыванием, не моментально. Чтобы это представить, понадобится множество графов.

Здесь мы имеем один граф, где показано, как переменные связаны по времени t, и еще один для следующего за этим момента времени t + 1. Реклама и покупки разобщены на каждом графе, поскольку не оказывают немедленного воздействия друг на друга. Каждый из графов для отдельных временных сегментов представляет собой байесовскую сеть и, следовательно, не может иметь циклов. Однако мы можем получить моментальное следствие между рекламой и покупкой или наоборот, поскольку на одном графике и то и другое присутствовать не может. Вместо этого соединим графы по времени, чтобы отобразить обратную связь.

Затем эта структура неоднократно повторится во времени, так что каждый раз покупка будет зависеть от значения рекламы в предыдущий раз, и наоборот.

Такой граф называется динамической байесовской сетью, хотя сама структура фактически неизменна во времени.

Возможны более сложные структуры со множественными задержками по времени, и необязательна связь со следующим моментом на временной шкале. Задержки могут быть и более долгими (например, запаздывание между подверженностью вирусу и развитием симптомов). Главное возражение – сложность осмысления таких структур существенно возрастает по мере увеличения числа переменных и задержек по времени.

Когда графическая модель становится каузальной

Мы можем использовать графы для представления причинно-следственных связей, но это не значит, что каждый граф, который мы создаем или о котором узнаём, имеет характер причинности. До сих пор мы всего лишь изображали, как вероятность одной вещи зависит от вероятности другой. Мы могли с такой же легкостью получить графы, показывающие, как перейти от аудиохарактеристик к распознаванию речи, фильтровать спам на основе его содержания и идентифицировать лица на изображениях. Может существовать множество графов, соответствующих набору вероятностных отношений (то есть представляющих тот же набор зависимостей).

Так как же узнать, каузальна ли графическая модель? Ответ кроется прежде всего в допущениях, связывающих графы с теориями, о которых мы уже говорили.

Первые графические модели причинных умозаключений были разработаны философами (Спиретс и др.) и специалистом по информационным технологиям (Перл), которые объединили философию причинности с графическими моделями. Скажем, реклама есть причина одновременно покупок и узнаваемости бренда, как на рис. 6.4 (а). Если бы у нас не было переменной, представляющей рекламные объявления, и мы пытались вывести зависимости из набора данных, то обнаружили бы граф на рис. 6.4 (б), где некорректно показаны покупки в качестве причины узнаваемости бренда.

Рис. 6.4. Истинная структура показана слева. Если реклама не наблюдаемая переменная, может появиться некорректная структура справа

Вспомните допущение об отсутствии скрытых общих причин, или о каузальной достаточности, из начала этой главы. Она необходима, чтобы избежать подобных ошибок. В целом может присутствовать общая причина любого ряда переменных, и, если она не измерена, мы не можем быть уверены, что результирующие выводы о каузальности окажутся корректны.

А что будет, если наша рекламная переменная указывает, действительно ли было куплено рекламное время на ТВ, но истинная причина – это просмотр рекламы определенное количество раз?

Как уже говорилось, нам нужны правильные переменные. Каузальные взаимосвязи могут включать в себя сложные их наборы: если выкурить одну сигарету, это вряд ли приведет к раку легких, но многолетнее курение – уже более сильная причина; лекарства часто имеют порог токсичности, так что 5 мг препарата могут не вызвать опасных последствий, а вот 50 мг – уже смертельная доза; грейпфрут не вреден, но он взаимодействует со многими лекарствами, вызывая серьезные побочные эффекты. Если к числу переменных относится факт курения (а не его продолжительность), факт приема лекарства (а не доза) и потребление грейпфрутов (а не их потребление на фоне приема определенного лекарства), то можно не найти причинных зависимостей или определить их неверно.

Такие структуры представляют собой вероятностные отношения и сообщают, какие переменные необходимы для прогнозирования значения остальных, однако для фактического расчета вероятности требуется еще один элемент информации.

Байесовская сеть состоит из двух частей: это структура (то есть как именно связаны между собой переменные) и набор распределения условных вероятностей. Если не слишком вдаваться в детали, это всего лишь таблицы, которые позволяют узнать вероятность каждого значения переменной, исходя из значений ее причин. Для простого графа с рекламой и покупкой хватит двух рядов и двух колонок.

Сумма каждого ряда составляет 1, поскольку, независимо от значений, которые принимает реклама, покупка также должна иметь некое значение, а сумма вероятностей равняться 1. Колонки не суммируются до единицы, потому что они дают вероятность конкретного значения покупки при условии двух значений рекламы. Наш простой граф не завершен, так как для него нужна еще одна таблица с вероятностью рекламы. То есть теперь известно, как определить вероятность покупки с учетом значения рекламы; но как выяснить вероятность рекламы? В этой таблице будет только два числа, поскольку у рекламы в графе нет родительских переменных, и ее вероятность ни от чего не зависит (точно так же вероятность того, что бросок монеты будет иметь конкретное значение, обычно не зависит от значения другой переменной).

Для каждого узла в сети мы получим аналогичную таблицу. Знание структуры существенно упрощает расчеты, так как значение каждой переменной задается ее исходными переменными. Напротив, если мы ничего не знаем о связи между переменными, нам придется включить их все в каждую строку таблицы. Если есть N переменных, которые могут быть истинными или ложными, количество строк будет равняться 2N. Мы можем получить знание о структуре и вероятностях из имеющихся данных или создать структуру на основе уже известного и отсюда выяснить вероятности.

В обоих случаях, однако, мы должны быть уверены, что данные корректно представляют истинные зависимости между переменными. Это возвращает к допущению о репрезентативном распределении, или верности. К примеру, мы не получим варианта, когда реклама способствует покупкам только в одном направлении, но мешает, если они ведут, скажем, к усталости от принятия решений. Если такое случится, мы можем не увидеть зависимости между рекламой и покупками, даже если это присутствует в истинной структуре. Мы также можем не найти правильных вероятностей, если на графе мало точек.

Верность может не иметь места в ряде других случаев, например при парадоксе Симпсона. Или когда в зависимости от разделения данных (например, все пациенты против только мужчин или только женщин) мы могли наблюдать независимость, а в действительности ее не было (например, больше женщин принимали лекарство А, чем лекарство B) и результаты отличались (например, у женщин были лучше, чем у мужчин, независимо от лекарства).

Еще один проблематичный случай – детерминизм взаимосвязей. Скажем, каждый раз, когда приходит электронное сообщение, компьютер подает сигнал, который, в свою очередь, заставляет моего пса лаять.

Если вероятность лая при условии сигнала равна 1 и вероятность сигнала при условии электронного сообщения также равна 1 (так что оба события происходят, когда имеют место их причины), сигнал не приводит к независимости сообщения и лая, даже если согласно структуре это должно происходить.

Представьте, что вам известно только, получено сообщение или нет. Теперь вы также знаете статус других переменных, потому что, если есть сообщение, сигнал также звучит и ведет к лаю. Вы можете некорректно заключить, что сообщение напрямую становится причиной других переменных. Эта проблема, однако, свойственна не только графическим моделям, а вообще большинству вероятностных методов.

Итак, повторим. Причинность графическим моделям придают следующие допущения.

• Вероятность переменной зависит только от ее причин (причинное условие Маркова).

• Все общие причины измерены (достаточность).

• Данные, на основе которых мы получаем знание, точно представляют реальные зависимости (верность).

Есть и другие неявные допущения, обеспечивающие корректность причинно-следственных заключений (должно быть достаточно данных, переменные должны быть корректно представлены и т. д.), но три вышеназванных допущения чаще всего становятся предметом обсуждений и отражают основные различия между графами, которые представляют и не представляют причины.

От данных к графу

Скажем, о сотрудниках компании есть некоторые данные: о рабочих часах, отпусках, о производительности и тому подобное. Как найти сеть причинно-следственных связей между ними?

Один из подходов – разработать меру для описания данных моделью, найти все возможные модели и выбрать одну с лучшим результатом. Это методы поиска и оценки. Допустим, в массиве данных истинно единственное отношение: «отпуск есть причина продуктивности». Значит, модель с этим ребром должна иметь балл выше, чем имеющая и другие отношения или в которой это ребро направлено в обратную сторону (от продуктивности к отпуску). То есть граф на рис. 6.5 (а) должен иметь более высокую оценку.

Рис. 6.5. Если О → П, первый граф будет иметь самую высокую оценку

Имея только эти три переменные, можно перечислить все возможные графы, проверить каждый и сделать выбор. Но, чтобы выбрать, нужен способ рассчитать, какой из них лучше соответствует данным. Есть много оценочных функций, и в итоге всегда выявляется, насколько хорошо мы описываем данные, не подстраивая граф под помехи и специфические свойства конкретного набора. Мы можем идеально учесть каждую точку в наборе данных с очень сложной структурой, но, вместо того чтобы моделировать каждый бит помех, стоит найти модель, которая охватывает более общие взаимосвязи между ее переменными.

Итак, обычно имеется фактор, исключающий граф, когда тот становится слишком сложным. Однако мы не можем выбирать между всеми возможными графами. Для набора из 10 переменных существует более 1018 вероятных графов. Это более чем в миллион раз превышает количество американской валюты. При этом не стоит даже пытаться искать взаимосвязи между всеми акциями в индексе S&P 500. Всего при 25 переменных количество возможных графов (свыше 10110) оставляет далеко позади число атомов во Вселенной (по прикидкам, их сравнительно мало – 1080). Ни при каких обстоятельствах нельзя протестировать их все, однако на практике это и не требуется. Мы можем выборочно сгенерировать столько, сколько возможно, и выбрать лучший, хотя с учетом их количества вряд ли вероятно, что мы натолкнемся как на раз на нужный. Вместо этого для алгоритмов проще задать некоторые индикаторы важности графов.

Скажем, мы тестируем первые три графа на рис. 6.6: рис. 6.6 (в) имеет высший рейтинг. Тогда наилучшая стратегия – не выборочное генерирование четвертого графа, а исследование ближних к нему. Мы можем добавить ребро, изменить его направление или удалить и посмотреть, как изменится рейтинг. Тем не менее может случиться так, что лучшим графом окажется изображенный на рис. 6.6 (г) и мы не сможем протестировать его с помощью этой стратегии, поскольку доводим до оптимума третий граф и останавливаемся еще до получения истинной структуры. Но, не тестируя каждый граф, нельзя узнать наверняка, что лучший из них попал в диапазон проверки.

Рис. 6.6. При переменных А, В, С и D рисунки а – в отображают возможные графы для тестирования. На рисунке г показана истинная структура

На рис. 6.7 проиллюстрирована проблема локальной оптимизации. Если ось Y – это рейтинг графа и мы тестируем только графы рядом с отмеченной точкой, можно думать, что это лучший из возможных рейтингов, потому что он самый высокий. Это называется «застрять в локальном оптимуме», потому что мы оптимизировали рейтинг в конкретной области. Но это не лучший из возможных результатов.

Рис. 6.7. Иллюстрация локального оптимума

Чтобы разрешить эту проблему, в алгоритмах изучения причинных структур используются «умные» методы ограничения набора графов, которые необходимо протестировать, и исследования максимально большего поискового пространства. К примеру, если нам известно, что пол – это всегда причина, но никогда не следствие, можно избежать тестирования графов, показывающих следствия.

Если у нас есть представление о видах вероятных структур, можно сгенерировать вероятностное распределение на основе набора графов и с его помощью сориентироваться по поводу возможных структур для исследования.

Как вариант, вместо изучения устрашающе огромного набора потенциальных графов можно использовать зависимости между переменными для построения графа. Методы на основе ограничений предназначены именно для этого: для тестирования по критерию независимости и применения результатов, чтобы добавлять, удалять или ориентировать ребра графа.

Одни методы предусматривают добавление переменных по очереди, а другие начинают со связывания всех переменных друг с другом и удаления ребер по одному.

Возьмем следующий граф, где три переменные соединены всеми возможными путями.

Если мы обнаружим, что А и В независимы при условии С, сможем удалить ребро между ними и продолжить поиск иных взаимосвязей, позволяющих так же снимать ориентировочные ребра. Порядок тестирования, однако, имеет значение, поэтому ошибка на первых шагах может привести к заблуждениям в последующих. Имея реальные данные, вряд ли можно обнаружить точную независимость, однако придется решить, в какой точке принять или отвергнуть гипотезу. То есть, если вероятность А при условии В в точности равна вероятности А, имеет место их независимость. Однако можно обнаружить, что вероятность А при условии В и С очень близка к вероятности только при условии С, но не равна ей.

На практике необходимо выбирать статистический порог, чтобы принять заключение об условной независимости на основе таких тестов. И если необходимо провести большое количество тестов, мы столкнемся со множеством проблем по проверке разнообразных гипотез, о которых говорилось ранее (вспомните ).

 

Измерение причинности

Один из подходов к причинному осмыслению – попытка найти модель, удовлетворяющую данным или объясняющую их. Но сделать это вычислительными методами крайне сложно, и в ряде случаев мы просто хотим узнать о взаимосвязях в некоем наборе уже измеренных переменных. То есть, возможно, нам нужно всего лишь выяснить причины рабочей производительности, а не выстроить полную модель, включающую все измеренные переменные. Рандомизированные испытания занимаются именно этими вопросами (каково действие конкретного лекарства на уровень смертности?), однако эксперименты можно проводить не во всех случаях, и им свойственны собственные ограничения (см. ).

Еще один вид причинно-следственных рассуждений связан с квантификацией силы индивидуальных каузальных зависимостей. Если отпуск – причина производительности, а не наоборот, то сила отпуска как причины производительности должна быть выше, а обратной посылки – ниже. Эти корреляции симметричны, но мера каузальной значимости должна учитывать асимметрию таких отношений. Кроме того, она должна в некотором смысле быть пропорциональна информативности причины относительно следствия, а также ее полезности как цели вмешательства для получения следствия. Если отпуск случайно спровоцировал производительность, при этом многочасовая работа всегда ее повышает, тогда отработанные часы имеют больше каузальной силы, чем дни отдыха. Аналогично если принуждать людей брать отпуск – эффективная стратегия повышения производительности, а заставлять работать по многу часов – нет, перерыв в работе окажется более значимой причиной производительности.

Если, однако, отпуск ведет к производительности только потому, что снижает текучку персонала, а более опытные сотрудники демонстрируют более высокую производительность труда, желательно убедиться, что весомость опыта для производительности выше, чем значимость отпуска. То есть требуется найти самые непосредственные причины (на рассмотренных нами графах это родительские переменные, а не отдаленные потомки).

Но, если мы в силах оценить причины производительности совершенно независимо от причин любой другой переменной, можно выполнить меньше тестов, причем реально проводить их параллельно друг другу (что повышает эффективность компьютерных программ для расчета этих переменных). Также это означает, что вместо применения аппроксимации (например, исследования подгруппы графов, а не всех возможных), когда многократный прогон программы каждый раз дает разные результаты, расчеты будут достаточно просты, чтобы использовать точные методы.

С другой стороны, есть ограничение: без структуры, показывающей связи между всеми переменными, нельзя брать полученные результаты непосредственно для прогнозирования. Скажем, мы обнаруживаем, что партийная поддержка – это причина, по которой сенаторы голосуют за законопроекты, и поддержка избирателей тоже может быть причиной. Но это ничего не говорит о взаимодействии между этими двумя видами поддержки, а также о том, будет ли результат сильнее, чем просто сумма двух причин. Одно из решений – найти более сложные взаимосвязи. Вместо того чтобы использовать любые измеренные переменные, можно выстроить конъюнкцию («законопроект поддерживают и партии, и избиратели»), выяснить, как долго некий фактор должен быть истинным (день, месяц, год и т. д.), и найти последовательности событий (будут ли результаты одинаковыми, если начать прием первого лекарства перед вторым?).

Не вдаваясь в детали, скажем, что существуют методы как для представления, так и для тестирования такого рода сложных взаимосвязей.

Значимость вероятностной причинной связи

Одна из возможных мер каузальной значимости – условная вероятность следствия при условии причины. Проще говоря, мы можем посмотреть, насколько отпуск повышает вероятность высокой производительности труда. Однако, как мы увидели в предыдущей главе, многие непричины также усиливают возможность других событий. Если отработанные часы и отпуск имеют общую причину, то они, по всей видимости, умножают вероятность друг друга.

Есть масса мер силы причинно-следственных связей, однако главное – каким-то образом включить сюда другую информацию и учесть общие причины. Так, допустим, мы знаем, что и отпуск, и сверхурочные увеличивают производительность труда, но, если присутствуют только сверхурочные, одно только знание об отпуске производительность не повысит.

На практике, однако, можно не измерять переменную напрямую. Возможно, мы не можем узнать точно, сколько часов люди работают, но мы в курсе, сколько времени они проводят в офисе. Некоторые из сотрудников на рабочем месте могут затягивать обеденный перерыв или тратить время на личную переписку и видеоигры. Используя только показатель офисных часов, не получится провести различие между этой категорией и теми, кто находится на месте меньше, но работает продуктивнее. С учетом этого обстоятельства такой индикатор рабочих часов не будет идеально экранировать следствия.

Подобный пример сродни тем, в которых мы изучали репрезентативность переменных (комбинации факторов против каждого отдельного) и ее влияние на результаты выводов о причинности. Итак, нам может понадобиться не только набор переменных для верного отделения причин от следствий. Также следует ожидать, что по этой и другим причинам (упущенные данные, ошибки измерений и т. д.) может иметь место некая вероятностная связь между переменными в отсутствие причинной зависимости, и придется выяснять, как с ними работать.

Если мы говорим, что отпуск – причина производительности, то имеем в виду, что факт отпуска важен для производительности. Если это действительно сильная причина, а требование эффективности не предъявляется ни к какому другому фактору (скажем, достаточный уровень дохода, чтобы отпуск не повлиял на финансы), то, независимо от значения других переменных (например, количества отработанных часов), производительность после отпуска должна повышаться.

И это не будет истинным для всех ситуаций, поскольку многие причины могут иметь как положительные, так и отрицательные следствия: к примеру, ремни безопасности в целом предотвращают летальные исходы дорожных происшествий, но иногда вызывают их, не давая выбраться из затонувшего автомобиля. Мы, однако, по-прежнему можем допустить, что даже если ремни безопасности иногда становятся причиной смерти, в среднем те, кто ими пользуется, имеют более низкие шансы погибнуть в автокатастрофе, чем остальные.

Чтобы квантифицировать (то есть выразить в численном виде) важность причин, можно в среднем вычислить, какое значение имеет причина с точки зрения вероятности ее следствий. Фактически идея заключается в том, чтобы выяснить, насколько изменяется вероятность следствия при отсутствии или наличии причины, если все остальное постоянно. Обстоятельства можно взвесить по критерию их вероятности; если причина значительно повышает вероятность следствия в часто повторяющемся сценарии, это значит больше, чем повышение вероятности в редких случаях.

Возьмем каузальную структуру на рис. 6.8, где партийная поддержка и идеология влияют на голосование политиков, но не предпочтения их избирателей. Если это истинный набор взаимоотношений, тогда в зависимости от того, поддерживают избиратели законопроект или нет, вероятность голосования «за» будет в точности такой же, хотя будут наблюдаться изменения при смене идеологии и партийных предпочтений.

Рис. 6.8. Средняя значимость избирателей для голосования будет стремиться к нулю. Обратите внимание, что графы без обведенных кружками узлов не представляют байесовские сети

Один из методов расчета причинной значимости – сразу зафиксировать значения всех переменных и взглянуть на различия в следствии для каждого заданного значения. Партия может выступать за или против законопроекта, идеологические предпочтения могут совпадать с ним или нет, равно как и избиратели. Итак, мы можем взять каждую комбинацию и посмотреть, какое значение оказывает одобрение электората для любого соединения партийной поддержки и идеологических переменных. Поскольку эти две переменные полностью определяют исход голосований, разницы не будет никакой.

Однако при добавлении переменных каждый из возможных сценариев будет отмечен не слишком часто, и мы, возможно, не увидим достаточно примеров, чтобы вывести статистически значимые заключения. Более практичная мера значимости, чем разработанная мной, предусматривает наличие одновременно только одной константы, при этом для усреднения различий причина либо вводится, либо нет. Для расчета этой меры причинной значимости εavg мы выясним, какое значение оказывают избиратели, взяв константой партийную поддержку законопроекта, а потом сделаем то же самое для идеологии и так далее, в итоге сведя все отличия воедино, чтобы получить средний показатель для значимости избирателей.

По большей части в методах, основанных на вероятностях (например, как этот), берется набор данных и высчитывается число, обозначающее причинную значимость одной переменной по сравнению с другой. Это значение может находиться в диапазоне от – 1 до 1, где –1 – сильная отрицательная причина, мешающая следствию произойти, а 1 – сильная положительная причина следствия.

Поскольку обязательно будут помехи, ошибки и упущенные данные, нельзя сделать допущение, что нечто, не оказывающееся причиной, всегда будет иметь нулевое значение. Вместо этого, как правило, необходимо определить, какие значения меры причинной значимости будут статистически значимыми (вспомним разговор о p-значениях и тестирование множественных гипотез в ).

К примеру, когда мы рассчитываем среднюю причинную значимость большого количества потенциальных причин, при этом нет истинных причинных взаимосвязей, распределение рейтингов значимости (значений εavg) будет выглядеть как колоколообразная (гауссова) кривая, или как светло-серые столбцы на рис. 6.9. Если в тестируемом наборе присутствуют некоторые истинные причинные взаимосвязи, их рейтинги значимости будут основаны на других распределениях (черные столбцы на том же рисунке). Можно применить это различие между наблюдаемым и ожидаемым, чтобы выяснить, какие значения меры могут считаться каузальными.

Рис. 6.9. Гистограмма рейтингов значимости для набора причинных зависимостей. Область светло-серого цвета (со средним значением 0, обозначающим незначимость) представляет ложные зависимости, черные столбцы – истинные причины. Из-за помех и иных факторов не все непричины будут иметь значимость 0, но будут распределены вокруг этой центральной области

Как обычно, чтобы высокие уровни причинной значимости соответствовали истинным причинам, нужно быть уверенными, что мы точно измерили силу (и, следовательно, вероятности репрезентативны относительно истинных значений) и, как в байесовских сетях, общие причины (или можно переоценить значимость других причин либо выявить ложные зависимости). Для этих временных рядов также понадобится сделать допущение, что отношения остаются стационарными во времени. Причина в том, что если отношения изменяются во времени, то, возможно, две переменные будут независимы для одной, но не для другой части временных рядов. Когда мы исследуем весь временной ряд сразу, отношения могут показаться слабыми, даже несмотря на их относительную силу на фоне некоторой части ряда.

Отвечая на вопрос «почему», мы часто забываем о вопросе «когда». В ряде методов можно уточнить временное запаздывание, или окно, так что нетрудно рассчитать значимость, скажем, близкого контакта с человеком, больным гриппом, для развития симптомов заболевания в период от одного до четырех дней. Но, если мы не имеем никакого понятия о том, что вызывает грипп, как поймем, что протестировали именно это «окошко»? Вот одно из слабых мест, присущих подобным подходам: если мы протестируем неверный набор временных рядов, то либо не сумеем выявить нескорые реальные причины, либо найдем только подгруппу в пределах истинного набора временных задержек.

Тестирование всех мыслимых запаздываний не слишком разумная стратегия, так как это значительно повышает сложность вычислений, при этом даже не гарантирует, что будут найдены правильные временные паттерны. Дело в том, что выборка данных часто берется неравномерно по времени и разброс может быть слишком велик (при малом количестве измерений и больших пробелах между ними), а пробелы не обладают свойством выборочного распределения.

Скажем, у нас есть результаты лабораторных испытаний для группы пациентов, а также врачебные предписания для них. Даже если лекарство однозначно повышает сахар в крови на протяжении недели, имеющиеся у нас измерения вообще (или в большей части) могли проводиться не сразу после приема препарата. Может также иметь место запаздывание от даты назначения до начала приема лекарства, так что кажущаяся длительная задержка между предписанием и повышением глюкозы на самом деле способна проявиться только через неделю после лечения. В результате для каждого отдельного временного интервала может не хватить объема наблюдений. Применение временных окошек может принести пользу (поскольку, если взять их вместе, удастся получить достаточное количество наблюдений за 5–10 дней), хотя по-прежнему не решается проблема с тем, какое именно временное окошко тестировать.

Один из способов выявления временных паттернов на основе данных – набирать потенциальные паттерны и потом корректировать, исходя из данных. Реальным этот метод делает мера значимости. Посмотрим на рис. 6.10, когда тестируемое временное окно перекрывает истинное, но отличается от него. Это и есть возможные сценарии. По мере того как окно растягивается, сужается или смещается, мы пересчитываем причинную значимость. В каждом случае, меняя некорректные окна, чтобы приблизиться к истинному, мы улучшаем рейтинг значимости. При наличии временного окна наша переменная-следствие и будет следствием, которое случается в некотором временном диапазоне. Если окно намного шире истинного, как на рис. 6.10, будет множество примеров, когда можно ожидать, что следствие произойдет, но этого не случится (следовательно, рейтинг значимости будет исключен для всех этих следствий, по видимости не случившихся после причины). С другой стороны, если окно слишком узкое, следствие будет казаться вероятным, даже когда не вызывается потенциальной тестируемой причиной. По мере того как временные паттерны приближаются к реальным, значимость возрастает, и можно доказать, что она соответствует действительной.

Рис. 6.10. Возможные случаи, когда временное окно причины при тестировании образует перехлест, но отличается от истинной причины, в которой производит следствие

Причинность по Грэнджеру

Вероятности применяются чаще всего тогда, когда данные включают дискретные события: к примеру, наличие или отсутствие диагноза; лабораторные значения, сгруппированные по категориям «нормальное», «высокое» и «низкое». Но что, если требуется понять, как изменения в ценах на одну акцию приводят к модуляциям в объемах торгов другой ценной бумагой? Тогда на самом деле мы хотим выяснить не то, как одно ценовое значение приводит к росту объема торгов, а размеры ожидаемого роста.

В то время как вероятностные методы тестируют, насколько шансы того, что случится некое событие, меняются в зависимости от причины, мы также можем проверить, как меняется значение переменной относительно изменений в причине. Большинство методов, которые мы рассматривали до сих пор, доступны к использованию как раз подобным образом.

Хотя, строго говоря, традиционно это не считается каузальностью (по мотивам, которые мы вкратце рассмотрим), один из общеприменимых методов причинного осмысления на основе данных временных рядов с непрерывными значениями называется «причинность по Грэнджеру». Взяв за основу труды Винера (1956), который утверждал, что причины повышают предсказуемость следствий, Грэнджер разработал прикладной метод тестирования каузальности в финансовых динамических рядах, таких как прибыль от ценных бумаг. Идея в следующем: причина предоставляет некую информацию о следствии, которая не содержится в других переменных и позволяет лучше предвидеть значение следствия. И, если мы возьмем всю сумму знаний до определенного момента, вероятность того, что следствие имеет некоторое значение, будет отличаться, если мы удалим причину из этого набора сведений.

На практике мы не располагаем неограниченным набором информации и не можем использовать ее всю, даже если получим благодаря сложным вычислениям.

Не вдаваясь в детали, скажем: существуют две формы причинности по Грэнджеру, каждая из которых приводит к совершенно разным логическим заключениям. Важно понять, что ни та, ни другая по-настоящему не соответствуют причинности. Но, поскольку их часто применяют в поддержку каузальных утверждений, полезно разобраться, на что они способны, а на что нет.

Во-первых, двумерная причинность по Грэнджеру ненамного отличается от корреляции (хотя сама мера несимметрична). Она включает всего две переменные и просто сообщает, может ли одна помочь в прогнозировании другой. Так, если мы измеряем погоду, задержки авиарейсов и продажи кофе в аэропорту, то в состоянии выявить зависимости только между парами, например прогнозируя задержки авиарейсов по погоде. Даже если нет скрытых переменных, такой подход не дает никаких преимуществ для предотвращения искажений. Таким образом, двумерная причинность по Грэнджеру иногда приводит к обнаружению ложных мотивационных взаимосвязей между следствиями с общей причиной. Если плохая погода вызывает задержки отправления и самолетов, и поездов, мы можем некорректно заключить, что отложенные авиарейсы оказываются причиной запаздывания железнодорожного транспорта, и наоборот. В соответствии с этим методом легко сделать вывод, что все до единого более ранние звенья в цепочке причин становятся поводами для более поздних, вместо того чтобы выявить только непосредственные взаимосвязи. То есть если у нас есть последовательность событий, можно решить, что первое есть причина последнего, поскольку мы не принимаем в расчет промежуточные звенья.

Есть множество методов тестирования причинности по Грэнджеру, однако самый простой из них – регрессия. Скажем, требуется выяснить, что было вначале – курица или яйцо. Следуя Турману и Фишеру (1988), возьмем два временных ряда: один будет показывать ежегодное производство яиц, а другой – годовую популяцию кур. В итоге получим два уравнения: одно покажет зависимость значений по курам от предыдущих значений и кур, и яиц, а другое – зависимость яиц от предыдущих значений по курам и яйцам. Количество предыдущих значений (интервалов) – это параметр, который выбирает пользователь.

Здесь возможен тест на зависимость между производством яиц в определенный год и популяцией кур в предыдущий год, два и т. д. Для каждого года производства яиц и популяции кур существует коэффициент, показывающий, насколько значение текущего года зависит от показателя предыдущего. Нулевой коэффициент означает отсутствие зависимости вообще. Итак, если коэффициенты производства яиц в уравнении для яиц отличны от нуля в некоем временном интервале, тогда куры – это грэнджеровская причина яиц (если значение для предыдущего года – два, это значит, что яйца в два раза превышают популяцию кур за предыдущий год).

Чаще всего увеличение интервалов означает повышение сложности, также может устанавливаться практический предел для тестирования, помимо ограничений, связанных с данными, например количество точек данных и детализация измерений.

Вернемся в наш аэропорт. Скажем, при прогнозировании продаж кофе мы возьмем в качестве переменных погоду, задержки вылетов и предыдущие значения продаж кофе. Это будет многомерная причинность по Грэнджеру, когда мы включаем в каждый тест все имеющиеся переменные. Нет возможности принять во внимание все сведения в мире, но нетрудно проверить, будет ли информативна некоторая переменная, если учтены все остальные, оказавшиеся в нашем распоряжении. Скажем, истинная зависимость такова: погода вызывает задержки рейсов, а задержки рейсов вызывают рост продаж кофе, потому что людям приходится ждать в аэропорту. Тогда, после включения в кофейное уравнение задержки, погода не сможет дать никакой новой информации, и ее коэффициент будет стремиться к нулю (а значит, не повлияет на прогнозирование объема продаж кофе). Нельзя утверждать, что наблюдается причинная взаимосвязь, поскольку коэффициенты все же отличны от нуля, однако нетрудно провести тесты и проверить статистическую значимость этого отличия от нуля.

Здесь мы подходим ближе к причинности, но нет гарантии, что наши выводы истинны. Что еще важнее, даже если многомерная форма гораздо сильнее и точнее, она применяется намного реже, поскольку требует слишком интенсивных вычислений.

 

И что теперь

Возможно, вы носите «умные часы», которые месяцами регистрируют данные о вашем сне и физической активности; или у вас есть данные полицейских отчетов по своему району, и вы хотите найти причину преступлений; а возможно, вы прочли, что некто вывел локальные тренды заболеваемости гриппом из постов в соцсетях. Как будете справляться с анализом собственных сведений?

Главное, что следует осознать, – нет какого-то единственного способа решения всех проблем с причинными зависимостями. Ни один из существующих подходов не дает возможности в каждом случае безошибочно определить причины (что оставляет широкий простор действий ученым). Некоторые позволяют сделать более общие выводы, чем другие, но все зависит от допущений, которые в реальности не истинны. Вместо того чтобы досконально освоить один метод и использовать его для решения всех проблем, нужен набор инструментов. Большинство методов можно адаптировать под основную массу ситуаций, но это не будет простейшим или самым эффективным подходом.

С учетом того, что ни один метод не совершенен, возможно, самая важная вещь – осознать пределы каждого. К примеру, если ваши логические выводы базируются на двумерной причинности по Грэнджеру, не забывайте, что вы ищете своего рода направленную корреляцию и учитываете многомерный подход. Байесовская сеть может быть неплохим выбором, когда каузальная структура (связи между переменными) уже известна и вы хотите вывести ее параметры (вероятностные распределения) из некоторых данных. Но, если для решения проблемы важно время, динамические байесовские сети (или методы для нахождения временных паттернов причинных зависимостей на основе данных) могут оказаться более приемлемыми.

Зная, непрерывны ваши данные или дискретны, можно сузить область вариантов, так как многие методы работают либо с одними, либо с другими (но не с обоими видами сразу). Если данные включают большое число переменных или вам не нужна полная структура, методы расчета причинной силы окажутся эффективнее тех, что работают с моделями. При использовании их, однако, нужно учитывать необходимость конструирования взаимодействий между причинами с целью прогнозирования.

Таким образом, цель использования причин так же важна, как и имеющиеся в наличии данные для выбора методов. Наконец, уясните для себя, что любые предпочтения, сделанные в рамках сбора и подготовки данных, влияют на характер логических выводов.