Часть пятая. Мошенники и исследователи. «0,05. Доказательная медицина от магии до поисков бессмертия»

Глава 13

Как разрабатывают лекарства

Клинические испытания – лишь одно из последних звеньев большого и трудоемкого процесса создания и вывода нового лекарства на рынок. Процесс может растягиваться на десятилетия и стоить до миллиарда долларов, а положительный результат в конце этого пути проб и ошибок не гарантирован.

Многие представляют процесс примерно так: ученые размышляют о механизмах болезни, а потом предлагают способ повлиять на них, прервав патологический процесс или запустив недостающий. Однако для создания лекарств таким образом нашего понимания работы организма пока недостаточно. Организм сложен, и любая субстанция может подействовать не там и не так, как ожидали разработчики, не вылечив пациента или вызвав неожиданные побочные эффекты.

Доклинический поиск

Исследования, не предполагающие участия людей, называют доклиническими (или неклиническими). С них начинается разработка препарата. Ее первый этап – поиск биологической мишени. Так называют присутствующую в организме молекулу, на которую будет нацелено еще не созданное лекарство. Лекарство может влиять на течение болезни, связываясь с биологической мишенью или изменяя ее. Известно несколько сотен биологических мишеней, в большинстве случаев это белки. Например, зная, что фермент циклоксигеназа обеспечивает синтез необходимых для воспалительной реакции простагландинов, мы можем выбрать его в качестве мишени для будущего противовоспалительного препарата. Если мы найдем вещество, которое будет подавлять циклоксигеназу, то можем рассчитывать уменьшить выработку простагландинов, а значит, и воспаление.

Выбор мишени – решение важное и непростое. Оно основано на представлении о механизмах болезни, которое может быть ошибочным или неполным. И всегда есть риск, что разработчики узнают об этом лишь на самых поздних этапах. Нельзя также исключать, что выбранная мишень участвует не только в патологическом процессе, на который мы хотим повлиять, но и в реализации каких-либо важных функций. Тогда, влияя на нее, мы можем вызвать нежелательные эффекты, которые перевесят любую пользу.

Когда биологическая мишень выбрана, начинается поиск молекулы, способной на нее влиять. Молекулы лекарственных веществ делят на две основные группы. Большинство представленных на рынке лекарств относится к малым молекулам (или низкомолекулярным). Это молекулы небольшого размера, вес которых не превышает 900 дальтон. Такая граница выбрана, поскольку молекулы с размерами в пределах этого порога могут легко проникать через клеточную мембрану и действовать на мишени не только снаружи, но и внутри клетки. Пример такого вещества – состоящий всего из 21 атома аспирин. Биологическими молекулами называют вещества, размер молекул которых превышает порог в 900 дальтон, большинство из них – белки. Они не могут проникать в клетку и действуют только на мишени вне ее или на ее поверхности, скажем, на клеточные рецепторы. Пример – состоящее из 25 тысяч атомов антитело. В процессах поиска малых и биологических молекул есть некоторые отличия.

Поиск малых молекул, способных влиять на биологическую мишень, ведут путем перебора огромного количества химических веществ. Сейчас этот процесс в значительной степени автоматизирован и компьютеризован. Те компании, которые могут себе это позволить, используют роботизированные системы высокопроизводительного скрининга, позволяющие тестировать целые библиотеки веществ, содержащие до сотен тысяч компонентов. Библиотеки создают как путем случайных модификаций, так и с помощью компьютерных систем, которые просчитывают, какие свойства вещества повысят вероятность его взаимодействия с мишенью. Для этого же в последнее время пытаются применять и трехмерное моделирование.

Поиск с помощью высокопроизводительных скрининговых систем представляет собой полноценный контролируемый эксперимент. Вещества из библиотеки находятся в растворе в ячейках микротитрационных планшетов – пластиковых контейнеров с нанесенными в виде сетки небольшими углублениями. Информацию о содержимом ячеек хранит компьютерная система. Часть ячеек играет роль контрольной группы. Роботизированная система вводит в ячейки биологическую мишень – белок или культуру клеток, оценивает реакцию и определяет, какие ячейки дают статистически значимые отличия от контроля. Сейчас существуют системы, позволяющие оценивать до десяти миллионов реакций в час. Предполагается, что системы высокопроизводительного скрининга со временем сократят время разработки лекарств по сравнению с перебором веществ по старинке, вручную.

Поиск биологических молекул предполагает перебор меньшего количества вариантов на начальном этапе, поскольку разработчик примерно знает, что хочет получить. Биологические молекулы, как правило, синтезируются живыми системами – микроорганизмами, клетками животных или растений. Для того чтобы клетки синтезировали нужные молекулы, часто используют технологию рекомбинантной ДНК. Это последовательность ДНК, искусственно созданная человеком путем объединения генетического материала из разных источников – как синтезированного химическим путем, так и скопированного из разных организмов. При поиске тоже могут быть использованы библиотеки биологических молекул, например антител.

Когда наиболее вероятные вещества-кандидаты выбраны, начинается их оптимизация. Разработчики синтезируют варианты молекул, имеющие некоторые структурные отличия от исходного, тестируют их и выбирают те, что лучше всего взаимодействуют с биологической мишенью. Этот процесс может повторяться многократно. Шансы отдельно взятой молекулы, изученной на этапе скрининга, когда-нибудь стать лекарством могут составлять тысячные доли процента. Увы, сцены из фильмов, в которых гениальный ученый после некоторых раздумий рисует на доске формулу искомого вещества, очень далеки от реальности.

Помимо способности взаимодействовать с мишенью при отборе учитывают еще несколько факторов, например вероятность побочных эффектов. Для этого нужно понимать, будет ли вещество взаимодействовать с другими схожими мишенями человеческого организма. Например, в нашем теле содержится несколько сотен ферментов, относящихся к классу киназ. Если одна киназа выбрана в качестве мишени, в процессе скрининга стоит проверить взаимодействие веществ не только с ней, но и с другими похожими киназами. Если оно есть, риск нежелательных эффектов велик. В случае биологических молекул также важно минимизировать риск иммунного ответа со стороны организма пациента. Этого можно добиться, “очеловечивая” выработанные клетками других видов белки – при этом их фрагменты меняют так, чтобы они меньше отличались от человеческих.

Важно понимать, как вещество будет всасываться, распространяться и изменяться в организме. Хотя окончательный ответ дадут только исследования на животных и людях, уже на раннем этапе оптимизации веществ можно отсечь те, свойства которых помешают им стать лекарством. Например, если мы ищем лекарство от распространенного хронического заболевания, его желательно выпускать в форме таблетки для перорального применения: лекарство, которое нужно вводить внутривенно, сложнее применять самостоятельно, и это может затруднить массовые продажи.

Биологические молекулы не всасываются в кишечнике и вводятся внутривенно. Если они вызывают в организме пациента выраженный иммунный ответ, то будут быстро удалены из кровотока. Если же удается создать препарат, циркулирующий в крови дни, недели и даже месяцы, редкий прием может вполне компенсировать необходимость делать инъекцию.

Нужно также учитывать производственные, экономические и юридические моменты. Желательно, чтобы вещество было стабильным при хранении: если оно быстро разрушается, срок годности будет невелик. Нужна возможность производить его в промышленных масштабах, и процесс производства не должен быть слишком дорогим. Важно учитывать и патентные риски: если что-то может помешать защите патента, лучше не начинать длительный и дорогостоящий процесс: риск слишком велик.

Поскольку каждый последующий этап разработки дольше и дороже предыдущего, в интересах фармкомпании (именно они в большинстве случаев и разрабатывают лекарства) обнаружить бесперспективность проекта как можно раньше и остановить его до того, как вложения, которые не удастся вернуть, станут чрезмерными.

Поскольку организм не является простой суммой частей, исследования на отдельных белках-мишенях или клетках не могут заменить экспериментов на целых организмах. Поэтому на более поздних этапах доклинического поиска тесты нескольких типов на лабораторных животных неизбежны.

Фармакодинамическими называют исследования, задача которых изучить, как вещество влияет на тело. Очень желательно еще до начала долгих и дорогих исследований на людях показать на животных моделях, что лекарство может работать. Также во время фармакодинамических исследований определяют дозу, необходимую для получения эффекта. С помощью этих данных позже определят, с какой дозы начинать испытания на людях.

Иногда в качестве моделей получается использовать животных с той же болезнью, для которой разрабатывается лекарство, но на практике заболевания, абсолютно идентичные человеческим, встречаются у животных нечасто. Поэтому в качестве модельных выступают животные с похожими, на взгляд исследователей, состояниями. Так, например, моделью инсульта могут стать животные, чье мозговое кровообращение было искусственно нарушено. Симптомы при этом возникают те же, что при инсульте, вызванном закупоркой сосуда головного мозга тромбом. Для имитации остеоартрита кроликам вводят в суставы йодацетат натрия – через 2–4 месяца у них развивается похожее состояние. В некоторых случаях сходство очень условно. Непросто подбирать модели психических заболеваний: непреодолимый коммуникационный барьер между нами и животными не позволяет найти у них аналоги, например, шизофрении. Поэтому в качестве модели этой болезни используют животных с изменением поведения, напоминающим исследователям симптомы этой болезни. Конечно, полезность таких моделей сомнительна.

Другая важная группа исследований – фармакокинетические. Их задача – определить, как тело влияет на вещество. Важно понимать, как оно всасывается, изменяется в организме и выводится из него. Нужно убедиться, что, с одной стороны, вещество сохраняется в крови достаточно долго и успеет подействовать, с другой – вовремя разрушится и не будет накапливаться. Кроме того, в процессе метаболизма – преобразования вещества в теле – не должны возникать ядовитые субстанции.

Одна из основных задач исследований на животных – показать, что начинать испытания на людях относительно безопасно. Для этого проводят обязательные тесты на общую токсичность, включающие изучение общетоксических, канцерогенных, генотоксических свойств, влияние на репродуктивную функцию и развитие плода, а также при необходимости дополнительные тесты на специфическую токсичность – например, глазной препарат будут отдельно исследовать на токсичность для глаза. При этом обязательно используют не менее двух видов животных, один из которых – не грызуны.

Если на этом этапе вы не наблюдали слишком опасных эффектов, если достаточная для лечения доза намного ниже той, которая вызывает опасные эффекты, и если выполнены все остальные условия, поздравляю – у вас есть вещество для клинических испытаний.

Клинические испытания I фазы

Регулирующие организации выдают разрешение на проведение экспериментов на людях, изучив данные об эффективности и безопасности вещества, полученные на доклинической стадии. Выделяют до четырех этапов клинических испытаний, три из которых проводят до выхода препарата на рынок – их называют испытаниями I, II и III фазы (далее КИ I, II и III фазы). Испытания IV фазы проводятся уже после начала широкого применения препарата.

Задача клинических испытаний I фазы – убедиться, что вещество-кандидат безопасно для человека. В них участвуют до нескольких десятков человек. Участников могут разделить на группы, которые получают разные дозы. Иногда может быть выделена контрольная группа, получающая плацебо. В КИ I фазы определяют максимально переносимую дозу – наибольшую дозу, не приводящую к токсическим эффектам, а также описывают эти эффекты (данные пригодятся при планировании следующих фаз). Исследование начинают с минимальной дозы, рассчитанной по результатам тестов на животных. Если все в порядке, дозу увеличивают. Вторая задача I фазы – изучить фармакокинетику и фармакодинамику вещества, теперь уже на людях.

Большинство испытаний I фазы проводят на здоровых людях. Хотя их называют добровольцами, а на сайтах рекрутирующих организаций обычно можно найти призывы принести пользу обществу, участие – платное. В экономически развитых странах доброволец может получить до нескольких тысяч долларов за одно исследование. Это работа, не всегда приятная и всегда рискованная. Нетрудно догадаться, кто за нее берется. Это необеспеченные студенты, социально неустроенные люди, бедные эмигранты и безработные.

В 2015 году в газете The Atlantic Daily вышло журналистское расследование “Жизнь профессиональной подопытной свинки”. Статья рассказала о том, что в США в КИ I фазы участвуют, как правило, одни и те же люди из небольшого и сплоченного сообщества. Они делятся информацией о новых клинических испытаниях в sms-рассылках, вместе ездят по стране, чтобы попасть в как можно большее количество исследований, обучают новичков, в том числе и тому, как обмануть рекрутеров и пройти отбор, даже если не соответствуешь требованиям. Многие в течение жизни участвуют в нескольких десятках экспериментов. Один из них поделился с журналистом историей “профессиональной подопытной свинки”:

Я узнал об этом от незнакомого чувака в баре. Тот уже хорошо выпил и болтал про место, где ему платили 2500 долларов за то, что он принимал обезболивающие и пил алкоголь. Все смеялись над ним типа: “Да ну, ты п…шь”.

Однако это оказалось правдой. Не имея постоянной работы и соблазнившись обещанием больших денег, он записался участником в четырехнедельное исследование взаимодействия обезболивающего и алкоголя.

Это было довольно жестко. Многим было очень плохо, я блевал. Персонал велел нам использовать ведра, а не туалет, чтобы они могли изучить блевотину и определить, какая часть таблетки переварилась до того, как выйти наружу. После первого раунда я придумал бегать в туалет сразу после каждой таблетки и блевать, чтобы избежать тяжелой побочки. Персонал ни о чем не догадался.

Использование нуждающихся людей может вызвать этические вопросы, но они хотя бы понимают, что происходит и каковы возможные риски. Более спорно использование в испытаниях I фазы пациентов, потерявших надежду на исцеление. Это может быть оправдано, если разрабатывается лекарство против опасного, неизлечимого заболевания. Или если вероятность побочных эффектов так высока, что его можно применять только на людях, которым оно дает шанс на спасение. Увы, иногда больных приглашают в исследование и для того, чтобы быстрее набрать нужное число участников или сэкономить: в отличие от добровольцев им не нужно платить.

Опрос показал, что более половины из таких пациентов не понимают смысла того, в чем участвуют, и считают, что это эксперимент по оценке эффективности лекарства. Большинство надеется на улучшение здоровья, хотя шансы на это ничтожны: дизайн исследований I фазы не предполагает лечение пациента, и вероятность, что вещество-кандидат работает, на этом этапе очень мала.

Воспроизводятся ли на людях результаты испытаний на животных

Не более трети проектов по поиску вещества-кандидата доходят до стадии клинических испытаний, и только один из десяти дошедших завершается регистрацией лекарства. В некоторых областях медицины шансы еще меньше: в онкологии все этапы клинических испытаний проходит менее чем каждый двадцатый проект. Значительную их часть закрывают на ранних стадиях. Это происходит потому, что вещество не демонстрирует на людях эффективность, какой от него ожидали по результатам доклинических исследований, или оказалось опасным, хотя не причиняло лабораторным животным никакого вреда в тех же или даже бóльших дозах.

В 2006 году шестеро молодых людей были госпитализированы в отделение интенсивной терапии в тяжелом состоянии. Все они были добровольцами в испытании I фазы препарата TGN1412 – такие коды обычно используют до присвоения лекарствам названия. Вещество TGN1412, разработанное германской компанией TeGenero, казалось многообещающим. Оно представляет собой антитело, связывающееся с рецепторами Т-клеток, которые играют центральную роль в работе иммунной системы. Предполагалось применять TGN1412 для лечения некоторых типов рака крови, ревматоидных артритов и других заболеваний, связанных с нарушением работы иммунной системы. Доклинические исследования, в том числе на макаках, не выявили никакой опасности.

Для проходившего в Великобритании испытания I фазы нашли восемь человек, каждому из которых заплатили по 2 тысячи фунтов стерлингов. Шестерых распределили в экспериментальную группу, двоих – в группу плацебо. Почти сразу после внутривенного введения все, кто получил препарат, ощутили сильный жар и боль во всем теле. Лица добровольцев распухли, пальцы рук и ног почернели и начали отмирать – одному из пострадавших пришлось их впоследствии ампутировать. Один из участников рассказал:

Я чувствовал, как моя голова распухает и становится размером со слоновью. Я боялся, что глаза выскочат из орбит. Внезапно меня охватила жуткая боль, которую я даже не могу описать. Затем она еще усилилась, а давление в голове было такое, как будто на ней припарковался грузовик.

TGN1412 вызвал у добровольцев так называемый цитокиновый шторм – массовый выброс иммунными клетками белков, запускающих воспалительную реакцию. Это приводит к повсеместному отеку, похожему на острейшую аллергическую реакцию, и другим проявлениям острого воспаления во всем теле. Через некоторое время к уже описанным симптомам добавился отказ внутренних органов, двое оказались в угрожающем жизни состоянии. У одного добровольца отказали сердце, печень и почки, и он больше двух недель пролежал в коме.

К счастью, всех шестерых удалось спасти. Создавшая препарат компания TeGenero разорилась, а права на TGN1412 были выкуплены московским стартапом “Терамаб”, который переименовал препарат в TAB08 и приступил к проведению новых клинических испытаний, на этот раз в России. Доза препарата была значительно уменьшена, и теперь, по словам исследователей, безопасна. Но обнаружится ли у препарата в столь малой дозе терапевтический потенциал – большой вопрос. TGN1412 вызвал цитокиновый шторм в дозе в пятьсот раз меньшей, чем та, которую испытания на животных определили как максимальную безопасную. Позже были найдены не известные в момент драматического эксперимента тонкие различия в работе иммунных систем человека и макаки.

Пример TGN1412 учит нас тому, что любые исследования на животных не гарантируют безопасность людей, поэтому новый препарат как минимум не нужно вводить всем добровольцам одновременно. Увы, уже 2016 год показал, что урок выучили не все. На сей раз клиническое испытание I фазы закончилось трагедией: у одного из добровольцев констатировали смерть мозга, еще шестеро оказались в критическом состоянии, но выжили, хотя нервной системе троих был причинен необратимый ущерб. Вещество BIA 10–2474 должно было стать действующим на каннабиноидную систему обезболивающим. В доклинических исследованиях оно было обстоятельно и без осложнений проверено на разных животных, включая шимпанзе.

Одна из самых известных трагедий в истории фармакологии – история успокоительного препарата талидомид. Парадоксальным образом ее часто используют, чтобы обосновать важность доклинических испытаний на животных. Хотя скорее это яркая иллюстрация того, что те не дают никаких гарантий безопасности.

Талидомид оказался в поле зрения фармакологов из-за структурного сходства с уже зарегистрированными успокоительными препаратами. В 1957 году компания Chemie Grünenthal выпустила его на рынок как успокоительное. Среди показаний к применению была так называемая утренняя тошнота беременных. Под разными торговыми марками он успешно продавался в Германии, Великобритании, Австралии, Новой Зеландии и еще сорока странах. Первый тревожный звонок раздался в конце 1959 года. Было замечено, что при длительном приеме талидомид вызывает периферический неврит. Чуть позже стало ясно, что это мелочи по сравнению с постепенно открывающейся картиной глобальной катастрофы.

В декабре 1961 года журнал The Lancet опубликовал письмо австралийского гинеколога Уильяма Макбрайда, обратившего внимание на появление на свет сразу нескольких новорожденных с необычным дефектом конечностей (все матери принимали талидомид). Его опасения вскоре подтвердились: выяснилось, что талидомид обладает сильнейшим тератогенным эффектом, то есть вызывает нарушение внутриутробного развития плода, а именно недоразвитие глаз, деформацию ушей, внутренних органов. Самым распространенным дефектом была фокомелия (от греч. “тюленьи конечности”) – полное отсутствие или значительное недоразвитие рук и ног. К тому моменту, как продажи препарата были остановлены, у принимавших талидомид матерей уже родилось как минимум 10 тысяч детей с дефектами. Почти половина из них умерли в течение нескольких месяцев после рождения.

В результате этой трагедии требование испытывать препарат на беременных животных стало во многих странах обязательным. Но лучше бы это было не единственным последствием. Сейчас принято говорить, что трагедия стала возможной, поскольку производитель не проверил талидомид на беременных животных. Но мы не знаем наверняка, так ли это: сотрудники Chemie Grünenthal уничтожили значительную часть документов. Упоминание о таких исследованиях есть, и к тому времени в столь крупных фармкомпаниях они были обычной практикой. Однако важно здесь то, что эти испытания в любом случае не могли предотвратить проблему.

После обнародования информации о связи талидомида и фокомелии сразу несколько исследовательских групп провели эксперименты на животных. В большинстве случаев обнаружить тератогенный эффект не удалось. У мышей он не наступает даже при дозировках порядка 4000 мг/кг, хотя у человека проявляется уже при 0,5 мг/кг. Лишь у некоторых грызунов обнаружили влияние на развитие плода очень больших доз талидомида, причем сами эффекты были другими, фокомелия появлялась только у приматов. Причина в сложности метаболического пути, который талидомид проходит в организме. Он расщепляется с образованием более ста метаболитов, при этом разные виды животных расщепляют талидомид по-разному. Настолько по-разному, что при разработке лекарства у лабораторных животных не наблюдали успокоительного эффекта, ярко выраженного для человека.

Разное действие вещества на разные виды животных не редкость. Обзор 38 лекарств, тератогенных для человека, показал, что для плода мышей, крыс, кроликов, хомяков и обезьян опасны соответственно 85%, 80%, 60%, 45% и 30% из них. Любопытно, что в этой выборке обезьяны показали даже меньше сходства с людьми, чем грызуны. Например, лекарство от рака аминоптерин тератогенно для человека, но два исследования на обезьянах не выявили проблем. Хотя разброс результатов для конкретных видов в разных обзорах велик и зависит от выбранного метода, обычно авторы приходят к выводу, что верно предсказать тератогенный эффект у человека с помощью экспериментов на животных можно лишь чуть больше чем в половине случаев.

С другой стороны, известно более тысячи веществ, вызывающих аномалии плода у грызунов и других лабораторных животных, но не у человека. Можно предположить, что некоторое количество безопасных лекарств не доходит до рынка из-за того, что показывает на доклиническом этапе опасные эффекты, которые не проявились бы на клиническом. Показателен пример аспирина: сотни тысяч беременных женщин принимают его без негативных последствий, а для плода макак-резусов он опасен. Если бы производству аспирина предшествовали эксперименты на беременных макаках, его никогда не разрешили бы беременным женщинам. Это справедливо и для таких широко применяемых лекарств, как фуросемид, фенобарбитал, дигоксин и метронидазол, которые для некоторых животных исключительно токсичны в очень небольших по нашим меркам дозах. Согласно анализу FDA 1980 года, эксперименты на приматах правильно предсказывают безопасность для плода лишь в 80% случаев, на мышах и хомяках – в 35% случаев. Средний результат для разных видов и в этом случае был около 50%.

Вышеизложенное касается не только тератогенности. Исследование 1990 года показало, что лишь 62% побочных эффектов выявили в доклинических испытаниях. Другой обзор – что 22 побочных эффекта были предсказаны верно, а 48 – неверно, то есть наблюдались у животных, но не у человека, а 20 наблюдались у человека, но не были предсказаны на животных. Несмотря на то что корреляция между результатами токсических тестов на животных и побочным действием у человека есть и отказываться от этих тестов ни в коем случае нельзя, они ненадежны и не гарантируют безопасности препарата.

Лишь 60% препаратов, дошедших до I фазы, переходят к следующей. На этом этапе проект может закрыться по разным причинам: из-за токсических эффектов, или потому, что максимально допустимая доза слишком мала для лечения, или потому, что фармакокинетика вещества у человека, например слишком быстрое выведение из организма, ставит возможность его применения под сомнение.

Клинические испытания II фазы

Цель испытаний II фазы – показать, что вещество может лечить людей. Здесь уже участвуют не здоровые добровольцы, а от 100 до 300 пациентов с целевым заболеванием, которых тщательно отбирают, чтобы получить достаточно однородную группу и не пропустить полезный эффект. Также в клинических испытаниях II фазы определяют оптимальные схемы лечения, на основе которых будет планироваться следующий этап. Для этого пациентов делят на несколько групп, получающих разные дозировки, и сравнивают результат.

Хотя результаты в разных областях отличаются, в среднем не более 30% проектов переходят от этой фазы к следующей. Самая распространенная проблема II фазы в том, что вещество впервые с начала разработки должно показать эффективность при лечении настоящей болезни у человека и это получается далеко не всегда. Вторая причина – проблемы с безопасностью, не выявленные на предыдущей стадии. Решение переходить к III фазе очень рискованно для компании-производителя, поскольку влечет за собой значительное удорожание проекта. Иногда проект закрывают из экономических соображений. Например, за время, прошедшее с начала разработки, на рынок мог выйти более дешевый и не менее эффективный препарат конкурента. В этом случае шансы нового лекарства на коммерческий успех снижаются, и дальнейшее увеличение затрат может быть сочтено неоправданным.

Иногда провал испытаний II фазы может неожиданно обернуться большой удачей. В 1992 году компания Pfizer начала испытания вещества-кандидата под кодовым номером UK-92,480. Разработчики надеялись, что ингибитор фермента PDE5 будет расслаблять сосуды сердца и помогать от стенокардии. Увы, эффект оказался ничтожно мал.

Заполняя по окончании испытания анкеты, некоторые добровольцы отметили в графе побочных эффектов невероятно сильную и длительную эрекцию. Никакого энтузиазма у исследователей это не вызвало, и UK-92,480 наверняка канул бы в небытие, если бы одному из членов команды не попалась на глаза статья, где обсуждалась роль PDE5 в механизме возникновения эрекции. В Pfizer поняли, что могли случайно наткнуться на золотую жилу. Было организовано масштабное испытание III фазы при участии 3700 пациентов с эректильной дисфункцией. UK-92,480 оказался эффективным в 63% случаев. Исследователи вспоминают, что хотя исследование было двойным слепым, понять, что пациент попал в экспериментальную группу, не составляло труда: многие категорически отказывались возвращать неиспользованные остатки препарата. Выведенный на рынок как “Виагра”, он стал одним из блокбастеров современной фармакологии с годовыми продажами, достигавшими на пике 1,88 миллиарда долларов США.

К причинам провала, характерным для предыдущей фазы, во II фазе добавляется отсутствие лечебного эффекта, которого ожидали по результатам доклинических исследований. Часто проблема вызвана недостаточным качеством последних. Все, что мы говорили о правильном дизайне РКИ, справедливо и для доклинического поиска. Отсутствие рандомизации, ослепления, двойного ослепления приводит к ошибочным результатам, которые не подтверждаются в исследованиях клинического этапа.

Помимо того, есть специфические проблемы, связанные с использованием животных и клеточных культур. Невоспроизводимость лечебных эффектов, как и побочных, может быть вызвана слишком большими отличиями между организмами разных видов. Плюс мы редко можем проверить вещество на животном с той же болезнью, что у людей, и вынуждены использовать животные модели – аналогию слишком приблизительную, чтобы целиком на нее полагаться.

Еще меньше шансов воспроизвести на человеке эффект, который наблюдался только in vitro, например на культуре клеток. Наши представления о механизмах болезни настолько неполны, что такие изолированные находки не гарантируют пользы для пациента. В целом организме есть много факторов, отсутствующих в лабораторных условиях и способных кардинально изменить эффект. А недавно мы начали осознавать масштаб еще одной проблемы, которая ставит под сомнения результаты многих исследований на клеточных культурах.

Первого февраля 1950 года в гинекологическое отделение госпиталя Джонса Хопкинса поступила тридцатилетняя темнокожая женщина по имени Генриетта Лакс. Осмотр шейки матки выявил опухоль двух-трех сантиметров в диаметре. Биопсия подтвердила ее злокачественный характер: это была карцинома, по виду несколько отличавшаяся от большинства опухолей такого типа. Опухоль оказалась очень агрессивной. Несмотря на курс радиотерапии, состояние Генриетты стремительно ухудшалось, и в октябре того же года она скончалась. Вскрытие показало множественные метастазы практически во всех органах.

Полученная в ходе биопсии опухолевая ткань была передана для исследовательских целей в Лабораторию тканевых культур, созданную в том же госпитале. Руководитель лаборатории Джордж Ги собирал образцы тканей, поскольку преследовал амбициозную цель – создать и поддерживать коллекцию здоровых и патологических клеточных линий, которые можно было бы использовать в качестве стандартных моделей для исследовательской работы. Сложность заключалась в недолговечности клеток. После определенного количества циклов деления они переставали размножаться и в течение нескольких дней умирали, а значит, требовались новые образцы. Конечно, иметь клеточные культуры, которые живут очень долго, было бы удобнее. Все клетки в такой культуре – одинаковые потомки одной исходной клетки, поэтому эксперименты можно было бы проводить длительно, неоднократно и результаты их были бы сравнимы.

Клетки Генриетты Лакс отличались от полученных ранее образцов. Они были невероятно агрессивны – прежде сама возможность столь стремительного развития карциномы шейки матки ставилась под сомнение. Когда лаборант поместил клетки Генриетты Лакс в питательную среду, они стали интенсивно размножаться. Более того, со временем их размножение не прекращалось. Шли дни, недели, месяцы, а невероятно живучая клеточная культура продолжала существовать. Так появилась первая бессмертная линия человеческих клеток. По первым буквам имени и фамилии Генриетты Лакс (англ. Henrietta Lacks) она была названа HeLa.

HeLa стала самой используемой и распространенной клеточной линией. По некоторым оценкам, всего исследователи произвели 50 тонн HeLa, и все это потомки одной единственной клетки опухоли Генриетты Лакс. За ней последовали другие бессмертные линии, которые применяли в качестве стандартных моделей как здоровых, так и патологических тканей, в первую очередь раковых. Поскольку сравнимость исследований важна, ученые активно обменивались образцами друг с другом и могли, работая над одной проблемой в разных частях света, использовать одни и те же клетки. Мечта Джорджа Ги стала реальностью. Клеточные культуры помогали в изучении механизмов болезни и, конечно, при создании лекарств.

Первые признаки проблемы появились в начале шестидесятых годов прошлого века. Как выяснилось, если при малейшем нарушении процедуры агрессивные и живучие клетки HeLa попадают в другие клеточные культуры, они начинают там размножаться, постепенно вытесняя и заменяя собой исходную линию. В 1967 году были изучены 19 распространенных линий человеческих клеток. Хотя про некоторые было известно, что они получены от людей европеоидной расы, анализ показал, что все они с высокой вероятностью принадлежали темнокожей женщине.

К 1974 году стало понятно, что HeLa проникла в лаборатории по всему миру: пять клеточных линий, присланных в США из СССР, были идентифицированы как HeLa. Примерно в то же время прозвучало предположение, что они заменили собой от 10 до 20% используемых учеными клеточных культур. HeLa явно вышла из-под контроля и зажила своей жизнью. Это позволило некоторым специалистам утверждать, что HeLa – новый биологический вид и, более того, первая форма жизни, достигшая бессмертия.

Проблема была не только в HeLa: проверка двух распространенных клеточных линий, которые считали раком молочной железы, показала, что одна из них – HeLa, а вторая принадлежала крысе. Другие стандартные человеческие линии оказались клетками хомяка, крысы, мыши, мангуста и норки. Клетки гиббона оказались человеческими, а лошадиные – собачьими.

Оценить масштаб проблемы можно благодаря анализу, проведенному Кристофером Корчем, генетиком из Колорадского университета. Он собрал исследования, в которых использовали две клеточные линии: HEp-2, считавшуюся раком гортани, и модель клеток кишечника INT 407. Еще в 1967 году стало известно, что обе линии на самом деле являются HeLa. Но это не помешало многим исследователям продолжать их использовать. Корч обнаружил, что HEp-2 фигурировали в качестве клеток гортани минимум в 5789 научных публикациях, а INT 407 как клетки кишечника – в 1336. На эти исследования было потрачено не менее 713 миллионов долларов США, а если считать и последующие, основанные на результатах этих, цена игнорирования проблемы достигает 4 миллиардов.

Какова реакция исследователей? Легко представить, что они без восторга встречают информацию о том, что клетки, на которых основаны их работы, на самом деле являются чем-то другим. Поскольку это ставит под сомнения результаты их труда и дальнейшие исследования, многие предпочитают делать вид, будто проблемы просто нет. Лишь очень немногие публикации были отозваны или исправлены на основе информации о неверной идентификации клеточных линий. Типична судьба ECV304, которую использовали как модель клеток, выстилающих кровеносные сосуды. В 1999 году было установлено, что на самом деле это рак мочевого пузыря. После чего вышли еще более тысячи статей, описывавших исследования, где ECV304 использовалась ошибочно. Авторы одной из них откровенно написали, что поскольку идеальной модели все равно не существует, они не видят проблемы в использовании тех культур, которые так или иначе оказались в их распоряжении.

Лишь недавно ситуация начала медленно, но меняться в лучшую сторону. Во многом это происходит благодаря двадцати ученым, создавшим группу, названную Международным комитетом идентификации клеточных линий (англ. International Cell Line Authentication Committee, ICLAC). Их усилиями некоторые научные журналы начинают в качестве обязательного условия публикации требовать информацию об идентификации использованной клеточной линии. На своем сайте ICLAC поддерживает актуальную информацию об ошибочно идентифицированных линиях. На момент написания этой книги их 488, из них 113 – HeLa.

Клинические испытания III фазы

В клиническом испытании III фазы обычно участвуют до нескольких тысяч пациентов (современные кардиологические исследования могут включать до 10–20 тысяч участников), и продолжаться оно может от двух до 10–15 лет. Особенно длительны и дороги исследования препаратов, предназначенных для лечения хронических заболеваний. В некоторых странах, например в США и Евросоюзе, для регистрации лекарства необходимо, чтобы III фаза содержала как минимум два отдельных успешных исследования. Поэтому некоторые производители организуют сразу три, на случай если органы, регистрирующее лекарственные препараты, FDA или EMA, сочтут одно из них неудовлетворительным. Важно отметить, что в некоторых странах требования к количеству участников в клинических испытаниях отличаются или вообще отсутствуют. В частности, их нет в России. Например, применяемый для лечения острого инфаркта миокарда “Фортелизин” зарегистрирован на основании клинического испытания, в котором участвовало всего 54 пациента.

Задача III фазы – подтвердить, что выбранный в КИ II фазы режим лечения эффективен для большой и разнообразной группы пациентов и может реально применяться на практике. Последнее время клинические испытания III фазы обычно бывают многоцентровыми, то есть их проводят не в одной клинике. Это позволяет увеличить количество участников, добавить в выборку людей разного этнического состава и уровня жизни, а также сравнить результаты между центрами.

После завершения фазы III можно подавать документы на регистрацию лекарства, и, если регистрирующую организацию устроят предоставленные данные, оно будет зарегистрировано. С этого момента его можно продавать. Регистрационные документы содержат перечень разрешенных показаний к применению. Факт регистрации не означает, что препарат можно применять при любом заболевании, каждое новое показание требует новых клинических испытаний.

С подачей документов на регистрацию клинические испытания не завершаются. Иногда, если новый препарат оказался эффективнее, чем созданные ранее, испытания могут еще некоторое время продолжаться. Это делается, чтобы не лишать больных лекарства до тех пор, пока оно не появится в продаже. После выхода препарата на рынок могут начаться испытания IV фазы, в которых тоже участвуют несколько тысяч человек. Регистратор может потребовать их проведения, чтобы отслеживать редкие и поздние побочные эффекты, которые могли пропустить на предыдущих стадиях, или чтобы внимательнее изучить отдельные группы пациентов, например беременных женщин. Эти испытания тоже продолжаются не менее двух лет. Неоднократно случалось, что опасные побочные эффекты обнаруживались лишь через несколько лет после выхода лекарства на рынок. В таких случаях препарат может быть отозван и его регистрация приостановлена, как это произошло с талидомидом. О другом известном эпизоде мы поговорим в следующей главе.

Шансы, что испытания III фазы завершатся регистрацией, варьируются в зависимости от страны. По данным агентства FDA, известного своей требовательностью, после KИ III фазы на рынок выходят не более 25–30% препаратов. Надо полагать, в других странах эта доля несколько выше. Как и на других этапах, шансы испытаний III фазы на успех различны для разных областей, и ниже всего они в онкологии. В последнее время доля успешных испытаний снижается. Это связано с ужесточением требований к доказательствам эффективности и безопасности.

Важно понимать, насколько долог, дорог и сложен путь к выводу лекарственного препарата на рынок, какие риски несут производители и как малы шансы на успех в каждом отдельном случае. Поэтому завершают главу несколько примеров заметных фармацевтических провалов 2017 года, их причин и последствий.

В марте компания Juno Therapeutics прекратила разработку иммунной терапии острого B-клеточного лимфобластного лейкоза после гибели еще двух пациентов в ходе испытаний II фазы. С учетом трех предшествующих смертей количество погибших от отека мозга составило пять человек, и FDA остановило исследование.

В апреле компания OncoMed Pharmaceuticals объявила о прекращении набора пациентов для клинических испытаний I фазы. Бронтиктузумаб (полученное с помощью стволовых клеток противораковое антитело) оказался в сочетании с традиционной химиотерапией “непереносимым для данной популяции пациентов”. Незадолго до этого компания уже сообщала о провале КИ II фазы похожего препарата тарекстумаб. Из-за двух неудач подряд OncoMed Pharmaceuticals была вынуждена уволить половину персонала.

В июне Seattle Genetics проанализировала данные КИ III фазы и обнаружила, что в группе пациентов с острым лейкозом, получавших вадастуксимаб талирин, смертность выше, чем в контрольной. Клинические испытания этого и других похожих препаратов были остановлены.

В сентябре Matheon Therapeutics сократила 60% рабочей силы, после того как вещество-кандидат CA4P не продемонстрировало эффективности против рака яичников, не поддающегося традиционной терапии.

В октябре Alexion Pharmaceuticals прекратила разработку SBC-103, лекарства от мукополисахаридоза, и объявила об убытках и увольнении части сотрудников.

В ноябре стало известно, что компания Thenax Therapeutix не смогла показать в ходе клинических испытаний III фазы эффективность левосимендана в лечении сердечной недостаточности. В результате ее акции подешевели на 76%, а руководство стало рассматривать возможность продажи компании.

В том же месяце Acorda Therapeutics сообщила, что у семи пациентов с болезнью Паркинсона в ходе испытаний тозаденанта развился сепсис, пятеро погибли. Сначала компания остановила набор новых пациентов для участия в испытании III фазы, а затем объявила о прекращении разработки препарата.

Глава 14

Золотой стандарт

Эта глава может показаться чуть сложнее, чем остальные, но она очень важна. Без нее может сложиться ошибочное впечатление, что мы живем в эпоху триумфа доказательной медицины, ее инструменты повсеместно приняты и используются по назначению, а двойное слепое рандомизированное клиническое исследование – гарант эффективности и безопасности лекарства. Кроме того, прочитав эту главу, вы сможете самостоятельно находить в научных статьях наиболее очевидные случаи манипуляции данными.

Кризис воспроизводимости

Двойные слепые рандомизированные исследования не зря называют золотым стандартом. Именно такие эксперименты лучше всего отвечают на вопрос о полезности и безопасности метода лечения. Их проведение – обязательное условие для рассмотрения заявок на регистрацию новых лекарств в большинстве стран.

С 2000 по 2017 год только зарегистрированных клинических испытаний было проведено 250 тысяч. Добавим к ним как минимум еще столько же незарегистрированных. Конечно, не всегда исследователи приходили к выводу, что изучаемый метод лечения эффективен. Но даже если считать, что результат был положителен лишь в каждом десятом случае, 50 тысяч успешных клинических испытаний, проведенных только за эти 17 лет, уже должны были переполнить мир эффективными лекарствами от всех возможных болезней. Однако этого не происходит. Несмотря на отдельные успехи медицины, большинство болезней пока неизлечимо. За всю историю человечества лишь одно заболевание было уничтожено полностью.

Причин несоответствия объемов результативных исследований и реальных успехов медицины несколько. Одна из них в том, что существуют сотни способов провести клиническое испытание неправильно и сделать неверный вывод. И намного чаще это ложноположительные, а не ложноотрицательные результаты. Организаторы исследований, как правило, заинтересованы обнаружить эффект, и это приносит свои плоды. В первую очередь речь о финансовых интересах: разрабатывая лекарство, фармацевтическая компания рассчитывает получить разрешение на продажу препарата и вернуть вложенные в разработку деньги.

Конечно, исследования проходят не только за счет производителей лекарств. Но возможных источников денег не так много. Клинические испытания могут финансироваться специальными государственными структурами, такими как Национальные институты здравоохранения США или изучавший стрептомицин и патулин Совет по медицинским исследованиям Великобритании. Иногда деньги могут поступать от пациентских организаций. Но большинство КИ оплачивают именно фармацевтические компании. Даже в США, где традиционно развиты некоммерческие исследования, производители лекарств спонсируют не менее 75% клинических испытаний. В России – почти 100%.

Результаты исследований, оплаченных фармацевтическим бизнесом и проведенных за счет государственных или некоммерческих организаций, не раз сравнивали. Итог неизменен: исследования, спонсированные индустрией, чаще приходят к выводу об эффективности и безопасности вещества. Разница огромна – анализ 2003 года показал, что это происходит в пять раз чаще, чем при других источниках финансирования. Эта разница постепенно уменьшается, что можно объяснить ужесточением требований к клиническим испытаниям и более пристальным контролем. Но до полного ее исчезновения еще далеко.

Заинтересованность исследователей играет не меньшую роль, чем заинтересованность инвестора. Как много вы видели новостных заголовков, сообщающих, что ученые исследовали новое лекарство от рака и не нашли эффекта? Как много Нобелевских премий выдано тем, кто всю жизнь проверял различные гипотезы и все их опроверг? Как много вошло в историю ученых, которые ничего не открыли? К сожалению, наше общество признает только положительные результаты. Именно они могут дать славу, признание, карьеру и деньги.

Кроме того, работать без положительных результатов непросто психологически. Поставьте себя на место исследователя, тратящего годы на поиски лекарства от неизлечимой болезни. Как бы осторожны и скептически настроены вы ни были, неужели в глубине души вы не будете мечтать о том, чтобы тяжкий труд, волнения, споры и бессонные ночи оказались не зря и когда-нибудь у вас получилось? А если очень хотеть, то рано или поздно обязательно получится, даже там, где “получаться” абсолютно нечему.

Что с медицинскими исследованиями не все ладно, понятно давно. Но о масштабе бедствия стали говорить относительно недавно. В 2011 году работающие на фармацевтическую компанию Bayer ученые сообщили, что их попытки повторить результаты ранее опубликованных доклинических исследований в онкологии и кардиологии завершились успехом лишь в 20–25% случаев. В остальных результат повторных экспериментов был иным, чем в исходных. Годом позже о такой же проблеме сообщил сотрудник компании Amgen. Там пытались воспроизвести результаты пятидесяти трех важных исследований, но удалось это сделать лишь для шести.

Затем последовали пересмотры результатов ряда очень влиятельных клинических испытаний. В 2013 году был проведен повторный анализ РКИ, которое рекомендовало людям с невысоким риском сердечно-сосудистых заболеваний принимать с целью увеличения продолжительности жизни снижающие уровень холестерина статины. Пересмотр показал, что эффект статинов незначителен и его с лихвой перекрывают тяжелые побочные эффекты – статины увеличивают риск диабета и миопатии. А в 2014 году увенчались успехом три с половиной года попыток получить от компании Roche полные данные по исследованиям противовирусного препарата озельтамивир, а от компании GlaxoSmithKline – по зенамивиру. После анализа данных независимыми исследователями выводы о некотором сокращении продолжительности гриппа остались в силе. Но вывод о снижении смертности от гриппа, на основе которого делались массовые закупки этих препаратов, был пересмотрен.

Растущее количество свидетельств того, что качество многих медицинских исследований не дотягивает до минимально приемлемого уровня, а результаты не воспроизводятся при повторении независимыми исследователями, побудило описать сложившуюся ситуацию как кризис воспроизводимости. Хотя дело не столько в невозможности воспроизвести эти работы, сколько в понимании, что значительной их части нельзя доверять по причине некорректного дизайна, анализа или интерпретации результатов. По оценкам некоторых скептиков, доля таких исследований достигает 85%.

Рыцари халата и ланцета

Существует множество способов “слегка поправить” результаты исследования, и большинство из них грозит манипулятору лишь репутационными рисками. Поэтому откровенный прямой подлог встречается относительно нечасто. Но уж если встречается, масштаб и наглость поражают воображение. С явного криминала мы и начнем.

Профессор анестезиологии университета Тафтса в Бостоне Скотт Рюбен считался одним из ведущих исследователей боли до тех пор, пока не получил девять месяцев тюрьмы за мошенничество. Хотя опубликованные им работы повлияли на то, как лечили миллионы пациентов, исследований, описанных им в двадцать одной научной статье, просто никогда не было. В качестве соавторов Рюбен указывал других ученых, которые даже не догадывались об этом. Статьи Рюбена сообщали об эффективности производимых компанией Pfizer обезболивающих “Бекстра”, “Целебрекс” и “Лирика”, а также выпускаемого Merck препарата “Виокс”. С 2002 по 2007 год Рюбен получил от Pfizer пять исследовательских грантов, а также был хорошо оплачиваемым спикером компании – он выступал перед другими врачами с докладами о ее лекарствах. К тому моменту, когда коллеги насторожились, афера Рюбена продолжалась уже почти тринадцать лет.

Доктор Роберт Фиддес, директор компании Southern California Research Institute, выполнявшей клинические испытания по заказу фармацевтических компаний, был известен умением быстро найти нужное количество пациентов. Однако за невероятной продуктивностью скрывалось мошенничество длиною в десять лет. Фиддес включал в исследования не только пациентов, не соответствовавших критериям отбора, но и тех, кто никогда не рождался на свет. Рутинной практикой была фальсификация результатов лабораторных анализов, показателей артериального давления и данных ЭКГ. Образцы мочи и крови могли не принадлежать больным – например, один из сотрудников с протеинурией получал за образцы своей мочи, которую затем выдавали за мочу пациентов, по 25 долларов за порцию.

Мошенничеству не мешали многочисленные проверки. Оно вскрылось лишь после доноса одного из сотрудников, знавшего о махинациях. Опубликованная в New York Times статья рассказывает:

Согласившись признать свою вину, др. Фиддес во время допросов выставлял себя человеком, попавшим в ловушку окружающих его нечестных людей. Он уверял, что большинство исследователей вынуждены мошенничать, поскольку фармацевтические компании предъявляют к участникам экспериментов требования, которые будут хорошо смотреться в маркетинговых материалах, но в реальной жизни невыполнимы. Не предъявляя доказательств, он утверждал, что все, кто преуспевает в этом бизнесе, вынуждены обходить правила.

Известный дерматолог Гарри Снайдер руководил спонсируемым компанией BioCryst Pharmaceutical клиническим исследованием, в то время как его жена Рене Пежо была в нем координатором. Они исследовали вещество BCX-34, которое предполагали использовать для лечения псориаза и кожной Т-клеточной лимфомы, опасного онкологического заболевания. По завершении РКИ пресс-релиз компании сообщил о высокой эффективности вещества. Однако новый директор BioCryst засомневался в достоверности результатов. Последовавший аудит выявил манипуляции в ходе рандомизации, которые помогли выставить BCX-34 в незаслуженно выгодном свете.

Результаты исследования были отозваны с пометкой “лекарственный эффект не обнаружен”, а Снайдер и Пежо получили по 3 и 2,5 года тюремного заключения соответственно. Снайдер опубликовал письмо, в котором писал, что “вроде бы и понимал, зачем нужны правила проведения исследований, но считал, что на них надо ориентироваться, а не следовать им слепо”. Как акционеры BioCryst и Снайдер, и его жена были напрямую заинтересованы в положительном результате.

В 2005 году медицинский журнал The Lancet опубликовал наблюдательное исследование норвежского врача Йона Субдё, где на основании данных о 454 больных анализировалось влияние разных факторов риска на заболеваемость раком ротовой полости. Выводы делались сенсационные: нестероидные противовоспалительные препараты снижают заболеваемость этим видом рака, в том числе и у курильщиков. Однако вскоре статья была отозвана. В ходе проверки выяснилось, что все до единого участники исследования были плодом фантазии Субдё. Причем фантазии настолько ленивой, что у 250 из них были указаны одинаковые даты рождения. Позже признаки фальсификации были обнаружены в других его статьях и в диссертации. В отличие от России, где ни один диссертационный скандал не привел к серьезному наказанию, в Норвегии фальсификация диссертаций воспринимается как тяжелейший проступок: статьи и ученая степень Субдё были отозваны, а самому ему запретили заниматься медициной.

Японский анестезиолог Ёситака Фудзии за двадцать лет работы опубликовал более двух сотен статей с результатами 168 проведенных им исследований. Внимание на себя обратили одинаковые цифры в разных исследованиях. Результаты проверки ошеломляли: из 212 изученных статей признаки мошенничества обнаружились в 172. Данные 126 работ были сфабрикованы от первого слова до последнего.

Из-за мошенничества в сфере медицинских исследований печальную известность также получили: онколог Вернер Бесвода, сфальсифицировавший результаты применения комбинации химиотерапии и стволовых клеток, якобы показавшего высокую эффективность при раке молочной железы; анестезиолог Йоким Болдт, подделавший данные об эффективности применения гидроксиэтилкрахмала у пациентов в критическом состоянии; британский врач Эндрю Уэйкфилд, опубликовавший в The Lancet статью о якобы найденной им связи между вакциной MMR и аутизмом и впоследствии уличенный в том, что получил более 400 тысяч фунтов стерлингов от адвокатов, пытавшихся отсудить у производителей вакцин астрономические суммы за якобы нанесенный детям ущерб; американский исследователь Донг Пью Хан, чья команда получила грант в 19 миллионов долларов, после того как сфальсифицировала успешное применение вакцины против ВИЧ; и многие, многие другие.

Насколько распространена явная, масштабная и осознанная фальсификация научных исследований? С одной стороны, собранная в США статистика показывает, что за двадцать лет правительство объявило лишь о 200 таких эпизодах. С учетом сотен тысяч работающих в этой сфере людей – выглядит неплохо. Однако выявляют далеко не каждый случай. Судя по тому, что подобные преступления не замечают десятилетиями, мы можем иметь дело лишь с верхушкой айсберга.

Регулярный аудит исследовательской работы – явление нечастое, но в тех случаях, когда он проводится, частота мошенничества уже ощутима. Группа, которая проводит аудит исследований, финансируемых Национальным институтом рака в США, находит мошенничество в 0,25% случаев. Похожие проверки в Великобритании – в 0,4%. Притом следует помнить, что эта статистика основана на доказанных случаях злого умысла и реальная частота мошенничества наверняка выше.

Если же говорить обо всех серьезных нарушениях, по данным FDA, их частота достигает 10%. Печальную картину дополняют многочисленные анонимные опросы. Так, 27% ученых сообщили Американской ассоциации развития науки, что сталкивались с теми или иными нарушениями при проведении клинических испытаний. О том же сообщили 19% координаторов исследований, добавив, что в трети случаев информация о нарушениях осталась тайной. При опросе сотрудников британских медицинских учреждений о нарушениях упомянул каждый второй.

В некоторых странах ситуация еще хуже. В Китае, где качество медицинских исследований до недавнего времени практически не контролировалось, случился скандал. В 2016 году Управление по контролю за качеством пищевых продуктов и лекарств попыталось навести порядок и устроило массовую проверку клинических испытаний, на основании которых регистрировали препараты. Результаты оказались катастрофическими. Из 1622 заявок на регистрацию 1308 содержали либо явно сфабрикованные, либо глубоко ошибочные и неадекватные данные. Открытой статистики такого рода по России просто не существует, но стоит ожидать, что она ближе к китайской, чем к британской или американской. Россия относится к странам, где аудит клинических исследований почти не проводится, а требования к их качеству низки. По сообщениям экспертов и косвенным признакам манипуляция данными клинических испытаний российских препаратов – массовое явление.

Лучше, чем что?

Если выполнить эксперимент абсолютно правильно и предельно честно, он все равно будет бесполезен, если отвечает на бессмысленный с точки зрения интересов пациента вопрос. Один из способов провести такое исследование – выбрать неподходящее контрольное вмешательство.

Мы много говорили об использовании в качестве контроля плацебо, но это допустимо лишь тогда, когда нет эффективного и безопасного лечения. Если оно существует, то сравнивать новое лекарство нужно именно с ним, а не с плацебо. Это требование четко сформулировано в Хельсинкской декларации.

Польза, риски, неудобства и эффективность нового вмешательства должны оцениваться в сравнении с лучшими из проверенных вмешательств…

Новое лечение отвечает интересам пациентов, только если оно более эффективно, более безопасно, более дешево или более удобно, чем созданное ранее. Однако оценка новых регистрируемых в США препаратов показала, что только 70% имели на момент регистрации информацию об эффективности по сравнению с существующими методами, а 30% сравнивались только с пустышкой-плацебо. Препараты от заболеваний, для которых не существовало другого эффективного лекарства, были из этого анализа исключены.

Но даже при сравнении с лучшей альтернативой на рынке есть способы подать свой препарат в выгодном свете. Например, используя недостаточную дозу контрольного препарата. В разгар эпидемии менингококковой инфекции в Нигерии, убившей 12 тысяч человек, фармацевтическая компания Pfizer организовала РКИ нового антибиотика тровафлоксацина. Контрольная группа получала уже ставший стандартным лечением цефтриаксон. Из двухсот детей погибли пятеро в группе тровафлоксацина и шестеро в группе цефтриаксона. Расследование показало, что цефтриаксон давали в дозе 33 мг/кг, в то время как рекомендованная доза равна 50–100 мг/кг. Последовало судебное разбирательство в США и крупные выплаты семьям пострадавших.

В зависимости от стратегии создателей препарата лекарство в контрольной группе могут применять и в дозах, сильно превышающих необходимую. Это позволяет усилить побочные эффекты, и на этом фоне новый препарат будет выглядеть более безопасно. Так поступали с некоторыми антипсихотическими препаратами, которые сравнивали с высокими дозами галоперидола, гарантированно дающими тяжелые побочные эффекты.

Эффективно для кого?

Один из самых важных вопросов, который мы должны задавать в отношении каждого клинического эксперимента: какие пациенты в нем участвовали? Исследователи далеко не всегда описывают, как проводили отбор, что чревато ошибочным распространением выводов на другие группы пациентов.

В надежде получить положительный результат на этапе отбора из исследования могут исключить самых старых, страдающих самой тяжелой формой или находящихся на самой поздней стадии заболевания. Понятно, что полученные на такой выборке результаты могут быть неприменимы ко всей популяции. Часто отбирают только тех, у кого нет сопутствующих патологий, кто не получает лечение от других болезней и не имеет серьезных вредных привычек. Но как много таких людей среди реальных больных?

Масштаб проблемы довольно велик. Исследования показывают, что в клинические испытания включают в среднем 15–30% тех, кого рассматривали. В некоторых случаях отбор еще более жесткий и доля отобранных падает до 6–10%. Оставшиеся отличаются от тех, кого отбраковали, не только по среднему возрасту, но и полу, национальному составу и социальному статусу. Так, обзор клинических испытаний нестероидных противовоспалительных препаратов показал, что в среднем в них участвовали лишь 2,1% людей в возрасте 65 лет и старше, хотя эти лекарства часто назначают именно пожилым.

Стерильные условия клинических испытаний предполагают не только идеальных пациентов, но и идеальных врачей. Клинические испытания эндартерэктомии при бессимптомном сужении каротидной артерии показали пятипроцентное снижение смертности по сравнению с контрольной группой. Однако стало известно, что во время клинического испытания 40% хирургов не подпускали к операционному столу. Это были врачи, имевшие неоптимальную статистику неудачных исходов и побочных эффектов. Впоследствии было показано, что без строгого отбора хирургов смертность от этого метода в восемь, а риск инсульта в три раза выше, чем в контрольной группе, что ставит целесообразность каротидной эндартерэктомии при бессимптомном течении болезни под сомнение.

Доверять ли биомаркерам?

Одно из самых важных решений, принимаемых перед началом клинических испытаний, – выбор исходов (или конечных точек), по которым будет оценен результат. Здесь возможны два подхода. Первый – использовать клинически значимые исходы (еще их называют твердыми конечными точками). Это то, что важно для пациента: продолжительность жизни, ее качество, отсутствие тяжелых осложнений.

Но многие РКИ ориентируется на суррогатные исходы (их также называют биомаркерами или мягкими конечными точками) – это результаты анализов или приборных исследований, которые предсказывают изменения клинически значимых исходов. Например, изучая лекарственный препарат от сердечно-сосудистых заболеваний, мы можем ориентироваться на продолжительность жизни пациентов или частоту инфарктов миокарда – это клинически значимые исходы. Но такое исследование будет очень долгим, а значит, дорогим. Альтернатива – ориентироваться на изменения уровня холестерина или результатов ЭКГ, это суррогатные исходы. Конечно, пациенту без разницы, как лечение повлияло на уровень его холестерина: от этого он не испытает никаких изменений самочувствия. Но мы предполагаем, что уровень холестерина предсказывает частоту инфарктов или продолжительность жизни.

Как бы хорошо это ни звучало в теории, на практике суррогатные результаты часто разочаровывают. Показательна история эзетимиба, препарата, который должен был уменьшать смертность от сердечно-сосудистых заболеваний, влияя как раз на уровень холестерина в крови: известно, что высокий холестерин липопротеидов низкой плотности коррелирует с сердечно-сосудистыми заболеваниями и смертью от них. Эзетимиб подавляет всасывание холестерина в кишечнике. Действительно, прием препарата снижал уровень холестерина, что и было продемонстрировано в регистрационных РКИ. Однако последующие исследования не обнаружили ни уменьшения риска развития атеросклероза, ни снижения частоты сердечных приступов или смертности от болезней сердца и сосудов.

Объяснений может быть несколько. Хотя согласно данным наблюдательных исследований уровень холестерина и частота сердечно-сосудистых заболеваний коррелируют, первое не обязательно является причиной второго. Или же на развитие заболевания влияет множество причин, а не только уровень холестерина, и наш препарат меняет уровень холестерина в благоприятную сторону, а другие факторы – в неблагоприятную. Или у него есть побочные эффекты, которые могут увеличивать смертность по другим причинам, и этот отрицательный эффект перевешивает положительный либо сводит его на нет. Последнее как раз и происходит в случае применения статинов у людей без повышенного риска сердечно-сосудистых заболеваний.

Еще один классический пример ошибки, спровоцированной суррогатными исходами, – применение антиаритмических препаратов у пациентов с инфарктом миокарда. Только в США четверть миллиона пациентов с инфарктом ежегодно получали энкаинид и флекаинид, исходя из простой логики: у таких больных высока вероятность внезапной смерти от аритмии. Электрокардиография подтверждала нормализацию сердечного ритма, поэтому врачи считали, что приносят пациентам безусловную пользу. Тем сильнее был шок, когда четырехлетнее клиническое исследование показало, что прием антиаритмических препаратов при инфаркте увеличивает смертность в три раза. Вероятно, эти препараты стимулировали неизвестный опасный процесс. При этом не факт, что они вообще приносили какую-либо пользу, – аритмия могла быть не причиной смерти, а побочным следствием приводящего к гибели процесса.

Еще один показательный пример – применение фторида натрия для профилактики переломов. Известно, что вероятность переломов тем выше, чем ниже плотность костей. Остеопороз, уменьшение плотности костей, – серьезная проблема пожилых людей, особенно женщин. Для ее решения было предложено использовать фторид натрия. Клинический эксперимент показал, что его прием значительно увеличивает плотность костей. Но в следующем трехлетнем РКИ оценили не только изменение плотности костей, но и частоту переломов. Прием фторида натрия действительно увеличивал плотность костной ткани. Но частота переломов не снижалась, а увеличивалась на 30% для переломов позвоночника и почти в три раза для всех остальных. Судя по всему, при приеме фторида натрия образовывалась более хрупкая костная ткань.

Полностью отказаться от суррогатных исходов невозможно. Они могут значительно уменьшить количество участников, продолжительность эксперимента, а значит, и его стоимость. Однако полагаться на единичные суррогатные исходы опасно, и к их выбору нужно относиться очень серьезно. Нельзя использовать биомаркер лишь на основании обнаруженной в наблюдательных исследованиях статистической корреляции c важным для пациента исходом и биологически правдоподобной связи между ними. Нужно, чтобы надежность суррогатного исхода подтверждалась и данными многочисленных клинических экспериментов.

P < 0,05

Предложенный Рональдом Фишером критерий статистической значимости p < 0,05 надежно закрепился в качестве порога, разделяющего результаты научных исследований на положительные и отрицательные. Практически во всех медицинских исследованиях используют тот или иной метод расчета p, и в большинстве 0,05 выбрано как пороговое значение. Однако недавно эта практика, которой скоро исполнится уже сто лет, была подвергнута жесткой критике и названа одной из главных причин кризиса воспроизводимости.

В 2017 году несколько ведущих статистиков опубликовали в журнале Nature манифест “Пересмотреть статистическую значимость”, в котором призвали отказаться от критерия p < 0,05 и заменить его на p < 0,005. Авторы пообещали, что этот простой шаг немедленно приведет к улучшению ситуации с воспроизводимостью научных исследований во многих областях. В чем же проблема с проверенным десятилетиями и привычным большинству ученых и врачей p < 0,05?

Многие из тех, кто читает и даже пишет научные статьи, неправильно понимают смысл p-значения. Распространена ошибочная интерпретация p как вероятности ложноположительного результата. А значит, при p < 0,05 вероятность, что нулевая теория верна и отклонена ошибочно, не превышает 5%. Ошибка в том, что p-значение – это не вероятность правильности нулевой теории при условии получения наблюдаемых данных. Это вероятность наблюдать такие данные при условии, что нулевая теория верна. Разница принципиальная. Так, вероятность, что вы беременны, если вы женщина, не равна вероятности того, что вы женщина, если вы беременны. В первом случае она равна 3%, во втором же стремится к 100%.

Так какова же реальная вероятность, что мы ошибочно отклонили нулевую теорию и пришли к выводу о существовании эффекта там, где его нет, если мы ориентируемся на p < 0,05? Предположим, что верны 10% выдвигаемых экспериментаторами гипотез. Судя по доле лекарств, которые доходят от начала клинических испытаний до регистрации, даже эта цифра оптимистична. Тогда из 1000 экспериментов в 900 будет верна нулевая гипотеза (лекарство не работает), а в 100 – альтернативная (лекарство работает). При пороговом p=0,05 или чуть меньшем нулевая гипотеза будет ошибочно опровергнута в 900 × 0,05=45 случаях из 900.

Чтобы понять, что произойдет с теми 100 экспериментами, где нулевая гипотеза ошибочна, то есть эффект лекарства реально существует, нам нужно учесть статистическую мощность. По некоторым оценкам, в клинических испытаниях она, как правило, недостаточна и в среднем составляет примерно 50%. А значит, мы обнаружим существующий эффект в 50 случаях из 100.

Итак, будут опубликованы 95 положительных результатов, 45 из которых, то есть почти половина, будут ошибочны. Доля ложноположительных результатов в этом случае 47%, а вовсе не 5%. Соответственно, на более ранних этапах поиска, например при доклинических исследованиях, где доля ошибочных гипотез намного выше, соотношение ошибочных и реальных положительных результатов будет еще больше смещаться в сторону первых. Очевидно, что p < 0,05 абсолютно не пригодно в качестве единственного критерия, разделяющего результаты клинических испытаний на положительные и отрицательные.

Предложение снизить критерий статистической значимости до p < 0,005 встретило бурное сопротивление. Некоторые были против, поскольку такое изменение потребовало бы значительно увеличить количество участников, а значит, и стоимость исследований. Помимо этого, очевидно, что будет поставлена под сомнение реальность невероятного количества найденных ранее эффектов в диапазоне 0,005 < p < 0,05.

Другие критики обратили внимание, что если на практике доля воспроизведенных результатов в интервале p-значения 0,005–0,05 равна 24%, то для p < 0,005 она тоже далека от идеальной и составит 49%. Судя по всему, простое снижение порогового p-значения улучшит ситуацию, но не решит проблему полностью. Причина в том, что кризис воспроизводимости вызван не p < 0,05 самим по себе, а различными приемами, которые исследователи применяют для того, чтобы искусственно протолкнуть результаты своих исследований за столь желанный порог статистической значимости. Такая манипуляция данными в процессе статистического анализа называется p-хакингом.

Как стать p-хакером

В 1980 году группа исследователей провела контролируемый эксперимент, для которого было отобрано 1075 пациентов с заболеваниями сосудов сердца. Их рандомизировали в две группы, назначив каждой определенное лечение, назовем их А и В. Рандомизация была проведена корректно, и исходно группы были похожи по основным параметрам. После лечения выживаемость в обеих группах оказалась одинаковой. Но, разделив группы на несколько подгрупп – по возрасту, количеству пораженных сосудов и некоторым важным симптомам, – исследователи получили интересные результаты. Выживаемость группы А стала статистически значимо выше в подгруппе с поражением трех сосудов сердца и аномальным сокращением левого желудочка (p < 0,025), а в подгруппе с поражением трех сосудов, аномальным сокращением левого желудочка и отсутствием признаков сердечной недостаточности критерий статистической значимости для разницы был еще ниже (p < 0,01).

Отлично, разве не для этого мы проводим рандомизированные клинические исследования? Однако исследователи не спешили рекомендовать лечение А пациентам с поражением трех сосудов, аномальным сокращением левого желудочка и отсутствием признаков сердечной недостаточности. На самом деле в этом эксперименте ни одна из групп не получила никакого лечения. Да и пациентов никаких не было: их роль выполнили истории болезни из базы данных медицинского центра при Университете Дьюка. Они содержали данные о возрасте и поле когда-то лечившихся там пациентов, симптомах болезни, количестве пораженных сосудов и о том, сколько они прожили после лечения. Всех пациентов лечили одним и тем же методом. Статистически значимые различия между группами A и B обнаружили там, где их не должно было быть.

Что же произошло? Авторы исследования-имитации всего лишь задействовали пару приемов, используемых для p-хакинга – преодоления порога статистической значимости в отсутствие реальной разницы между группами. Легко представить, что, будучи примененными в реальном РКИ, эти манипуляции позволят легко обосновать ложный вывод об эффективности бесполезного лекарства.

Масштаб p-хакинга помогает осознать опубликованная в интернете база данных tidypvals, где собрано два с половиной миллиона p-значений из разных областей науки. Ее создатели предположили, что если p-хакинг существует и распространен, то при анализе распределения опубликованных в научных журналах p-значений будет виден “горбик” – заметное увеличение количества p-значений, которые лишь немногим меньше 0,05. Действительно, для большинства областей науки он оказался явно выражен, и медицина – одна из тех, где проблема наиболее наглядна. При этом внутри медицины есть сегменты, например альтернативная медицина, диетология, фармакология и стоматология, где она особенно бросается в глаза.

У p-хакеров богатый инструментарий. Формирование гипотез после того, как получены результаты, называют харкингом (от англ. HARKing, Hypothesizing After the Results are Known – “строить гипотезы, когда результат уже известен”). Представьте стрелка, который делает пять выстрелов в мишень и попадает в две единицы, двойку, семерку и молоко. Не очень меткий стрелок, скажете вы. А если он скажет, что таким и был изначально его план и он точно выполнил его с первого раза? Пользуясь этой методикой, любой может немедленно стать блестящим снайпером: достаточно говорить, в чем состояла задача, уже отстрелявшись. Понятно, что формулировка задачи будет зависеть от случайного результата, который вы перед этим получили.

Харкинг реализуется последовательной проверкой различных гипотез, пока одна из них случайным образом не даст желаемое p < 0,05. При достаточном количестве попыток это рано или поздно произойдет, даже если все гипотезы ошибочны. Другой подход – сделать как можно больше параллельных сравнений, например замерив и сравнив в двух группах все возможные симптомы одновременно. Какие-то сравнения в силу случайных колебаний преодолеют порог статистической значимости. После этого можно объявлять, что именно они и были основным исходом, который изучал эксперимент. А остальные измерения, по которым критерий статистической значимости не достигнут, могут быть вообще не упомянуты в публикации. Сравнение протоколов РКИ и итоговых публикаций показало, что в среднем авторы отчитываются лишь о половине проанализированных исходов.

Распространенная тактика – разделить пациентов на множество подгрупп, например по полу, возрасту и особенностям заболевания, и сравнивать эти подгруппы по отдельности. При достаточном количестве сравнений порог статистической значимости наверняка будет достигнут. Подобный анализ приводил, например, к ошибочным выводам о полезности амлодипина для пациентов с хронической сердечной недостаточностью, вызванной неишемической кардиомиопатией, но не для пациентов с ишемической кардиомиопатией. Или о том, что аспирин снижает риск сердечно-сосудистых заболеваний у мужчин, но не у женщин. Лекарство и правда может по-разному действовать на разные группы пациентов. Например, не стоит ожидать, что определенный режим физических упражнений будет одинаково полезен для молодых и пожилых. Однако такие гипотезы должны быть немногочисленны и обоснованны, а также сформулированы и зафиксированы до начала эксперимента.

Множественные сравнения увеличивают вероятность ложноположительных результатов и делают получение ничего не значащего p < 0,05 практически неизбежным. Поэтому в таких случаях нужно использовать другие статистические тесты или делать специальные математические поправки на множественное сравнение, например поправку Бонферрони: делим исходный критерий статистической значимости на количество сравнений. Если мы проверяем 20 гипотез одновременно, то пороговое p-значение должно снизиться в 20 раз и стать равным 0,05/20=0,0025.

В погоне за статистической достоверностью исследователи сплошь и рядом забывают применить поправку на множественные сравнения. Иногда это приводит к забавным результатам. В клиническом испытании препарата “Визомитин” для лечения синдрома сухого глаза авторы разбили и так не очень большую роговицу глаза на пять участков (верхний, нижний, центральный, темпоральный, назальный) и отдельно сравнили с контрольной группой изменения на каждом из них. В результате порог p < 0,05 был преодолен лишь для центрального участка, но не для остальных. Но еще дальше пошли сотрудники кафедры детских болезней Первого МГМУ им. И. М. Сеченова. В ходе исследования эффективности гомеопатического препарата “Коризалия” при лечении насморка они измерили симптомы для каждой ноздри отдельно и получили статистически значимый результат для левой, но не для правой ноздри. Ни в том, ни в другом случае поправки на множественное сравнение не делались.

Важно понимать, что такие поправки не исключают риск ложноположительного результата полностью, они просто возвращают его на тот же уровень, что и при единичном сравнении. В описанном выше эксперименте-имитации в Университете Дьюка применение поправки Бонферрони исключило статистическую достоверность лишь для одной из подгрупп, второй “эффект” остался значимым. Это еще раз иллюстрирует, что исходный уровень статистической значимости p < 0,05 не годится в качестве единственного критерия положительного результата.

Заставить вероятности работать на себя можно и раздробив эксперимент на несколько более мелких. Или повторив его столько раз, сколько нужно для получения значимого результата. Или замеряя результаты как можно чаще и остановив эксперимент не когда это планировалось сделать, а ровно в тот момент, когда будет обнаружена статистическая значимость: случайные колебания разницы между группами могут в какой-то момент дать желанный результат. Вывод об эффективности лекарства будет в этом случае так же обоснован, как если вы заявите, что владеете телекинезом, потому что можете заставить все игральные кубики выпасть одной стороной, только получается у вас это когда на девяносто седьмой попытке, а когда на двести четвертой.

Много возможностей открывает перебор существующих инструментов статистического анализа. Есть множество методов, позволяющих получить несколько различающиеся результаты. Сравним, например, две группы, в одной из которых определенный исход наступил с частотой 1/10, а в другой – 6/10. Точный тест Фишера даст статистически незначимый результат p=0,057, но вычисление критерия Mid-P – значимое p=0,030. Расчет критерия хи-квадрат по методу Пирсона тоже дает значимое p=0,019, но рассчитанный с поправкой Ийтса – незначимое p=0,061, а с поправкой Вальда – значимое p=0,035. Конечно, наиболее чувствительны к перебору методов пограничные значения p, близкие к 0,05.

Что можно делать по-другому?

Оставим в стороне рассуждения о том, что полностью решить проблему можно, лишь устранив прямую заинтересованность исследователей и производителей в положительных результатах. Возможно, так оно и есть, но абсолютно непонятно, как добиться этого на практике. Реалистичнее двигаться в сторону большей прозрачности: если все данные клинических экспериментов публичны и могут быть проверены независимыми специалистами, это затруднит p-хакинг.

Уже упомянутое снижение уровня статистической значимости до p < 0,005 тоже будет полезно. Однако важнее перестать ориентироваться на p-значение как на единственный критерий положительного результата. Отбросить нулевую гипотезу можно, только если на ее ошибочность указывают и другие статистические инструменты.

В последнее время звучат предложения перейти от расчета p-значений к байесианским методам анализа. Это направление статистики возникло в середине XVIII века благодаря английскому математику и священнику Томасу Байесу, автору теоремы Байеса. В рамках байесианской статистики был сформулирован альтернативный подход к нулевой гипотезе: использовать в качестве альтернативы p-значению фактор Байеса (BF), который рассчитывается так:

В отличие от p-значения, смысл фактора Байеса интуитивно понятен. Он говорит о том, насколько такие данные вероятнее наблюдать при верной нулевой гипотезе (эффекта нет), чем если при верной альтернативной (эффект есть). Его значение интерпретируют следующим образом: обычно, если BF > 3, мы принимаем нулевую гипотезу, а если BF < 1/3 – альтернативную. Интересно, что во многих ситуациях p-значению в диапазоне 0,03–0,05 соответствует BF > 1. То есть наблюдать такие данные вероятнее, когда никакого эффекта нет. Но при этом p-значение меньше порогового и дает основания считать результат статистически значимым.

Фактор Байеса позволяет легко перейти от вероятности получения наблюдаемых данных к оценке вероятностей самих гипотез. Мы рассчитываем вероятность и нулевой, и альтернативной гипотезы и можем, сравнив их, выбрать из двух гипотез более убедительную. Расчет p-значения ничего не говорит о вероятности альтернативной гипотезы: мы оценим только данные против нулевой, на основе чего отбрасываем или оставляем ее. Здесь преимущество байесианского подхода очевидно: возможны ситуации, когда вероятность нулевой гипотезы невелика, но при этом вероятность альтернативной еще ниже.

Проиллюстрировать это можно тем же примером с беременностью. Примем, что нулевая гипотеза гласит – вы женщина, а альтернативная – вы мужчина. При этом вы беременны. Тогда p-значение, то есть вероятность наблюдать такие данные (беременность) при условии корректности нулевой теории (вы женщина), будет равно 0,03, удовлетворяя распространенному критерию статистической значимости p < 0,05. Соответственно, если вы беременны, мы должны отвергнуть нулевую гипотезу. Руководствуясь этой логикой, вы беременны, значит, вы мужчина. Расчет фактора Байеса приведет нас к более разумному выводу: 0,03, деленное на бесконечно малую вероятность наблюдать беременность у мужчины, даст бесконечно большое значение фактора Байеса и будет сильнейшим аргументом за то, чтобы признать беременную женщиной.

Однако есть и серьезный недостаток. Для расчета фактора Байеса необходимо знать вероятность наблюдения данных при условии, что верна альтернативная гипотеза. В клинических экспериментах ситуации, похожие на пример с беременностью, возникают редко, и мы неизбежно сталкиваемся с необходимостью определять этот параметр на основе предположений. Это вносит в расчеты ту субъективность, за которую критикуют байесианские методы. Пока их применение в медицинских экспериментах ограниченно, а между сторонниками и противниками идут горячие споры.

Какие бы критерии выбора в пользу нулевой или альтернативной теории мы ни использовали, сам факт признания того, что различия между группами не случайны, содержит мало информации для врачей и не дает достаточно оснований применять метод лечения. Как правило, он ничего не говорит о силе эффекта. Поэтому мало отметить, что различия статистически значимы, важно рассчитать такие показатели, как индекс потенциальной пользы, показывающий, сколько человек нужно пролечить, чтобы предотвратить один нежелательный исход (например смерть или инфаркт), и индекс потенциального вреда, с помощью которого можно описать распространенность побочных эффектов. В РКИ эти показатели не менее важны, чем в наблюдательных исследованиях.

Если мы используем расчет p-значений, желательно обозначить разницу между группами не просто одним числом – оно ничего не говорит о степени неопределенности результата, является ли он окончательным или требуется продолжение исследований. Больше информации дает расчет доверительных интервалов (ДИ), ставший в последнее время стандартной частью анализа результатов РКИ. Доверительные интервалы обозначают диапазон, в котором с определенной надежностью (обычно это 95%) лежит результат. Чем выше выбранная надежность, тем шире будут границы диапазона. Если доверительный интервал разницы между группами включает в себя ноль, мы не можем уверенно говорить ни об отрицательном, ни о положительном результате эксперимента.

Доверительные интервалы записывают следующим образом.

Выживаемость в группе ингибиторов АПФ была на 10,0% выше (95% ДИ 7,0 13,0).

В этом случае 7,0 – это нижняя граница доверительного интервала, 13,0 – верхняя, а 95% – значение надежности, для которого рассчитан ДИ. Это результат A на рисунке ниже.

На рисунке изображены результаты двух экспериментов. Если мы ограничимся указанием среднего значения одной цифрой, то результаты A и B будут одинаковы. Различия между группами в обоих случаях 10% и статистически значимы. Однако доверительные интервалы разные: для А (7,0 13.0), для B (0,1 19,9). И если в первом случае мы знаем, что эффект лежит в достаточно узком диапазоне 7–13% и наверняка имеет клиническое значение, то во втором он может быть ничтожно мал (как, впрочем, и очень велик), поэтому нужны дальнейшие эксперименты. Они помогут сузить доверительный интервал и получить более точное представление о диапазоне, в котором лежит размер наблюдаемого эффекта.

В восьмидесятые годы прошлого века специалисты по статистике провели вполне успешную кампанию за обязательное использование доверительных интервалов либо вместо расчета p-значений, либо в дополнение к ним. Сейчас это стало правилом хорошего тона, которое, впрочем, нередко игнорируется.

Разобрать в рамках этой главы все возможные способы провести клиническое испытание и проанализировать его результаты неправильно – абсолютно невыполнимая задача. Тем, кто хочет узнать об этом больше, можно посоветовать книгу Триши Гринхалдж “Основы доказательной медицины” – она опубликована на русском языке. А мы поговорим еще об одной проблеме, приводящей к катастрофическим последствиям: результаты многих клинических экспериментов остаются практически никому не известными.

Последнее решение

В 1980 году группа британских врачей провела испытание антиаритмического препарата лоркаинид у пациентов с инфарктом миокарда. В то время считалось, что, поскольку аритмия – одна из причин гибели после инфаркта, антиаритмические препараты должны повышать выживаемость пациентов. Из 49 пациентов в группе лоркаидина погибло 9, тогда как в группе плацебо – только один из 47. Поскольку фармкомпания решила не выводить препарат на рынок по причинам, не связанным с результатами этого исследования, они так и не были опубликованы. Как написал позже один из участников исследовательской группы: “Мы утратили интерес… и забыли об этом”.

Восемь лет спустя клиническое испытание CAST показало, что вопреки ожиданиям антиаритмические препараты могут не снижать, а увеличивать смертность пациентов с инфарктом. Участники испытания 1980 года осознали, что результаты их исследования могли в свое время стать первым тревожным звонком. Благодаря ему крупные исследования вроде CAST начались бы раньше и многие пациенты могли быть спасены. В назидание другим экспериментаторам они рассказали об этой истории, чтобы те помнили, насколько важно последнее связанное с исследованием решение: публиковать ли его результаты и если да, то насколько полно.

Публикации в научных журналах – главный источник информации о медицинских исследованиях. Именно на них опираются правила лечения пациентов – информация, которую разработчики лекарств передают в регистрирующие организации, такие как российское министерство здравоохранения, непублична и недоступна для большинства. Насколько корректны эти правила, если до 90% исследований остаются неопубликованными?

Неопубликованные исследования отличаются от опубликованных. В 2008 году были изучены РКИ, на основе которых регистрировали антидепрессанты. Из 74 исследований по 12 препаратам 31% не были опубликованы. Что же именно осталось в ящиках столов? Из 38 успешных РКИ не опубликовали только одно. Из 36 отрицательных – опубликовали только 3, 22 не опубликовали, а оставшиеся 11 опубликовали, заменив отрицательный вывод на положительный. Получается, хотя положительный результат был получен только в половине РКИ, изучение научных публикаций создает впечатление, будто эффективность препаратов подтверждена в 94% исследований.

В результате избирательной публикации складывается ложное впечатление, что эффективность и безопасность препаратов выше, чем на самом деле. Ситуацию усугубляет и то, что исследования с положительным результатом публикуются заметно быстрее: для тех отрицательных, что все-таки доходят до печати, от момента завершения до появления в журналах в среднем проходит в полтора раза больше времени.

Не меньший вред может принести неполная публикация результатов. В сентябре 2004 года фармацевтическая компания Merck & Co отозвала с рынка противовоспалительный препарат рофекоксиб (торговая марка “Виокс”) в связи с тем, что он ощутимо повышает риск сердечных приступов и инсультов. Относящийся к группе коксибов препарат был очень популярен как лекарство от артрита, на пике его принимало до 80 миллионов человек по всему миру. Выручка от продажи “Виокса” за год до отзыва составила 2,5 миллиарда долларов США.

Препарат вышел на рынок в 1999 году, связанные с сердечно-сосудистыми заболеваниями побочные эффекты не упоминались. В клиническом испытании RIGOR, на основе которого “Виокс” был зарегистрирован, его сравнили с более старым напроксеном и пришли к выводу, что “Виокс” безопаснее. Однако со временем стала появляться информация о сердечно-сосудистых рисках, связанных с “Виоксом”, и затем крупное РКИ подтвердило, что препарат увеличивает эти риски в несколько раз.

Однако через некоторое время после отзыва препарата разразилась настоящая буря: выяснилось, что “Виокс” вообще не должен был появляться на рынке. Редакторы журнала The New England Journal of Medicine обнаружили, что из результатов RIGOR каким-то образом исчезли три инфаркта миокарда и другие побочные эффекты в группе “Виокса” и это ощутимо повлияло на выводы. Еще позже, в 2006 году, стало известно, что в ходе ADVANTAGE, другого исследования “Виокса”, проведенного Merck & Co в 2000 году, были получены данные, показывающие семикратное увеличение смертности от сердечно-сосудистых причин в группе “Виокса”. Отчет о результатах ADVANTAGE Merck & Co опубликовала только в 2003 году. В анализе упомянули лишь часть смертей, благодаря чему нежелательный эффект остался статистически незначимым.

Располагая данными о побочных эффектах “Виокса” еще до выхода препарата на рынок, Merck & Co скрывала их, защищая коммерчески успешный препарат до конца. Началась маркетинговая кампания, призванная выставить препарат в наилучшем свете. По мере распространения информации о побочных эффектах Merck & Co лишь усиливала сопротивление. Компания даже пыталась судить испанского фармаколога, чтобы вынудить внести поправки в его статью, но не добилась успеха. Последовавшие за скандалом с “Виоксом” судебные разбирательства привели к обнародованию электронных писем и внутренних документов Merck & Co. Примечательны, например, тренинговые материалы для сотрудников компании, содержавшие готовые ответы на щекотливые вопросы о побочных эффектах и набранный заглавными буквами совет “УВОРАЧИВАЙТЕСЬ!”.

Последовавшие суды нанесли ущерб репутации Merck & Co и резко снизили стоимость ее акций. Но ни огласка, ни компенсационные выплаты не могли вернуть потерянные жизни и утраченное здоровье. Многолетнее умалчивание и неполная публикация результатов исследований привели к тому, что на рынке несколько лет присутствовал опасный препарат. По разным оценкам, за время применения “Виокса” от него пострадали от 89 до 130 тысяч пациентов.

Узнать о неполноте или искажении опубликованных данных можно, только сверяя статьи в медицинских журналах с информацией, направленной регулирующим организациям, или с протоколами, полученными от этических комитетов, дававших одобрение на проведение испытания. Предполагается, что исследование проводят в точном соответствии с заранее подготовленным протоколом, а если есть отклонения, исследователи сообщают об этом и объясняют причину. Однако сопоставление информации из этих источников показывают одну и ту же тенденцию: в публикациях подчеркивают позитивные результаты и преуменьшают негативные находки, а исходы, по которым оценивают результаты РКИ, и методы анализа меняют без каких-либо объяснений. Так, до четверти основных исходов, фигурирующих в протоколах, не упомянуты в статьях. И в основном это исходы, представляющие препарат в негативном свете.

Крупный скандал разразился в связи с пароксетином (торговая марка “Паксил”). В 1992 году этот антидепрессант был выведен на рынок фармацевтической компанией SmithKline Beecham, а в 2012 году производителя оштрафовали на 3 миллиарда долларов США за сокрытие информации об исследовании № 329, в котором изучали лечение подростковых депрессий. Исследование показало, что эффективность пароксетина не лучше, чем у плацебо, и обнаружило побочные эффекты, в частности суицидальное поведение. SmithKline Beecham отказалась от идеи получить разрешение на использование “Паксила” в педиатрии, но у руководства возникли опасения, что эта неудача может подорвать популярность препарата – он уже применялся для взрослых и пользовался коммерческим успехом. Только в США “Паксил” приносил 12 миллиардов долларов в год, такими фантастическими продажами нельзя было рисковать.

Было принято решение “эффективно управлять распространением информации, с тем чтобы минимизировать потенциальный негативный коммерческий эффект”, для чего опубликовать “позитивные данные исследования 329”. Чтобы сделать “из дерьма конфетку”, было нанято агентство по медицинским коммуникациям. За сумму, чуть превышающую 17 тысяч долларов, агентство взялось написать несколько вариантов статьи и обеспечить взаимодействие с редакторами журналов. В качестве исходного материала в агентство был передан подробный отчет об исследовании на 1400 страницах. Конечно, формулировки в отчете смягчали найденные проблемы, но он не создавал ложного впечатления, что препарат эффективен и безопасен. Уже в первом варианте написанной агентством статьи выводы резко изменились. Число первичных исходов увеличилось с двух до восьми, показатели четырех из них были ожидаемо лучше в группе “Паксила”. Побочные эффекты были приуменьшены, а выводы сообщали, что “препарат хорошо переносится и эффективен при лечении депрессии у подростков”.

Статья была опубликована в Journal of the American Academy of Child and Adolescent Psychiatry. Конечно, редакторы журнала не могли знать о происходящем, но признаки того, что с данными не все в порядке, должны были насторожить. Статья, написанная маркетинговым агентством, впоследствии цитировалась в других научных работах 226 раз и использовалась для обоснования применения пароксетина.

В отдел маркетинга SmithKline Beecham статья поступила с сопроводительным комментарием сотрудника отдела продаж о “революционном исследовании”, демонстрирующем “исключительную эффективность и безопасность “Паксила” для лечения подростковой депрессии”. Так буквально за два шага неэффективный препарат с опасным побочным действием превратился в чудо медицины – надежное и безопасное. Попытка спасти легитимные продажи взрослым превратилась в рекламу офф-лейбл применения (калька с англ. off-label, “за пределами инструкции, этикетки”) для подростков: под этим термином понимают назначение разрешенного препарата по показаниям, не входящим в перечень официально разрешенных, – не всегда законная, но достаточно распространенная практика.

В 2003 году британский регулятор MHRA проанализировал исследование № 329 и другие и обнаружил сокрытие информации. Последовал запрет на применение пароксетина для лечения подростков и возбуждение уголовного дела. Через четыре года уголовные обвинения были сняты, но помимо трехмиллиардного штрафа GSK выплатила еще миллиард по иску о связи 450 самоубийств с приемом пароксетина. Компания обязалась создать публичный реестр всех данных о проводимых ею клинических испытаниях. Вслед за ней аналогичные реестры в интернете создали Pfizer, Eli Lilly и Merck & Co.

Под влиянием этой истории Международный комитет редакторов медицинских журналов заявил в 2005 году, что входящие в него журналы не будут публиковать исследования, которые не были предварительно зарегистрированы. Под предварительной регистрацией понимают публикацию еще до начала исследования на стороннем независимом ресурсе всех связанных с исследованием деталей, таких как дизайн, исходы, принцип отбора пациентов, методы анализа данных: это мешает публиковать результаты избирательно или не публиковать их вовсе – останутся следы того, что испытание проводилось, и перечень исходов, которые планировалось оценить. В США такая база доступна в интернете по адресу ClinicalTrials.gov еще с 2000 года. Однако ее существование долго игнорировалось, и только требование Международного комитета редакторов медицинских журналов переломило ситуацию – всего за месяц количество зарегистрированных в базе клинических исследований увеличилось вдвое.

Вслед за этим некоторые журналы потребовали предоставлять вместе со статьей исходные протоколы испытаний. А в 2007 году FDA сделало предварительную регистрацию клинических исследований обязательной и объявило о грозящих нарушителям наказаниях. В 2008 году вышла обновленная версия Хельсинкской декларации, в которой теперь четко прописали, что “любое клиническое исследование должно быть зарегистрировано в общедоступной базе данных до того, как в испытание включен первый участник”. В настоящее время такие публичные базы созданы в еще двух десятках стран, существует и международная база ВОЗ. К сожалению, в России обязательная публичная предварительная регистрация медицинских исследований носит формальный характер и реализуется таким образом, что в принципе не может выполнять предписанных ей функций.

Другая инициатива, направленная на то, чтобы публикации содержали полную и объективную информацию, – CONSORT (Consolidated Standards Of Reporting Trials, консолидированный стандарт отчета об исследованиях). Это расширенный список всего, что обязательно должно быть включено в описывающую клиническое исследование статью. Его задача – помочь предотвратить сокрытие важной для интерпретации исследования информации. Хотя CONSORT – всего лишь ориентир и носит рекомендательный характер, многие крупные журналы отталкиваются от его требований, когда решают, отвергнуть статью или принять к публикации. Анализ показал, что использование CONSORT значительно улучшает качество публикуемых статей.

Глава 15

Доказательная медицина

Еще один шотландец

Арчи Кокрейн родился в 1909 году в шотландском городке к югу от Эдинбурга в образованной и обеспеченной семье. Он получил естественнонаучное образование в Кембриджском университете, где некоторое время занимался исследованиями, но работа, оторванная от реальной жизни, его разочаровала. Не настроенный посвятить свою жизнь фундаментальной науке, Кокрейн уехал в Вену, где начал изучать медицину, а затем в Лондон, чтобы продолжить образование. Однако разнообразные интересы и беспокойный характер никак не позволяли его завершить. Интерес к политике привел его в 1936 году в Ассоциацию врачей-социалистов, отправлявшую медсестер и врачей добровольцами в Испанию, где шла гражданская война. Вернувшись, Кокрейн наконец закончил обучение, однако медицинская практика была недолгой: началась Вторая мировая.

Кокрейн присоединился к Медицинскому корпусу Королевской армии и оказался на Крите, а после вторжения немецкой армии на Крит – в числе 17 тысяч военнопленных. Его отправили в лагерь в Салониках. Как единственный врач, говоривший по-немецки, Кокрейн был, “невзирая на отсутствие желания и квалификации”, назначен лагерной администрацией руководить больницей для заключенных.

Больница представляла собой барак на двести коек, где из лекарств были только аспирин и неэффективный антисептик. В условиях полной антисанитарии и скопления огромного количества ослабленных людей одна эпидемия сменяла другую. И как будто дифтерии, тифозной лихорадки, малярии и гепатита было недостаточно, охранявшие лагерь солдаты развлекали себя стрельбой по больнице. Двух санитаров застрелили, один потерял руку, а особо забавным охране казалось кидать гранату в переполненный людьми туалет барака.

Вскоре Кокрейн столкнулся с новой бедой – болезнью, на которую жаловалось все больше людей и которую он не мог объяснить. У пленных, в том числе у него самого, появились сильные отеки в области локтей и коленей. Порывшись в памяти, он решил, что это симптомы бери-бери – заболевания, вызванного недостатком витамина B1. Объяснение казалось правдоподобным: малосъедобный лагерный рацион, содержавший всего 400–500 калорий, не мог обеспечить витаминами, военнопленные были сильно истощены. Когда попытки убедить немецких врачей увеличить рацион ни к чему не привели, Кокрейн вспомнил своего героя и земляка Джеймса Линда.

Он раздобыл на черном рынке лагеря немного дрожжей и, на случай если имеет дело с симптомами цинги, несколько таблеток витамина С. Утром он отобрал двадцать молодых военнопленных с выраженными симптомами болезни и произнес перед ними пламенную речь о Джеймсе Линде. Заручившись их согласием на участие в эксперименте, он освободил две палаты, пронумеровал пациентов и поместил четных в одну палату, а нечетных в другую. Пациенты первой палаты получили дрожи, вторая выполняла роль контрольной. Помогавшие Кокрейну санитары измеряли количество выпитой жидкости и частоту мочеиспускания. Поскольку не было ни одной лишней емкости для измерения объема мочи, такой примерный способ оценки количества выделяемой жидкости был единственным доступным.

В первые два дня никакой разницы между палатами не наблюдалось, но на третий забрезжила надежда, а на четвертый разница стала очевидна. Улучшение наступило у тех, кто получал содержащие витамин B1 дрожи, и это подтверждало бери-бери. Не питая никаких надежд, Кокрейн сообщил о результатах эксперимента руководству лагеря, и, к его немалому удивлению, щедрые порции дрожжей стали через некоторое время частью рациона узников. Загадочные отеки постепенно сошли на нет и больше не давали о себе знать.

Как ни гордился Кокрейн этой маленькой победой, после войны его ждало разочарование. Зарывшись в медицинские книги, он выяснил, что отеки были не симптомами бери-бери, а признаками гипопротеинемии – вызванного голодом сильного снижения содержания белка в крови. Он так и не смог объяснить, почему помогли дрожжи. Возможно, даже небольшое количество дополнительных калорий и минимальное количество белка, которое они внесли в рацион военнопленных, переломили ситуацию. Впоследствии он написал об этом эксперименте статью, которую назвал “Болезнь в Салониках: мое первое, худшее, но самое успешное клиническое испытание”, где честно описал все недостатки исследования и признал, что успехом был обязан исключительно везению.

После войны Кокрейн продолжил изучать медицину. Его профессором статистики был тот самый Остин Брэдфорд Хилл, который планировал знаменитый стрептомициновый эксперимент и доказал связь курения с раком легких. По признанию Кокрейна, лекции Хилла произвели на него огромное впечатление и определили область его интересов на всю жизнь. По окончании обучения он некоторое время проработал в США, где заинтересовался рентгеновской диагностикой, в частности субъективностью этого метода и ошибками при интерпретации снимков.

Когда Кокрейн вернулся в Великобританию, его пригласили в Совет по медицинским исследованиям. Там он проводил наблюдательные исследования, а затем участвовал в разработке рандомизированных клинических испытаний, среди которых известное РКИ, показавшее, что аспирин можно использовать для профилактики сердечно-сосудистых заболеваний.

В начале 1970-х Кокрейна попросили подготовить лекцию по оценке работы Национальной службы здравоохранения Великобритании. Итогом была изданная в 1972 году книга “Результативность и эффективность: случайные размышления о медицинской службе”. Этой небольшой книге суждено было стать одним из самых важных медицинских текстов XX века.

Кокрейн обратил внимание на то, что первые пятнадцать лет существования этой отвечающей за здравоохранение организации в ней в принципе отсутствовала оценка отдачи от потраченных средств. И правительство, и общество исходили из принципа “чем больше медицины, тем лучше”. Затраты на здравоохранение, количество трудоустроенных в нем людей, выписанных рецептов и проведенных обследований увеличились за это время в полтора раза. Но ни один человек не мог сказать, оправданы ли эти затраты, возвращаются ли инвестиции в виде спасенных человеческих жизней или сокращения сроков стационарного лечения. Кокрейн стал первым, кто смог ответить на этот вопрос. Увы, он пришел к выводу, что огромная махина системы здравоохранения работала почти вхолостую. Причину он видел в том, что прилагаемые усилия – методы лечения, принципы диагностики, подходы к принятию решения о госпитализации, – как правило, не опирались на качественные доказательства их эффективности и применялись потому, что “это должно работать”.

Разные доказательства, подчеркивал Кокрейн, имеют разную силу. Он ввел представление об их иерархии. В самом низу пирамиды доказательств Кокрейн разместил экспертное мнение. Частное мнение со ссылкой на личный опыт или сложившуюся практику – худшее из доказательств. Однако оно доминирует в медицине и становится основой значительной части клинических решений. Оно опасно непрозрачностью, мешающей его проверить, и тем, что статус и авторитет человека, от которого оно исходит, помогают даже ошибочному мнению звучать убедительно.

Выше экспертного мнения в пирамиде доказательств Кокрейн расположил контролируемые наблюдательные исследования. Сравнение двух групп и использование измеряемых данных уже само по себе более надежно. Однако нельзя забывать про главный недостаток наблюдательных исследований – невозможность исключить спутывающие переменные. Кокрейн приводит в пример забавное исследование, проведенное его коллегой. Тот изучил частоту курения среди школьников и повторил опрос через год, чтобы оценить, стали ли они курить больше. Он обнаружил удивительную закономерность: те школьники, кого наказывали за курение, стали курить больше. Вероятно, вопреки его выводам причина была не в порке. Группы поротых и непоротых могли сильно отличаться: те, кто изначально много курил, чаще попадались и чаще бывали наказаны, чем те, кто лишь изредка притрагивался к сигаретам.

Однако Кокрейн считал, что в тех случаях, когда эффект незамедлителен и ярко выражен, наблюдательные исследования можно принимать в качестве доказательств. В пример он приводил лечение диабета I типа инсулином. Впадающий в диабетическую кому больной неизбежно погибает, и только благодаря введению инсулина он может остаться в живых. Это настолько наглядно, что рандомизированный эксперимент в такой ситуации избыточен.

Мы редко имеем дело с таким мощным и немедленным эффектом, поэтому выше всего в иерархии доказательств Кокрейн разместил рандомизированные клинические испытания. Только они позволяют исключить спутывающие переменные и по-настоящему оценить эффективность и безопасность лекарства. Доказательная сила РКИ сильно зависит от его качества. Оно тем убедительнее, чем больше приложено усилий, чтобы исключить осознанные искажения или невольные ошибки в ходе эксперимента и статистического анализа – они могут полностью свести убедительность рандомизированного клинического эксперимента на нет.

Кокрейн выделил в здравоохранении несколько проблемных областей. В первую очередь он обратил внимание на то, что эффективность большинства применяемых методов лечения ничем не подтверждена. Хотя рандомизированные клинические испытания уже вовсю проводились, лишь немногие лекарства и процедуры были проверены с их помощью. Это не значило, что они неэффективны: они могли быть полезны, бесполезны или даже вредны. Но лечение наугад было недопустимо ни с точки зрения заботы о пациенте, ни с точки зрения разумного использования ограниченных средств налогоплательщиков.

Не только выбор лечения – любое решение, касающееся пациента, должно быть обосновано. Например, решение о госпитализации. Рандомизированное исследование показало, что лечение пациентов с неосложненным инфарктом миокарда в больнице на тот момент не давало никаких преимуществ по сравнению с лечением на дому: ни выживаемость, ни сроки выздоровления не менялись. Из этого следовало, что правильнее оставлять таких пациентов дома, освобождая нужные другим больничные койки и медицинский персонал. Да и пациенту часто комфортнее находиться в привычной обстановке, с близкими. До эксперимента никто не считал нужным проверять полезность госпитализации. Считалось очевидным, что она полезна – слишком много медицины не бывает.

Еще одна проблема, которую обозначил Кокрейн, – недоказанность пользы диагностических скринингов. Скринингом называют массовое обследование не имеющих симптомов людей для раннего выявления какой-либо болезни. В качестве примера Кокрейн привел цитологический мазок с шейки матки, или, как его еще называют по имени создавшего метод греческого ученого, мазок Папаниколау, помогающий находить изменения, предшествующие раку. Кокрейн настаивал на том, что полезность и безопасность диагностического скрининга тоже нужно обосновывать, больше диагностики – не значит лучше. Но не все были готовы это принять: стоило Кокрейну на одной из выездных лекций произнести: “Сейчас я не знаю надежных доказательств того, что цитологические мазки эффективны”, – как местную прессу завалили анонимными письмами, в которых его называли “опасным еретиком”. Хотя эффективность мазка Папаниколау была позже подтверждена, Кокрейн оказался прав: не все методы диагностического скрининга полезны для пациентов – мы поговорим об этом в следующей части.

Арчи Кокрейна принято называть основателем доказательной медицины. Однако впервые этот термин употребил в девяностые годы прошлого века, уже после смерти Кокрейна, канадский эпидемиолог Дэвид Сакетт. Он определил доказательную медицину как систематическое использование при выборе лечения лучших из существующих сейчас доказательств. Росту ее влиятельности помогла компьютеризация, повлекшая за собой создание баз медицинских публикаций, таких как PubMed. Они распространялись среди врачей сначала на твердых носителях, например компакт-дисках, а затем, по мере распространения интернета, стали доступны онлайн.

Основной принцип доказательной медицины – прозрачность. Любое клиническое решение должно иметь под собой убедительное обоснование, которое может быть проверено другими людьми. Недостаточно сослаться на опыт или на тайны врачебного искусства. Нужно быть готовым объяснить, почему из возможных альтернатив выбрана именно эта.

Из прозрачности следует второй принцип – равноправие. На протяжении тысячелетий авторитет и статус врача играли решающую роль. Стаж, звания и традиции сами по себе служили лучшими доказательствами. Фраза “так подсказывает мой клинический опыт” была главным аргументом в любом споре. Но для доказательной медицины решение интерна, может быть лучше мнения умудренного опытом профессора, если за первым стоят высококачественные доказательства полезности для пациента.

Прозрачность создает возможность критической оценки доказательств. Если Арчи Кокрейн в свое время писал, что необходимо проводить больше РКИ, сейчас, когда базы медицинских исследований содержат миллионы работ, мы столкнулись с другой проблемой – необходимостью интерпретировать противоречивые результаты и оценивать сами исследования. Вместо проблемы количества нужно решать проблему качества и применимости.

28 миллионов исследований

Именно столько содержит крупнейшая база научных публикаций PubMed, и большая часть из них касается медицины и здоровья. Не удивительно, что в PubMed можно найти исследование, посвященное практически любому вопросу. Мой личный топ включает эксперимент по изучению влияния кокаина на танец пчел, двойное слепое рандомизированное испытание, сравнивающее изменение уровня счастья после приема темного и молочного шоколада, а также эссе о пользе глупости в научных исследованиях. Но вне конкуренции исследование влияния ткани, из которой сделано нижнее белье, на сексуальную активность. По каким-то причинам автор не смог организовать эксперимент на людях и был вынужден использовать лабораторных крыс. Абстракт – краткое резюме исследования – стоит того, чтобы быть процитированным.

Эффекты ношения тканей разных типов на сексуальную активность были изучены на 75 крысах, которых разделили на пять равных групп: четыре экспериментальных и одну контрольную. Каждая из четырех экспериментальных групп была одета в трусы из одного из следующих типов ткани: 100% полиэстер, смесь полиэстер/хлопок 50/50, 100% хлопок и 100% шерсть. Сексуальная активность была оценена до, а также через 6 и 12 месяцев ношения трусов, а также через 6 месяцев после того, как трусы были сняты. Было посчитано соотношение (I/M) количества половых актов (I) к их попыткам (M). С помощью статического киловольтметра был замерен электростатический потенциал, генерируемый на пенисе и мошонке. Через 6 и 12 месяцев ношения трусов из полиэстера и полиэстер-хлопковой смеси значение I/M заметно снизилось по сравнению со значениями до ношения и с контрольной группой (p < 0,0001)… Значение I/M в группе хлопка и шерсти показало статистически незначимое изменение (p > 0,05) на 6-й месяц и значимое (p < 0,01) на 12-й месяц. Через 6 месяцев после того, как трусы были сняты, значения I/M вернулись во всех группах к уровню начала эксперимента. Трусы, содержащие полиэстер, генерировали, в отличие от остальных, электростатические потенциалы. Судя по всему, они могли создавать “электростатические поля” во внутрипенисных структурах, чем, возможно, и объяснялось снижение сексуальной активности крыс.

Впрочем, не спешите покупать шерстяное белье. Если вы внимательно читали предыдущие главы, то уже знаете, почему делать далеко идущие выводы из этого абстракта преждевременно.

Конечно, основная проблема огромного количества накопленных данных не в странных работах, а в том, что поднимающие серьезные вопросы клинические испытания и наблюдательные исследования приходят к взаимоисключающим выводам. Или имеют другие недостатки, которые мешают использовать их для принятия клинических решений. Увы, большого количества РКИ оказалось недостаточно. Поэтому понадобился еще один этаж пирамиды доказательств – работы, которые подверглись критическому анализу со стороны незаинтересованных специалистов.

Одной из первых попыток систематического критического анализа было введение большинством научных, в том числе медицинских, журналов механизма научного рецензирования. Его суть в том, что несколько независимых специалистов читают статью перед публикацией и пишут на нее отзыв. Если он негативен, например, рецензент считает, что исследование не очень ценно или плохого качества, статья не будет опубликована.

Идея хороша, но на практике работает не всегда. Существенным недостатком научного рецензирования является его непрозрачность: никто, кроме самого журнала, не видит рецензию и даже не знает, кто ее автор. Как следствие, качество рецензий бывает низким, они не всегда объективны. В худших случаях рецензирование может превратиться в полную имитацию. Качество многих публикаций наводит на мысль о том, что либо рецензенты их не читали, либо никаких рецензентов не было. В большей степени это касается журналов, которые берут с авторов деньги за публикацию.

Замечательный эксперимент провели три студента Массачусетского технологического института, создавшие SCIgen – программу, генерирующую случайные наукообразные тексты. Написанная программой статья Rooter: A Methodology for the Typical Unification of Access Points and Redundancy была принята в качестве материала компьютерной конференции, а авторы получили приглашение на ней выступить. Когда мистификация вскрылась, организаторы конференции отозвали приглашение, однако это не помешало создателям SCIgen снять помещение в здании напротив и выступать там с лекциями столь же случайного содержания. В России эксперимент повторил биоинформатик Михаил Гельфанд, который перевел статью на русский и отправил ее в якобы рецензируемый “Журнал научных публикаций аспирантов и докторов”. Заведомая бессмысленность не помешала статье “Корчеватель: алгоритм типичной унификации точек доступа и избыточности” получить положительную рецензию и быть опубликованной. Рецензент, если он существовал, не заметил даже встроенную в текст благодарность автора “профессору М. С. Гельфанду, привлекшему мое внимание к проблеме публикации случайных текстов”. Судя по всему, у пасхальных яиц, запрятанных глубже – в списке использованной литературы фигурировала статья автора по фамилии Софтпорн (от англ. soft porn, “мягкое порно”), – не было вообще никаких шансов привлечь внимание. Всего не менее ста рецензируемых журналов по всему миру опубликовали созданные с помощью SCIgen статьи.

Причины закрытости рецензирования понятны: никто не хочет нажить себе врагов среди коллег. Единственный способ обойти проблему – распределить оценку на очень большое количество экспертов. Поскольку журналы не могут себе позволить платить за рецензии сотням или даже тысячам специалистов, приходится полагаться на волонтеров. Внедрить такой подход пытается, например, система EvidenceAlerts, поддерживаемая канадским Университетом Макмастера. Она предлагает подписчикам отобранные статьи, прошедшие оценку панели из более чем пяти тысяч экспертов, выставляющих публикациям рейтинг доказательности.

Другой подход пыталась внедрить система PubMed. Экспериментальный сервис PubMed Commons давал возможность всем зарегистрированным пользователям оставлять комментарии к опубликованным статьям и обсуждать их. К сожалению, эксперимент провалился: за пять лет существования PubMed Commons к 20 миллионам содержащихся в базе работ было оставлено всего 6 тысяч комментариев, и проект закрылся. Критический анализ медицинских научных публикаций – процесс трудоемкий, и лишь у немногих хватает мотивации заниматься этим на общественных началах.

Единственным распространенным и эффективным инструментом анализа публикаций пока остаются вторичные исследования, по праву занимающие место на вершине современной версии пирамиды доказательств. В первую очередь это систематические обзоры. Обзор литературы – распространенный жанр, но систематическим он может называться, только если содержит детальное описание методики поиска и критериев включения публикаций в обзор. Это нужно, чтобы любой мог оценить его объективность и при желании повторить. Доказательность систематических обзоров выше, чем у отдельных РКИ, поскольку они суммируют выводы всех исследований надлежащего качества на эту тему.

Качество систематических обзоров зависит от использованной методики. Среди самых высококачественных – обзоры Кокрейна (ранее – Кокрейновское сотрудничество), названной в честь Арчи Кокрейна некоммерческой организации. Она создана в 1993 году, чтобы помогать врачам, пациентам, законодателям и управляющим медицинской помощью организациям принимать основанные на доказательствах решения. Она объединяет несколько десятков экспертных групп и более 30 тысяч добровольцев по всему миру. Репутация Кокрейна столь серьезна, что он является официальным партнером ВОЗ, имеет право назначать своего представителя для участия в заседаниях ВОЗ и выступать на них с заявлениями.

Систематический обзор часто включает метаанализ – статистическую процедуру, которая суммирует данные из нескольких исследований и делает на их основании общий статистический вывод. Результаты метаанализа представляют в виде лесной диаграммы. Вот как она выглядит.

Этот метаанализ был сделан для того, чтобы понять, применять ли кортикостероиды в случае риска досрочных родов. В конце 1970-х несколько исследований показали, что применение кортикостероидов увеличивает шансы ребенка выжить, поскольку снижает вероятность острого респираторного дистресс-синдрома (ОРДС) – воспалительного заболевания легких, часто приводящего к гибели новорожденного. Но выводы были неоднозначны, не все исследования продемонстрировали статистически значимый эффект.

Метаанализ суммировал их результаты. В каждом из семи экспериментов кортикостероиды сравнили с плацебо. Исследования подписаны именами авторов и годом публикации. Связанная с исследованием горизонтальная линия обозначает полученное отношение шансов (ОШ, англ. odds ratio) – отношение вероятностей исхода (в этом случае ОРДС) в группах. Если отношение шансов равно единице, то вероятность развития ОРДС одинакова с кортикостероидами и без них. Если меньше единицы, то кортикостероиды ее снижают, а значит, полезны. Если больше единицы, то повышают.

Длина отрезка обозначает доверительный интервал. Он отражает связанную с силой эффекта неопределенность: чем шире доверительный интервал, тем менее точно мы знаем, в какой точке расположено истинное значение ОШ. Точка на доверительном интервале – наиболее вероятное значение. Вертикальную линию под единицей называют линией отсутствия различий. Если доверительный интервал не пересекает линию отсутствия различий, между кортикостероидами и плацебо есть разница. Если пересекает или прикасается к ней, то мы не можем однозначно утверждать, существует разница между группами или нет. В нашем примере доверительные интервалы трех исследований из семи пересекают линию отсутствия различий, то есть статистически незначимы.

В результате специальной статистической процедуры данные отдельных исследований суммируют и получают общий вывод, показанный ромбом в самом низу лесной диаграммы. Видно, что общий доверительный интервал не пересекает линию отсутствия различий, его максимальное значение меньше единицы, а значит, мы можем говорить о том, что применение кортикостероидов статистически значимо снижает риск ОРДС. Этот метаанализ помог внедрить кортикостероиды в акушерскую практику и спасти жизни тысяч новорожденных. А лесную диаграмму его самой первой версии можно теперь увидеть на логотипе Кокрейна – для организации этот обзор стал одним из первых важных успехов.

Метаанализ решает сразу несколько проблем. Во-первых, он помогает сделать общий вывод на основе нескольких исследований, давших разные и даже противоречивые результаты. Во-вторых, метаанализ может обнаружить эффект, который отдельные эксперименты не обнаружили, поскольку количество участников в каждом из них по отдельности было слишком мало – им не хватало статистической мощности. Напомню, статистическая мощность характеризует вероятность, что эксперимент обнаружит существующий эффект.

Вовремя сделанный метаанализ может сберечь и ресурсы исследователей, и жизни. Авторы метаанализа экспериментов по уменьшению кровотечения во время операций на сердце с помощью апротинина обнаружили, что статистически значимый положительный результат мог быть получен еще в 1992 году. Для этого достаточно было сделать метаанализ после первых двенадцати исследований, в которых суммарно участвовало 2400 пациентов. Однако за ними последовало еще пятьдесят два клинических эксперимента, а общее количество пациентов достигло 8 тысяч. Сделанный раньше метаанализ мог не только сберечь ресурсы, но и предотвратить неэтичные исследования, в которых половина пациентов получала вместо эффективной терапии плацебо.

Увы, этот случай не уникален. Клинические испытания часто проводят без учета суммированных результатов более ранних. В 2005 году было подсчитано, что это происходит примерно в половине случаев. А если их и учитывают, то обычно не делают повторный метаанализ по окончании исследования, включив в него только что полученные результаты. Обзоры, которые обновляют свой вывод после каждой новой публикации, называют кумулятивными. Их использование помогает вовремя обнаружить, что данных накоплено достаточно, вывод подкреплен убедительными доказательствами и дальнейшие исследования нерациональны, неэтичны или вредны.

Таким образом, современная пирамида медицинских доказательств дополнена вторичными исследованиями – систематическими обзорами с метаанализом – и выглядит вот так.

Находящиеся выше в иерархии виды доказательств не всегда и не безусловно лучше тех, что ниже. Каждый тип исследований оптимален именно для своих задач. Даже низко расположенные отчеты об отдельных случаях могут быть незаменимы. Они идеально подходят для того, чтобы быстро оповестить о возможной проблеме, например рассказать о подозрении на опасное побочное действие лекарства, как в случае публикации Макбрайда о возможной связи талидомида и фокомелии. А контролируемые наблюдательные исследования – когортные и случай-контроль – незаменимы для изучения факторов риска. Они потенциально полезны и для выявления отдаленных последствий применения лекарственных препаратов, поскольку могут охватить гораздо больший период, чем РКИ.

При всех уже названных преимуществах систематических обзоров нельзя абсолютизировать и их. Большое высококачественное РКИ более надежно, чем метаанализ нескольких маленьких. Увы, вторичные исследования хороши ровно настолько, насколько хороши работы, которые они суммируют. Нередко крупное РКИ хорошего качества приходит к иному выводу, чем предшествовавший ему метаанализ с небольшой выборкой.

В течение тридцати лет внутривенное введение кортикостероидов было стандартной практикой при оказании неотложной помощи больным с травмой головы. В 1997 году по результатам метаанализа 13 РКИ с общим числом участников около 2 тысяч было высказано предположение, что кортикостероиды несколько снижают смертность. За ним последовало плацебо-контролируемое клиническое испытание CRASH с 20 тысячами участников, которое показало, что смертность в получавшей кортикостероиды группе, наоборот, выше. Практика их применения при травме головы ежегодно приводила к 5 тысячам смертей.

Важно также помнить, что результаты не всех исследований публикуются. Поскольку неопубликованными остаются в основном исследования с отрицательным результатом, метаанализы могут переоценивать усредненный эффект. Обязательная регистрация клинических исследований помогает отследить те, что не завершились публикацией, запросить недостающие данные и учесть проблему в выводах.

Переход на личности

Как вы уже заметили, доказательная медицина опирается на средние показатели для некоторой популяции. Возникает резонный вопрос: насколько они касаются конкретного человека, имеют ли отношение лично ко мне, не описывает ли доказательная медицина лечение “сферического коня в вакууме”?

Действительно, очень немногие будут реагировать на лечение в точном соответствии со средним значением, полученным в ходе клинических испытаний: кто-то будет реагировать чуть лучше, кто-то чуть хуже. Не каждый испытает побочные эффекты, а те, кто испытает, будут переносить их по-разному. И дело не только в физиологических особенностях организма: они будут по-разному влиять на человека в зависимости от того, как он живет и какие у него ценности. Так, нарушение эрекции, иногда сопровождающее прием антидепрессантов, мужчина, состоящий в романтических отношениях, перенесет хуже, чем одинокий. А сонливость будет больше мешать человеку, ежедневно занятому интенсивным умственным трудом, и меньше пенсионеру.

Пародийный образ доказательной медицины, придуманный ее критиками, предполагает слепое принятие решений на основе цифр, без оглядки на здравый смысл и нужды конкретного пациента. Врач и правда может испытывать соблазн решить, будто он лучше пациента знает, что тому нужно. Но если он действительно практикует доказательную медицину, то помнит: лучшее лечение – то, что уменьшает страдания конкретного человека, а не то, что улучшает статистику или снижает количество койко-дней.

Учитывать в результатах РКИ качество жизни пациентов помогает относительно недавнее нововведение – заполняемые пациентами опросники PROM (англ. Patient Reported Outcome Measures). Хотя с помощью PROM по-прежнему определяют среднее значение для популяции, они помогают понять, как лечение влияет на те исходы, которые важны для пациента, но ранее игнорировались в ходе клинических экспериментов. Так, например, опросник EPIC-26, призванный определить качество жизни пациентов с раком простаты, содержит вопросы о непроизвольном мочеиспускании и сексуальной жизни.

В сочетании с данными о смертности и побочных эффектах оцененные с помощью PROM исходы помогают выбрать лечение, учитывающее потребности конкретного пациента. Полученные в ходе РКИ данные превращаются в индивидуальное назначение в процессе совместного принятия решения пациентом и врачом. Роль врача – дать пациенту основанную на лучших доказательствах информацию о существующих альтернативах и их возможных последствиях.

Интересной попыткой индивидуализации посредством эксперимента на конкретном пациенте стали исследования n-of-1 (англ. “с количеством участников, равным одному”). В ходе такого эксперимента каждый участник получает в случайном порядке разные лекарства.

Этот дизайн был опробован при подборе обезболивающих пациентам с остеоартритом. Некоторым хорошо помогал дешевый и имеющий немного побочных эффектов парацетамол. Другие же испытали достаточное облегчение лишь при приеме нестероидных противовоспалительных препаратов (НПВП), в среднем более эффективных, но более дорогих и имеющих больше побочных эффектов. Исследователи предположили, что, если просто чередовать разные лекарства, эффект парацетамола может маскироваться эффектом ноцебо – более дешевое лекарство будет воспринято как менее эффективное. Поэтому препараты приготовили в виде одинаковых таблеток, подписанных как А и Б. Каждый пациент получал их в случайной последовательности, не зная, что именно принимает. Хотя в среднем НПВП более эффективны, исследование помогло выделить пациентов, которым парацетамол помогал не хуже.

Какое-то время исследованиям n-of-1 прочили роль универсального решения проблемы персонализации. Однако на практике они не прижились. Во-первых, сказалась исключительная трудоемкость: организовать такой подбор лекарств в условиях клиники сложно и дорого. Во-вторых, слишком много больных отказывалось от участия: попробовав первое лекарство, они уже не хотели менять его на другое. В-третьих, последовательное сравнение ненадежно: на эффект второго лекарства может накладываться недавний прием первого. И эту проблему нельзя решить длительными паузами между эпизодами приема: оставлять пациента без лечения неэтично, к тому же это еще больше увеличивает отток пациентов. В конечном счете исследования n-of-1 так и не смогли продемонстрировать преимуществ.

☛ В онкологии делаются попытки экспериментально подбирать лечение для конкретного пациента путем проб чувствительности к химиотерапии (англ. сhemotherapy resistance/sensitivity assays, CSRA, анализ на устойчивость и ответ к химиотерапии). У пациента берут образец опухолевой ткани, выращивают клеточную культуру и проводят сравнительный эксперимент на ее чувствительность к разным комбинациям противоопухолевых препаратов. Пока убедительных данных за эффективность метода нет. Судя по всему, поведение опухолевой ткани в пробирке очень отличается от ее же поведения в организме. Кроме того, опухоль неоднородна, и разные ее участки могут по-разному отвечать на химиотерапию, поэтому сделанные на основе отдельных проб тесты не гарантируют такой же ответ всей опухоли и метастазов в теле пациента. С учетом этих ограничений врачам не рекомендовано опираться на результаты CSRA. Исследования продолжаются.

Похожий подход – использование мышиных аватаров. Но в этом случае опухолевую ткань пациента не культивируют в пробирке, а пересаживают лабораторным животным с подавленным иммунитетом, что позволяет опухоли прижиться. Затем животным дают разные противоопухолевые препараты и смотрят, какой эффективнее. Таким образом, мы получаем сравнительный эксперимент с опухолевой тканью конкретного пациента в целом организме. Этому методу пока тоже не удалось продемонстрировать эффективность. Обычные опасения в связи с тем, что эксперименты на животных редко воспроизводятся на людях, справедливы и для данного случая: иммунные системы человека и других видов сильно различаются. Более того, недавно было показано, что после пересадки из организма человека животным опухолевые клетки претерпевают серьезные изменения. И есть еще одна проблема: подбор терапии на аватарах занимает очень много времени, а у пациентов с агрессивными видами рака часто нет времени ждать результатов.

С конца XX века развитие и удешевление технологий секвенирования генома, расшифровка и публикация полных геномов сначала вирусов и одноклеточных, а затем млекопитающих и человека порождали все больше надежд. Казалось, очень скоро развитие генетики, клеточной биологии и компьютерных технологий, помогающих анализировать лавинообразно нарастающие объемы информации, доведут понимание механизмов болезней до уровня, который позволит вылечить что угодно. Человеческий геном виделся ключом к решению всех проблем. Эксперты обещали, что в ближайшем будущем будет обнаружена связь между определенными его вариантами и самыми распространенными болезнями, в результате чего медицинская помощь станет глубоко персонализированной: мы сможем предсказывать и предотвращать болезни либо лечить их с помощью генной терапии. Эти надежды воплотились в невероятно популярном сегодня термине персонализированная медицина.

Реальность, как это часто бывает, оказалась несколько скромнее ожиданий. Чуда пока не произошло. Даже такое хорошо изученное генетическое заболевание, как серповидно-клеточная анемия, пока лечится только пересадкой костного мозга. Скоро будет семьдесят лет, как известны его причины: единственная неверная аминокислота в генном коде приводит к синтезу дефектного гемоглобина, что вызывает снижение эластичности эритроцитов и, как следствие, нарушение кровообращения. Но это точечное изменение запускает столь сложные биологические процессы, что лекарства пока найти не удалось. Попытки влиять на разные звенья в цепи патологии не дали результата. Сейчас надежды возлагают на редактирование дефектного кода с помощью технологии CRISPR, но пока ни один препарат не прошел клинических испытаний и не зарегистрирован.

Тем не менее термин “персонализированная медицина” уже зажил своей жизнью, хотя и получил иное содержание. Сейчас под ним понимают деление пациентов на группы на основе геномных данных для более эффективного подбора лечения. Самые заметные результаты этот подход демонстрирует в онкологии. Анализ генома опухолей позволяет отнести их, в зависимости от найденных мутаций, к той или иной подгруппе. И иногда какая-то из подгрупп оказывается чувствительной к препарату, в то время как опухоли, не имеющие этой мутации, на него не реагируют. В результате в среднем бесполезный для всех пациентов с раком определенного типа, например молочной железы, препарат может оказаться эффективным для небольшой части больных.

Один из первых успехов такого рода – препарат трастузумаб. Он представляет собой антитело, направленное на белок HER2, иногда участвующий в процессе опухолевого роста. Создатели трастузумаба подтвердили его эффективность только для тех раковых опухолей молочной железы, в которых выявлена амплификация гена, кодирующего этот белок, что наблюдается у 20–30% пациентов. Для остальных пациентов с данной болезнью трастузумаб не только бесполезен, но и может причинить вред, поэтому его назначают только после теста, подтверждающего эту особенность. Долго трастузумаб был единственным, но в последнее десятилетие появилось еще несколько препаратов, эффективных лишь при определенных мутациях опухолей.

Некоторые специалисты полагают, что мы стоим на пороге изменения подхода к классификации рака. До сих пор определяющими считались расположение опухоли и особенности ее клеток. Диагноз звучит, например, так: немелкоклеточный рак легкого. Именно в соответствии с этим диагнозом пациентов отбирают для клинических испытаний. Именно такой диагноз в случае успеха войдет в показания к применению нового препарата. При этом не исключено, что практичнее классифицировать опухоли не по месту расположения, а по определяющим их рост и метастазирование мутациям. Тогда у пациентов с немелкоклеточным раком легкого окажутся совсем разные болезни: опухоли с мутациями генов EGFR (рецептора эпидермального фактора роста), HER2 и другими. Такие же мутации встречаются у опухолей и в других органах. Возможно, отбор пациентов по мутациям, а не по месту расположению опухоли позволит найти новые препараты, которые в рамках традиционной классификации выглядели бы неэффективными.

Впрочем, пока мы не знаем, есть ли у этого направления будущее. Сейчас в США идет масштабное клиническое испытание NCI – MATCH, которое покажет, дает ли подбор лечения на основе генетических особенностей опухоли преимущества. Опубликованные в 2015 году результаты исследования SHIVA были неутешительны: этот подход никак не улучшал прогноз больных. Нельзя исключать, что сложность и изменчивость злокачественных опухолей обрекает любое простое решение на провал.

Попытки использовать данные о геноме самого пациента пока не приносят особых результатов. Немногочисленные успехи лежат в области фармакогеномики, исследующей влияние генетических особенностей человека на действие принимаемых им лекарств. Например, метаболизм некоторых лекарственных препаратов зависит от цитохрома CYP2D6. Так, лекарство от рака тамоксифен становится активным лишь после того, как с помощью этого фермента превращается в эндоксифен. Соответственно, у людей с разными вариантами кодирующего CYP2D6 гена могут наблюдаться как более выраженные побочные эффекты, из-за чего они отказываются от лечения, так и меньшая эффективность тамоксифена. Другой пример связан с препаратом абакавир. Это лекарство против ВИЧ может вызывать очень серьезные побочные эффекты, но лишь у небольшого процента пациентов. Исследования показали, что этому риску подвержены люди с вариантом гена (HLA) – B 5701. Поэтому заблаговременно сделанный генетический тест может предотвратить негативные последствия – пациенту назначат другой препарат. Важно добавить, что оба примера теоретические. На практике перед назначением этих лекарств генетическое тестирование, как правило, не делают.

Таким образом, персонализированная медицина не подразумевает абсолютно индивидуальную терапию для конкретного пациента. Мы по-прежнему опираемся на средние данные о некоторой популяции. Но в ряде случаев эти группы становятся меньше благодаря новым данным о механизмах болезни или о метаболизме лекарственных веществ. Поэтому все чаще используется более точный термин прецизионная медицина (от англ. precision – “точность”).

Прецизионная медицина – одна из самых модных тем медицинских исследований. Наряду с такими не менее распиаренными областями, как стволовые клетки и регенеративная медицина, фундаментальные исследования, так или иначе связанные с генетикой, получили в 2016 году больше половины многомиллиардного исследовательского бюджета Национальных институтов здравоохранения США. Хотя пока успехи скромны, в перспективе это направление действительно может улучшить жизнь многих больных. Но станет ли оно панацеей? Некоторые специалисты обращают внимание на то, что количество групп пациентов, выделение которых ощутимо влияло бы на качество и продолжительность жизни, невелико. Поэтому возможности такой “персонализации” весьма ограниченны. Другие указывают на несоответствие эффекта и потраченных на его получение сумм. Возможно, дорогостоящая разработка препаратов, которые будут лишь чуть-чуть эффективнее у очередной небольшой подгруппы, – не лучший вектор приложения усилий. Не стоит ли вместо этого сосредоточиться на других вещах? Ведь отказ от курения, правильное питание и изменение образа жизни куда радикальнее снижают смертность от рака.

Один из неприятных побочных эффектов моды на персонализацию: под флагом прецизионной медицины продвигается идея, будто бы рандомизированные клинические испытания устарели. Все чаще можно слышать, что доказательная медицина теряет актуальность и прецизионная идет ей на смену. Якобы со временем экспериментальные доказательства эффективности препарата можно будет заменить правильными рассуждениями о механизме его действия, которые не придется подтверждать на практике. Если вы внимательно читали эту книгу, то уже знаете, что это стало бы движением в обратную сторону и вернуло бы медицинские исследования туда, где они были сотни лет назад.

Выбор терапии без экспериментальных доказательств эффективности чреват как серьезными побочными эффектами, которые нельзя предсказать теоретически, так и неоправданными надеждами на действенность препарата. Да, в исключительных ситуациях регистрирующие организации соглашаются выпустить на рынок препарат без РКИ. Это возможно, если лекарство предназначено для лечения редких и смертельно опасных болезней. Так, кризотиниб был зарегистрирован в 2011 году для лечения одного из вариантов немелкоклеточного рака легкого на основе клинических испытаний первой фазы на 119 пациентах без контрольной группы: использование контроля сочли неэтичным. Препарат показал эффективность для лечения опухолей, имеющих редкую мутацию, которая встречается лишь в 4% случаев. Однако за ускоренной регистрацией последовали РКИ, которые, с одной стороны, показали, что кризатиниб более эффективен, чем стандартная терапия, а с другой – что он менее эффективен, чем препарат алектиниб, действующий на опухоли этого типа. Сравнительное испытание пришлось прекратить досрочно, поскольку выживаемость без прогрессирования в группе алектиниба была в два с половиной больше, чем в группе кризатиниба. Без РКИ мы никогда не узнали бы, насколько эти два лекарства неравноценны.

Итак, хотя учитывать при выборе лечения индивидуальные особенности пациента и его заболевания необходимо, успехи в этом направлении пока скромны. Но уже сейчас можно сделать в сторону персонализации большой шаг, который не потребует многомиллиардных вложений. Для этого достаточно прислушиваться к пациенту и стремиться к результатам, важным для него, а не для врача или управляющих здравоохранением организаций.

Название книги

0,05. Доказательная медицина от магии до поисков бессмертия

Талантов Петр

Часть пятая

Мошенники и исследователи