Ну вот, необходимые библиотеки ДНК составлять мы научились, скоро команда из 454 запустит свои мощные машины и все прочитает. Так что можно браться за новую задачу: картирование. Нам предстояло найти для каждого короткого фрагмента неандертальской ДНК соответствие в эталонном геноме человека. Звучит просто, но на деле задача оказалась колоссально сложной, примерно как если бы вы складывали гигантскую головоломку, в которой часть кусочков потеряна, часть попорчена и еще множество попало в коробку из других наборов и поэтому не подходит вообще.

Суть задачи по сортировке фрагментов состояла в том, что нужно было одновременно держать в голове две противоположных возможности. С одной стороны, если требовать абсолютно точного соответствия неандертальских и человеческих отрезков ДНК, то можно упустить или отбросить те, в которых имеются значимые отличия (или ошибки). И в результате неандертальский геном предстанет более похожим на человеческий, чем на самом деле. Но с другой стороны, если позволить слишком приблизительное соответствие, то в неандертальский геном попадут фрагменты бактериальных ДНК, которые иногда похожи на те или иные участки человеческой последовательности. В этом случае неандертальский геном будет слишком сильно отличаться от человеческого – больше, чем в реальности. Собственно, на том этапе можно было забыть обо всех остальных частностях и сосредоточиться на балансировании между этими двумя крайностями; от выбранного баланса зависел весь дальнейший анализ и подсчет различий между человеческим и неандертальским геномами.

Кроме того, была еще и практическая сторона дела. Компьютерные алгоритмы для картирования не могли учитывать слишком много параметров: мы ведь хотели сравнивать массивы в 3 миллиарда человеческих нуклеотидов с миллиардом неандертальских фрагментов по 30–70 нуклеотидов каждый (именно такое количество ДНК мы планировали секвенировать из костей). Программам с такими объемами быстро не справиться.

Несколько человек взялись за монументальную задачу по составлению алгоритма картирования: Эд Грин, Дженет Келсо и Удо Штенцель. Дженет приехала к нам в лабораторию в 2004 году из Университета Западно-Капской провинции в своей родной ЮАР и возглавила у нас группу биоинформатики. Как-то незаметно, но очень эффективно из самых разных и необычных личностей она создала целостную сплоченную команду.

Взять, например, Удо: немного мизантроп, убежден, что большинство тех, кто выше его в академической должностной иерархии, – спесивые дураки. Удо бросил университет, так и не получив диплом по информатике. И тем не менее, когда дело касалось программирования и умения логически мыслить, большинство его учителей не шли с ним ни в какое сравнение. Нам повезло, что он нашел неандертальский проект достойным своего внимания, хотя временами он сводил меня с ума своей абсолютной убежденностью в непогрешимости собственных знаний. Честно говоря, если бы не Дженет, я бы с ним, скорее всего, не сработался.

Все работы по картированию полученных фрагментов, по сути, координировал Эд, чей собственный проект по сплайсингу РНК тихо и незаметно скончался. Вместе с Удо они разработали алгоритм картирования, который учитывал закономерности появления ошибок в последовательностях неандертальских ДНК. Эти закономерности, в свою очередь, определяли Эдриан с Филипом Джонсоном, талантливейшим студентом из группы Монти Слаткина из Беркли. Они-то и выяснили, что ошибки располагались в основном на концах фрагментов ДНК. Дело в том, что, когда молекула ДНК рвется, получаются две неравных по длине нити, и у той, что длиннее, конец торчит, становясь уязвимым для химических атак. Эдриан провел тщательный анализ и понял, что ошибки происходят из-за отщепления молекул азота от цитозинов, а не от аденинов, как мы ошибочно посчитали годом раньше. Даже больше: если Ц стоит на самом конце цепочки, то риск появления его в наших последовательностях в виде Т оценивается в 20–30 процентов.

Эд по-хитрому сумел включить в алгоритм эту Эдрианову закономерность: вероятность ошибок в зависимости от позиции нуклеотида в отрезке последовательности. Например, если неандертальская молекула имела Т на конце, а человеческий геном – Ц, то это считалось как точное соответствие, так как вероятность ошибки “отщепление и замена Ц на Т” очень часто встречается. И напротив, Ц на конце неандертальской молекулы и Т – человеческой считалось как полное несовпадение. Теперь мы не сомневались: алгоритм Эда значительно снизит уровень ложного наложения фрагментов и увеличит, соответственно, уровень корректных попаданий.

Дальше нам предстояло решить, какой из человеческих геномов выбрать для сравнения с неандертальским. Мы хотели понять – и это было одной из целей наших исследований, – будет ли генная последовательность неандертальцев ближе к европейскому человеку или к людям из других частей света. Ведь если мы составим карту фрагментов неандертальского генома относительно европейского варианта (а примерно половина эталонного генома принадлежит индивиду европейского происхождения, как известно)[57], то фрагменты, совпадающие с европейским геномом, останутся, тогда как те, что больше напоминают африканские геномы, отсеются. И тогда в результате мы получим геном неандертальца, слишком сильно похожий на европейский, что будет неверно. Понятно, что для сравнения нужно что-то нейтральное, и мы остановились на геноме шимпанзе. У неандертальцев, людей и шимпанзе был общий предок, и жил он, скорее всего, в промежутке от 4 до 7 миллионов лет назад. Это означало, что геном шимпанзе отличается и от человеческого, и от неандертальского. Мы также составили карту фрагментов неандертальской ДНК относительно гипотетического генома общего предка гоминидов и шимпанзе; этот геном разрабатывали в других лабораториях. После того как мы произведем картирование по геномам нашего общего отдаленного предка, фрагменты неандертальской ДНК можно будет сравнить с соответствующими последовательностями современных человеческих геномов из разных частей света. И тогда появится смысл обсуждать найденные различия, не опасаясь ошибок неверного начального выбора.

Все это вместе требовало значительных компьютерных мощностей, и, к счастью, Общество Макса Планка поддерживало нас безотказно. Специально для нашего проекта общество выделило блок из 256 мощных аппаратов в компьютерном центре в Южной Германии. Но даже с таким оборудованием обработка данных, прочтенных за один только запуск секвенатора, занимала несколько дней. Значит, на картирование всех данных уйдут месяцы. Удо считал, что лучше него никто с задачей не справится, и потому всю работу хотел сделать сам. Я призвал все имеющееся у меня терпение и стал ждать результатов.

Мы получили карты первых партий последовательностей ДНК из Брэнфорда. И тут Эд сразу же наткнулся на нечто чрезвычайно тревожное. У меня упало сердце, группа заволновалась: в коротких фрагментах обнаруживалось все больше отличий от человеческого генома, чем в длинных. Нечто похожее уже обсуждали Грэм Куп, Эдди Рубин и Джефф Уолл после нашей публикации в Nature. Они считали, что данная закономерность отражает появление загрязнений, и полагали, что длинные фрагменты на самом деле являются не чем иным, как занесенными в библиотеки современными ДНК. И именно поэтому в длинных фрагментах наблюдается меньше отличий. А мы-то надеялись, что “чистые комнаты” и специальные ДНК-метки избавят нас от этого ужасного бедствия – загрязнений! Эд как сумасшедший бросился снова перетряхивать данные: занесли мы загрязнения или нет.

И выяснил, что, к счастью, нет, не занесли. Он очень быстро увидел, что если установить более строгие критерии совпадения фрагментов, то распределение отличий от эталонного генома будет одинаковым и для коротких, и для длинных. И он наглядно показал, что если использовать обычные, принятые в генетике критерии сходства, то короткие фрагменты бактериальной ДНК оказываются близки к человеческой ДНК, и тогда исследователи (и мы, и Уолл, и все другие) ошибочно включают их в анализ. В этом случае в среднем на выборку получалось, что короткие фрагменты сильнее отличаются от человеческого генома, чем длинные. Стоило Эду ужесточить критерии сходства и отсева лишних фрагментов, как проблема исчезла. Я мысленно похвалил себя за то, что, несмотря на очевидную разницу в коротких и длинных фрагментах, не верил в гипотезу загрязнений.

Вскоре группа опять столкнулась с препятствием. На сей раз вопрос стоял еще более запутанный, и мне потребовалось некоторое время, чтобы вообще понять, в чем дело, – так что наберитесь терпения, и я попробую объяснить. Для человеческого генома нормой является некоторая вариабельность: в одной и той же хромосоме на тысячу нуклеотидов в среднем бывает одно отличие. И это результат мутаций в предыдущих поколениях. Так что когда нам при сравнении двух хромосом встречаются в определенной позиции два разных нуклеотида (или два разных аллеля, как сказали бы генетики), мы вправе спросить, который из аллелей старше (какой будет считаться “предковым аллелем”, а какой более поздним “продвинутым аллелем”). Это, по счастью, проверить не так трудно – посмотреть, который из нуклеотидов в данной конкретной позиции найдется в геномах шимпанзе и других человекообразных обезьян. Тот аллель, который у них обнаружится, и является предковым: скорее всего, он-то и был у общего предка шимпанзе и человека.

Нам важно было выяснить, насколько часто у неандертальца появляются продвинутые аллели, общие с современными людьми. Чем больше их найдется, тем, значит, позже разделились эволюционные ветви неандертальцев и людей. Взявшись за анализ новой информации из 454 летом 2007- го, Эд забил тревогу. Он подтвердил более раннее наблюдение, сделанное на небольшой выборке, – его опубликовали Уолл с группой ученых в 2006 году. По сути, они написали, что длинные фрагменты неандертальской ДНК – а речь идет о фрагментах в 50 нуклеотидов и более – содержат больше продвинутых аллелей, чем короткие. Таким образом, получалось, что длинные фрагменты связаны более тесным родством с современным человеком, чем короткие, – наблюдение парадоксальное, но, вполне возможно, опять-таки являющееся результатом все тех же загрязнений.

На пятничных собраниях мы ни о чем другом и не говорили, только об этом вопросе. Одно предположение следовало за другим, и все безрезультатно. В какой-то момент у меня кончилось терпение, и я приготовился к ужасному поражению: может, действительно виной всему чужеродные ДНК и пришло время сдаться. Признать, что составить сколько-нибудь правдоподобный неандертальский геном невозможно. Мыслей больше не было ни одной, хотелось рыдать. Я, конечно, себе этого не позволил, но все равно многие в группе почувствовали, что мы по-настоящему близки к провалу. Может быть, именно это и подстегнуло группу, придало участникам куражу. Я заметил, что у Эда появились круги под глазами, будто он не спал несколько недель. Он-то и решил головоломку.

Вспомним, что продвинутый аллель появляется как мутация у отдельного индивида – что по определению делает продвинутый аллель редкостью. Если рассматривать геном в целом, то примерно 35 процентов индивидуальных различий в нуклеотидных позициях приходится на продвинутые аллели, а 65 – на предковые. Эд догадался вот о чем: такое распределение означает, что если во фрагменте неандертальской ДНК присутствует продвинутый аллель, то от соответствующего фрагмента человеческого генома он будет отличаться в 65 процентах случаев и совпадать только в 35 процентах. Таким образом, получается, что фрагмент неандертальской ДНК скорее совпадет с человеческим, если присутствует предковый аллель! Кроме того, Эд понял, что компьютерная программа картирования часто не распознает короткие фрагменты, не совпадающие с человеческими аналогами. А длинные, наоборот, узнает: они естественным образом имеют больше совпадений по позициям, и потому программа их засчитывает, даже если в них имеется отличие-другое. В результате программа чаще отсеивает короткие фрагменты с продвинутыми (более редкими) аллеями, чем длинные, и на выходе получается, что в коротких фрагментах меньше продвинутых аллелей, чем в длинных. Эду пришлось несколько раз втолковывать мне всю эту логику, пока я не уразумел. И даже тогда я не до конца верил собственному чутью, все надеялся, что Эд сумеет отыскать более наглядное доказательство.

В конце концов Эд изобрел-таки хитроумный способ – что угодно, только бы не видеть, как я рыдаю на собрании в пятницу. Он просто взял из выборки длинные фрагменты ДНК и разрезал их пополам – естественно, виртуально, в компьютере, – получив таким образом фрагменты вдвое короче. Затем он прогнал эти короткие фрагменты через программу картирования. И, как по волшебству, частота появления продвинутых аллелей снизилась по сравнению с частотой продвинутых аллелей в длинных фрагментах. А ведь из них-то и были нарезаны короткие фрагменты. А недостача продвинутых аллелей получалась как раз из-за того, что короткие фрагменты с такими аллелями “вызывали подозрение” у компьютерной программы и она их отсеивала. Ну наконец-то, вот оно, объяснение, и вовсе это не загрязнения! Хотя казалось очевидным, что дело в них. По крайней мере, теперь мы имели возможность выявить картину загрязнений в том первом, пробном анализе материала из Nature. Я мысленно выдохнул с облегчением, когда Эд представил свой эксперимент. Мы опубликовали наши догадки в узкоспециальной статье в 2009 году[58].

Работа Эда еще раз убедила меня в том, как необходим прямой количественный анализ загрязнений. Каждую пятницу мы заново обсуждали способы оценки уровня загрязнений ядерной ДНК. Но теперь, когда об этом заходила речь, я оставался спокоен. Я знал, что мы на верном пути.