Настала эра цифровой биологии, в которой белки и другие взаимодействующие молекулы в клетке можно рассматривать как компьютерное «железо», а информацию, закодированную в ДНК, – как клеточный «софт», то есть программы. Вся информация, нужная для создания живой самовоспроизводящейся клетки, заключена в цепочках двойной спирали ДНК. По мере чтения и истолкования этого текста мы в конце концов сможем полностью понять, как работают клетки, а затем изменять и улучшать их путем написания новых клеточных программ. Но, конечно, это легче сказать, чем выполнить: изучение этих программ – ДНК – показывает, что они значительно сложнее, чем мы думали даже лет десять назад.

В то время как первая линейная последовательность аминокислот в белке (инсулине) была установлена Фредом Сэнгером в 1949 году, разработка методов чтения ДНК оказалась делом долгим. В 1960-х и 1970-х продвижение было медленным и секвенирование измерялось в нескольких парах оснований в месяц или даже в год. Например, в 1973 году Аллан Максэм и Уолтер Гилберт из Гарвардского университета опубликовали статью, описывающую, как с помощью их нового метода секвенирования были установлены двадцать четыре пары оснований. Одновременно шло и секвенирование РНК, продвигавшееся несколько быстрее. И все же по сравнению с возможностями современных технологий даже для чтения нескольких букв кодированного текста в ту пору требовались поистине героические усилия.

Большинство людей узнали о геномике при первой расшифровке человеческого генома, которая увенчалась моим появлением в Белом доме в 2000 году рядом с моими коллегами-соперниками и президентом Клинтоном, где мы торжественно объявили об открытии последовательности человеческого генома. На самом деле первые идеи о расшифровке ДНК относятся к временам полувековой давности, когда Уотсон и Крик предложили модель ее атомной структуры. Большой скачок в нашем познании случился, когда в 1965-м группа под руководством Роберта Холли из Корнеллского университета опубликовала последовательность из семидесяти семи рибонуклеотидов аланиновой транспортной РНК (тРНК) из клетки дрожжей Saccharomyces cerevisiae как часть работы по выявлению того, как тРНК помогает собирать аминокислоты в белки. Секвенирование РНК продолжало лидировать, когда в 1967 году группа Фреда Сэнгера установила последовательность нуклеотидов рибосомальной 5S-РНК E. coli, короткой молекулы из 120 нуклеотидов. Первый реальный геном, который был успешно расшифрован, был вирусной РНК: в 1976 году лабораторией Вальтера Фирса в Гентском университете в Бельгии был секвенирован бактериофаг MS2. Фирс изучал бактериофаги (которые захватывают для своего размножения бактерии) совместно с Робертом Л. Синшаймером из Калтеха, а потом с Харом Гобиндом Кораной в Мэдисоне (Висконсин).

Технология секвенирования ДНК, которая дала мне возможность секвенировать человеческий геном, зародилась в середине 1970-х, когда группа Фреда Сэнгера в Кембридже разработала новую технику – первую, которую можно было назвать «более-менее секвенированием». За ней последовала методика, которую Сэнгер назвал дидезокси-секвенированием ДНК, но которая в его честь теперь называется «секвенированием по Сэнгеру». В нем применяются дидезоксинуклеотиды, или нуклеотиды-терминаторы, которые останавливают ДНК-полимеразу, не давая ей добавлять нуклеотиды к растущей цепочке ДНК. У дидезоксинуклеотидов нет гидроксильной группы (–ОН), что означает, что после того, как ДНК-полимераза прицепит их к растущей нуклеотидной цепочке, дальше нельзя добавить никаких нуклеотидов. Прикрепив радиоактивный фосфат к одному из четырех нуклеотидов, чтобы пометить фрагменты, стало возможным прочесть порядок А, Т, Ц и Г, прикладывая гель, использованный для разделения оснований, к рентгеновской пленке.

Группа Сэнгера использовала его новые инструменты секвенирования для установления первой последовательности генома ДНК-вируса, принадлежащего бактериофагу phi X 174; эта последовательность была опубликована в Nature в 1977 году. Клайд Хатчинсон (ныне сотрудник Института Вентера) стажировался в лаборатории Сэнгера (от Университета Северной Каролины, где он с 1968 года был штатным преподавателем) и внес свой вклад в секвенирование генома phi X 174. В 1950-х Синшаймер, использовав рассеяние света, оценил размер генома phi X 174 примерно в 5400 оснований и был удовлетворен, когда Сэнгер выяснил, что точное количество – 5386.

За два года до появления статьи Сэнгера я закончил свою диссертацию в Калифорнийском университете в Сан-Диего (UCSD) и успел перейти в Университет штата Нью-Йорк в Баффало, чтобы начать собственную научную и преподавательскую карьеру. Я пропустил публикацию Сэнгера, потому что она вышла в самый разгар Бурана-77, к тому же спустя две недели после публикации у меня родился сын. Моя лаборатория в это время работала над выделением и описанием рецепторов для нейромедиаторов – белков, обеспечивающих передачу сигналов между нервными клетками.

За десять лет, последовавших за работой над геномом phi X 174, секвенирование ДНК постепенно прогрессировало. Хотя секвенирование по Сэнгеру стало мировым стандартом, оно было медленным, очень трудоемким и требовало заметных количеств радиоактивного фосфора, у которого период полураспада – всего пара недель. Кроме того, чтение гелей с последовательностями было скорее искусством, чем наукой. В своей второй Нобелевской лекции Сэнгер описывал утомительные усилия, которых требовало раннее секвенирование ДНК, и заключал: «Судя по всему, для секвенирования генетического материала был весьма желателен новый подход».

В 1984 году я перевел свою исследовательскую команду в Национальный институт здоровья, и мы начали учиться молекулярной биологии с помощью нескольких хороших сборников рецептов по этому предмету и моих взаимодействий с Маршаллом Ниренбергом и его лабораторией, которая располагалась этажом ниже нашей в корпусе 36. За мой первый год в НИЗ мы секвенировали только один ген, адреналинового рецептора человеческого мозга, используя радиоактивное секвенирование по Сэнгеру, но это заняло большую часть года. Как и Сэнгер, я был уверен, что должен быть способ получше. К счастью, это было примерно в то время, когда Лерой Худ и его команда в Калтехе опубликовали ключевую статью с описанием, как они заменили в нуклеотидах-терминаторах радиоактивный фосфат на четыре разных флюоресцентных красителя, которые, если их активировать лазерным лучом, можно было последовательно считывать прямо в компьютер. Я раздобыл одну из первых автоматических ДНК-секвенирующих машин в новой компании Applied Biosystems, как раз когда начались серьезные обсуждения дикого предложения секвенировать целиком человеческий геном.

Используя новую технологию секвенирования ДНК в сочетании с компьютерным анализом, моя лаборатория быстро секвенировала тысячи человеческих генов по разработанной мною новой методике, фокусировавшейся на относительно коротких последовательностях, которые я назвал «экспрессированными метками сиквенса» (expressed sequence tags; EST). Метод EST включал секвенирование экспрессированного генетического материала – матричной РНК (точнее, синтезированной на ней комплементарной ДНК). Хотя с помощью методики EST мы успешно прочли несколько тысяч человеческих генов, мой подход не встретил немедленно всеобщего одобрения. Многие увидели в нем угрозу традиционному пути работы с генами: мы могли за день открыть больше генов, чем всё научное сообщество – за предыдущие десять лет. Не улучшило ситуации и то, что правительство США решило зарегистрировать патенты на все гены, идентифицированные моей командой. Наши открытия вызывали атаки и возражения, но они же приводили к некоторым заманчивым предложениям, в том числе – создать мой собственный базовый научно-исследовательский институт, каковое я и принял в 1992 году. Я назвал его Институтом геномных исследований (The Institute for Genomic Research, TIGR), и именно там, в Роквилле (штат Мэриленд), мы построили самую крупную в мире фабрику секвенирования ДНК, используя последние версии автоматических ДНК-секвенирующих машин.

Ход истории геномики изменился в 1993 году после случайной встречи на научной конференции в Бильбао, в Испании, где я обрисовал наше быстрое продвижение в открытии генов. Многие в аудитории как будто были шокированы масштабными результатами наших работ по EST и самой природой наших открытий – особенно генов, ответственных за неполипозный рак толстой кишки, открытых в сотрудничестве с Бертом Фогельштайном из Киммелевского онкологического центра Университета Джонса Хопкинса в Балтиморе. Как только рассеялась толпа, пришедшая задавать прямые вопросы, передо мной появился высокий приятного вида человек с серебристыми волосами и в очках. «Я думал, у вас есть рожки», – сказал он, намекая на демонический образ, который часто использовала пресса, изображая меня. Он представился Хэмилтоном Смитом из Университета Джонса Хопкинса. Я уже знал о Хэме по его серьезной репутации в нашей области и по Нобелевке, и мне он сразу понравился – он явно решил составить обо мне и моей науке собственное впечатление и не давать окружающим влиять на его мнение.

Хэм к тому времени сделал долгую и плодотворную карьеру и теперь, в 62 года, подумывал об отставке. Когда мы разговаривали в баре, а потом на обеде после моей лекции, он высказал интересную идею: предложил свою любимую бактерию Haemophilus influenzae, из которой он выделил первые рестриктазы, в качестве идеального кандидата для секвенирования генома с применением моего подхода.

Наш первый совместный проект начался с медленного старта, поскольку Хэм объяснил, что есть проблемы с получением библиотек клонов, содержащих фрагменты генома H. influenzae. Только спустя годы он признался мне, что его коллеги в Университете Джонса Хопкинса были совсем не в восторге от нашего проекта, глядели на меня с подозрением из-за фурора, произведенного EST, и опасались, что сотрудничество со мной испортит ему репутацию. Хотя многие из них всю свою трудовую жизнь изучали H. influenzae, они не сразу оценили идею получения полной последовательности генома. Хэм в конце концов был вынужден действовать за спиной своей группы – как и я несколькими годами раньше при работе с EST.

Хэм начал сотрудничать со мной в TIGR. Наша работа над проектом началась в 1994 году и вовлекла в себя большую часть моей научной команды. Мы действовали не так, как Сэнгер много лет назад с phi X 174, используя изолированные одиночные вырезанные фрагменты для секвенирования по одному за раз. Мы полностью положились на случайность. Мы разбили геном на фрагменты в смешанной библиотеке и случайно выбрали двадцать пять тысяч фрагментов, чтобы получить прочитанные последовательности примерно по пятьсот букв каждая. Применив новый алгоритм, разработанный Грейнджером Саттоном, мы начали составлять величайшую на то время биологическую мозаику, собирая кусочки в исходный геном. В процессе мы разработали несколько новых методов для завершения сборки генома. Каждая отдельная пара оснований генома была точно секвенирована, а двадцать пять тысяч фрагментов аккуратно собраны. Результатом стало то, что 1,8 миллиона пар оснований генома были воссозданы в компьютере в правильном порядке.

Следующим шагом было интерпретировать геном и идентифицировать все составляющие его гены. Будучи первым, кто изучал набор генов живого самовоспроизводящегося организма, я хотел сделать гораздо больше, чем просто представить последовательность. Команда потратила значительное время, выясняя, что говорит набор генов о жизни организма. Что означает тот софт, который программирует структуры и функции жизни? Мы описали наши результаты в статье, которая была быстро принята к публикации в журнале Science и должна была выйти по расписанию в июне 1995 года. Слухи о нашем успехе поползли еще за несколько недель до ее выхода. В результате меня пригласили прочитать президентскую лекцию на ежегодной встрече Американского микробиологического общества, которая проходила в Вашингтоне 24 мая 1995 года, и я принял это предложение с условием, что на сцене ко мне присоединится Хэм. Ожидания стали физически давить на меня, когда президент общества Дэвид Шлезингер из Университета Вашингтона в Сент-Луисе объявил то, что он назвал «историческим событием».

При помощи Haemophilus influenzae мы перевели двойную спираль биологии в цифровой мир компьютера, но веселье только начиналось. Работая с геномом этой бактерии, чтобы исследовать ее биологию и как она вызывает менингит и другие болезни, мы одновременно для подтверждения методики секвенировали еще один геном – самый маленький из известных тогда бактериальных геномов, геном Mycoplasma genitalium. Когда я закончил речь, аудитория поднялась в едином порыве и устроила мне долгую и сердечную овацию. Я никогда раньше не видел на научной конференции такой масштабной и спонтанной реакции.

Это был очень сладкий миг. Моя команда стала первой, когда-либо секвенировавшей геном живого организма, и не менее важным было то, что мы это сделали, разработав новый метод, который назвали «полногеномное секвенирование методом дробления». Это свершение отметило начало новой эры, когда чтение ДНК живых существ стало настолько рутинным делом, что позволяло анализировать их, сравнивать и понимать.

После завершения чтения генома Haemophilus influen-zae я хотел секвенировать второй геном, чтобы мы могли сравнивать два генома, что помогло бы понять базовый набор генов, потребных для жизни. В это время Клайд Хатчинсон в Университете Северной Каролины в Чапел-Хилле предложил перспективного кандидата с самым наименьшим известным геномом: вид Mycoplasma genitalium, у которого меньше пятисот генов. Мы решили, что этот геном дополнит нашу работу по H. influenzae, потому что он принадлежит другой группе бактерий. Окраска по Граму, названная так в честь ее изобретателя Ханса Кристиана Грама (1853–1938), делит все виды бактерий на две категории в зависимости от того, как они реагируют на краску: грамположительные (как Bacillus subtilis, например) становятся фиолетовыми или синими, а грамотрицательные (как H. influenzae) приобретают розовый или красный цвет. Считалось, что M. genitalium эволюционно произошла от какой-то бациллы, поскольку она классифицировалась как одна из грамположительных бактерий.

Для завершения секвенирования этого генома потребовалось всего лишь три месяца, и в 1995 году мы опубликовали 580 000 пар оснований генома Mycoplasma genitalium в Science. Наше достижение должно было послужить основой большого труда по сотворению синтетической клетки, но в то же время у него нашлись и более скорые последствия. Эта работа дала старт новой дисциплине, известной как сравнительная геномика. Сравнив два первых в истории секвенированных генома, мы могли поискать общие элементы, связанные с живой самовоспроизводящейся формой жизни. Сравнительная геномика разрабатывает одно из самых захватывающих открытий биологии: создав однажды белковую структуру, которая выполняет важную биологическую функцию, эволюция склонна использовать эту структуру/последовательность снова и снова.

Гены, которые управляют фундаментальным процессом деления клеток у дрожжей, например, похожи на те, которые используют наши клетки. Поскольку из бактерии E. coli уже выделили, секвенировали и функционально охарактеризовали гены, кодирующие ДНК-полимеразу, наша группа могла использовать эту информацию для поиска сходных последовательностей в геноме H. influenzae. Если бы какие-либо из последовательностей ДНК близко соответствовали гену ДНК-полимеразы E. coli, мы могли бы сделать вывод, что ген H. influenzae –  это тоже ген ДНК-полимеразы. Проблема была в том, что в 1995 году базы данных генов были весьма скудны, поэтому мы мало с чем могли сравнить наш геном. В целом почти 40 % предполагаемых генов в наших секвенированных геномах не имели соответствия в базе данных.

Наша статья в Science про M. genitalium описывала, как мы использовали данные из обоих секвенированных геномов, чтобы задать основные вопросы о рецепте жизни: каковы ключевые отличия в генном содержимом двух видов? У H. influenzae около 1740 белков, кодируемых каждый своим геном, и примерно восемьдесят генных последовательностей для РНК. У M. genitalium только 482 гена, кодирующих белки, и 42 гена для РНК. Геном M. genitalium меньше отчасти потому, что в нем отсутствуют все гены ферментов, производящих собственные аминокислоты (она может добывать их из человека-хозяина). Как и у M. genitalium, у нас тоже есть незаменимые аминокислоты – валин и триптофан, которые наши клетки не могут синтезировать, и их приходится получать с пищей.

Возможно, еще интереснее вопрос: какие гены общие у этих двух микроорганизмов? Если те же самые гены найдутся у организмов многих разных типов, они обретут гораздо большее значение. Общие гены предполагают общего предка и могут оказаться поистине важнейшими для самого процесса жизни. Ключевой абзац нашей статьи 1995 года гласит: «Обзор генов и их организации у M. genitalium позволяет описать минимальный набор генов, необходимый для выживания».

Мы начали думать над базовым набором жизненно важных генов. Какое минимальное число генов требуется клетке, чтобы выжить и процветать? Мы надеялись, что гены, присутствующие у обеих бактерий из двух разных групп, дадут представление о критическом наборе генов.

Скудость наших биологических познаний в 1995 году отражает уже то, что мы понятия не имели о функциях 736 генов (43 % от всего набора) у H. influenzae и 152 генов (32 %) M. genitalium. Во время написания статей мы много спорили о жизни и о том, действительно ли M. genitalium представляет собой минимальный набор генов. Эти наши дискуссии отразились в заключении статьи о M. genitalium: «Сравнение [новых секвенированных геномов] с генной последовательностью M. genitalium должно способствовать более точному определению фундаментального комплекта генов для самовоспроизводящегося организма и более полному пониманию разнообразия жизни». Другие группы также начали работать с нашими данными по двум первым опубликованным геномам. Евгений Кунин из НИЗ провозгласил, что эта разработка отмечает новую эру в геномной науке, и заключил путем компьютерного исследования, что у микробов очень невелико генное разнообразие. Он основывался на сходстве между наборами генов грамотрицательных (H. influenzae) и грамположительных (M. genitalium) бактерий. Однако наш следующий геномный проект одним ударом изменил принятые представления о генетическом разнообразии.

В 1996-м мы намеренно выбрали для третьей работы над геномом необычный вид: Methanococcus jannaschii. Этот одноклеточный организм живет в экстремальной среде – гидротермальном источнике, где из-под дна океана бьет горячая, насыщенная минеральными соединениями жидкость. В этих адских условиях клетки противостоят давлению в 245 атмосфер и температурам около 85 градусов Цельсия. Это само по себе примечательно, потому что большинство белков денатурируют при температурах от 50 до 60 градусов (в частности, именно это происходит с яичным белком при варке). В отличие от жизни на поверхности Земли, зависящей от солнечного света, Methanococcus – хемотроф, то есть делает все, что ему нужно для существования, из неорганических веществ. Источником углерода для любого белка и липида в клетке Methanococcus служит диоксид углерода. Кроме того, превращая углекислоту в метан, этот микроб получает энергию для своей жизнедеятельности. Methanococcus принадлежит к предполагаемой третьей ветви жизни – так называемым археям, которые в 1977 году открыл Карл Вёзе из Университета Иллинойса в Урбане. Вместе с Вёзе мы выбрали Methanococcus как первую архею, геном которой будет секвенирован и проанализирован.

Сиквенс не подвел. Геном Methanococcus расширил наш взгляд на биологию и генетические богатства планеты. Почти 60 % генов Methanococcus были новыми для науки, ничего не знавшей об их функциях; только 44 % генов напоминали что-то описанное ранее. Некоторые из генов Methanococcus, включая те, которые связаны с основным энергетическим обменом, напоминают те, которые есть у бактериальной ветви жизни. В то же время другие его гены, включая те, что связаны с переработкой информации и репликацией генов и хромосом, лучше всего соответствуют эукариотным генам, в том числе некоторым человеческим и дрожжевым. Наше геномное исследование побывало на первой странице каждой крупной газеты в Америке и широко освещалась в большей части остального мира: The Economist выбрал заголовок «Горячая штучка», в то время как Popular Mechanics возвещала об «Инопланетной жизни на Земле», и ей вторили San Jose Mercury News с заголовком «За пределами научной фантастики». Кстати, современные исследования наводят на мысль, что эукариоты – это потомки архей, и если это окажется так, мы опять вернемся к двум главным ветвям жизни.

В том же 1996 году в газетные «шапки» по всему миру попала и НАСА, когда опубликовала то, что некоторые приняли за свидетельство микробной жизни на Марсе. Эверетт Гибсон и его коллеги из агентства объявили, что нашли в метеорите ALH 84001 окаменелость не более нанометра размером. Это было сенсационной находкой, поскольку ALH 84001 был выбит из поверхности Красной планеты и затем упал на Землю примерно тринадцать тысяч лет назад.

Эти сообщения о микробах-марсианах, сопровождаемые интригующими картинками мелких клякс и микроскопических колбасок, еще больше подхлестнули дискуссии о том, из чего может состоять минимальный геном. Наши простые прикидочные расчеты показали, что объем упомянутой «нанобактерии» настолько мал, что просто не может содержать молекулы ДНК или РНК. Теперь уже ясно, что структуры, найденные в ALH 84001, не имеют отношения к живым существам и что отложения, напоминающие примитивные клетки, могут возникать просто в ходе роста кристаллов.

Следующие несколько лет моя команда продолжала секвенировать множество уникальных видовых геномов, включая тот, на который нас вдохновила новаторская работа австралийца Барри Маршалла. Они с патологом Робином Уорреном считали, что язву желудка вызывает спиралевидная бактерия, позже названная Helicobacter pylori. На меня произвело впечатление упорство Маршалла, работа которого постоянно оспаривалась. Его коллеги не желали верить, что причиной язвы может быть бактерия, а не стресс. В 1984 году Маршалл, вдохновленный своей убежденностью, выпил раствор с бактерией. Вскоре у него начались приступы рвоты и развился гастрит. В конце концов его настойчивость окупилась. Благодаря его исследованию миллионы людей были вылечены антибиотиками вместо ежедневного приема лекарств, снижающих кислотность, – что заодно снизило риск развития рака желудка. Мы опубликовали геном Helicobacter pylori в 1997 году, а в 2005-м Маршалл получил Нобелевскую премию по медицине.

Поскольку одноклеточная жизнь существовала около четырех миллиардов лет, она достигла разнообразия, позволяющего освоить всевозможные места обитания, от морозных антарктических пустынь до горячих кислых источников. Способностью к жизни «на грани» эти организмы, обитающие в крайних условиях, заслужили название «экстремофилов». Прощупывая жизнь у ее пределов, как в случае с Methanococcus, мы надеялись получить больше всего от сравнительной геномики. Следующий экстремофильный геном, который мы секвенировали, был геномом рода Archaeoglobus, живущего в нефтяных месторождениях и горячих источниках. Этот организм использует как источник энергии сульфаты, но может пожирать почти что угодно. Наш первый анализ более чем двух миллионов букв его генома показал, что функции четверти его генов были неизвестны (две трети из этих загадочных генов были общими с M. jannaschii), а еще четверть кодировала новые белки.

Наше секвенирование двух первых бактериальных геномов и одного генома археи, а также публикация большим консорциумом лабораторий генома дрожжей дали миру первый взгляд на геномы всех трех ветвей жизни. Что эти данные говорят нам о базовом наборе ингредиентов жизни? Наши попытки установить минимально необходимые для жизни гены повели нас по нескольким экспериментальным путям. Наш изначальный план был подойти к пониманию минимальной самовоспроизводящейся формы жизни с разных сторон. Окончательным решением был бы синтез генома, но пока нам было нужно очень много информации об основах клеточной жизни, которой не было в научной литературе.

Самым очевидным подходом было вырубать гены в геноме M. genitalium, чтобы установить, какие из них существенны: удалите или отключите ген, и если организм продолжает жить, вы можете считать, что этот конкретный ген не играет критической роли; если же организм умирает, то ген был явно существенным. Идея была проста и ранее успешно применялась к разным видам. Марио Капеччи из Университета Юты, Оливер Смитис из Университета Северной Каролины и Мартин Эванс из Кардиффского университета в Великобритании получили в 2007 году Нобелевскую премию за разработанную ими в 1980-х технологию создания «нокаутных» мышей, у которых избирательно отключен один или несколько генов.

Другое дело, что для применения этих методов к M. genitalium были серьезные практические препятствия. Нокаутировать гены у организма вроде дрожжей относительно легко благодаря арсеналу генетических инструментов, применимых к таким видам. Для микоплазм таких инструментов просто нет – как нет и инструмента для многих последовательных изменений генов.

Один из фундаментальных инструментов молекулярной биологии – отбор с помощью антибиотиков. При таком отборе клетки, в которых были изменены гены, отбираются путем убивания всех немодифицированных клеток антибиотиком. Модифицированные клетки выживают, потому что плазмиды ДНК, применяемые для введения в них новых генов, содержат еще и гены устойчивости к антибиотику. Хотя эта технология – основа большинства молекулярно-биологических экспериментов, к сожалению, в них применяется лишь несколько систем для отбора антибиотиками, что сильно ограничивает число последовательных изменений генов, которые можно проделать.

Для решения одной из проблем Клайд Хатчинсон предложил уникальный подход, который мы назвали «полногеномным транспозонным мутагенезом», при котором небольшая молекула ДНК, называемая транспозоном, разрывает ген, что позволяет нам судить, насколько этот ген был важен. Транспозоны, или мобильные генетические элементы, – это относительно короткие последовательности ДНК, способные встраиваться в геном – в определенные участки или в случайные места. Американка Барбара Макклинток открыла транспозоны в кукурузе, где они меняли распределение пигментации зерен. Эта работа принесла ей в 1983 году Нобелевскую премию. Транспозоны можно считать эгоистичными генами, вроде вирусов, которые «заражают» геном. Оказывается, изрядная доля вашего генома состоит из таких ДНК-паразитов. Они важны, и не в последнюю очередь потому, что могут вызывать генетические болезни, если вставятся в ключевой ген и нарушат его функционирование.

Мы выбрали транспозон (Tn4001), выделенный у Staphylococcus aureus, чтобы он случайно вставлялся в геном M. genitalium и нарушал функционирование генов. Мы растили клетки, которые пережили такие вставки, выделяли и секвенировали их ДНК, начиная с праймера последовательности, который связывается только с транспозоном, чтобы точно определить, где в геноме окажется транспозон. Если Tn4001 вставится в середину гена и клетки это переживут, то мы считали этот ген несущественным для жизни.

После транспозонной бомбардировки генома мы сочли жизненно важными все гены, которые в живых клетках не имели транспозоновых вставок. Но проанализировав свои данные, мы поняли, что эта абсолютная система счета наивна, что гены и геномы существуют в определенных условиях и что жизнь не определяется одними генами. Поскольку все клетки получают ключевые питательные вещества и химикаты из окружающей среды, то, когда эта среда изменяется, ключевыми для жизни оказываются другие гены.

Белки мембранного транспорта ответственны за перенос важных питательных веществ из окружающей среды в клетки. Например, M. genitalium может расти как на глюкозе, так и на фруктозе, и у нее есть два гена, в которых зашифрованы специфические белки-транспортеры для каждого из этих сахаров. В наших исследованиях с транспозоновыми вставками оба гена оказались в группе несущественных для жизни, что поначалу нас удивило: ведь они были ключевыми для способа питания этого организма. Однако мы поняли, что среда, на которой мы обычно растили клетки M. genitalium, содержит и глюкозу, и фруктозу, что означает, что если ген какого-то транспортера выключается, то клетка просто переключается на потребление другого сахара. Напротив, если мы растили клетки только на одном сахаре, то, при вырубании транспортера именно этого сахара клетки умирали. Для некоторых функций, таких как метаболизм сахаров, определить «условно жизненно важные гены» нетрудно, но для тех генов, функции которых в клетке еще неизвестны, нет очевидного способа убедиться, не замещен ли разорванный ген другим.

Это оказалось особенно важно, когда мы включили в исследования вид Mycoplasma pneumonia, ближайшего известного родича M. genitalium, размер генома которого – 816 000 пар оснований, т. е. на 236 000 пар больше, чем у M. genitalium. Опять же мы хотели соединить работы по транспозоновой вставке со сравнительной геномикой, чтобы определить минимальный набор генов, нужных для жизни. Практически у каждого из 480 белок-кодирующих генов Mycoplasma genitalium в геноме M. pneumonia есть «родич», происходящий от общего с ним предкового гена (ортолога), и кроме того, есть еще 197 генов. Это наводит на соблазнительную мысль: не может ли набор из 480 генов, общих для двух видов, уже быть близок к минимальному геному? Наше исходное предположение состояло в том, что все 197 «лишних» генов в геноме M. pneumonia можно уничтожать вставками транспозонов, поскольку само существование M. genitalium предполагает, что они не необходимы для жизни. Результаты были не слишком удовлетворительны и информативны: мы обнаружили, что всего вставками транспозонов были разрушены 179 генов M. pneumonia, но из 197 «лишних» были разрушены лишь 140.

Сопоставив наши работы, мы вычислили, что у M. genitalium от 180 до 215 несущественных генов и от 265 до 350 – существенных. Из последних функция 111 неизвестна. Это явно не было точным определением жизни, которое мы искали. К тому же по мере проработки этих данных становилось всё очевиднее, что есть гены, каждый из которых сам по себе несущественен, но все вместе их удалять нельзя.

Учитывая скудость молекулярно-биологических инструментов и ограниченность данных по транспозонам, мы решили, что единственный путь получения минимального генома – попытаться синтезировать целый бактериальный геном с нуля. Нам надо будет химически синтезировать целую хромосому, используя только существенные гены. Однако это была бы громадная задача. Хотя ученые и писали маленькие кусочки генетических текстов уже почти полстолетия, никто не сделал ни одной конструкции из ДНК размером хотя бы в сотую долю того, что был нужен нам.

Работа над химическим синтезом ДНК начиналась в 1950-е, с успеха Хара Гобинда Кораны и Маршалла Ниренберга, но заметный прогресс был сделан лишь в 1980-е вслед за внедрением автоматического синтезатора ДНК Марвином Карузерсом из Колорадского университета в Боулдере. В его синтезаторе стояли четыре бутыли с нуклеотидами А, Т, Ц и Г, из которых они добавлялись по одному в предписанном порядке. Таким образом ДНК-синтезаторы могут делать короткие цепочки ДНК, называемые олигонуклеотидами. Однако при увеличении длины олигонуклеотидов выход продукта и точность падают. Вокруг синтеза олигонуклеотидов и продажи их исследователям выстроилась целая индустрия, потому что синтетическая ДНК применяется в молекулярной биологии для секвенирования ДНК и проведения ПЦР (полимеразных цепных реакций).

Синтетические олигонуклеотиды химическими методами можно соединять в более длинные куски ДНК. Когда мы впервые начали обсуждать синтез целого генома, самые длинные куски ДНК, которые удавалось сделать, были длиной в несколько тысяч пар оснований. Чтобы выстроить геном жизнеспособного организма, от нас требовалось химически синтезировать и собрать почти шестьсот тысяч пар оснований. Мы поняли: чтобы достичь этой цели, нам придется разрабатывать новые методы. Чтобы посмотреть, реальна ли наша идея хоть в каком-то приближении, мы решили, что надо попробовать сделать небольшой тестовый проект. Мы выбрали для синтеза геном бактериофага phi X 174. Помимо того, что это был первый секвенированный ДНКовый вирус, почти тридцать лет назад другая команда уже сделала примечательную и успешную попытку скопировать этот одноцепочечный геном с помощью ферментов.