Мы уже рассказывали о необычных способах сохранения информации с помощью микроорганизмов и даже в коде ДНК. Еще один шаг в этом направлении сделала группа ученых из Великобритании, Германии и США.

Подобно средневековым алхимикам

Вообще-то исследователи давно присматриваются к ДНК как к носителю информации. Вдумайтесь только: в ядре каждой клетки организма есть крошечный фрагмент, который содержит информацию не только обо всем организме, но и хранит память поколений и даже программу развития организма. И это при том, что диаметр ядра клетки, где находится ДНК, составляет всего 6 тысячных миллиметра.

Теоретически грамм ДНК мог бы хранить 455 эксабайт информации. Один эксабайт, напомним, это 1018 байт. То есть на один грамм ДНК можно записать содержимое всех библиотек мира. При этом, как предполагают ученые, в отличие от цифровых магнитных и оптических носителей, информация, записанная в ДНК посредством химических связей, может храниться десятки тысяч лет, не требуя энергии. Нужно только научиться записывать в ДНК нужную нам информацию.

Как же тут действовать?

Фотография здания EBI, записанная и считанная с помощью ДНК.

В общем-то молекулярных биологов и нетрудно принять за химиков, поскольку они манипулируют с некими растворами в пробирках и колбочках.

Для начала специалисты научились расплетать туго скрученные спирали ДНК, чтобы изучить их строение.

Поскольку с двухметровой нитью ДНК работать невозможно, ее стали резать на фрагменты, затем научились менять состав и порядок расположения белков, которые, собственно, и несут информацию.

Доктор Ник Голдман держит в руках крошечную ампулу со всеми сонетами Шекспира, классической научной статьей, звуковым файлом и фотографией своего института, записанными на ДНК. Получается, что в аптечном пузырьке можно теперь разместить целую библиотеку.

От «обрыва цепи» до лазания по «нанопещерам»

Как уже сказано, все операции с ДНК проводят с помощью химических реакций. Для того чтобы разделить ДНК на фрагменты, например, используют метод «обрыва цепи», разработанный британским биохимиком Фредериком Сенгером в 1977 году, единственным в своем роде ученым, которому Нобелевская премия по химии доставалась дважды — в 1958 и в 1980 годах.

По методике Сенгера цепь ДНК химически делится на участки по 17–20 звеньев. При этом каждый кусочек снабжается специальным «замком-липучкой», позволяющим ему при необходимости снова прилипать к общей цепи. Причем не где попало, а там, где надо экспериментаторам.

Такой участок представляет собой как бы слово, состоящее из отдельных «букв»-нуклеотидов. Сами участки по желанию ученых могут быть «рассыпаны» на отдельные «буквы», а затем собраны в новое слово с добавлением новых букв. Скажем, было слово «молоко», а получилось «локомотив» — буквы почти все те же, а слово совершенно иное.

Причем если, например, в русском алфавите свыше трех десятков букв, то биохимики ухитряются записывать свои послания всего четырьмя «буквами» — азотистыми основаниями или нуклеотидами, в число которых входят аденин, гуанин, тимин и цитозин — сокращенно А, Г, Т, Ц.

Как это может быть? Вспомним хотя бы азбуку Морзе — в ней для кодирования любой буквы обходятся лишь двумя знаками — точкой и тире. «Азбука жизни», конечно, сложнее «морзянки». Но мы с вами не можем слишком глубоко вдаваться в подробности, поскольку для их описания не хватит годовой подписки журнала. Скажем лишь, что для того, чтобы знать, где в растворе какое «слово», кусочки ДНК поначалу помечали радиоактивными метками. А собирали вновь с помощью так называемого праймера — своего рода затравки, к которой прилипают последующие фрагменты.

В более современном варианте нуклеотиды-буквы помечают не радиацией, как раньше, а четырьмя разными флуоресцентными красителями. В случае же недостатка какой-либо из букв проводят ее размножение при помощи полимеразной цепной реакции (ПЦР). А воздействуя на отдельные нуклеотиды электрическим полем, их распределяют в нужном экспериментаторам порядке…

В общем, как видите, премудростей в этом деле предостаточно, не случайно многие участники исследований были награждены всевозможными престижными премиями. Скажем, американец Кэрри Муллис, сумевший изобрести в 1983 году реакцию ПЦР, через 8 лет получил за нее высочайшую награду в мире науки, носящую имя Нобеля.

Схема конвертации данных (сонета Шекспира) в ДНК-массив: а — двоичный код; b — троичный код; с — ДНК-код; d — дублированные фрагменты ДНК с шаговым смещением 25 бит (желтым отмечены участки ДНК с адресными метками).

Исследователи подвигались шаг за шагом. Например, в 1986 году «механизм» полимеразной цепной реакции был существенно улучшен, поскольку удалось использовать ДНК-полимеразы из бактерий, не боящихся высоких температур, при которых идут некоторые реакции.

Правда, при этом выяснилось, что одна из первых термостабильных ДНК-полимераз, которая была выделена из бактерий Thermus aquaticus, оказалась склонна к ошибкам в правописании ДНК-слов. Так что пришлось еще придумывать, как обнаруживать и исправлять ошибки…

За прошедшие десятилетия биохимики немало потрудились, совершенствуя методики и аппаратуру для работы с ДНК-молекулами. Сегодня они уже умеют считывать последовательности белков без специальных реагентов. Для этого цепочку ДНК затягивают с помощью электрического поля в нанопору — «пещеру» с лазом около 1 нм в диаметре. И пока фрагмент ДНК пробирается через пещеру, чувствительный вольтметр фиксирует изменение напряжения, а по «электрическому портрету» ученые способны описать молекулярную структуру цепи.

Чтобы исключить ошибки

Итак, сотрудники Европейского института биоинформатики, о которых сказано в начале статьи, научились синтезировать «слова-фрагменты» ДНК и практически безошибочно эти слова прочитывать. Они синтезировали пять файлов, содержащих полное собрание сонетов Шекспира в формате ASCII, статью первооткрывателей структуры ДНК Джеймса Уотсона и Френсиса Крика «Молекулярная структура нуклеиновых кислот» в формате PDF, цветное фото здания их лаборатории, 26-секундный МРЗ-файл с фрагментом речи Мартина Лютера Кинга «У меня есть мечта», а также файл с так называемым алгоритмом Хаффмана, который использовался для конвертации бинарных файлов в вид, удобный для представления данных через последовательность азотистых оснований ДНК. При этом общий объем полезных данных, записанных и считанных с ДНК, составил 5,2 мегабита.

Исходную информацию переслали коллегам в США.

Американские биотехнологи, использовав приложенную инструкцию, синтезировали несколько сотен тысяч нужных фрагментов ДНК, высушили их в вакууме и выслали получившуюся щепотку пыли в запаянной ампуле обратно в Англию. Там «запись» воспроизвели и убедились, что она читается почти со стопроцентной точностью.

Подробности для любознательных

Всего для записи информации было использовано 153 335 синтезированных коротких цепочек ДНК по 117 нуклеотидов (117 битов) каждая. Данные кодировались в четырех блоках по 25 нуклеотидов. В оставшихся 17 нуклеотидах (17 бит) были записаны адресные метки, необходимые для сборки данных в файловый массив.

Кодирование происходило в три этапа. Двоичный код, в котором были представлены данные, сначала конвертировали на компьютере в троичный. Далее 8-битные блоки данных представлялись в виде последовательности из пяти троичных чисел, или тритов (0, 1, 2). После этого триты конвертировались в код из трех нуклеотидов. Троичная кодировка позволяла не только сжать данные, но и уменьшить вероятность ошибок при последующем считывании ДНК и реконструкции двоичного массива.

Как уже сказано, любая ДНК представляет собой полимерную молекулу, в состав которой входят четыре нуклеотида (аденин, гуанин, тимин и цитозин — А, Г, Т, Ц). Для конвертации троичного кода достаточно трех, поэтому в каждом последующем троичном блоке основания можно было комбинировать по-разному, ведь один из четырех нуклеотидов в них мог отсутствовать. Это гарантировало, что при синтезе ДНК два одинаковых нуклеотида не пришлось бы стыковать в одну полимерную цепочку, что снижало вероятность ошибок при последующей реконструкции данных.

Справедливости ради отметим, что команда исследователей, описавшая технологию производства своей ДНК-памяти в журнале Nature, не единственная в своем роде. Группа Джорджа Чёрча из Гарварда сообщила в журнале Science, что ей тоже удалось записать и считать с синтезированного массива коротких одноцепочечных ДНК несколько файлов, притом такого же объема — 5,2 мегабита.

Единственное существенное отличие в технологиях двух групп заключается в схеме кодирования двоичного потока в последовательность нуклеотидов. Так, группа Чёрча использовала простую схема конвертации, приняв пару разных оснований (например, АГ и ТЦ) за условные «ноль» и «единицу», а команда Сенчера использовала более сложный троичный алгоритм.