Глава G@С.
Генетический код – явление «героя» (Х)
События, связанные с эволюцией Вселенной и коротко описанные выше, привели, в конечном счете (а может быть, и «в том числе») к возникновению жизни, центральным феноменом которой стало объединение мира нуклеиновых кислот и мира белков в единую автокаталитическую суперсистему, для чего потребовалось связующее звено обоих миров, доведенное до необходимого состояния – так называемый генетический код. Генетический код – это набор инструкций для однонаправленного перевода нуклеотидной последовательности в полипептидную. Таким образом, сегодняшний код составляют два компонента. Первый – кодирующий – компонент – это четыре азотистых основания (или нуклеотида, когда они фосфорилированы и составляют цепи РНК или ДНК).
Общее обозначение азотистых оснований приведено в таблице:
Из них состоит полинуклеотид – рибо– или дезоксирибонуклеиновая кислота, РНК или ДНК. В случае РНК четыре нуклеотида – это два пурина (аденин и гуанин в табличках ниже) и два пиримидина – урацил и цитозин. В молекуле ДНК одно из перечисленных оснований – урацил – заменен на тимин (T):
Полимером правовращающего сахара – рибозы или дезоксирибозы – в цепочку РНК или ДНК соединены трифосфаты этих оснований. Здесь показаны структуры одноцепочечных молекул ДНК (вверху) и РНК (внизу):
Второй – кодируемый – компонент генетического кода – это аминокислоты, из которых состоят полипептиды или белки. Из более ста пятидесяти природных аминокислот кодируемыми являются (по преимуществу) только 20:
Для обозначения аминокислот (напомним, что кодируемыми являются альфа-L-аминокислоты) используют либо трех-, либо однобуквенные символы; мы – как уже сказано – будем пользоваться последними. В таблице выделены гидрофильные (синие ячейки и белые буквы названий) и гидрофобные (желтые ячейки) аминокислоты, аминокислоты, способные нести заряд, отмечены знаками (+) или (-), ароматические аминокислоты (бирюзовые ячейки в колонке символов, иминокислота пролин – бирюзовое выделение); серусодержащие аминокислоты (желтые ячейки в колонке символов). В формуле молекул справа – одна и та же константная часть (участвующая в пептидной связи; полужирный шрифт), слева – боковая часть молекулы или радикал (R). Молекула пролина приведена к общей схеме гипотетическим размыканием (релаксацией) иминного кольца.
Очевидно, что аминокислоты отличаются друг от друга химической природой боковой цепи, которая состоит из группы атомов в молекуле аминокислоты, связанной с α-углеродным атомом и не участвующей в образовании пептидной связи при синтезе белка. Всѐ разнообразие особенностей структуры и функции белковых молекул связано с химической природой и физико-химическими свойствами радикалов аминокислот. Именно благодаря им, белки наделены рядом уникальных функций, не свойственных другим биополимерам, и обладают химической индивидуальностью. Благодаря им, вновь синтезирующаяся полипептидная цепочка приобретает вторичную структуру, образуя определенной длины однотипные спирали, складчатость и повороты (изломы). Эта структура, в свою очередь, складывается в уникальную третичную, которая и обладает определенными функциями. Они могут быть усилены или модифицированы четвертичной белковой структурой, которую формируют уже не отдельные полипептиды, а их комбинация.
Это общие сведения (trivia) о компонентах генетического кода. Приводим его стандартную (каноническую) таблицу. Синим выделены в ней кодирующие и кодируемые элементы группы вырожденности IV октета 1 (см. ниже); серым – элементы октета 2 групп вырожденности I (темно-серые), III (светлее) и II (еще светлее). В неокрашенных ячейках – терминирующие кодоны. Чтобы подчеркнуть характер непосредственных участников процесса декодирования, то есть молекул РНК, четырьмя основаниями в таблице часто выбираются основания U, C, A и G. Именно на таком порядке настаивал Френсис Крик – не помню точно, почему, – может быть, потому, что, скажем, теория граничных орбиталей химической реактивности, которая была разработана для сравнения вероятностей стабилизации избыточных электронов для различных ДНК-составляющих, предсказывает снижение электронного сродства и потенциалов ионизации, подтверждаемое экспериментальными данными, именно в порядке TCАG.
ВТОРОЙ НУКЛЕОТИД
Функция молекулы ДНК – не декодирование, но хранение генетической информации. Поскольку выбор «главной» из этих двух функций – задача очевидно нелепая, таблицы кода с ДНК-основаниями Т, C, A и G встречаются не менее часто.
Напомним теперь восемь основных свойств генетического кода, определяющих сопоставление нуклеотидов и аминокислот, и девятое – альтернативное.
Первое из них – триплетность, означающая, что каждую используемую в живых структурах аминокислоту кодируют три последовательно (то есть от 5`– к 3`-концу цепи) расположенных азотистых основания. Их называют триплетом или кодоном. В таблице первым двум основаниям соответствуют вертикальная и горизонтальная координаты; третье основание показано по вертикали справа, оно делает двумерную таблицу трехмерным кубом 4 х 4 х 4.
Физических промежутков между кодонами нет, поскольку код характеризуется непрерывностью. Если бы код был синглетным, то есть если бы каждой кодируемой аминокислоте соответствовало бы только одно основание (из четырех), кодирующая емкость кода и составляла бы только четыре аминокислоты. Между тем, таких аминокислот двадцать, и только этого числа (не меньше!) достаточно для обеспечения существующего белкового разнообразия. Если бы код был дублетным, то есть, если бы каждой кодируемой аминокислоте соответствовало бы два основания, кодирующая емкость кода составляла бы только шестнадцать аминокислот (42) – то есть очевидно недостаточно. Емкость триплетного кода составляет 64 аминокислоты (43). Этого хватает с избытком.
«Избыток» составляет 44 кодируемых продукта. Многие исследователи утверждают, что эволюция генетического кода шла в направлении от синглетного к триплетному. При этом они не понимают, что смена размера кодирующей единицы потребовала бы принципиального изменения всей машины кодирования (то есть всего набора ферментов, обслуживающих этот процесс) – вещь невозможная! Поэтому синглетный этап триплетного кодирования (если он был) мог означать, что в составе триплета значащей единицей могла быть только одна (например, первая или любая), а в составе дублета – две. Тогда и непрерывность кодированной записи могла быть только физической. Функционально значащие основания разделялись остальными основаниями триплета, а эволюция продолжала совершенствовать структуру молекул-участников кодирования. Произвольные (из четырех) третьи основания современных кодонов для восьми (из двадцати) аминокислот могут быть реликтами до-триплетных кодов. Выбор же тройки азотистых оснований в качестве дискретной единицы генетического кода мог быть обусловлен также термодинамикой взаимодействия пар оснований, при котором матричное копирование инициируется их триплетом (мы говорили об этом выше, ссылаясь на Зенгера).
Неперекрываемость – один и тот же нуклеотид не может входить одновременно в состав двух или более триплетов; не соблюдается для некоторых перекрывающихся генов вирусов, митохондрий и бактерий, которые кодируют несколько белков, считывающихся со сдвигом рамки.
Поскольку никакого избытка в крайне экономной природе не бывает, он и здесь компенсируется еще одним свойством, парадоксально именуемым вырожденностью (избыточностью), которая означает, что каждую аминокислоту (два исключения – метионин и триптофан) кодирует более, чем один триплет. Синим выделены клетки таблицы, содержащие аминокислоту, кодируемую четырьмя триплетами, серым – тремя, светло-серым – двумя, самым светлым – две аминокислоты, кодируемые только одним триплетом.
Однозначность кода означает, что каждый триплет фрагмента полинуклеотида, именуемого ге ном, кодирует только одну аминокислоту. Продуктами кодирования являются не только аминокислоты, но и знаки пунктуации – знак начала кодирующей цепочки (гена), ATG, или AUG, называемые стартовыми кодонами, и знаки ее окончания – TAA (UAA), TAG (UAG) и TGA (UGA) или терминирующие (trm) стоп-кодоны (в таблице – буквы синего цвета в бесцветных ячейках). Начало генного продукта – это всегда аминокислота (метионин в данном случае), конец его – аминокислота, предшествующая стоп-кодону.
Еще одно свойство генетического кода – универсальность, означает, что все живущие на Земле существа – будь то РНК– или ДНК-вирус, слон, морковка, червь или человек – пользуются одним и тем же генетическим кодом. Немногочисленные отклонения от этого правила касаются лишь отдельных аминокислот и являются, скорее всего, именно отклонениями, результатом весьма длительной эволюции в специфических условиях.
Небольшое число таких отклонений лишь подчеркивают седьмое из перечисляемых свойств кода – необычайная стабильность.
За этим свойством неизбежно должно стоять – и стоит – еще одно – столь же необычайная помехоустойчивость. Помехоустойчивость относится к двум наиболее важным свойствам кодируемых аминокислот – их размеру, который характеризуется объемом или массой молекулы, и их гидрофильности (и гидрофобности), которые определяют вторичную структуру полипептида. Замена третьего основания триплета, как правило, не влияет на эти свойства, замена второго более существенна и относится, по преимуществу, к гидрофильности аминокислоты или к ее гидрофобности, замена первого может оказаться роковой; она меняет размер кодируемой молекулы. Если подсчитать, сколько замен одного нуклеотида не меняет тип аминокислоты в соответствии с ее химическими свойствами (а такие замены аминокислот слабо сказываются на структуре и функциях белка) и сколько меняет, то отношение первых ко вторым будет близко к 2,25. Расчеты показывают, что существующий генетический код не является самым оптимальным вариантом кода по признаку помехоустойчивости, и специальными программами удается сгенерировать более устойчивые в этом отношении коды. Тем не менее, компьютерное моделирование демонстрирует вполне впечатляющую частоту кодов со сходной с существующим помехоустойчивостью – один на миллион. Даже при такой частоте число помехоустойчивых кодов еще достаточно велико, чтобы вызывать впечатление случайности выбора той версии, которая используется на Земле. А так и не достигнутый за миллиарды лет максимум помехоустойчивости генетического кода на нашей планете наводит на мысль о том, что его, скорее всего, определило некое единичное событие, после которого опять-таки некое ограничение фиксировало девятое свойство кода, отмеченное еще Френсисом Криком. Поскольку ни изощренные и длительные эксперименты, ни теория – во времена Крика – не показывали абсолютно никакого физико-химического соответствия между нуклеотидными триплетами и аминокислотами, он назвал не поддающийся изменениям в течение миллиардов лет генетический код замороженной случайностью. Замороженной – в том смысле, что сформировавшись, он уже не менялся. Случайностью – в том смысле, что он мог сформироваться каким угодно. А вот то, что он сформировался именно таким, каким мы его видим, и настолько удачно, что в дальнейшем мог уже и не меняться, придает ему, на первый взгляд, свойство чуда. На сегодняшний день оценка Крика – едва ли не самая убедительная гипотеза происхождения генетического кода. И все-таки, когда мы говорим «случайность», рассматривая формальные свойства кода (мы сделаем это позднее), не только физика и химия приходят нам в голову. Но и они (физика и химия) предлагают сегодня альтернативную замороженной случайности гипотезу, гипотезу «ключ-замок», основанную на экспериментальных данных, которые все же показывают определенное сродство отдельных аминокислот с отдельными РНК-последовательностями. Об этом – в конце книги.
…………………
«Номер» этой главы назван «инициалами» ее «главного героя» – Genetic Code. Автор хотел, однако, не только отметить их совпадение с принятым обозначением пары гуанин-цитозин (GC), но акцентировать комплементарность этой пары, которую в названии главы подчеркивает вторая комплементарная пара – аденин-тимин (АТ), символ которой (предлог at) обозначается на «компьютерном языке» знаком @. Если пару АТ встроить между G и C, вся четверка – GA‖TC – оказывается упорядоченной по массе и зеркально симметричной по комплементарности относительно центра, отмеченного двумя короткими вертикалями. В составе двуцепочечной молекулы нуклеиновой кислоты пара GC демонстрирует сильное, S, взаимодействие, образуя три межнуклеотидных водородных связи CΞG (нижняя пара на рисунке), в то время, как пара АТ (верхняя часть рисунка) демонстрирует слабое, W, взаимодействие:
Результатом комплементарности пар оснований является первое правило Чаргаффа: число гуанинов (G) в двуцепочечной ДНК равно числу цитозинов (С), а число аденинов (А) равно числу тиминов (Т). Это правило стало одним из краеугольных камней открытия спиральной структуры этой молекулы, о чем можно прочитать в любом учебнике.
Позднее мы коротко коснемся и так называемого второго правила Чаргаффа, которое относится только к одной природной полинуклеотидной цепи. Существуют и некомплементарные взаимодействия пар оснований – «качающиеся» и хугстеновские (см. ниже). В природе все намного интереснее и богаче, чем в любом учебнике. Мы не можем обусловить начало жизни только формированием генетического кода (тогда ее дефиниция оказалась бы не слишком трудной задачей и упомянутое выше следствие теоремы Гѐделя удалось бы обойти), какие-то свойства жизни мы различаем и до этого события, но беспрецедентная универсальность кода – при физико-химической произвольности – делает его едва ли не главной меткой нуклеиново-белковой жизни. И далее мы будем говорить именно о генетическом коде.
Глава 11.
Механика генетического кодирования (XI)
Об этом можно прочитать в любом учебнике. И все же – чтобы облегчить понимание последующих рассуждений – позволим себе очень коротко остановиться на работе машины кодирования. Барбьери связывает формирование таких машин с возникновением молекул, названных им codemakers – термин, который мы выше перевели как декодеры.
Что это за молекулы? В тех случаях, когда генетическую информацию содержит ДНК (другие варианты мы не рассматриваем, поскольку они принципиально не отличаются от общей схемы), первой такой молекулой становится информационная или матричная РНК (иРНК или мРНК) – комплементарная копия отрезка той нити ДНК (минус—нити или Nonsense, N, «бессмысленной»), которая, в свою очередь, в двойной цепи комплементарна кодирующей, «смысловой» (Sense, S, то есть, содержащей ген) или плюс-нити. Между прочим, двунитевую структуру ДНК обозначают иногда не только как NS, но также – соответственно – как WC, чтобы подчеркнуть совпадающими порядками букв парадоксальный ум Джеймса Уотсона, не всеми с порога принимаемый и понимаемый. мРНК, как правило, содержит копию гена, которая, как правило же, начинается с триплета AUG, кодирующего аминокислоту метионин – М. Этот триплет называется старт-кодоном или кодоном инициации. Транскрибируемый фрагмент ДНК заканчивается сразу перед одним из кодонов терминации (стоп-кодоном). Детали матричного синтеза мРНК или транскрипции (промоторные зоны плюс-цепи ДНК, работу и характер РНК-полимераз и проч.) и детали строения самой мРНК (например, наличие и вариации поли-А сигнала и проч.) большого значения для нас здесь не имеют. У эукариот трансляции, то есть, переводу генетической информации в полипептид, предшествует так называемый процессинг мРНК, в ходе которого из тела этой молекулы вырезаются некодирующие сегменты, интроны, а оставшиеся сегменты, экзоны, формируют кодирующий полинуклеотид. У прокариот интронов нет, их мРНК практически готова к трансляции сразу после синтеза. Дальнейшие события реализации генетической информации, то есть, синтеза полипептида, кодированного в полинуклеотиде, описываются в учебниках примерно так, как коротко изложено ниже.
После транскрибирования мРНК не остается комплементарно связанной с ДНК-шаблоном; она освобождается от ДНК, которая затем восстанавливает свою двойную структуру. В одной эукаритической клетке количество молекул мРНК может составлять свыше 10.000. Наряду с молекулами мРНК на ДНК образуются и другие транскрипты, в том числе молекулы рибосомной и транспортных РНК, которые также имеют важное значение в реализации генетической информации. Все эти РНК называют еще ядерными. Наиболее обильными РНК в клетках всех видов являются молекулы рибосомной РНК (рРНК), которые выполняют роль структурных компонентов рибосом. У эукариот синтез рРНК контролируется огромным количеством генов (сотни и тысячи копий) и происходит в ядрышке. Не похоже, что структура рРНК имеет серьезное значение для обсуждаемой далее формальной организации генетического кодирования, и мы не станем на ней останавливаться. Совершенно другую роль в этих процессах имеют встречающиеся в клетке в несколько меньших количествах молекулы транспортных РНК (тРНК), которые участвуют в декодировании информации, трансляции. Это те самые декодеры или молекулы-посредники (codemakers Барбьери), – которые обусловливают специфическую связь между хранилищем генетической информации, нуклеиновыми кислотами, и строительным материалом, служащим для ее реализации, то есть для конструирования пептидов – аминокислотами.
Роль транспортных РНК в синтезе белка была постулирована еще до их открытия. В 1955г. Крик приписал им функцию адаптера, который может нести аминокислоту и образовывать водородные связи с кодирующей полинуклеотидной матрицей. Гипотеза адаптера оказалась необходимой в связи с упоминавшейся уже невозможностью обнаружить между аминокислотами и нуклеиновыми кислотами стереохимическое соответствие, достаточное для того, чтобы обеспечить считывание генетического кода. В 1957г. в лаборатории Мэлона Хогланда было показано, что в ходе белкового синтеза активированные аминокислоты переносятся на особый тип РНК, получивший тогда наименование растворимой РНК и называемой теперь транспортной.
Стереохимия тРНК хорошо изучена и весьма характерна. Мы остановимся на ней поподробнее. Типичная молекула тРНК – это полинуклеотидная цепь длиной 75—90 (по преимуществу, 76) нуклеотидов. Молекулярные массы тРНК лежат в пределах 17.000—35.000. Часть оснований нуклеотидных пар, уже после синтеза тРНК, в определенных положениях модифицирована, это неканонические, редкие, так называемые (минорные), составляющие до 10% от общего числа. Среди них – дигидроуридин (D), псевдоуридин (Ψ) и инозин (I); последний играет существенную роль в узнавании кодона. В дополнение к этим модификациям несколько нуклеозидов метилированы. Все эти модификации – результат посттранскрипционного процессинга тРНК, которая копируется с «нормальной» матрицы. В 75% случаев молекулы тРНК открываются5′-гуанином (он фосфорилирован) и во всех случаях завершается триплетом ССА-3′.
Вторичная структура этой молекулы сформирована четырьмя короткими двуцепочечными стеблями и напоминает клеверный лист.
Каждый из четырех стеблей состоит из 4—7 уотсон-криковских пар, образующих двойные спирали. Сами стебли носят названия акцепторного, антикодонного, а также D (содержащий дигидроуридин) и T (содержащий риботимидин). Некоторые нуклеотиды консервативны, и их позиции в составе тРНК остаются инвариантными – либо полуинвариантными, если сохраняется их пуриновая или пиримидиновая природа. На акцепторном стебле тРНК имеется участок связывания с аминокислотой; он неспецифичен и для всех аминокислот один и тот же: ССА-3». Противоположный стебель содержит одноцепочечную петлю с антикодоном, распознающим кодон на мРНК. Две другие, боковые, петли предназначены для связывания с рибосомой и с аминоацил-тРНКсинтетазой (АРСазой). Четвертая, не всегда выраженная, петля так и называется – дополнительная или вариабельная (V). У тРНК, узнаваемых АРСазами класса I, она, как правило, короче (4—5 нуклеотидов), у тРНК, узнаваемых АРСазами класса II – длиннее (13—21 нуклеотидов).
Третичная (пространственная) структура любой тРНК складывает все ее четыре ветви (стебли с петлями) в так называемую Г-форму (L-форму, если использовать латиницу):
Г-форма состоит из двух почти перпендикулярных друг другу спиралей А-РНК (11 пар оснований на виток). Два отрезка буквы Г образованы ССА-3`-концом и антикодонной петлей, которые находятся на расстоянии 80Å друг от друга. Наружный край угла буквы Г образован Т-петлей. Акцепторный и Т-стебли уложены один вслед за другим и образуют единую двойную спираль. В примерно такую же структуру (только с расхождением осей на 26°) уложены антикодонный и D-стебли. Эта структура на предыдущем рисунке обозначена жирной черной кривой.
Уже цитированный Др. Зенгер назвал тРНК «сокровищницей стереохимической информации». Он отмечает, что кроме уотсон-криковских пар, ответственных за большую часть горизонтальных взаимодействий между основаниями (особенно в стеблях), в тРНК имеется ряд нестандартных пар и триплетов. Такие пары располагаются в основном с наружной стороны угла и в шарнирной области буквы Г.
«Качающаяся пара» G4—U69 дрожжевой фенилаланиновой тРНК входит в состав акцепторного стебля. По структуре она сходна с уотсон-криковской и не нарушает двойной спирали, а только создает небольшую выпуклость в сахарофосфатном остове. Обратная непланарная – хугстеновская – пара m 1 A 58 -T 54 возникает благодаря блокаде уотсон-криковской из-за метилированного аденина-58, и хугстеновское спаривание оказывается единственно возможным способом образования водородных связей с другим основанием (курсив здесь далее в этой главе – до новой ссылки – цитата из книги Зенгера). Пурин-пуриновая пара-m 2 G 26 -A 44 «длиннее», чем обычная уотсон-криковская и в значительной мере непланарна; именно она ответственна за 26°-ое расхождение антикодонового и D-стеблей.
В тРНК имеется несколько триплетов, в которых уотсон-криковскую пару дополняет третье основание, присоединенное со стороны главного желобка либо одной (m 2 G 10 -С 25 -G 45 ), либо двумя (G 22 -С 13 -m 7 G 46 и A 23 -U 12 -A 9 ) водородными связями; во всех этих триплетах представлена и параллельная, и антипараллельная ориентация полинуклеотидных цепей. Большинство «третичных» водородных связей образуется между консервативными основаниями.
Многочисленные вертикальные стэкинг-взаимодействия, наличие которых чрезвычайно характерно для архитектуры тРНК, укрепляют эту структуру. В дрожжевой фенилаланиновой тРНК только 42 основания из 76 входят в спиральные участки, но в стэкинг-взаимодействии участвует 71 основание. Схема стэкинга в спиральных доменах тРНК практически такая же, как и у двуцепочечных А-РНК, однако, перекрывание оснований несколько сильнее, и плотность спирали эквивалентна структуре с числом пар, несколько меньшим, чем 11. В отдельных местах молекулы тРНК основание одной цепи встраивается между двумя основаниями другой (интеркаляция), при этом возникает особый вид стэкинга.
Антикодоновый триплет также имеет спиральную структуру и формирует стопку. Кодон информационной РНК образует с антикодоном уотсон-криковские и «качающиеся» пары и, таким образом, на антикодоновом стебле появляется двойная мини-спираль. Поскольку «качающаяся» пара располагается на дальнем конце этой спирали, антикодон может найти оптимальное положение для спаривания. Другими словами, чтобы образовалась «качающаяся» пара, кодону не нужно принимать какие-то необычные конформации, а это согласуется с тем, что на рибосоме все кодоны должны находиться в одной и той же структурной конфигурации для обеспечения их геометрической эквивалентности и быстрого считывания.
Пусть – в порядке гимнастики воображения – Читатель теперь представит себе, что вся эта весьма нетривиальная структура «считывается» в клетке с хромосомной ДНК-матрицы, которая имеет самую обычную монотонную спиральную организацию.
Молекула тРНК отличается и другими структурными особенностями, но и приведенного цитирования из весьма основательного труда Зенгера достаточно, чтобы Читатель понял, что представленная в следующих главах формализация (всегда ведущая к фактическому упрощению) схемы генетического кодирования, в которой молекула тРНК занимает одну из ключевых позиций, сама по себе требует изрядной умственной отваги. Не меньшая отвага нужна, чтобы удержаться от дальнейших упрощений, отличающих, например, креационизм.
Найдено несколько десятков (теоретически 61) индивидуальных тРНК, так как каждая из них способна переносить в процессе белкового синтеза единственную аминокислоту. Конкретные тРНК называют по имени той протеиногенной аминокислоты, которую они акцептируют (например, лизиновая тРНК). Если одна и та же аминокислота акцептируется несколькими индивидуальными тРНК, то последние называют изоакцепторными и нумеруют (например, одна из тРНК для валина – тРНКвал1).
Несмотря на то, что молекулы тРНК строго специфичны, и каждой из них соответствует собственный антикодон и присоединяемая аминокислота, они не являются полноценными посредниками между этими аминокислотами и этими (анти-) кодонами. Последние – это часть структуры тРНК, что до первых, то тРНК не узнают их в принципе, да и садятся они на один и тот же триплет тРНК – концевую последовательность -ССА-3`, не различающую аминокислоты. Требуется еще один посредник, который бы узнавал обе эти молекулы так же безошибочно, как кодон узнает антикодон – и связывал их. Правила узнавания кодона и антикодона, приводящие к выбору той или иной аминокислоты для роста цепочки полипептида, называются генетическим кодом. Эти правила имеют линейный, матричный характер. Ясно, что их недостаточно, чтобы аминокислота нашла свой антикодон (в своей тРНК), поскольку 3`-последовательность, на которую она садится, у всех тРНК одна и та же. Рибосомы же, где происходит полимеризация аминокислот, различают именно тРНК. Таким образом, должна существовать еще, как минимум, одна молекула, способная различать аминокислоты и соответствующие им тРНК. Этот минимум Природа реализовала в виде молекулы аминоацил-тРНК-синтетазы, АРСазы. АРСазы способны различать и фиксировать на своей поверхности каждую из всех двадцати аминокислот. Одновременно они различают и соответствующие изоакцепторные тРНК. Рибосома имеет общий сайт связывания для всех тРНК и не различает их. Других молекулярных посредников между записанной в нуклеиновой кислоте и реализуемой в виде полипептида информации нет, и генетическое кодирование объединяет только три молекулы: тРНК с ее антикодоном, соответствующая ему аминокислота и фермент АРСаза. АРСаза способна присоединять еще и три остатка фосфорной кислоты, служащие источником энергии для реакции аминоацилирования тРНК, которую и катализирует АРСаза. Поскольку мы рассматриваем здесь не весь механизм синтеза белков, а только его кодировку, то есть, машину кодирования, а не машину синтеза, о других молекулярных деталях этой машины – различных полимеразах и других ферментах, информационных и рибосомальных РНК, самих рибосомах и т. п. – мы говорить не будем.
Таким образом, генетический код, как соответствие триплета оснований той или иной аминокислоте, реализуется не как взаимное узнавание (рекогниция, для которой не существует физико-химических оснований), а как узнавание одного и того же посредника – белка АРСазы, структура которого имеет соответствующие сайты. Это узнавание должно иметь вполне убедительную стереохимическую основу. И тем не менее, малая величина аминокислот и однотипная стереохимия тРНК представляют серьезные трудности для рекогниции. Справедливости ради стоит, однако, сказать, что тРНК все же несколько отличаются друг от друга – и не только антикодоном: имеют место небольшие нуклеотидные отличия, так что тРНК с разными антикодонами несколько различны и по своей пространственной конфигурации.
Детальному анализу структуры и функции АРСаз посвящены очень основательные обзоры Карла Вѐзе; на русском языке о них довольно подробно можно прочесть в популярных статьях замечательного Соровского Образовательного Журнала. Нас интересуют здесь лишь основные характеристики этих ферментов. Википедия – вполне корректно – трактует АРСазу следующим образом:
«Аминоацил-тРНК-синтетаза (АРСаза) – фермент, катализирующий образование аминоацил-тРНК в реакции этерификации определенной аминокислоты с соответствующей ей молекулой тРНК. Для каждой аминокислоты существует своя АРСаза. АРСазы обеспечивают соответствие подготавливаемых ими к встраиванию в белок аминокислот и нуклеотидных триплетов антикодона тРНК, таким образом, обеспечивая правильность происходящего в дальнейшем считывания генетической информации с мРНК при синтезе белков на рибосоме.
На первом этапе происходит активация аминокислоты АТРазой:
аминокислота+ АТР→аминоацил-AMP +РРi (пирофосфат).
На втором этапе активированная аминокислота соединяется с соответствующей тРНК:
аминоацил-AMP + тРНК → аминоацил-тРНК + АМР
Суммарное уравнение двух реакций:
аминокислота + тРНК + ATP → аминоацил-тРНК + AMP + PPi
Сначала в активном центре синтетазы связываются соответствующая аминокислота и АТФ. Из трѐх фосфатных групп АТФ две отщепляются, образуя молекулу пирофосфата (PPi), а на их место становится аминокислота. Образованное соединение (аминоацил-аденилат) состоит из ковалентно связанных высокоэнергетической связью аминокислотного остатка и АТФ. Энергии, содержащейся в этой связи, хватает на все дальнейшие этапы, необходимые для того, чтобы аминокислотный остаток занял своѐ место в полипептидной цепи (то есть в белке). Аминоацил-аденилаты нестабильны и легко гидролизуются, если диссоциируют из активного центра синтетазы. Когда аминоацил-аденилат сформирован, с активным центром синтетазы связывается 3» -конец тРНК, антикодон которой соответствует активируемой этой синтетазой аминокислоте. Происходит перенос аминокислотного остатка с аминоацил-аденилата на 2» – либо 3» -ОН группу рибозы, входящей в состав последнего на 3» -конце аденина тРНК. Таким образом синтезируется аминоацил-тРНК, то естьтРНК несущая ковалентно присоединѐнный аминокислотный остаток. От аминоацил-аденилата при этом остаѐтся только АМФ. И аминоацил-тРНК, и АМФ освобождаются активным центром.
Каждая из двадцати аминоацил-тРНК-синтетаз должна всегда прикреплять к тРНК только свою аминокислоту, узнавая только одну из 20-ти протеиногенных аминокислот, и не связывая другие похожие молекулы, содержащихся в цитоплазме клетки. Аминокислоты значительно меньше тРНК по размерам, неизмеримо проще по структуре, поэтому их узнавание является значительно большей проблемой, чем узнавание нужной тРНК. В действительности, ошибки имеют место, но их уровень не превышает одной на 10,000 – 100,000 синтезированных аминоацил-тРНК. Некоторые аминокислоты отличаются друг от друга очень слабо, например, лишь одной метильной группой (I и V, A и G). Для таких случаев во многих аминоацил-тРНК-синтетазах эволюционировали механизмы, избирательно расщепляющие ошибочно синтезированные продукты. Процесс их распознавания и гидролиза называют редактированием…
Все аминоацил-тРНКсинтетазы произошли от двух предковых форм, и объединены на основе структурного сходства в два класса. Эти классы отличаются по доменной организации, структуре главного (амино-ацилирующего) домена, способу связывания и аминоацилирования тРНК. Аминоацилирующий домен аминоацил-тРНК синтетаз 1-го класса образован так называемой укладкой Россмана, в основе которой лежит параллельный β-лист. Ферменты 1-го класса являются в большинстве случаев мономерами. 76-й аденозин тРНК они аминоацилируют по 2» -ОН группе. Ферменты 2-го класса имеют в основе структуры аминоацилирующего домена антипараллельный β-лист. Как правило, они являются димерами, то есть имеют четвертичную структуру. За исключением фенилаланил-тРНКсинтетазы все они аминоацилируют 76-й аденозин тРНК по 3» -ОН группе. Каждый класс дополнительно делится на 3 подкласса – a, b и c по структурному сходству…
Глобула аминоацил-тРНК-синтетазы состоит из двух основных доменов – аминоацилирующего, в котором располагается активный центр и происходят реакции, и антикодон-связывающего, узнающего последовательность антикодона тРНК …»
Этот довольно пространный отрывок дает только самое общее впечатление о сложности структуры и функции АРСаз. Помимо основных описанных функций, они выполняют в клетке и другие, называемые неканоническими; мы касаться их не будем.
И все же функция упомянутого выше антикодон-связывающего домена не является абсолютным условием аминоацилирования тРНК . Нина Энтелис в связи с этим отмечает, что «для аланиновой АРСазы, например, основным элементом узнавания служит неканоническая пара G-U в аминоакцепторном стебле. При замене этой пары на G-C, A-U и даже на U-G аланиновая тРНК теряет способность аминоацилироваться аланином. Если же в любой другой тРНК заменить третью пару аминоакцепторного стебля на G-U, то эта тРНК приобретает сродство к аланиновой АРСазе и способность присоединять аланин. Таким образом, для распознавания своей тРНК аланиновой АРСазе (и она не исключение) достаточно небольшого участка аминоакцепторного стебля». У сериновой и лейциновой АРСаз E. coli антикодон также не участвует во взаимной рекогниции. Это, в частности, значит, что изменение антикодона в таких случаях – а иногда и в других, когда даже весь антикодон участвует в узнавании своей АРСазой, – не сможет повлиять на исходную специфичность аминокислоты – разве что сделает ее несколько менее эффективной.
Стоит еще раз упомянуть две особенности АРСаз. Во-первых, это очень различные в структурном отношении белковые молекулы, преимущественно классифицированные только по узнаваемому субстрату. Во-вторых, они обладают столь высокой специфичностью, что для ее характеристики даже используется особый термин – сверхспецифичность. Это свойство, отмечает Ольга Лаврик, тем более уникально, что «задачу специфичности АРСазы решают дважды: на стадии активации аминокислоты и на стадии взаимодействия с тРНК». И это при скорости роста полипептидной цепи в 20 аминокислот в секунду (для прокариот; у эукариот эта скорость на порядок меньше).
А теперь – имея в виду все, о чем мы только что рассказали, – отметим следующие два обстоятельства:
тРНК транскрибируются на геномной матрице, где естественно – как и всякие гены – подвергаются мутациям, которые приводят к точечным и другим изменениям в транскриптах (в том числе – и в антикодонах);
любая мутация по основаниям антикодона или по другим основаниям тРНК, участвующим в рекогниции АРСазами, которая может привести к изменению соответствия кодон-аминокислота, то есть к изменению кодировки немедленно исключит мутант из процесса декодирования; —
и зададимся такими вопросами: если генетический код столь феноменально консервативен, что оказался способным практически не измениться за три с половиной миллиарда лет (о чем свидетельствует его универсальность), то:
как быстро он сформировался?
почему он стал именно таким?
какие варианты могли ему предшествовать?
Ответ на первый вопрос несложен: быстро. Очень быстро – в масштабах времени, прошедших с той поры, как он сформировался. Второй вопрос вызывает встречный: Каким «таким»? Ответ на него остается загадкой, ей посвящена оставшаяся часть книги, из которой Читатель, возможно, вынесет представление о неслучайности существующей версии. Третий вопрос возвращает нас к гипотезе Георгия Гамова, с которой фактически началась эра ДНК, то есть, молекулярная биология, и с которой мы начнем ответ на упомянутый встречный вопрос в следующей главе.
…………………
Число 11 , вынесенное в заголовок этой главы, хотя и менее выразительное, нежели число 111 , в определенном контексте также могло бы служить информационным символом. В конце концов, параллель между тремя единицами числа 111 и триплетностью генетического кода упирается в определенное ограничение последней, поскольку генетический код триплетен лишь по размеру кодона. Функциональную же нагрузку несут в кодоне, по преимуществу, только две первые буквы, а третья служит простым разграничителем в восьми случаях из двадцати или одним из двух вариантов такого разграничителя – еще в десяти. И только два кодона являются истинно триплетными – TGG (W), и ATG (М). Еще один триплет универсального кода со всеми тремя значащими буквами – TGA – является пунктуационным кодоном.
Номер этой главы – единственный в этой книжке – совпадает со своей позицией, помеченной (гораздо менее выразительным) римским числом.
Глава 496.
Почему кодируемых аминокислот двадцать? (XII)
Неискушенному Читателю может показаться, что элементы машины генетического кодирования описаны в предыдущей главе настолько детально, что к концу чтения он стал даже как-то утомляться, чувствуя, что несколько заинтриговавшее его начало книжки оборачивается страницами из учебника для старших классов, способными привести в уныние любого, кто вспомнит родную школу. Искушенному же Читателю, напротив, все рассказанное хорошо известно, и он, грешным делом, подумывает, не написать ли самому учебник посвежее – для тех же старших классов. Не мысля гордый свет забавить – другими словами, не имея намерения вогнать в скуку того и другого, Автор хотел бы подчеркнуть, что понимает: дьявол скрывается в деталях. Но их так много в молекулярной биологии, что любая формализация кажется возмутительным упрощением. Однако, часто бывает, что соблазн формализации неодолим, и тут Автор не может отказать себе в удовольствии еще раз процитировать испанского философа Хосе Ортегу-и-Гассета:
«Серый цвет аскетичен. Такова его символика в обыденном языке, на этот символ и намекает Гете: „Теория, мой друг, суха, но зеленеет жизни древо“. Самое большее, на что способен цвет, не желающий быть цветом, – стать серым; зато жизнь представляется зеленым деревом – какая экстравагантность!.. Элегантное желание предпочесть серый цвет чудесной и противоречивой цветовой экстравагантности жизни приводит нас к теоретизированию. В теории мы обмениваем реальность на тот ее аспект, каким являются понятия. Вместо того чтобы в ней жить, мы о ней размышляем. Но как знать, не скрывается ли за этим явным аскетизмом и удалением от жизни, каким является чистое мышление, наиболее полная форма жизненности, ее высшая роскошь?»
– Браво, Хосе! Именно так я и думаю – даже убежден в этом.
Формализации, теоретизированию, схемам, дизайну генетического кода посвящена основная, хотя и меньшая по объему, оставшаяся часть книги, к которой Автор сейчас переходит. Первая формальная гипотеза структуры генетического кода представляет собой возможный ответ на вопрос, почему кодируемых аминокислот именно двадцать .
В 1954 году Гамов первым показал, что «при сочетании 4 нуклеотидов тройками получаются 64 комбинации, чего вполне достаточно для записи наследственной информации». Он был первым, кто предположил кодирование аминокислот триплетами нуклеотидов и выразил надежду, что «кто-нибудь из более молодых учѐных доживѐт до его [генетического кода] расшифровки». В 1968 году американцы Роберт Холли, Хар Корана и Маршалл Ниренберг получили Нобелевскую премию за расшифровку генетического кода. Премия была присуждена уже после смерти Георгия Гамова в том же году четырьмя месяцами ранее.
Числа 64 (теоретическая емкость кода) и 20 (фактическая кодирующая емкость, то есть количество кодируемых аминокислот) составляют соотношение правил комбинаторики для размещений и сочетаний с повторами: число А размещений (упорядоченных наборов) с повторами из r (r = 3; размер кодона) элементов множества М, содержащего k (k = 4; число оснований) элементов, равно
A k r = k r = A 4 3 = 64,
а число С сочетаний с повторами из k элементов по r, т. е. любое подмножество из 3 элементов множества, содержащего 4 элемента, равно:
С k r = [(k+r-1)!] : [r! (k-1)!] = С 4 3 = 20.
Это немедленно подводит к мысли о том, что эволюция генетического кода могла начаться с этапа «наборного» кодирования, когда продукт кодировался не последовательностью оснований триплета, а их набором, то есть две такие группы кодонов, как например, САА, АСА, ААС или TGC, TCG, GCT, GTC, CTG, CGT были функционально равнозначны (внутри группы) и направляли синтез одной и той же аминокислоты каждый. Подобные соображения приходят в голову при чтении работ Ишигами и Нагано (1975) – с их идеей о том, что каждая первичная аминокислота могла соответствовать широкому набору кодонов, а также Фолсома (1977) и Трейнора (1984) – с их идеей пермутации оснований в рамках триплета. Очевидно, что меньшее число кодонов не обеспечивало необходимого разнообразия продуктов, а бо льшее было избыточно и, по крайней мере, не соответствовало числу известных сегодня аминокислот. В свое время мы также внесли (очень) скромную лепту в эти идеи, отметив, что число сочетаний из 4 по 3 с повторами иллюстрируется числом квантовых состояний Бозе-газа из трех частиц с четырьмя вероятными собственными квантовыми состояниями.
Позднее Гамов предложил схему реализации генетического кода, которая предусматривала сборку полипептида непосредственно на молекуле ДНК. По этой модели, каждая аминокислота помещается в ромбической выемке между четырьмя нуклеотидами, по два от каждой из комплементарных цепей. Хотя такой ромб состоит из четырѐх нуклеотидов и, следовательно, число сочетаний равно 256, из-за ограничений, связанных с водородными связями нуклеотидных остатков, возможными оказываются как раз 20 вариантов таких ромбов. Эта схема, получившая название бубнового кода, предполагает корреляцию между последовательными аминокислотными остатками, так как два нуклеотида всегда входят в два соседних ромба (перекрывающийся код). Дальнейшие исследования показали, однако, что эта модель Гамова также не согласуется с опытными данными.
Если бы емкость генетического кода использовалась без остатка, то есть каждому триплету соответствовала бы только одна аминокислота, его защищенность была бы весьма сомнительна: любая нуклеотидная мутация могла оказаться катастрофической. В случае же действующей версии треть случайных точечных мутаций приходится на последние буквы кодонов, половина которых (кодоны октета I) к мутациям не чувствительна вовсе: третья буква кодона может быть любой из четырех – T, C, A или G. Устойчивость к точечным мутациям кодонов октета II в значительной степени определяется двумя факторами – (1) возможностью произвольной замены третьего основания (правда, уже при выборе только из двух – либо пуринов, либо пиримидинов), не меняющей кодируемой аминокислоты вовсе, и (2) возможностью замены пуринов на пиримидины и наоборот, которая сохраняет близкую гидрофильность/гидрофобность продуктов, хотя и не сохраняет их массы. Таким образом, Природа использует чрезвычайно удачный «люфт», называемый вырожденностью кода, когда кодируемому знаку соответствует более, чем один кодирующий.
Эволюция последовательно уточняла функции каждого из трех оснований кодона, что, в конечном счете, привело строгой триплетности только двух кодонов: ATG – для M (метионина) и TTG – для W (триптофана). По способности триплета кодировать только одну аминокислоту отнесем эти два к группе вырожденности I. Когда продукт кодируется фиксированным дублетом оснований, а третье может быть любым из четырех возможных и фактически служит разделителем между функциональными дублетами, говорят об аминокислотах группы вырожденности IV; таких аминокислот восемь: аланин, A, аргинин, R, валин, V, глицин, G, лейцин, L, пролин, P, серин, S, треонин, T. Обобщенный кодон для каждой аминокислоты этой группы, например, лейцина, записывается так: СТN (N —произвольное основание).
Двенадцать кодируемых продуктов относятся к группе вырожденности II; в этой группе третье основание – одно из двух (а не из четырех, как в предыдущем случае): это пурин (R), то есть, либо аденин, А, либо гуанин, G, – или пиримидин (Y), то есть, либо цитозин, С, либо тимидин, Т. К этой группе относятся три аминокислоты, знакомые нам по четвертой группе вырожденности, – аргинин, лейцин и серин, но кодируемые здесь другими дублетами, две пары – аспарагин/аспарагиновая кислота (N/D), и глутамин/глутаминовая кислота (Q/E), а также гистидин H, лизин K, и тирозин Y. Универсальный генетический код относит к этой группе также цистеин С, с его двумя кодирующими триплетами – TGC и TGT, то есть, с третьим пиримидином, а также три стоп-кодона, TAG, TAA и TGA, которые работают только как пунктуационные знаки, фиксирующие окончание гена, но не кодирующие никакой аминокислоты. Обобщенный кодон для аминокислот этой группы, например, аспарагина, записывается так: AAY, а аспарагиновой кислоты – GAR.
Наконец, группа вырожденности III содержит изолейцин, кодируемый тремя триплетами ATA, ATC и ATT. Основания А, С и Т, третьи в кодонах для I, имеют общий символ Н, поэтому обобщенный изолейциновый кодон записывается так: АТН. Все эти особенности кода хорошо иллюстрирует приведенная выше его таблица.
Любопытно, что молекулярная масса кодируемой аминокислоты находится в обратной зависимости от номера группы вырожденности, к которой она относится (В. Щербак). Это первое, отмечаемое здесь, свидетельство очевидной причастности молекулярной массы компонентов генетического кода к его рациональной организации.
В приведенной табличке упорядоченность по нарастанию молекулярной массы относится к аминокислотам в составе упорядоченных по номерам групп вырожденности (римские цифры), сгруппированным в два октета (арабские цифры). При этом позиция цистеина С скорректирована, о чем речь будет идти в следующей главе; там же мы расскажем и об октетах.
Возвращаясь к выбору именно двадцати аминокислот для кодирования, стоит отметить еще одно интересное обстоятельство: этот выбор мог определяться также квантовой теорией информации, которая предлагает оптимальный алгоритм (алгоритм Гровера) упаковки и чтения информационного содержания ДНК (Апурва Патель, 2001). Такой алгоритм определяет число объектов N, различаемое числом ответов да/нет на вопросы Q, следующим образом:
(2Q +1) sin -1 (1 / √N ) = π /2 .
Решения этого уравнения для малых значений Q весьма характерны:
Q = 1lnN = 04.0
Q = 2lnN = 10.5
Q = 3lnN = 20.2.
Теоретически эти значения не обязательно должны быть целыми числами. Любопытно, что в первом приближении они соответствуют последовательности тетраэдрических чисел, а также эволюции функционального размера кодона от синглетного к триплетному. Другими словами, тетраэдр также можно построить из десяти и из четырех мономеров; эти числа и отмечены в решениях приведенного уравнения. Позднее мы покажем, что комбинация размерных параметров аминокислот и нуклеотидов, базирующаяся на предложенных нами правилах, приводит к пространственному равновесию тетраэдра из двадцати мономеров, соответствующих этим аминокислотам. Здесь же стоит, пожалуй, вспомнить актуальные до сих пор слова Вѐзе (1973): «Представляется почти жестокой шуткой, что Природа выбрала такое число [кодируемых] аминокислот, какое легко получается в результате множества
математических операций». Но, так или иначе, двадцати альфа-аминокислот (из сотен, встречающихся в природе) оказалось довольно для обеспечения необходимого разнообразия белков.
…………………
Число 496 , которым обозначена эта глава, интересно тем, что оно относится к классу так называемых совершенных чисел, и это единственное трехзначное совершенное число. Совершенным называют натуральное число, равное сумме всех своих собственных делителей (т. е. всех положительных делителей, отличных от самого́ числа). Сумма всех делителей числа 496 , то есть, 1+2+4+8+16+31+62+124+248, равна ему самому. Мы вспомнили о совершенных числах и отмечаем уникальность именно этого числа, потому что оно, во-первых, трехзначно – как трехзначны кодирующие элементы, о которых мы говорим, а во-вторых, как и все предыдущие упомянутые здесь числа, оно – случайно или нет – характеризует один из формальных параметров генетического кода, о которых мы будем говорить дальше. Терпение читателя небезгранично, и Автор вспоминает в связи с этим выдержку из письма одного из читателей известному популяризатору математики Мартину Гарднеру: Перестаньте отыскивать интересные числа! Оставьте для интереса хотя бы одно неинтересное число! Но соблазн велик, и трудно удержаться.