Русский генофонд на русской равнине

Балановская Елена Владимировна

Балановский Олег Павлович

ПРИЛОЖЕНИЕ: ОСНОВЫ ГЕНОГЕОГРАФИИ

 

 

Многие результаты, представленные в этой книге, кажутся кроликом, вытащенным из шляпы фокусника. Чтобы не казалось, что они появились «ниоткуда» и «сами по себе», мы решили привести в некоторые основы геногеографии — ведь учебника по ней нет. В главе 1 мы рассмотрели лишь некоторые идеи и понятия, на которые опирается геногеография. Здесь, в Приложении, постараемся бегло обрисовать важнейшие черты этой науки. Основные понятия и инструменты пришли из популяционной генетики человека. Но все они непременно преломляются в свете географии — «субкультуры, озабоченной пространством» [Родоман, 1990].

 

1. ПОНЯТИЯ

§ 1. Ген и генофонд

ГЕН И ГЕНОФОНД; ЧАСТНОЕ И ОБЩЕЕ

В результате генных мутаций ген может принимать множество состояний. Каждое такое состояние называется «аллель».

Представить себе генофонд можно как совокупность аллелей, циркулирующих в популяции.

Но важнее не статическое определение генофонда, а способ его изучения. Популяционная генетика, изучая генофонд, прежде всего интересуется его разнообразием, его дифференциацией.

Размах генетических различий между популяциями зависит от двух причин. Во-первых, от того, как долго и насколько разобщены популяции. Во-вторых, в какой степени и каким образом ген участвует в приспособлении популяции к особенностям среды (иными словами — от действия отбора). По приспособительному значению не только разные гены, но даже аллели одного гена могут резко отличаться друг от друга. А вот в том, что касается степени исторической разобщённости популяций, — здесь все гены находятся в равных условиях. Поэтому, если мы возьмём некий интегральный показатель по всем генам, и тем самым избавимся от их неравного приспособительного значения (от эффектов отбора), то с помощью этого показателя мы сможем увидеть, как генофонд зависит от истории популяции.

Структура генофонда — это те реально существующие и наиболее общие закономерности, которые характерны для всего генофонда в целом. Поэтому в описание структуры генофонда не входит специфика каждого из генов. Изменчивость одного гена — это лишь одна из бескрайнего множества проекций многомерного строения генофонда. Ее описание дает столь частное видение структуры генофонда, что само по себе не способствует решению основной задачи геногеографии. Чтобы решить эту задачу, нужно изучить изменчивость одного за другим многих генов, а затем тем или иным способом обобщить эти данные, избавиться от случайностей и искажений «частного» видения, получить общие характеристики генофонда.

Ясное понимание соотношения изменчивости отдельных генов и генофонда в целом — ключевой момент в геногеографии. Реально существующая, но недоступная непосредственному наблюдению структура генофонда проецируется во множество картин изменчивости, которые мы наблюдаем, перебирая один ген за другим. Отдельный ген выступает лишь в роли одного из маркёров генофонда, лишь как одно из бесконечного множества разнообразных и мелькающих отражений генофонда. Структура генофонда задаёт «общую модель» изменчивости каждого отдельного гена. Но оставляет ему значительную свободу «частного» проявления — картина изменчивости гена может значительно варьировать вокруг «общей модели» — по воле случая, под влиянием некоторых миграций или же по воле отбора. Поэтому так важно для изучения генофонда вычленить из изменчивости многих маркёров ту их общую составляющую, которая обусловлена общей структурой генофонда.

СКОЛЬКО ГЕНОВ И КАКИХ?

Здесь неизбежно возникает вопрос: какова количественная основа этой принципиальной разницы между двумя типами исследований? Если изучение общей изменчивости 120 маркёров считается изучением генофонда в целом, то будет ли достаточным изучение, например, 60 маркёров? Или 30? Или 10?

Этот вопрос в геногеографии формулируется так: сколько и каких маркёров надо включить в анализ, чтобы, обобщив изменчивость этих отдельных маркёров, получить надёжные характеристики генофонда в целом?

Необходимо убедиться, что разнообразие спектра маркёров отражает реальные характеристики генофонда. В таком случае по данным о нескольких маркёрах можно делать обоснованные выводы о генофонде в целом. Чем лучше в количественном и качественном отношении используемый набор маркёров, тем в большей степени его обобщённые характеристики приближаются к реальным характеристикам генофонда в целом.

Действительно «полигенные» исследования с высокой точностью описывают реальные характеристики генофонда, поэтому их результаты могут обладать предсказательной силой. Примером могут служить главные компоненты генофонда Европы («полигенное» исследование) [Cavalli-Sforza et al., 1994]: появляющиеся новые ДНК данные обязательно сравнивались с этим результатом, полученным по классическим маркёрам генетики — именно потому, что «старые» данные по классическим маркёрам рассматривались как прогноз для новых данных по ДНК маркёрам.

Как известно, основной вывод, сделанный Кавалли-Сфорца с соавторами [Cavalli-Sforza et al., 1994] на основе изучения главных компонент народов Европы, это вывод о том, что ведущие черты генофонда Европы сформировались в неолите в ходе постепенного распространения земледельческого населения из Малой Азии через Балканы далее к северу и западу Европы. Результаты же работ последних лет, выполненных в большинстве случаев на маркёрах митохондриальной ДНК, свидетельствуют скорее о более раннем, чем неолитическая эпоха, времени формирования основных черт европейского генофонда. И может сложиться поверхностное впечатление, что новые работы по ДНК маркёрам опровергают старое исследование, выполненное по классическим маркёрам, что оно не отражало закономерностей генофонда в целом. И можно даже перейти от этого впечатления к мнению, что каждый новый тип маркёров будет по-новому описывать европейский генофонд, и что реальной структуры генофонда в действительности нет. Однако это впечатление обманчиво.

В действительности, данные о «палеолитическом» времени возникновения присущих европейскому генофонду линий мтДНК могут вступать в противоречие только с «неолитической» интерпретацией главных компонент. Сам же факт основного направления изменчивости с юго-востока, установленный по классическим маркёрам, остаётся ни в коей мере не опровергнутым. Более того, он был подтверждён уже самыми первыми исследованиями по изменчивости ДНК маркёров в Европе.

§ 2. Ареал популяции

СТРУКТУРА АРЕАЛА

Для популяций человека важнейшими атрибутами являются брачная структура (доля браков, заключаемых вне популяции, или же степень нарушения свободы браков в пределах популяции) и ареал популяции.

Ареал представляет собой жизненное пространство популяции и является важным фактором в её эволюции: ареал либо создаёт условия для формирования генетических различий, либо их фиксирует, если они возникли за счет иных причин.

Оказывается, даже генофонд Москвы, где массы населения перемешиваются на клочке земли, не только в прошлом, но и сейчас обладает географической подразделённостью [Курбатова, 2004]. Тем более она была характерна для сельского русского населения, где брачные традиции («Хоть за курицу, но на свою улицу») приводили к генетическим различиям между популяциями. Даже для тех этносов, целостность которых поддерживается только культурной традицией (например, для евреев и цыган с их «виртуальными» ареалами), пространство остаётся важным источником генетических различий: географически разнесенные популяции по своим частотам генов зачастую сближаются с популяциями тех народов, среди которых они расселены [Mourant et al., 1978; Carmeli, Cavalli-Sforza, 1979; Karlin et al., 1979; Livshits et al., 1991]. Обычно, аргументируя несущественность ареала для этноса, приводят в пример устойчивые этносы с разорванными ареалами — например диаспоры и колонии. Однако с точки зрения генетики здесь проблемы, на наш взгляд, вообще нет. Если группа людей, проживающая вне основного ареала, придерживается прежней брачной структуры, то изменений в популяции и её генофонде просто не произошло. Неважно, где в тот или иной момент находится диаспора или колония — её члены в этом случае все равно генетически относятся к прежней популяции и участвуют в её воспроизведении. Можно считать, что её гены просто посланы «в командировку». Иной случай, если брачная структура резко меняется. Тогда независимо от того, заключают ли члены колонии только браки между собой в пределах своего нового ареала или же обмениваются генами с окружающими их популяциями, происходит формирование новой популяции с её собственным ареалом. Останется ли эта дочерняя популяция в рамках прежнего «материнского» этноса, или станет частью «удочерившего» её этноса, или же вообще станет со временем новым этносом — это дело не генетики, а истории и этнического самосознания. Генетика не определяет эти процессы, она лишь следует за ними. Для нее важно, что даже в «исключительных» этносах неоднородность популяции обычно сопряжена с географической подразделённостью. Тем более такая сопряжённость между подразделённостью самой популяции и структурированностью её ареала характерна для популяций, имеющих целостные, исторически сложившиеся и географически очерченные ареалы. Структурированность и целостность ареала вовсе не исключают, а обычно сопутствуют друг другу. Популяция населения крупного региона состоит из множества популяций разных иерархических уровней, вложенных друг в друга, как матрёшка в матрёшку. И ареалы этих субпопуляций также следуют «принципу матрёшки».

Структура и процесс формирования ареала часто является одной из важнейших страниц истории генофонда. Наиболее информативны эти страницы для тех народов, в жизни которых играли важную роль перемещения — массовые миграции, переселения, экспансия, колонизация новых территорий. История народа, история его генофонда порою может быть реконструирована через историю формирования ареала, который — при благоприятном стечении исторических обстоятельств — может сохранить память о развитии популяции не только в пространстве, но и во времени.

МЕХАНИЗМЫ ФОРМИРОВАНИЯ АРЕАЛА

Для популяций человека исторически сформировавшийся ареал популяции освящён памятью предков: любовь к отечеству — это зачастую «любовь к святым гробам»; это те корни, без которых человек становится «перекати-поле». Традиции, фольклор, предания и память народная любовно хранят черты и образы популяционного ареала, тех мест, в которых формировалась и жила популяция. Недаром столько крови проливается за «пядь родной земли», недаром поколения изгнанных народов живут мечтой о возвращении на свою историческую родину, на «свою» землю. И возвращаются, преодолевая немыслимые преграды, восстанавливая при этом не только ареал, но отчасти и генетическую структуру популяций. Наша многострадальная страна полна примеров этому.

При этом ареал некорректно представлять лишь в двумерном пространстве географической карты. Популяционный ареал, как правило, содержит и иные измерения. Это может быть не только третье измерение физического пространства — высотное. В качестве иных измерений могут выступать любые факторы культуры (конфессиональные, лингвистические, этнографические и т. д.) или же факторы среды [Fisher, 1930; Edwards, Cavalli-Sforza, 1972; Алексеева, 1972, 1975, 1977, 1986, 1998; Дубинин и др., 1976; Sokal, 1979а; Бунак, 1980; Piazza et al., 1981а; Алтухов, Курбатова, 1984, 1990; Вавилов, 1987; Новорадовский и др., 1992; Спицын и др., 1985, 1994; Курбатова, 1996]. Например, в характеристике хозяйственнокультурных типов (степные номады, охотники-оленеводы, охотники на морского зверя и т. д.), звучит то дополнительное измерение ареала, которое свойственно данной популяции и обуславливает устойчивость ареала. Именно благодаря другим измерениям ареала возможны, например, случаи длительного мирного сосуществования в одном географическом пространстве двух популяций, ориентирующихся на разные природные ресурсы, или же принадлежащих к разным конфессиям, или относящихся к разным социальным слоям (сословия, касты).

Важнейшим измерением при формировании ареала популяции являются поведенческие механизмы. Именно они чаще всего служат основой для возникновения симпатрического видообразования и существования симпатрических популяций [Dobzhansky, 1970; Майр, 1974; Яблоков, Юсуфов, 1976; Шмальгаузен, 1983; Воронцов, 1984; Северцов, 1987; Яблоков, 1987; Кайданов, 1996]. Если для птиц это может быть вариация песни, для грызунов — особенность их песенки-писка, для любых видов — своеобразие брачного поведения, то для человека поведенческие особенности, как правило, опосредованы через особенности культуры, воплощены в них. Весь исторически сложившийся облик обрядности, одежды, норм морали, пищи, домостроительства, множества этнографических, лингвистических, конфессиональных особенностей создают географически невидимые границы популяций.

Это приводит к тому, что на одной территории определенное время могут существовать популяции, практически не заключающие между собой браки. Уникальным примером такой симпатрии, например, может служить изолят адыгейцев, древнего коренного населения

Северного Кавказа. Их небольшая группа (причерноморские шапсуги) проживает среди массы пришлого населения на побережье Черного моря (от Туапсе до Сочи). Но даже в условиях огромного миграционного давления курортной зоны шапсуги сохраняют давние брачные традиции — подавляющая часть браков заключается в пределах популяций шапсугов общей численностью всего лишь 5 тыс. человек [Почешхова, 1998; Почешхова и др., 1998; Балановская и др., 1999].

ПОНЯТИЯ АРЕАЛ В ГЕНОГЕОГРАФИИ

Изучая популяции стандартными методами статистики, исследователь, как правило, стремится вычленить в наблюдаемой генетической изменчивости различия между популяциями (GST, FST, генетические расстояния). Но при этом неотъемлемое свойство популяции — её ареал — обычно так и остаётся за рамками исследования. Он не поддаётся обычному генетико-статистическому анализу — при кластеризации популяций и построении графиков главных компонент географическое положение популяций как бы исчезает из анализа. И потому полнота картины генофонда не достигается, а из межпопуляционной изменчивости исчезает её географическая суть.

Пространство при этом служит своего рода «учётным бланком», в котором фиксируются точки — популяции. Ареалы популяций, их положение в пространстве не учитываются. И изучение межпопуляционной изменчивости сводится к сравнению чисел в точках, чисел в таблице. Географическая структура генофонда при этом остаётся неизвестной. Вместе с географией генофонда и часть его истории остаётся за рамками исследования. В географической структуре генофонда запечатлена динамика его формирования, поэтому географический подход позволяет через анализ пространственной изменчивости прийти к анализу истории генофонда. Но для этого пространство из фона должно стать организующим фактором.

Это позволяет сделать лишь карта — лишь благодаря ей ареал становится важнейшим действующим лицом. Поэтому геногеография последовала за географией, сделавшей карту основой и инструментом тематических исследований.

§ 3. Дрейф и миграции, мутации и отбор

ГЕНЕТИЧЕСКИ ЭФФЕКТИВНЫЙ РАЗМЕР ПОПУЛЯЦИИ N е

В популяции есть дети, взрослые, старики, и каждый из них несет два аллеля каждого аутосомного гена. Тогда, казалось бы, генетический размер популяций — то есть общее число генов в ней — можно просто считать в два раза большим, чем число людей в популяции. Но для изучения популяции важно знать, сколько генов будет передано следующему поколению. Следовательно, в подсчёт уже нельзя включать гены стариков и детей — генетического прошлого и генетического будущего популяции. Однако и оставшиеся гены также различны по своим судьбам. То, что взрослые, находящиеся в репродуктивном возрасте, оставляют разное число потомков, с точки зрения генетики означает, что они передадут меньшее или большее число копий своих генов следующему поколению. Чем больше в данной популяции семьи различаются по своему размеру, тем меньше генетически эффективный размер популяции. Но и это ещё не все: необходимо, чтобы дети — носители родительских генов — выжили, выросли, обзавелись своими семьями, оставили потомков, то есть, чтобы не прервалась передача генов по цепи поколений.

Например, даже неравное соотношение полов в популяции может означать, что гены не всех мужчин и женщин будут переданы следующему поколению. И это немаловажно. Представим себе «гаремную» популяцию (в которой лишь малая часть всех мужчин передаёт свои гены следующему поколению), и пусть в каждом из 10 гаремов по 50 жен (итого, 510 человек, передающих свои гены следующему поколению). Генетически эффективный размер N e такой популяции будет менее 40, а вовсе не 500, как было бы, если бы равное число мужчин и женщин (по 250) участвовали в передаче генов следующему поколению. Иными словами, генетически эффективный размер N e нашей «гаремной» популяции с 510 репродуктивно активными членами окажется меньше генетически эффективного размера крошечной популяции с 20 мужчинами и 20 женщинами, но заключающими браки свободно и равноправно.

Все эти и многие другие обстоятельства интегрированы в показателе генетически эффективного размера популяции Ne. Обычно он составляет около 30 % от общего числа генов в популяции. Это значит, что из всех генов популяции на каждый момент времени лишь треть связана с формированием генофонда следующего поколения. И генетические свойства нового поколения начинают зависеть от того, насколько полно (или же неравномерно) были представлены в этой трети гены родительского поколения.

При оценке дифференциации генофонда через равенство F e =1/(1+4N e M e ) по умолчанию предполагается стационарность генетического процесса и постоянство эффективного размера популяций N e , причём не только в пространстве, но и во времени. Этот вопрос рассматривался, в частности, в работах [Rogers, Jorde, 1995; Bowcock et al., 1991, Rychkov, Sheremetyeva, 1977], где показано, что для широкого круга популяционно-генетических задач эффективный размер популяций можно принять постоянным для всей ойкумены на протяжении последних 10 тыс. лет [Rogers, Jorde, 1995, Bowcock et al., 1991]. Это связано с тем, что в ряду популяций в пространстве, как и во временном ряду поколений одной популяции, генетически эффективный размер N e определяется не как простая арифметическая средняя (∑N k /k) по k популяциям, а как гармоническая средняя (1/к∑1/ N k )!. Так, например, для шести популяций с численностью 10, 100, 1’000, 10’000, 100’000, 1’000’000, средняя гармоническая величина N e будет равна лишь 50, а не 185 тысячам, как было бы в случае арифметической средней. Иными словами, генетически эффективный размер задаётся самыми «малыми» популяциями (как в примере с неравенством полов в «гаремной» популяции он задавался наименьшей — мужской — частью популяции).

Очень важно и то, что рост численности населения главным образом связан с увеличением числа популяций, а не их среднего генетически эффективного размера.

СЛУЧАЙНЫЙ ДРЕЙФ ГЕНОВ

Ясно, что когда такая треть абсолютно мала (т. е. в нее входят «считанные» гены), случайные события легко могут исказить популяционную частоту гена при передаче из поколения в поколение. И чем меньше Ne, тем больше у потомков непредсказуемые отклонения от родительского генофонда. Когда такие отклонения накапливаются в долгой цепи поколений, то крайние звенья этой цепи становятся почти не похожими друг на друга. Процесс случайных отклонений в частотах генов, происходящих при передаче из поколения в поколение, официально назван «случайным дрейфом» генов. Это название удачно тем, что оно сразу говорит нам и о том, что изменения частоты гена в каждом поколении происходят чисто случайным образом (частота «дрейфует», как льдина); и о том, что в результате таких чисто случайных отклонений, популяции все же постепенно удаляются друг от друга. Они как осколки льдины, «отдрейфовывают» и друг от друга, и от материнской льдины, от которой они откололись — от прапопуляции. Если когда-то в результате событий истории две популяции разделились, а затем под действием дрейфа генов генетически удалились друг от друга, то генетическое расстояние между ними (расстояние, на которое они отдрейфовали) будет зависеть от двух величин — от генетического размера популяций (N e ) и от времени их раздельного существования (t). Значит, в генных различиях между популяциями в скрытом виде присутствует время, и время это измеряется поколениями.

Как представить себе дрейф генов? Предположим, что исходная частота аллеля равнялась 0.5. Тогда это можно представить как огромный кувшин с разноцветными горошинами, где половина горошин — красная. Эта частота сохранится и в следующем поколении, если Ne велико — то есть если мы почти все горошины пересыпаем в следующий кувшин, в следующее поколение. Если же N e мало, и мы зачерпываем лишь пригоршню горошин из генофонда, то случайно может оказаться, что в ней нет красных горошин (частота аллеля равна нулю), или напротив, все горошины красные (частота аллеля равна единице). Предположим, что мы изучаем не исключение из правил, не панмиксный мегаполис, а обычную небольшую популяцию, из которых и состояло человечество на протяжении тысячелетий, на протяжении почти всей своей истории. В ней из огромного множества гамет, произведённых всеми мужчинами и женщинами, в следующее поколение передаётся лишь горстка. Значит, в следующем поколении частота аллеля будет уже не 0.5, а чисто случайно изменится в ту или иную сторону.

Итак, дрейф генов — это ошибка выборки из генофонда, совершаемая не исследователем, а самой историей. Ошибка тем больше, чем меньше генетически эффективный размер N e — та часть популяции, которая должна передать генофонд следующему поколению. Чем меньше размер популяции, тем больше ошибка, тем сильнее случайный разброс в частотах гена от поколения к поколению, тем мощнее дрейф генов.

ГЕНЕТИЧЕСКИ ЭФФЕКТИВНЫЕ МИГРАЦИИ М е

Обмен генами между популяциями называют миграцией генов независимо от того, что привело к проникновению «чужих» генов в популяцию — веками устоявшаяся структура брачных связей между соседними популяциями («поток генов»), случайные браки с пришельцами из других популяций или же перемещения целых групп населения.

Количественной характеристикой этого процесса служит скорость притока генов за поколение, обозначаемая М е . При этом учитывают не только общее число «прибывших» генов, но и степень их «новизны», несхожести с собственными генами популяции — чем «неожиданней» прибывший с миграцией вариант гена, тем больше генетическая эффективность миграции. При этом «новизна» прибывшего гена может определяться не только географической, но и культурно-исторической разобщённостью популяций.

Представим, что в русской глубинке поселилась небольшая группа приезжих эфиопов и столь же немногочисленная группа переселенцев-белорусов. Поначалу и к тем, и к другим будут относиться как к чужакам, но потом станут заключать с ними браки, и со временем обе приезжие группы растворятся в местном населении. Будущим популяционным генетикам будет куда легче обнаружить миграцию эфиопов, чем след переселения белорусов: за счет резкого отличия мигрантов и принимающей популяции генетический эффект миграции эфиопов будет намного сильнее.

ДРЕЙФ И МИГРАЦИИ

Миграция генов — это социальный в своей первопричине процесс, который предотвращает утрату генетического сходства между популяциями в результате дрейфа генов. Любая популяция, таким образом, вовлечена в оба противодействующих процесса — дрейфа генов (N e ) и миграций генов (М e ). Их устойчивое противодействие задаёт новый предел для генетического расхождения популяций F ST =F e . Благодаря потоку генов, новый предел различий между популяциями F e оказывается гораздо меньше единицы (как ожидалось в случае действия дрейфа генов в условиях полной изоляции), а конкретная величина предельного значения F e определяется теми историческими событиями, которые предотвратили потерю (или привели к появлению) общих генов. Это справедливо не только для взаимодействия разных популяций, но и между частями одной популяции, особенно если она расселена на большой территории.

МУТАЦИИ И ОТБОР

В популяциях человека действуют все факторы генетической динамики, и лишь их удельный вес различен в разных популяциях и для разных генов. Кроме двух только что рассмотренных главных факторов микроэволюции (дрейфа и миграций генов), есть ещё два фактора — мутации и отбор. При решении главной задачи книги — изучения структуры русского генофонда — они играют второстепенную роль, и потому скажем о них лишь несколько слов.

Генные мутации изменяют сами гены, в то время как остальные факторы меняют частоты генов. В качестве фактора популяционной динамики действие мутаций оказывается настолько слабее дрейфа генов и миграций, что на популяционном уровне его уловить очень сложно (см. рассмотрение этого вопроса, например, в работе [Динамика популяционных генофондов…, 2004]).

Исключение составляют однородительские маркёры — митохондриальной ДНК и Y хромосомы. Восстановление исторической последовательности их мутаций и создаёт уникальную возможность установления исторической последовательности миграционных процессов.

Отбор, как и мутации, действует на каждый ген в отдельности и по-своему, в отличие от дрейфа и миграций, которые влияют на все гены сразу и одинаково. Собственно исторический (то есть общественно-исторический) и микроэволюционный (то есть естественно-исторический) процессы различаются не только по силе воздействия на генофонд человека, но и по характеру воздействия на его гены. В исторический процесс все гены населения вовлечены в равной степени независимо от их функции в организме. В микроэволюционный процесс гены вовлекаются «индивидуально» и лишь в меру своей значимости для адаптации популяции к условиям среды. Воздействие исторического фактора на генофонд математически строго моделируется как селективно-нейтральный процесс. Некоторые результаты его воздействия, например различия между популяциями, можно определить достаточно точно. Однако для селективно-значимых генов на действие исторических сил накладывается влияние эволюционной силы отбора. Это увеличивает или уменьшает уровень изменчивости данного селективно-значимого гена F SX(i) по сравнению с общим для всех генов селективно-нейтральным уровнем F e .

§ 4. Дрейф и миграции в подразделённой популяции

Итак, два главных фактора — дрейф генов и их миграции — определяют скорость и итоги селективно-нейтральной микроэволюции генофонда. Чтобы понять, какой смысл популяционные генетики вкладывают в эти слова, лучше всего вместо формул рассмотреть несколько примеров.

ТОЛЬКО ДРЕЙФ ГЕНОВ

Перед Вами (рис. 1.1., приводится по [Алтухов, 1983]) компьютерная модель дрейфа генов — компьютерный эксперимент, проведённый Юрием Петровичем Алтуховым и его сотрудниками для панмиксных популяций. Так называют популяции, которые не подразделены внутри себя — все члены такой популяции имеют равную вероятность заключить брак друг с другом. На старте десять одинаковых панмиксных популяций с одной и той же частотой гена (0.5). Или лучше представить их маршруты как десять вариантов эволюции одной популяции — варианты изменения частоты от одной и той же стартовой частоты гена (0.5) в некой «прапопуляции». Мы видим, как от поколения к поколению резко меняется — «дрейфует» — частота гена в пределах от 0 до 1. На финише лишь в одном случае из десяти популяций сохранился полиморфизм. Все остальные популяции содержат либо только «красные горошины», либо навсегда потеряли их. Это означает, что из-за дрейфа генов панмиксные — бесструктурные — популяции теряют память о прошлом генофонда. Это значит, что по современным популяциям (состояние в конце графика) мы не сможем восстановить, каким же был генетический облик прагенофонда, облик исходной популяции. Это судьба панмиксных изолированных популяций. Они утрачивают генетическую память: многие «предковые» аллели исчезли, частоты других — непредсказуемо изменились.

Рис. 1.1. Быстрые изменения частоты гена в панмиксных популяциях (по [Алтухов, 1983]).

ДРЕЙФ И МИГРАЦИИ

Но теперь изменим лишь один параметр популяции — рассмотрим не панмиксную, а подразделенную внутри себя популяцию (рис. 1.2., приводится по [Алтухов, 1983]). Все то же, но каждая популяция разделена на подгруппы с небольшими миграциями между ними. В результате устойчивость генофонда резко возросла. На финише все десять подразделённых популяций сохранили полиморфизм и в какой-то степени воспроизводят исходную частоту гена, хотя и с большим разбросом. Это означает, что подразделённые популяции намного устойчивее к действию дрейфа генов и эволюционируют намного медленнее: частоты генов в субпопуляциях от поколения к поколению «скачут», но при этом средняя частота в тотальной «супер» популяции (в которую они входят) остаётся на месте. Это означает, что такая подразделённая популяция благодаря только одной лишь её подразделённости — имеет серьёзные шансы сохранить исходное разнообразие, сохранить генетическую память.

Рис. 1.2. Стабильность частоты гена в подразделённых популяциях (по [Алтухов, 1983]).

ЭКСПЕРИМЕНТАЛЬНЫЕ ПОПУЛЯЦИИ

Можно возразить: жизнь сложнее компьютерной модели. Согласны.

Поэтому перед вами прекрасный эксперимент на живом объекте — дрозофиле. На рис. 1.3. (приводится по [Алтухов, 1983]) представлены результаты известных экспериментальных работ Юрия Петровича Алтухова и Елены Юрьевны Победоносцевой. Мухи были расселены по отсекам популяционного ящика и обменивались генами точно так, как мы предположили в предыдущей компьютерной модели — равная численность, равновероятный обмен между отсеками, но основная часть скрещиваний происходит в отсеке.

Рис. 1.3. Динамика частоты гена в панмиксной и подразделённой популяции D.melanogaster (по [Алтухов, 1983]).

Черные кружки — панмиксная популяция.

Белые кружки — подразделённая популяция.

Слева вверху показана конструкция ящика, в котором обитала подразделённая популяция дрозофил.

Мы видим, что в подразделённой популяции средняя частота гена (белые кружки) остаётся практически неизменной: в течение 80 поколений варьирует около исходной частоты 0.5: от 0.6 до 0.4. Подразделённая популяция хранит генетическую память.

Другой ящик тех же мух, с той же численностью и в тех же условиях, но с полной свободой скрещивания, — моделирует панмиксную популяцию (рис. 1.3). В ней — за то же время — частота гена упала от 0.6 до 0.1 (черные кружки). Панмиксная популяция не помнит о прошлом, она теряет генетическую память.

ОТ НЕОЛИТА ДО СОВРЕМЕННОСТИ

Можно возразить: жизнь людей сложнее жизни мух. Возможно. Обратимся к человеку.

На человеке эксперименты проводит сама история. Человек для популяционной генетики является также очень интересным объектом — у него детально изучена изменчивость в пространстве и времени. На рис. 1.4. (приводится по [Rychkov, Sheremetyeva, 1977]) представлена характеристика популяций неолита и современности. Анализ был проведён Юрием Григорьевичем Рычковым и Аллой Арменовной Мовсесян по дискретно варьирующим признакам черепа. Предполагается, что эти признаки (дополнительные швы, вставные косточки, отверстия) по высокой наследуемости приближаются к генетическим маркёрам. Частота каждого из 12 признаков отложена на соответствующем радиусе, и получен полигон — своеобразный схематический «портрет» популяции.

Рис. 1.4. Устойчивость средних характеристик популяционной системы Сибири с эпохи неолита до современности (по [Rychkov, Sheremetyeva, 1977]).

Сравнение распределений 12 независимых признаков в неолитических (А) и современных (В) популяциях Сибири показывает, что невзвешенные частоты q t в современной популяционной системе являются хорошими оценками q 0 в предковой неолитической популяции, t≈200 поколений. В центре рисунка помещена схематическая диаграмма теоретического оправдания такого сравнения.

Современные популяции: I — азиатские эскимосы; II — чукчи Чукотсткого полуострова; III — алеуты; IV — неги дал ьцы бассейна Амура; V — ульчи нижнего Амура; VI — тунгусы Восточной Сибири; VII — буряты Прибайкалья; VIII — монголы; IX — тувинцы Саянского нагорье; X — теленгиты Алтая; XI — хакасы Минусинской котловины, Енисея; XII — селькупы Западной Сибири; XIII — манси восточных склонов Урала; XIV — ханты бассейна Оби.

Неолитические популяции: а — серовская культура, Ангара; b — китойская культура, Ангара; с — глазковская культура, Ангара; d — серовская культура, верхняя Лена; е — глазковская культура, верхняя Лена; f — глазковская культура, Забайкалье.

Частота q=0 в центре круга; q=0.3 на периметре. 1-12: признаки, перечень которых приведен в [Рычков, Мовсесян, 1972; Мовсесян, 1973; Рычков, 1973].

Мы получаем уникальную возможность заглянуть в прошлое — ведь прямо по ДНК маркёрам такой анализ пока провести нельзя.

Современный генофонд представлен 24 коренными народами Сибири. Неолит представлен шестью палеоантропологическими сериями, охватывающими довольно большой промежуток времени. В среднем современность и неолит разделяет более пяти тысяч лет, 200 поколений сменились за это время. Мы видим, как резко различаются портреты всех современных популяций и насколько не похожи друг на друга древние популяции. Сходными во всей серии, состоящей из 31 «портрета», оказались лишь два «портрета»: обобщённый «портрет» современности и обобщённый «портрет» неолита. В данном виде анализа вся Сибирь рассматривается как одна подразделённая популяция. Прошли тысячелетия, а средние параметры этой подразделённой популяции все те же: неолит и современность отличаются друг от друга меньше, чем нынешние народы, живущие по соседству. Подразделённая популяция хранит генетическую память и проявляет фантастическую устойчивость своего генофонда.

УСТОЙЧИВОСТЬ ПОДРАЗДЕЛЕННЫХ ПОПУЛЯЦИИ

К сожалению, ДНК маркёры пока не позволяют разглядеть генофонды прошлого. Но можно привести и другие примеры — например, с использованием не дискретно варьирующих признаков черепа, а фамилий. Полные родословные, собранные Эльвирой Аслановной Почешховой уникальны — они охватывают всех ныне живущих адыгов-шапсугов и уходят на глубину шести поколений. Мы вместе Э. А Почешховой и Ю. А. Серегиным провели анализ состава фамилий в каждом поколении, а затем построили обобщённые карты распространения фамилий для каждого поколения шапсугов. Они позволили своими глазами увидеть, как меняется генофонд в пространстве и времени (глава 10, рис. 10.4.3).

Оказалось, что все шесть карт чрезвычайно похожи. Коэффициент корреляции между самыми удалёнными во времени картами — первого и шестого поколений — невероятно высок: он составил r=0.85. Мы видим, что генофонд сохранил себя на протяжении всех шести поколений.

Но самое удивительное в том, что это за народ. Мы видим отражение потерянного навсегда. Адыги-шапсуги — древнее население Северного Кавказа. Их сплошной ареал простирался от Кубани до Черного моря. Но их смела Кавказская война. К 1865 году все причерноморские аулы шапсугов были уничтожены, а прикубанские — переселены. Сейчас от них осталось два осколка: 5 тысяч человек в Прикубанье, и столько же — в предгорьях у Черного моря. Но они сохранили отражение разрушенного генофонда. У нас есть основания считать, что Прикубанье отражает прежнюю «Малую Шапсугию», жившую к северу от Кавказского хребта. А в Причерноморье постепенно просачивались те, кто остался в живых из «Большой Шапсугии». Они старались селиться именно в той долине, где испокон веков жили их предки. Они сохранили традиции брачной структуры. Подразделённая популяция вновь доказала нам свою необычайную устойчивость.

ИТОГИ МИКРОЭВОЛЮЦИИ

Все приведённые примеры показывают, что подразделённая популяция устойчива и хранит генетическую память, а панмиксная — нет. Мы убедились, что микроэволюция в этих популяциях идет с разной скоростью и приводит к разным результатам. Разное соотношение дрейфа и миграций в ходе микроэволюции мы видим в её итогах — в пространственной изменчивости популяций — независимо от того, рассматриваем ли мы эти итоги с помощью карт или же оценок различий между популяциями F ST ≈F e =1/(1+4N e M e ) .

Например, и карты, и F SТ -статистики свидетельствуют о генетическом «однообразии» населения Европы и о генетическом разнообразии коренного населения Сибири. Отличия этих двух генофондов поражают: генетическое разнообразие локальных популяций в пределах одного «среднего» сибирского народа больше, чем все генетические различия между всеми народами Западной Европы! Столь впечатляюще разные итоги микроэволюции в Сибири и в Европе (глава 9, рис. 9.3.3.) заданы лишь разным соотношением дрейфа и миграций генов. Вот насколько мощны эти два фактора микроэволюции.

§ 5. Подразделённость генофонда

В предшествующем разделе мы видели, как наличие в популяции подразделённости резко меняет её свойства: и дрейф генов, и миграции начинают действовать по-другому, а сама популяция приобретает генетическую устойчивость. Это, возможно, самый яркий, но далеко не единственный пример того огромного значения, которое имеет подразделённость популяции для её генофонда.

Роль подразделённости столь велика, что её иногда (наряду с дрейфом генов, миграциями, мутациями и естественным отбором) называют ещё одним, пятым фактором микроэволюции. Это, конечно же, не вполне верно. Ведь фактор подразделённости влияет на генофонд не непосредственно, а через «обычные» факторы микроэволюции. Но это влияние столь ощутимо, что у самых разных авторов возникает желание упомянуть подразделённость (в виде популяционной структуры или же в обличии инбридинга) при перечислении важнейших факторов, определяющих генофонд.

В классической популяционной генетике подразделённость популяции является одним из центральных моментов: на ней строится и теория инбридинга, и расчёт межпопуляционной изменчивости, и анализ иерархически организованных популяций. Именно подразделённости посвящены множество математических моделей и основополагающие работы Самуила Райта, Масатоши Нея и многих других «классических» популяционных генетиков.

Мы не будем пытаться дать здесь сколько-нибудь полный обзор этого «главного» раздела популяционной генетики, а рассмотрим лишь несколько моментов, важных для анализа пространственной структуры русского генофонда.

ЧТО ТАКОЕ ПОДРАЗДЕЛЁННАЯ ПОПУЛЯЦИЯ

Чтобы представить, что генетики понимают под подразделённой популяцией, достаточно лишь знать, что её противоположностью является популяция панмиксная. В панмиксной популяции все члены имеют равную вероятность вступить в брак друг с другом — внутри панмиксной популяции нет барьеров для потока генов. А внутри подразделённой популяции такие барьеры есть. Подразделённая популяция — та, которая в процессе передачи информации в поколениях оказывается подразделённой на части: внутри каждой части поток генов свободен, а между частями — ограничен. Панмиксная популяция похожа на цельный листок березы или липы, а подразделённая — на рассечённый листок клевера. Как лист рябины состоит из нескольких мелких листочков, так и подразделённая популяция состоит из нескольких субпопуляций.

Подразделённость, то есть наличие барьеров для потока генов, может быть реализована самыми разными способами. Самый очевидный и самый частый — это пространственная, географическая подразделённость: популяция, расселившись на большой территории, естественным образом распадается на части, соответствующие географическому членению этой территории. Например, народы, живущие в горах, часто подразделяются так, что каждая группа занимает свою долину или свое ущелье. А живущие на равнине русские тоже подразделяются, но уже не по долинам, а по географическим областям. Ведь очевидно, что рязанец скорее женится на живущей по соседству рязанке, чем на далекой неизвестной ему вологодской красавице. Именно таким образом пространство, ареал популяции становится тесным образом связанным со структурой популяции, с её подразделённостью на составные части.

Подразделённость может быть реализована и множеством других способов. Например, обычай заключать браки среди кровных родственников тоже нарушает панмиксию. А значит, в популяции появляется некая, пусть слабая, подразделённость, которую в данном случае мы назовём неслучайным инбридингом. Неслучайным — потому что он происходит вследствие неслучайного, ассортативного скрещивания — родственники заключают браки преимущественно с родственниками, и это приводит к увеличению доли гомозигот в популяции. А сама популяция как бы подразделяется внутри себя на группы тех, кто является в большей степени родственниками. Обычай кровнородственных браков распространён, например, в Дагестане и среди многих других горных народов, где он вызван, как считается, экономическими причинами (стремлением сохранить самую большую ценность — с трудом созданный в горах надел земли — в руках одной большой семьи).

Явление, совершенно отличное внешне, но равнозначное с точки зрения популяционной генетики, можно наблюдать на противоположном конце Кавказа. Небольшие, изолированные друг от друга популяции адыгейцев не допускают кровнородственные браки вплоть до седьмой степени родства. Но в силу самой изолированности аулов дрейф смещает частоты генов в каждом ауле независимо, и, рассматривая всю систему из нескольких аулов, мы опять-таки видим увеличение доли гомозигот (явление, известное в популяционной генетике как эффект Валунда или действие подразделённости). И потому это явление возрастания гомозиготности популяционный генетик тоже назовёт инбридингом — но, в отличие от дагестанского варианта, случайным инбридингом.

ВЕЗДЕСУЩНОСТЬ ПОДРАЗДЕЛЁННОСТИ

Тут мы сталкиваемся с очень важным моментом геногеографии. Возникает вопрос — а что нам считать популяцией? Большую подразделённую популяцию (всех русских) или её отдельные «разделы» (население Рязанской, Вологодской и других областей)? Что правильнее: считать популяцией отдельный аул адыгейцев, а всех адыгейцев считать «суперпопуляцией», или же адыгейцев считать «просто популяцией», а отдельные аулы — её частями?

Для популяционной генетики этот вопрос не имеет смысла. Исследователь может выбирать для рассмотрения популяцию любого иерархического уровня — от небольшой индейской деревушки до населения всей Америки. Но что имеет огромный смысл и обязательно для каждого — это всегда, в любом случае отдавать себе отчет в том, популяцию какого уровня мы в данный момент рассматриваем.

Все человечество представляет собой одну гигантскую популяцию, подразделённую на множество меньших, но все ещё огромных популяций, которые дальше подразделяются на всё более дробные. Это принцип матрёшек, с тем отличием, что в большую матрёшку входит только одна следующего размера, а популяция обычно включает множество вложенных в нее одинаково меньших «матрёшек».

РАЗЛИЧИЯ МЕЖДУ ЧАСТЯМИ ПОДРАЗДЕЛЕННОЙ популяции

Легко видеть, что лист дуба подразделён на лопасти, но лист каштана или смоковницы подразделён намного больше. Популяции тоже различаются по степени подразделённости. Эту степень можно измерить несколькими способами.

Во-первых, можно сравнить, насколько отдельные части (субпопуляции) генетически отличаются друг от друга. Для этого нужно лишь знать частоты генов в каждой из субпопуляций и вычислить величину генетических различий между ними. То же самое можно описать и чуть другими словами: чтобы определить степень подразделённости популяции, нужно рассчитать дисперсию частоты гена в субпопуляциях. Понятно, что если популяция в большой степени подразделена (субпопуляции в большой мере изолированы друг от друга), то частота гена в субпопуляциях значительно варьирует, и дисперсия частоты будет велика.

Второй способ измерить подразделённость состоит в расчёте гетерозиготности. Как известно из правила Харди-Вайнберга, в панмиксной популяции с частотой аллеля q гетерозиготность составляет 2q(1-q). А в подразделённой популяции с той же средней частотой аллеля q гетерозиготность оказывается меньше (так называемый эффект Валунда). Причём это снижение гетерозиготности тем больше, чем выше степень подразделённости популяции. Поэтому, сравнивая среднюю гетерозиготность субпопуляций (обозначаемую H S ) с теоретически ожидаемой гетерозиготностью тотальной популяции Нт, можно вычислить степень подразделённости популяции, обозначаемой как G ST . Формула расчёта очень проста: G ST =(H T -H S )/H T .

Оба способа расчёта — и через дисперсию, и через снижение гетерозиготности — измеряют одну и ту же подразделённость. Поэтому, при условии использования адекватного математического аппарата, эти две величины оказываются равны друг другу.

РАЗЛИЧИЯ МЕЖДУ ПОПУЛЯЦИЯМИ

Существует много способов сравнить две популяции и определить степень их генетического различия. Эти меры получили название генетических расстояний (генетических дистанций). Все они сравнивают, насколько различаются частоты аллелей в двух популяциях. Возникает вопрос, как быть, если мы хотим сравнить не две, а три или большее число популяций? Для этого можно рассчитать генетические расстояния между каждой парой популяций. И увидеть, какие из популяций больше похожи друг на друга, а какие от них отличаются.

Если же усреднить все попарные различия между популяциями, то мы получим как бы общую характеристику всей рассматриваемой системы популяций — насколько все входящие в систему популяции генетически отличаются друг от друга. Легко видеть, что по смыслу это та же самая степень подразделённости, которую мы описывали совсем недавно, только с помощью других мер различий.

Для этого нужно лишь сменить точку зрения на ситуацию: вместо сравнения отдельных популяций, составляющих вместе «систему» популяций, начать говорить о различиях между субпопуляциями, входящими в подразделённую популяцию. Мы уже упоминали, что отличие «популяции» от «субпопуляции» заключается лишь в точке зрения: практически каждая популяция является звеном в цепи матрёшек — она состоит из нескольких популяций низшего уровня (субпопуляций), но и сама является субпопуляцией по отношению к группе населения более высокого иерархического уровня. Например, популяция «население Костромской области» состоит из субпопуляций — районов области, но в свою очередь является частью популяции «русский народ».

Вернемся к различиям между группой популяций. Мы сказали, что, рассчитав генетические расстояния между каждой парой популяций и усреднив все эти попарные отличия, мы получим величину подразделённости для данной группы популяций. Приятная неожиданность заключается в том, что этот (третий уже!) способ рассчитать подразде-лённость даст нам опять то же самое число, ту же величину подразделённости, что и два другие способа расчёта (через дисперсию частоты аллеля в субпопуляциях и через снижение гетерозиготности).

Поэтому разные меры генетических расстояний часто являются одновременно и мерами подразделённости. Например, часто используемый способ расчёта генетических дистанций — F ST дистанции, и эта математическая величина является очень близким родственником классическому показателю подразделённости: F ST -статистике Райта. Аналогично, неевские генетические расстояния (рассчитываемые по формуле, выведенной М. Неем) легко превращаются в неевскую же меру межпопуляционной изменчивости G ST .

Есть и четвертый способ расчёта подразделённости, и он крайне важен. Дело в том, что он напрямую связывает подразде-лённость популяции с генетическим дрейфом и миграциями. Популяционный смысл этой связи в том, что генетические различия между субпопуляциями возникают за счет дрейфа, но уменьшаются за счет миграций между субпопуляциями (§ 4). Подразделённость (F e ) рассчитывается по формуле F e =1/(1+4N e M e ) , где N e — генетически эффективный размер популяции, задающий интенсивность дрейфа, а М е — генетически эффективные миграции (£3).

ПОДРАЗДЕЛЕННОСТЬ. ДИФФЕРЕНЦИАЦИЯ И МЕЖПОПУЛЯЦИОННАЯ ИЗМЕНЧИВОСТЬ

Остается добавить, что у понятий «подразделённость популяции» и «генетические расстояния между популяциями» есть ещё два синонима: это «дифференциация» популяционного генофонда и «межпопуляционная изменчивость». Все эти термины несколько с разных сторон описывают одно и то же явление — подразделённость человечества на множество иерархически соподчинённых (вложенных одна в другую) популяций.

Мы видим, что все показатели, описывающие генофонд популяции, теснейшим образом связаны с понятием подразделённой популяции. Генетические расстояния превращаются в подразделённость, дисперсия частоты аллеля оказывается связанной с гетерозиготностью, и опять-таки измеряет степень подразделённости, и к той же величине подразделённости приводит соотношение дрейфа и миграций. Целью этого параграфа 5 было показать читателю, мало знакомому с теорией популяционной генетики, важность понятия подразделённой популяции и ввести термины, которыми мы широко пользуемся во всей книге. На взгляд авторов, важность концепции подразделённости вызвана именно тем, что все человечество представляет собой многоуровневую, иерархическую популяцию, и почти каждая конкретная популяция и сама состоит из нескольких субпопуляций, и входит в состав популяции более высокого иерархического уровня.

В следующем разделе 2 приводятся некоторые конкретные сведения об используемых мерах подразделённости, а также описывается наиболее сложный случай — анализ многоуровневых популяционных систем, когда каждая субпопуляция в свою очередь состоит из нескольких «субсубпопуляций».

 

2. ИНСТРУМЕНТЫ

В главе 1 мы начали беглое рассмотрение инструментария геногеографии с главных инструментов, используемых в этой книге — генетических маркёров и карт. Однако в оркестре геногеографии постоянно, хотя и порой и незаметно, звучат и иные инструменты. Без них многое останется не озвученным и непонятным.

§ 1. Анализ селективно-нейтральной изменчивости МЕРЫ ИЗМЕНЧИВОСТИ ГЕНОФОНДА

Чтобы оценить изменчивость генофонда, в популяционной генетике обычно пользуются F ST -статистикой Райта, G ST -статистикой Нея, разными мерами генетических расстояний. Все эти показатели оценивают различия между популяциями в пределах «большого», подразделённого генофонда.

Эти меры подробно описаны во многих зарубежных руководствах по популяционной генетике. Из отечественных и переведенных монографий можно рекомендовать учебники [Ли, 1978; Вейр, 1995] В русскоязычных монографиях основные сведения о F ST и С SТ -статистиках кратко, но очень емко освещены в работах Ю. П. Алтухова [Алтухов, 1983, 1989, 2003; Алтухов и др., 1997; Динамика популяционных генофондов…, 2004]. Оба показателя (F ST ≈G ST ) являются нормированной дисперсией частоты аллеля.

Например, F ST =σ 2 q /q(1-q), где σ 2 q =k -1 ∑(q j - q) 2 , а средняя частота аллеля q в подразделённой популяции, состоящей из k субпопуляций (j=1,2…, k), рассчитывается как k -1 ∑q j .

Неевская мера генетического разнообразия (G SТ -статистика) имеет на наш взгляд, некоторые преимущества перед другими: она концептуально проста и логична; её посылки и преобразования имеют ясный и точный биологический смысл, теория её элегантна, расчёты не громоздки. G SТ -статистика может быть выражена и в понятиях F ST , блестяще разработанных теорией популяционной генетики, и в привычных ныне многим понятиям генетических расстояний (как угловых, так и неевских), а поэтому G SТ -статистика позволяет использовать модели и результаты, изложенных в терминах всех этих мер. Также крайне важно, что G SТ -статистика может успешно применяться для популяций, в которых нарушено равновесие Харди-Вайнберга, нет случайного скрещивания и действует естественный отбор [Nei, Roychoudhury, 1974; Nei, 1975].

АНАЛИЗ ИЕРАХИЧЕСКИХ (МНОГОУРОВНЕВЫХ) ПОПУЛЯЦИЙ

Очень важное достоинство G SТ -статистик — возможность вести анализ иерархически соподчиненных популяций. Для этого разработан четкий алгоритм, позволяющий разложить генетическую изменчивость популяций огромного региона G SТ на её составляющие. Поясним этот механизм на примерах (детальное описание алгоритма и результатов его использования дано в [Рычков, Ящук (Балановская), 1980, 1983, 1986]). Каждый иерархический уровень популяций, начиная с самых «дробных» популяций и поднимаясь до уровня региона, обозначим цифрами 1, 2, 3 и т. д. Пусть первый уровень (1) — локальные популяции (села, веси, города). Второй уровень (2) — территориальные группы народа (например, казаки или поморы в пределах русского народа). Третий уровень (3) — этносы (то есть народы — например, русские, белорусы и украинцы). Четвертый уровень (4) — группы «родственных» народов (например, лингвистические ветви — славянская, романская). Пятый уровень (5) — население, говорящее на языках одной лингвистической семьи (индоевропейской или же уральской). И последний, верхний уровень (Т) — «тотально» население всего региона (например, Восточной Европы).

С помощью G ST -статистик мы можем оценить среднюю генетическую изменчивость популяций на каждом уровне популяционной системы. Тогда G 12 — обозначает средние генетические различия между локальными популяциями в пределах одной территориальной группы (например, между популяциями поморов); G 23 — средние различия между территориальными группами в пределах одного народа (например, поморы, казаки и другие — в пределах русского народа); G 34 — средние генетические различия между народами в пределах лингвистической ветви; G 45 — средние различия между ветвями одной лингвистической семьи; G5T — различия между лингвистическими семьями региона. При этом соблюдается равенство G ST =G 12 +G 23 +G 34 +G 45 +G ST .

Все составляющие G ST связаны аддитивно. Поэтому, если мы решим «миновать» какие-то уровни, это не создаст проблем. Например, у нас не для всех этносов региона есть генетические данные об их территориальных группах (удмурты и карелы представлены лишь одной группой популяций). Или нет сведений о генофондах разных ветвей лингвистической семьи (индоевропейская семья представлена только славянами). В этих случаях мы можем плохо представленные уровни просто «пропустить». Тогда у нас будет G 13 — средние генетические различия между локальными популяциями в пределах одного народа (например, села и веси в пределах русского народа, минуя территориальные группы); G 35 — средние генетические различия между народами в пределах лингвистической семьи (минуя лингвистические ветви); GST — различия между лингвистическими семьями региона (здесь мы на самом деле миновали «суперсемьи», например, ностратическую). При этом будет соблюдаться равенство G ST =G 23 +G 35 +G ST .

ДВЕ СОСТАВЛЯЮЩИЕ ИЗМЕНЧИВОСТИ; МЕЖДУ ПОПУЛЯЦИЯМИ И ВНУТРИ ПОПУЛЯЦИЙ

В понятие G SТ -статистик входят не только сами G ST и их составляющие (G 12 , G 23 , G 13 … ), которые оценивают различия между популяциями, но также Н T и Н S , обращенные «внутрь» популяций. Показатель Н T оценивает общее генетическое разнообразие, накопленное всей «тотальной» популяцией. Он включает в себя и различия между популяциями G ST , и различия между индивидами внутри популяций Н S . Показатель Н S оценивает различия внутри популяции и потому называется показателем гетерозиготности популяции. Это и понятно — показатель Н S оценивает, насколько генетически похожи друг на друга представители одной популяции. Н S может оцениваться для любого уровня иерархии, но обычно рассчитывается только для самого нижнего уровня, каким бы мы его ни выбрали — то есть это может быть гетерозиготность локальных популяций или же этносов. Все G SТ -статистики связаны между собой следующими соотношениями:

G SТ ≈F ST =D ST /H T

H T =D ST +H S

H T =1-∑q 2 i

H S =1-∑q 2 ij

где q ij — частота i-того аллеля в j-той субпопуляции (j=1,2…, k), k — число субпопуляций; — средняя частота i-того аллеля в тотальной популяции, а D SТ =(k-1) -1 (q i -q ij ) 2 представляет собой дисперсию частоты аллеля.

D ST , F ST и G ST — ЭТО ПО СУТИ ПОЧТИ ОДНО И ТО ЖЕ

Однако сама дисперсия D ST зависит от частоты аллеля в популяции. Поэтому всегда используют показатель G ST . Он, как и F ST , представляет собой дисперсию частот аллелей, нормированную на общее генетическое разнообразие Ну, и не зависит от средней частоты аллеля. Для диаллельных генов равенство G ST =F ST выполняется строго, для мультиаллельных генов равенство выполняется лишь примерно: G ST ≈F ST , поскольку в расчёт F ST входит и оценка ковариации между частотами аллелей, а для GST — не входит. Но это не мешает обоим этим показателям быть очень близкими по величине и взаимозаменяемыми: ведь размах ковариации между частотами аллелей обычно меньше той случайной ошибки, с которой и F ST , и G ST варьируют около истинной оценки различий между популяциями. Поэтому вся огромная литература о статистических свойствах F ST распространяется и на свойства G ST . И мы дальше используем G ST и F ST как синонимы, хотя сами величины межпопуляционных различий оценивали с помощью неевских G ST статистик.

§ 2. Анализ селективно-значимой изменчивости

КАК ОБНАРУЖИТЬ ДЕЙСТВИЕ ОТБОРА

По результатам воздействия на оценку генетических различий между популяциями легко выделяются два основных типа отбора: при дифференцирующем типе отбора размах изменчивости между популяциями по данному гену выше (F ST(i) >F e ) , а при стабилизирующем отборе ниже (F ST(i)

ЕСЛИ БЫ ОТБОРА НЕ БЫЛО

Предположим, что у нас имеется множество полиморфных селективно-нейтральных генов. Это значит, что при оценке различий между популяциями по этим генам можно пренебречь двумя из четырех факторов микроэволюции — отбором и мутациями. Останутся лишь два фактора — дрейф генов и миграции. Для одного и того же генофонда измерим различия между одними и теми же его популяциями по каждому i-тому гену (аллелю). Тогда мы получим ряд оценок — F ST(i) . Это и будут оценки межпопуляционной изменчивости генофонда по ряду i-тых селективно-нейтральных генов. При этом мы обнаружим, что все оценки F ST(i) колеблются случайным образом около величины некоей средней величины F e . Эта величина и есть искомая оценка дифференциации генофонда. Она не зависит от отбора (поскольку гены селективно-нейтральны) и задана только селективно-нейтральными факторами микроэволюции: соотношением миграций М е и дрейфа генов N e . В общем случае эти факторы одинаково воздействуют на все гены генофонда. И именно поэтому все оценки F ST(i) лишь случайным образом и недостоверно отличаются как друг от друга, так и от истинного уровня дифференциации генофонда — F e . Поэтому, если мы рассчитаем среднее значение F ST , то и его отличия от истинного уровня дифференциации F e будут недостоверны: то есть F ST ≈F e .

КАК «СНЯТЬ» ВЛИЯНИЕ ОТБОРА

Однако, возьмём теперь не гипотетические селективнонейтральные гены, а обычные полиморфные генетические маркёры, с которыми приходится на практике работать популяционной генетике. Тогда мы обнаружим, что наряду с недостоверными отклонениями F ST(i) от F ST ≈F e , есть и иные отклонения — неслучайные и достоверные. Для каждого такого i-того гена достоверные отклонения FST(i) от величины F e (истинной дифференциации данного генофонда) вызваны действием отбора на этот ген. Поэтому возникает вопрос — сколько таких генов, для которых действие отбора столь велико, что достоверно отклоняет его оценку межпопуляционной изменчивости F ST(i) от истинной величины F e ? Как соотносятся между собой гены, близкие к селективно-нейтральным, и селективно-значимые гены? Мы обнаружили при изучении генофонда и всей ойкумены, и отдельных регионов мира, что к селективно-значимым можно отнести лишь треть полиморфных классических маркёров [Балановская, Нурбаев, 1997; 1998а, б,в.; 1999]. К такому же выводу пришли и авторы, использующие совершенно иные методические подходы и иную панель маркёров, чем мы [Bowcock et al, 1991; Sanchez-Mazas et al, 1994]. Это указывает на объективность полученной оценки. Можно предположить, что столь большой (две трети генов) буфер относительно селективно-нейтральных генов и обеспечивает устойчивость равенства F ST ≈F e . Именно благодаря тому, что буфер условно селективно-нейтральных генов столь велик, средние оценки F ST оказываются не столь чувствительны к случайным колебаниям той или иной выборки генов, по которой мы рассчитали это среднее значение. Или иными словами — именно поэтому оценки F ST ≈F e почти не зависят от того, каково в выборке соотношение генов, подверженных тому или иному типу отбора — стабилизирующего или же дифференцирующего (если, конечно же, выборка генов из генома велика и случайна по отношению к эффектам отбора).

Поэтому и оказывается, что если рассчитать средние значения (F ST ) по большой выборке генов, репрезентативно отражающей геном в целом, то получим искомый интегральный показатель генетического расхождения популяций вслед за возникновением в ходе их истории тех или иных границ. Благодаря случайности выборки генов из генома, такой показатель уже не зависит от неравной приспособленности аллелей к среде, а примерно соответствует (F ST ≈F e ) истинному показателю дифференциации генофонда F e , зависящему только от исторически сложившихся параметров — генетически эффективного размера популяций N e и генетически эффективных миграций Ме [Wright, 1943]:

FST≈Fe=1/(4NeM+1)

Еще раз подчеркнём, что величина F e указывает нам, какими должны быть различия между субпопуляциями в отсутствие отбора. Она отражает устойчивые демографические особенности данного генофонда — исторически сложившуюся структуру генных миграций М е и размер популяций N e . Таким образом, хотя на практике расчёт изменчивости генофонда проводится по генам, частично находящимся под действием отбора, но, включая в этот расчёт не один — два, а множество генов, удается «снять» действие отбора и оценить истинную дифференциацию генофонда. Эта средняя, объективная, селективно-нейтральная дифференциация генофонда уже не зависит от конкретных взятых в анализ генов, и задаётся не действием естественного отбора, а действием исторических факторов. Такой подход к «снятию» эффектов отбора тесно связан с концепцией «обобщённого гена».

§ 3. Картографический арсенал

В этом разделе мы рассмотрим, из каких элементов состоит картографическая технология геногеографии. При этом мы окинем лишь общим взглядом те методы, которые позволяют проводить разные операции с картами, и расскажем, для чего и в каких случаях они могут понадобиться. Собственно методы, составляющие картографическую технологию, и их технические подробности описаны в следующем разделе 3. Но большинству читателей сама техника построения и анализа карт вряд ли интересна. Поэтому здесь мы дадим лишь общее, но вполне достаточное для понимания книги описание картографического арсенала. Иными словами, технические детали оставим для раздела 3, а здесь сделаем акцент на взаимосвязи между этими методами, на их назначении.

Все картографические методы геногеографии можно подразделить на пять групп:

1) построение простой карты;

2) операции с отдельной картой;

3) операции с несколькими картами;

4) построение синтетических (обобщённых) карт;

5) построение и использование карт надёжности.

ПОСТРОЕНИЕ ПРОСТОЙ КАРТЫ

Построение карты отдельного признака — это первый, начальный этап. Термин «простая карта» удобен, так как он подчёркивает, что сначала строится карта отдельного признака, в противоположность сложным «обобщённым» (синтетическим) картам, которые создаются впоследствии из нескольких простых карт.

Исходными данными для построения простой карты служит информация о значениях признака в опорных точках — непосредственно изученных популяциях. Результатом картографирования являются значения признака, рассчитанные для каждой точки карты, точнее, для каждого узла равномерной сети, покрывающей всю карту. Именно «невидимая» цифровая модель карты — то есть совокупность численных значений признака, рассчитанных для каждого узла сети — и является для геногеографии настоящей «картой», а вовсе не её наглядный образ, видимый человеческим глазом. Именно с цифровой моделью проводятся все дальнейшие операции и преобразования, весь картографостатистический анализ.

В том числе можно провести визуализацию карты и получить графическую карту — привычное картографическое изображение. На этом этапе мы уже можем «разглядывать» карту. Однако с графическим изображением никаких операций проводить уже нельзя. Любую карту можно и нужно визуализировать, чтобы посмотреть, что же она из себя представляет. Однако все расчёты, весь анализ, проводятся не с изображением — а всегда с цифровой моделью, с «настоящей картой», «невидимкой».

Важно, что цифровая модель, полученная в результате картографирования, зависит от двух факторов: исходных данных в опорных точках и от параметров картографирования. На одних и тех же исходных данных можно получить различающиеся карты, в зависимости от выбранных параметров. В этом и состоит картографическое моделирование. Имея семейство карт, полученных на основе одних и тех же исходных данных, мы можем увидеть, какие структурообразующие элементы карты являются устойчивыми, непреходящими, не зависящими от метода построения карты. А какие элементы карт эфемерны и возникают лишь в отдельных картографических моделях. Это свойство — множественность картографических моделей — важное достоинство компьютерных карт пакета GGMAG.

ОПЕРАЦИИ С КАРТАМИ

Итак, мы получили цифровую модель (простую карту) для одного или нескольких отдельных признаков. Далее эти простые карты можно преобразовывать и комбинировать самыми различными способами. При этом те или иные математические операции производятся с числовыми значениями, находящимися в узлах карты. Например, такая операция, как сложение двух карт, состоит в том, что числовое значение определённого узла из первой карты складывается с числовым значением, находящимся точно в том же узле второй карты, и записывается в точно такой же узел третьей, создаваемой карты. Когда такие действия проведены с каждым узлом, мы получаем итоговую карту, являющейся суммой двух исходных карт.

ОПЕРАЦИИ С ОТДЕЛЬНОЙ КАРТОЙ

Операций с отдельной картой (неважно — с простой картой или с результатом обобщения ряда карт) предусмотрено много, и их удобно разделить на три группы: операции, проводимые с каждым узлом независимо; операции в плывущем окне (с той или иной группой узлов карты); операции, проводимые со всей картой (со всеми узлами карты сразу). Рассмотрим по очереди эти три группы процедур.

1) ОПЕРАЦИИ С ОТДЕЛЬНЫМ УЗЛОМ. Примером простейшей операции, проводимой независимо с каждым узлом, будет дополнение карты до единицы. Для этого значение, находящееся в данном узле карты (допустим, частота аллеля, равная 0.3), вычитается из единицы (1–0.3) и в результате получается искомая величина дополнения до единицы (в нашем примере 0.7). Когда такая операция проведена с каждым узлом карты, мы получаем карту, дополняющую исходную карту до единицы.

Смысл подобного преобразования станет ясен, если представить, что первая карта показывала распространение одного из аллелей двуаллельного гена. В этом случае вторая карта (дополнение до единицы) покажет распространение второго аллеля: ведь в каждой популяции, в каждой точке карты частота второго аллеля должна равняться единице минус частота первого аллеля! В результате мы получаем карты обоих аллелей, необходимые для дальнейших расчётов. Такой способ получения карты второго аллеля корректнее, чем независимое построение карты второго аллеля: лишь этот способ обеспечивает сумму частот равную единице в любой точке обеих карт. А это требование порой является необходимым для генетико-статистических расчётов.

Кроме вычитания, с картой можно проводить любые другие арифметические или алгебраические действия.

2) ОПЕРАЦИИ С ГРУППОЙ УЗЛОВ. Самым частым случаем преобразований в плывущем окне является построение трендовой карты. В этом случае значение в узле новой карты зависит не только от значения того же узла исходной карты, но и от значений в соседних узлах. Например, значения во всех соседних узлах усредняются, и это усреднённое значение записывается в «центральный» узел создаваемой трендовой карты. Затем мы переходим к следующему узлу, теперь он на время становится «центральным». У него уже несколько иные соседи, и мы проводим с ним ту же операцию. В результате по всей карте как бы проплывает окно заданного размера. В рамках этого окна мы проводим усреднение, и каждый узел карты поочерёдно становится «центральным». Результирующая карта по сравнению с исходной выглядит сглаженной. Благодаря усреднению соседних значений, резкие локальные скачки значений признака выровнялись, сгладились, и мы видим основные черты рельефа карты, не затушёванные локальными всплесками. Степень сглаживания будет зависеть от размера окна. Если мы выберем окно размером 3x3 узла сетки (один «центральный» узел и по одному соседу с каждой стороны, то есть восемь ближайших соседей для каждого «центрального» узла), то сглаживание будет очень небольшим. Если же размер окна будет 15x15 узлов сетки карты, то вся карта предстанет существенно выровненной.

В пакете GGMAG реализованы и много более сложные процедуры. Плывущее окно может быть не только постоянного, но и меняющегося размера. Например, мы можем задать минимальный размер окна 5x5 узлов, и для каждого узла этот размер будет автоматически увеличиваться до тех пор, пока число опорных точек, попавших в окно, не достигнет заданной величины. Тогда для разных узлов карты размер окна и соответственно степень сглаживания окажется разной, но в каждом случае вычисления будут проведены примерно с одной и той же степенью достоверности, поскольку результаты будут опираться хотя и на разное число интерполированных значений, но на одно и тоже число значений в опорных точках. Использование техники меняющегося окна необходимо, когда на карте есть и области с густым и разнообразным населением (например, Кавказ), и области с редким населением на огромных территориях (например, коренное население Сибири).

Эта техника плывущего окна — как постоянного, так и меняющегося размера — может применяться далеко не только для построения трендовых карт. Ведь вместо усреднения мы можем проводить любые другие вычисления по значениям, попавшим в окно, — например, рассчитать их дисперсию. И действительно, наиболее перспективное применение техники меняющегося окна состоит в построении карт межпопуляционного разнообразия, когда для каждой точки карты рассчитывается значение межпопуляционной изменчивости в окрестностях этой точки.

3) ОПЕРАЦИИ СО ВСЕМИ УЗЛАМИ КАРТЫ. Особым случаем преобразования отдельной карты является моделирование трендов с использованием многочленов Чебышева. В этом случае анализируется вся совокупность значений карты, и результирующая карта представляет значения трендового признака, вид которого зависит от исходных значений карты и от выбранной степени многочлена.

Анализ одновременно всех значений карты используется, например, и при расчёте корреляции карты с географическими координатами. В этом случае карта рассматривается как простая таблица, для каждой ячейки которой (узла) известна географическая долгота, широта и значение признака. По этим значениям вычисляется корреляция признака и географических координат. В зависимости от используемой формулы можно рассчитать обычный коэффициент корреляции, частную или множественную корреляцию.

ОПЕРАЦИИ С НЕСКОЛЬКИМИ КАРТАМИ

Этот тип преобразований карт очень похож на операции с отдельной картой. Разница заключается лишь в том, что проводится не операция вида «значение в узле карты и заданное значение», как для отдельных карт, а операция вида «значение в узле первой карты и значение в том же узле второй карты». Мы уже приводили пример дополнения карты до единицы. Аналогичным образом можно суммировать две или более карт, делить карты друг на друга и так далее — в зависимости от заданной нами математической формулы.

Проводятся и более сложные преобразования сразу нескольких карт. Например, та же технология плывущего окна может быть применена и к расчёту корреляции между двумя картами. В этом случае рассчитывается корреляция между всеми значениями в группе попавших в окно узлов одной карты и группе аналогичных узлов второй карты, и значение заносится в очередной «центральный» узел результирующей карты. Таким образом, для каждого узла карты получается свое значение коэффициента корреляции, и полученная карта носит название корреляционной. Она показывает, какова теснота связи на разных территориях.

А она зачастую различается не только по величине, но и по знаку!

Рассчитать корреляцию между двумя картами можно и более простым способом: как корреляцию между всеми узлами первой и (ранжированными в том же порядке) узлами второй карты. В этом случае мы получаем не корреляционную карту, а единственное значение коэффициента корреляции между двумя нашими картами.

Легко заметить, что операции с несколькими картами можно подразделить по тому же принципу, что и операции с отдельной картой: действия с каждым узлом независимо (например, суммирование карт); действия в плывущем окне (корреляционные карты); действия со всей совокупностью значений карты (расчёт коэффициента корреляции между двумя картами).

ПОСТРОЕНИЕ СИНТЕТИЧЕСКИХ КАРТ

По сути, этот тип преобразований ничем не отличается от только что рассмотренного анализа нескольких карт. Мы выделяем его как отдельный вид лишь потому, что этот анализ преследует особые цели и, к тому же, обычно использует более сложные математические формулы.

Самым простым из них является построение карт гетерозиготности. Гетерозиготность рассчитывается по обычной формуле из частот каждого аллеля: H S =1-∑q (j) 2 . Только эти частоты берутся соответственно из карт распространённости этих j-тых аллелей, и расчёт проводится независимо для каждого узла карты. Для двуаллельного случая, чтобы получить карту гетерозиготности, нужно лишь перемножить карты двух аллелей — q и (1-q), а затем полученную карту умножить на два. Как видим, весьма несложно.

Построение карт генетических расстояний основано на том же принципе, только формула чуть сложнее. В этом случае исследователь задаёт, во-первых, частоты аллелей в реперной популяции (то есть той популяции, генетические расстояния до которой мы хотим оценить), и, во-вторых, карты распространённости этих аллелей. Тогда для каждого узла карты программа (как и при расчёте гетерозиготности) берет частоты каждого аллеля в этом узле и по заданной формуле рассчитывает генетическое расстояние от этих частот до частот в реперной популяции. Как обычно, такая операция проводится независимо для каждого узла, и создается карта расстояний, показывающая степень генетической удаленности каждой точки карты от реперной популяции.

Технически более сложным является расчёт карт главных компонент. В этом случае данные по всем узлам всех исходных карт анализируются совместно: вычисляются коэффициенты корреляции между картами и далее по обычному принятому в статистике алгоритму рассчитываются значения каждой из главных компонент для каждого узла карты. Результатом является серия карт главных компонент: в узлах этих карт содержатся значения соответствующей главной компоненты в этой точке карты.

Важно отметить, что обобщённая карта, например карта главной компоненты, по своему формату ничем не отличается от простой карты распространения какого-либо признака: точно так же каждый узел карты содержит какое-либо численное значение. Это значит, что с обобщёнными картами (как и с корреляционными и вообще любыми), можно проводить все те же операции, что и с простыми картами — картами отдельных признаков. Например, часто строят карты трендов для главных компонент, можно построить корреляционную карту между картой генетических расстояний и картой гетерозиготности, или карту главной компоненты по картам главных компонент и так далее. Главное сформулировать задачу и подобрать оптимальный показатель — а картографическая технология GGMAG позволит легко реализовать его и построить требуемую карту.

ПОСТРОЕНИЕ И ИСПОЛЬЗОВАНИЕ КАРТ НАДЕЖНОСТИ

Карты надёжности занимают особое место в геногеографии. Они сродни простым картам тем, что строятся не на основании других карт, а на основании данных в опорных точках. Но для построения карт надёжности нужно знать лишь географическое расположение опорных точек (исходных популяций). Результатом будет оценка для каждого узла карты того, насколько этот узел удален от совокупности опорных точек. И, следовательно, насколько надёжна интерполяция значений в этом узле.

Карты надёжности отвечают на главный вопрос интерполяционный процедуры: насколько надёжен наш прогноз, то есть рассчитанное нами интерполированное значение в данном узле карты, если для данной области карты нет ни одной непосредственно изученной популяции. Карта надёжности показывает степень достоверности интерполяции для каждого узла карты. И использование карты надёжности может быть двояким.

Во-первых, полезно чисто визуальное сравнение карты надёжности и карты того признака, для которого она построена. Мы видим, что значениям, которые показывает карта признака, можно доверять, если они находятся в тех областях, которые карта надёжности показывает как достоверные, и следует относиться с осторожностью, если они находятся в областях ненадёжных, то есть мало обеспеченных исходными опорными точками.

Второй способ использования карт надёжности состоит в том, чтобы вообще исключить «ненадёжные» значения из карты признака — в тех узлах, для которых величина надёжности ниже заданного порога. Наша карта какого-либо признака после такого применения карты надёжности приобретает «белые пятна» изученности: если раньше значения признака показывались в каждой точке, то теперь они показываются лишь для надёжных узлов, а остальные узлы остаются пустыми (белыми).

Отметим, что карты надёжности двух разных признаков могут быть идентичными — в том случае, если эти признаки изучены в одних и тех же популяциях. Например, если мы анализируем совокупность многих признаков (пусть это будут русские фамилии), изученных в одних и тех же популяциях. В этом случае и для карты любой фамилии, и для любой производной или обобщённой карты фамилий будет подходить одна и та же карта надёжности. Однако если один из наших признаков изучен в одних популяциях, а другой в других, то карты надёжности этих признаков будут различаться. Например, при построении обобщённых карт это создаёт проблему — какая из карт надёжности отдельных признаков описывает надёжность всей совокупности признаков, то есть надёжность самой обобщённой карты? На практике пользуются разными методами объединения карт надёжности, с тем, чтобы получить общую, «усреднённую» карту надёжности. Области низкой надёжности именно «усреднённой» карты и будут «белыми пятнами» на обобщённой карте изучаемых признаков.

АРСЕНАЛ

Подведём итоги нашего осмотра картографического арсенала. Мы видели, по меньшей мере, дюжину разных методов, более или менее тесно переплетённых друг с другом.

1. Построение «простой» карты по данным в опорных точках при заданных параметрах картографирования.

2. Построение карты надёжности (по данным о расположении опорных точек).

3. Построение простой карты с учетом надёжности (ненадёжные узлы остаются пустыми и отображаются как «белые пятна»).

4. Визуализация карты (создание графического изображения по данным цифровой модели).

5. Преобразование отдельной карты (например, дополнение до единицы).

6. Преобразование совокупности карт (например, суммирование карт).

7. Построение трендовой карты (усреднение значений попавших в плывущее окно).

8. Построение трендовой карты с использованием многочленов Чебышева.

9. Построение карты межпопуляционной изменчивости или другого показателя, рассчитываемого по заданной формуле в плывущем окне постоянного или меняющегося размера.

10. Расчёт корреляции карты с географическими координатами.

11. Построение корреляционной карты.

12. Построение синтетических карт (главных компонент, гетерозиготности, генетических расстояний) по нескольким исходным картам.

Напомним ещё раз, что к любым картам могут применяться любые из этих операций — например, можно построить трендовую карту не только для простой, но и для обобщённой карты, рассчитать корреляцию корреляционной карты с географическими координатами и так далее.

 

3. КАРТОГРАФИЧЕСКАЯ ТЕХНОЛОГИЯ

В этом разделе важнейшие из методов, упомянутых при рассказе о картографическом арсенале, описаны подробнее, с указанием конкретных алгоритмов и особенностей расчёта. Но сначала мы кратко расскажем об истории разработки этих методов ( § 1 ), а в заключение (§ 9) рассмотрим особый аспект анализа главных компонент — так называемую проблему ложных корреляций.

§ 1. Как карты пришли в геногеографию

КАРТЫ И ГЕНОГЕОГРАФИЯ

Более полувека, прошедшего с момента зарождения геногеографической идеи до её современного воплощения, — срок достаточно большой, чтобы раскрылись те её стороны, которые первоначально оставались в тени, и принципиальная важность которых в начале не была определена. Мы имеем в виду карту как инструмент геногеографического исследования. Перефразируя утверждение академика Д. Н. Анучина, можно сказать, что степень геногеографического познания генофонда страны определяется степенью совершенства имеющейся для него карты. Современная геногеография уже немыслима без компьютерной картографии как её основы. Картографический анализ не только обеспечивает создание математически строгих, объективных и унифицированных карт, но и создаёт совершенно новые возможности для анализа явлений, моделируемых геногеографическими картами. По мысли А. С. Серебровского, геногеография способна обнаруживать главнейшие процессы, происходящие в генофонде. И лучше всего она это делает с помощью карт. На современном этапе развития геногеография имеет многообразный картографический инструментарий для корректного решения сложных задач. Именно картографическое исследование географической архитектоники генофонда позволяет анализировать географию и историю процессов, формирующих основные свойства генофонда.

Вся сложность ситуации заключалась в том, что вопрос о карте как инструменте геногеографии не был поставлен А. С. Серебровским, создававшим науку геногеографию. Именно поэтому в дальнейшем на долгое время возобладал чисто статистический анализ популяций, изъятых из географического пространства. Карты географического распространения генов, особенно генов и фенотипов человека, создавались, а чаще — рисовались и до, и после постановки А. С. Серебровским проблем геногеографии. Некоторые прекрасные работы, основанные на строгом картографическом методе, остались малоизвестны и незаслуженно забыты [Чепурковский, 1913]. Другие, представляющие результат иллюстрирования, а не картографического анализа распределения генов, широко известны [Mourant et al., 1976].

КОМПЬЮТЕРНОЕ КАРТОГРАФИРОВАНИЕ

Лишь с 70х годов XX века начал формироваться картографический подход к геногеографии — как на путях создания цифровых моделей карт, так и на путях математического анализа и точного отображения трендовых явлений на карте [Cavalli-Sforza, Bodmer, 1971; Ward, Neel, 1976; Rychkov, Sheremetyeva, 1977, 1979]. На рубеже 80х годов, благодаря органическому соединению с картографией и с созданием компьютерных банков данных о частотах генов в населении, начался принципиально новый этап в развитии геногеографии — компьютерное генетическое картографирование [Menozzi et al., 1978; Piazza et al., 1981a, 19816, Ammerman, Cavalli-Sforza,1984]. Геногеография популяций человека пережила и в переносном, и в буквальном смысле второе рождение: возник журнал Gene Geography (1987 г.). Как ни печально, его учредители не догадывались ни о происхождении и долгой предыстории геногеографии, ни о её связи с исследованием генофонда, и полагали, что созданием журнала оформили те идеи, что витали в европейской науке в 60 х годах нашего столетия [Terrenato, личное сообщение]. Возможно, именно поэтому журнал был ориентирован исключительно на публикацию данных о частотах генов в населении мира, оставляя за рамками своих публикаций проблемы не только генофонда, но и генетической картографии.

Как бы то ни было, началась эпоха компьютерной геногеографии и создания электронных карт географического распределения генетической информации. Это означает, что появилась практическая возможность от географии генов человека перейти к географии генофондов населения мира, регионов, отдельных стран и этнических групп. Появилась возможность исследовать генофонд не только общими генетико-статистическими методами, но и собственными уникальными методами геногеографии — картографическими.

Широкие возможности компьютерных карт и заставили нас взяться за их создание. При этом мы прошли долгий путь, причём полностью независимо от коллектива L. L. Cavalli-Sforza. Их «синтетические» карты мы увидели тогда, когда уже были созданы наши «обобщённые» карты. Тем более впечатляюще и закономерно, что оба коллектива независимо шли параллельными путями. Эти пути ни в чем не повторяли друг друга, однако при этом все общие инструменты картографирования оказались очень похожи. Поэтому мы не будем в этой книге останавливаться на анализе сходства и различий в технологиях — достаточно того, что получаемые карты обоих коллективов полностью сопоставимы.

ТРИАНГУЛЯЦИОННЫЕ КАРТЫ

На рубеже 80х годов — ещё до эпохи персональных компьютеров — один из авторов этой книги вместе с профессором Ю. Г. Рычковым и известными специалистами в области математического моделирования А. Т. Терехиным и Е. В. Будиловой начали разрабатывать первый вариант программного обеспечения для компьютерного картографирования. К сожалению, этот вариант так и не был опубликован. В его основе лежала триангуляционная процедура, использующая метод ближайшего соседа. Она позволяла строить и в целом корректные карты частот отдельных генов, и «обобщённые» карты — главных компонент изменчивости генофонда в целом. Иными словами, этот вариант программного обеспечения позволял создавать все те карты, которые примерно в это же время независимо разрабатывал коллектив под руководством L. L. Cavalli-Sforza [Menozzi et al., 1978; Piazza et al., 1981а]. Однако триангуляционная процедура построения карт приводила к трудно устранимому недостатку — на границах ареала значения признака были неустойчивыми. Были ещё несколько особенностей этой процедуры. Основную проблему составляло то, что такую карту было сложно «накрыть» равномерной сеткой и создать полностью сравнимые числовые матрицы разных карт. Эти особенности не позволяли решить сверхзадачу — сделать любую карту не только результатом, но и объектом следующего вида анализа.

АНАЛОГОВЫЕ КАРТЫ.

Это заставило нас приступить к созданию нового программного пакета, реализованного программистом А. В. Рычковым [Рычков и др., 1990; Балановская и др., 1990]. В нем был использован принцип интерполяции, моделирующий распространение генов из изученных популяций на все промежуточные области. Эту процедуру мы называли технологией «чернильных пятен». Ее можно представить как «растекание» разноцветных чернильных пятен. На первом шаге — в каждую точку карты, где имеется изученная популяция, наносится такое «пятно», цвет которого соответствует концентрации частоты гена. На следующем шаге

— пятна начинают расплываться во всех направлениях. На каком-то шаге итерации — соседние пятна начинаются смешиваться, реализуя некие промежуточные значения. Чем больше шагов итерационной процедуры — тем сильнее взаимовлияние даже самых отдалённых популяций и тем более «усреднённая» карта возникает перед нами. При этом сохранялась географическая локализация исходных частот генов — благодаря «маскированию» исходного значения частоты в фиксированной точке пространства. Важнейшим достоинством этого метода построения карт было то, что значения частот генов в обследованных географических точках (взаимное расположение которых могло быть сколь угодно нерегулярным) интерполировалось на узлы регулярной сетки. В результате мы получали двумерную цифровую матрицу, с которой можно было проводить любые операции одно- и многомерной статистики. Иными словами, решали нашу сверхзадачу — любая карта могла стать объектом следующего вида анализа. С помощью этого программного пакета были построены различные типы «синтетических» карт — и главных компонент, и генетических расстояний [Балановская и др., 1990] для популяций Центральной Азии и Кавказа.

У этого программного пакета было неоценимое достоинство перед всеми остальными (в том числе, и ныне широко используемыми) технологиями — он создавал как бы аналоговую модель миграции генов. Но все же и он не полностью удовлетворял нашим требованиям. Например, надо было волевым решением выбирать шаг, на котором останавливалась итерация. А основной недостаток заключался в том, что метод не позволял разделить две процедуры — создания карт только на основе исходных данных и «сглаживания» этих карт, то есть устранения случайных флуктуаций для выявления основных паттернов изменчивости. Эти обе процедуры протекали как бы одновременно — в процессе построения карты с числом итераций возрастало и «сглаживание» карты. В результате создавались сразу карты трендов (как и в технологии коллектива L. L. Cavalli-Sforza), а исходная «несглаженная» карта оставалась неизвестной. Этот серьезный недостаток заставил нас искать иные принципы создания карт.

КАРТЫ СРЕДНЕВЗВЕШЕННОЙ ИНТЕРПОЛЯЦИИ

Поэтому в 1990 г. было начато создание третьего варианта программного пакета, который и лег в основу всех последующих компьютерных карт, в том числе и приведённых в данной книге. Он создавался в долгой совместной работе с сотрудниками кафедры картографии МГУ, которыми руководил С. М. Кошель. Пакет использовал известную библиотеку программ MAG; проблемы визуализации цифровых матриц были решены с помощью оригинального пакета «Metacopy», а статистические разделы программы сначала разрабатывались нами совместно с сотрудниками кафедры картографии МГУ (С. М. Кошель, Д. Б. Патрикеев, А. В. Асриев, О. Р. Мусин, В. В. Иванов), а затем

— с помощью своих программистов (И. А. Краснов, В. Е. Папков, Т. П. Папкова, А. В. Рычков, С. Д. Нурбаев и др.).

Путь по созданию программного пакета необходимо было пройти вместе географам и генетикам. Ведь геногеография имеет собственный предмет исследования — пространственную структуру генофонда. При этом генофонд, с одной стороны, является объектом популяционной генетики, другой стороны

— выступает как один из множества объектов тематической картографии [Берлянт, 1986; Трофимов, Панасюк, 1987]. Поэтому компьютерная технология геногеографического анализа генофонда не могла быть просто перенесена из географии, не имеющей дела с генетической информацией. Она создавалась в сотрудничестве с географами, картографами и математиками специально для геногеографического изучения генофонда.

В результате в технологии картографического изучения генофонда максимально учтены и использованы методы картографической науки: методы построения интерполяционных карт, правила оформления карт, принцип анализа фоновых поверхностей. Однако сама технология картографостатистического моделирования и анализа направлена на решение задач популяционной генетики [Балановская и др., 1990; 1994а, б; 1995; 1997 и др.]. Созданный многообразный арсенал средств целиком задан принципами и логикой анализа генофондов. Корреляционный анализ и анализ показателей генетического разнообразия, картографирование главных компонент и размещение популяций в их пространстве, техника «меняющегося» окна и анализ генетических расстояний, оценка, надёжности картографического прогноза и многие другие методы статистического анализа карт разрабатывались специально для задач изучения генофонда.

Совокупность этих методических разработок трудно определить однозначно. В целом они относятся к тематической картографии, по классификации методов — к нескольким разделам математико-картографического моделирования [Берлянт, 1986; Трофимов, Панасюк, 1987]. Наиболее корректно их обозначить как картографо-статистические методы. Их общая цель: дать количественное выражение информации, содержащейся в геногеографической карте; выявить и выразить ту информацию, которая находится в неявном виде (закономерности, тренды, связи и т. д.); провести одно- и многомерный статистический анализ карт для выявления важнейших характеристик генофонда. Вся процедура картографо-статистического анализа генофонда основана на оригинальном программном обеспечении, что позволило создать своего рода компьютерную технологию геногеографического скрининга генофонда.

На основе созданной технологии были построены картографические модели различных параметров не только генофонда, но и целого спектра иных признаков, имеющих отношение к пространственной структуре популяций. Это и характеристики среды — как природные (климатические), так и антропогенные факторы (техногенные нагрузки); и характеристики материальной культуры; и частоты фамилий; и особенности размера популяций и инбридинга; и картографический анализ моногенной патологии [Балановская и др., 1996, 1997, 2000; Грехова и др., 1996; Перепелов и др., 1996; Евсюков и др., 1996, 1997; Петрин и др., 1997; Почешхова, 1998; Почешхова и др., 1998; Spitsyn et al., 1998; Гинтер и др., 1998].

ЗАРУБЕЖНЫЕ ПРОГРАММНЫЕ ПАКЕТЫ

Кроме трех перечисленных отечественных картографических пакетов, существует и ряд иных программ, используемых в зарубежных работах по геногеографии.

Наибольшее значение для геногеографии имел пакет программ, используемых группой L. L. Cavalli-Sforza. Этот пакет позволяет проводить как картографирование отдельного гена, так и расчёт синтетических карт главных компонент, хотя и не предусматривает другие виды статистического анализа и трансформации карт. Похожие, хотя и ещё менее мощные программы разрабатывались и некоторыми другими коллективами популяционных генетиков [например, Sokal, 1999а, б].

А в последние годы определенную популярность приобрела программа Surfer (Golden Software Surfer 7.0). Этот картографический пакет не является геногеографическим, а предназначен для картографирования любых, в первую очередь климатических параметров. Но он позволяет быстро построить интерполяционные карты любых признаков — в том числе и распространения генов, и поэтому нередко используется в современных работах для картографирования распространения гаплогрупп митохондриальной ДНК и Y хромосомы [Semino et al., 2000; Rootsi et al., 2004]. Но у программы Surfer есть очень крупный недостаток, отличающий её от остальных картографических программ, используемых в геногеографии. Это отличие состоит в том, что карты, построенные Surfer, являются только изображениями. Программа нацелена только на графический результат, а не на создание цифровой модели карты. То есть для каждой точки карты нельзя получить точные численные значения признака, а значит, нельзя проводить никакие виды картографо-статистического анализа, нельзя рассчитать карты главных компонент и так далее. Программа Surfer, таким образом, оказывается весьма эффективной для иллюстрации, для изображения распространённости отдельных признаков, но не позволяет проводить статистический анализ карт и строить все множество производных карт, в том числе синтетических. Иными словами, она позволяет картографировать распространённость отдельных генов, но не позволяет изучать генофонд.

§ 2. Принципы создания карт

Процедуры построения и анализа компьютерных карт пакетом GGMAG подробно описаны в целом ряде специальных публикаций [Балановская и др., 1994а, б, 1995, 1997, 1998; Сербенюк и др., 1990, 1991; Нурбаев, Балановская, 1998; Балановский и др. 1999]. Поскольку описание картографической технологии — тема будущей книги, мы укажем здесь лишь на ключевые моменты технологии. Для вдумчивого читателя мы постараемся называть разделы, посвящённые тому или иному методу, в соответствии с терминологией картографического арсенала (§ 3 предыдущего раздела 2). Иные пояснения даются в других местах книги по мере необходимости.

ОТ РАЗБРОСАННЫХ ПОПУЛЯЦИЙ К РЕГУЛЯРНОЙ карте

Данные о генофондах обычно крайне нерегулярны. Достаточно взглянуть на любую таблицу, чтобы увидеть, как неравномерно изучены гены — по каждому генетическому маркёру изучен свой набор популяций. С другой стороны, достаточно взглянуть на любую карту, чтобы увидеть, как неравномерно разбросаны изученные популяции. В этом проявилось не только «бесплановость» изучения генофонда, но и объективный фактор: резкие различия в численности и плотности коренного населения в разных регионах. Однако для геногеографического анализа, в отличие от чисто статистического, обе эти неравномерности не являются серьёзным препятствием, поскольку предметом анализа становится карта, а не первичный популяционно-генетический материал.

ПОДХОДЫ К СОЗДАНИЮ КАРТЫ

Все геногеографические карты основаны на единых методических подходах:

1. Единицей геногеографического наблюдения является популяция, характеризующаяся частотой гена и ареалом.

2. Для геногеографического изучения региона выбираются популяции, находящиеся на одном уровне популяционной структуры, вне зависимости от размеров их ареала.

3. Геногеографическая карта должна обладать не только географическим, но и генетическим масштабом: например, мировой диапазон изменчивости частоты гена, континентальный, региональный, этнический. Выбор генетического масштаба диктуется задачами исследования.

4. В генетически изученных популяциях (опорных точках карты) размещается исходная (табличная) частота гена. В популяционных ареалах проводится интерполяция — то есть для всех точек ареала популяции рассчитывается частота признака на основе данных об опорных точках (изученных популяциях).

5. Мы стремились к методу интерполяции, требующему минимума исходных предпосылок и позволяющему изменять любые параметры построения карты. Это позволяет вместо одной карты признака создать множество её моделей. Совокупность таких моделей выявляет наиболее устойчивые черты географического распределения признака, не зависящие от параметров построения карты.

6. В основе метода интерполяции лежит принцип

генетической проницаемости пространственных барьеров

за достаточно длительный промежуток времени, то есть ненулевой вероятности генных миграций в любую точку пространства. Эта вероятность генных миграций для разных точек различна и зависит от географического расстояния между популяциями.

7. В анализе генофонда отдельные признаки ‘ играют

служебную роль — они должны помочь выявить

генетическую неоднородность пространства и пространственную неоднородность генофонда. Лишь игнорируя — в процессе построения карты — природные и социальные барьеры, можно рассчитывать, что созданные карты сами обнаружат существование в пространстве генетически значимых барьеров.

8. Для простоты чтения карты все непрерывное множество значений признака подразделяется на несколько групп — интервалов признака. Число и размер интервалов выбираются в зависимости от задачи исследования. Но для каждой карты размеры всех её интервалов одинаковы (равноинтервальная шкала). Размер интервалов зависит от генетических расстояний между популяциями, тогда как площадь, занимаемая тем или иным интервалом, зависит ещё и от размеров ареалов разных популяций.

9. Основная задача при построении карты — интерполяция значений частот признака в опорных точках (взаимное расположение которых может быть сколь угодно нерегулярным) на узлы регулярной картографической сетки.

ИЗОТРОПНОСТЬ ПРОСТРАНСТВА

Принципиально важно, что при построении карты географическое пространство предполагается изотропным. Это означает, в процессе создания карты не учитываются ни природные, ни историко-культурные факторы, безусловно, влияющие на распространение генов. Любой учет этих факторов субъективен — он всегда связан с экспертной оценкой значимости фактора для генофонда. Такая оценка порой больше зависит от эксперта, чем от фактора, и её учет вводил бы в строгую математическую модель карты субъективный фактор научного мировоззрения эксперта. Сама карта может объективнее эксперта учесть и отразить реальное воздействие как природных, так и историко-культурных факторов на генофонд. Если анизотропность физического и культурного пространства нашла отражение в самих наблюдаемых частотах генов, то она проявится и при картографировании: барьеры, препятствующие свободному потоку генов, создадут перепад частоты гена; и чем мощнее барьер, тем более резкий перепад частот мы обнаружим на карте.

§ 3. Простые карты

ИНТЕРПОЛЯЦИЯ

Как мы уже говорили, принципиально важно, что при создании карты можно из целого спектра предусмотренных вариантов выбрать наиболее корректный вариант интерполяционной процедуры. В результате любой интерполяции по нерегулярно расположенным опорным точкам создается цифровая модель (ЦМ) генетического рельефа: рассчитываются значения признака в узлах регулярной сетки, покрывающей картографируемое пространство.

Полагая, что распределение признака на обширной и гетерогенной в природном и историческом отношениях территории не может определяться действием какого-либо единственного фактора микроэволюции, нами использован метод двумерной средневзвешенной интерполяции. Такая интерполяция более чувствительна к локальной геометрии распределения значений признака в опорных точках. Она может быть распространена не на всю территорию, а на область, ограничиваемую задаваемым радиусом действия весовой функции. Как и в модели изоляции расстоянием, такая интерполяция может использовать степенную зависимость значения признака от расстояния «узел сетки — опорная точка». Использована гипотеза линейного изменения частоты гена вдоль геодезической кривой, кратчайшим образом соединяющей две соседние точки карты. При этом длина каждой геодезической вычислялась на основе моделирования геоида Земли равновеликой сферой (по Красовскому).

ЦИФРОВАЯ МОДЕЛЬ

Итак, в основе компьютерных карт лежат их цифровые модели (ЦМ) — двумерные численные матрицы с прогнозируемыми частотами признака для каждого узла сетки карты. Это позволяет работать с картой как с обычной матрицей, осуществляя любые виды арифметических и алгебраических преобразований, используя любые методы одномерной и многомерной статистики, применяя методы иных разделов математической науки (например, теории надёжности).

Компьютерное картографирование, независимо от конкретной интерполяционной процедуры, всегда представляет собой создание цифровой модели карты. Значения цифровой модели (ЦМ) картографируемого признака рассчитываются для узлов регулярной сетки ЦМ по эмпирическим значениям признака в опорных точках — генетически изученных популяциях. Выражение «опорные точки» — не образ, а конкретный термин, поскольку исходные значения признака в изученных популяциях действительно служат опорой изображенной на карте поверхности распределения признака: поверхность как бы сетью «натянута» на ординаты значений картографируемого признака в этих точках, преобразуя несвязно разбросанные опоры в изгибы, вершины и впадины генетического рельефа. В узлах регулярной сети ЦМ находятся значения картографируемого признака, рассчитанные с помощью интерполяционной процедуры: ортогональных полиномов на основе информации обо всех исходных генетически изученных популяциях в пределах заданного радиуса. При расчёте полинома значение признака в каждой популяции берется с весом, обратным расстоянию от популяции до узла сетки; по совокупности всех изученных популяций рассчитывается среднее значение в каждом узле сетки; в результате проведёния этой процедуры для каждого узла создается ЦМ карты [Сербенюк и др., 1990, 1991; Берлянт и др. 1991а, б; Koshel et al., 1991; Koshel, Musin, 1991, 1994; Koshel, 1992; Berlyant et al., 1992]. Таким образом расчёт ортогональных полиномов проводится согласно [Сербенюк и др., 1990].

f(x,у)=∑w i (x,y)z i / ∑w i (x,y),

где х, у — декартовы координаты узла сетки; z — частота признака;

w i (x,y)=1/d a i (х, у ) — некоторая положительная

убывающая функция от расстояния (весовая функция);

d i = √(х-х i )2+(у-у i )2.

Для такой функции выполняется условие интерполяции f(x i ,y i )=z j , i= 1…n.

Применялось предложенное [Сербенюк и др., 1990] обобщение этого метода:

f(x,у)=∑w i (x,y)P dii (x,y) / ∑w i (x,y),

где P dii =z i + ∑a kli (x-x i )k (y-y i )l — полином степени d; x i , у i — координаты i-той опорной точки; коэффициенты akli выбираются так, чтобы обеспечить сходимость функции и её частных производных вплоть до порядка d при х∈[0, +∞], у∈[0,+∞].

Например, для создания ЦМ карт русского генофонда, пространство карты было покрыто густой равномерной сетью, состоящей из 9000 узлов. Для каждого узла сетки с помощью интерполяционной процедуры рассчитано значение частоты гена: в расчёт входили все изученные популяции в пределах заданного радиуса, взятые с весом, обратным расстоянию от данного узла сетки до конкретной изученной популяции. В данном случае была использована нулевая степень полинома, шестая степень весовой функции и учитывалась информация об исходных популяциях в радиусе 2000 км от данного узла сетки. Такой расчёт проводился независимо для каждого узла сетки. Это означает, что для каждого из 9000 узлов сетки учитывались почти одни и те же изученные популяции, но расстояния до каждой популяции и, следовательно, её «вес» при определении частоты гена в данном узле сетки — менялись. Еще раз подчеркнём, что рассчитанные значения в каких-либо узлах сетки никак не влияют на определение частоты гена в других её узлах. И поэтому все равно, с какой именно точки начнётся построение карты.

После того, как для каждого узла сетки получен независимый прогноз частоты гена, можно считать, что цифровая модель (ЦМ) карты создана: у нас имеется двумерная матрица, в каждой ячейке которой (для каждого узла равномерной сетки) хранится прогнозируемое значение признака. Далее с ЦМ (как с обычными матрицами) проводим все дальнейшие преобразования и статистические расчёты — корреляций, трендов, расстояний, главных компонент, — получая количественные оценки связей и закономерностей. При этом карта становится не иллюстрацией, а математической моделью пространственной изменчивости. Она служит инструментом количественного анализа генофонда: то есть становится не «графическим», а «алгебраическим» объектом.

Возникает закономерный вопрос: как меняются статистические характеристики (средняя частота признака, дисперсия и т. д.) в результате картографирования? Иными словами, насколько и как различаются характеристики опорных точек и ЦМ карты, созданной на их основе? Ответ на этот вопрос подробно рассмотрен в главе 5 (раздел 5.1., § 5).

КАК ЗАВИСИТ КАРТА ОТ ПАРАМЕТРОВ ЕЕ ИНТЕРПОЛЯЦИИ?

Итак, построение простой карты можно представить себе следующим образом. Сначала создается картографическая основа, напоминающая контурную карту (со своими картографической проекцией, морями, реками и границами). На нее наносятся исходные точки — популяции, изученные по данному гену. А сверху накладывается как бы листок в клетку — равномерная прямоугольная сеть. И для каждого узла этой сетки рассчитывается новое, интерполированное значение частоты гена. В каждом узле такое значение определяется всей совокупностью исходных точек в пределах заданного радиуса, но исходные значения частот гена берутся с весом, обратно пропорциональным расстоянию d i : чем дальше исходная популяция от узла сетки, тем меньше её вес. После того, как расчёт проведён для каждого узла сетки и как бы занесён в каждую клетку, этот «листок в клеточку» становится цифровой матрицей (ЦМ) частоты гена. Для следующего гена повторяем ту же самую процедуру. И если для всех генов мы использовали строго одни и те же картографическую основу и равномерную сетку, то в результате получаем серию ЦМ всех генов — полностью сопоставимых и унифицированных.

Параметры интерполяционной процедуры выбираются в соответствии с оптимальным значением дисперсии признака (по всем узлам карты). Например, в таблице 3.1. приведены значения статистических показателей карты в экспериментальной ситуации для одного из регионов. Проведены три эксперимента. В каждом из них географические координаты популяций и значения картографируемого признака задавались случайным образом. В каждом эксперименте изменялся только один параметр — густота сети (от 64 до 6021 узлов). Таблица 3.1. демонстрирует, что даже при увеличении в 100 раз густоты сетки ЦМ, изменения в оценке средних и дисперсий картографируемого признака невелики. Та густота сетки, которой соответствует «перегиб» кривой значений дисперсий (минимум), принята оптимальной.

Таблица 3.1. Приложения

Зависимость статистических показателей карты от параметров её построения (густоты сетки карты)

ВИЗУАЛИЗАЦИЯ КАРТЫ

Итак, при статистическом анализе ЦМ предстает как двумерная матрица значений признака. При этом каждому узлу сети ЦМ соответствуют точные значения географических координат местности. Это позволяет перейти от матрицы к собственно картографическому образу.

Для формирования собственно карты как зрительного картографического образа создается электронная картографическая основа: контуры территории в заданных географических проекции и масштабе, гидрографическая сеть, внутренние водоёмы и омывающие моря, административные границы, опорные точки, градусная сеть; программно обеспечивается создание легенды карты. Пространственное распределение признака изображается на картографической основе с помощью группировки значений ЦМ в интервалы шкалы изменчивости признака. Интервалы на карте разграничиваются изолиниями.

При визуализации карты мы группируем значения признака в те или иные интервалы и окрашиваем их по аналогии с физической картой. На цветных картах наиболее низкие значения признака окрашиваются синими тонами морских впадин, средние — зелёным цветом равнин, высокие значения признака — красно-коричневыми оттенками гор. На черно-белых картах — повышение частоты признака выражается в большей интенсивности окраски. Основной принцип наших карт — использование равномерной шкалы интервалов.

При переходе от ЦМ к карте значения признака объединяются в интервалы, указанные в легенде карты, и послойно окрашиваются. Благодаря интервалам шкалы не только создается образ карты, но и косвенно учитывается доверительный интервал самих значений признака. Области, окрашенные одним цветом, читаются как области, характеризуемые значением признака, варьирующим в пределах, указанных в легенде шкалы интервалов. Изолинии, соединяющие точки с одинаковым значением признака, рассматриваются как вспомогательные линии при чтении карты, а не как области точных значений.

Итак, при визуализации карты отображается не только её основное содержание, то есть значения признака и разделяющие их изолинии, но и ряд географических объектов на картографируемой территории, помогающие читателю соотнести карту с известным ему географическим пространством. Практически на каждой геногеографической карте отображаются моря (береговая линия), озера и реки, государственные и этнические границы, города, а на некоторых картах могут отображаться и дополнительные объекты (ледники, горы и другие). Также показывается расположение исходных изученных популяций (опорных точек), отображаемых ромбиками или кружками. Для облегчения чтения карт мы обычно приводим не только гидрографическую сеть, но и названия нескольких крупных городов (независимо от того, были они изучены по данному признаку или нет). Легенда карты не только помогает понять её содержание, но и несет большой объём статистической информации.

ЛЕГЕНДА КАРТЫ

Каждая карта сопровождается легендой, которая может включать до четырех окон: статистическое окно, гистограмму картографированных значений, гистограмму исходных значений, гистограмму со стандартными граничными значениями.

ГИСТОГРАММЫ. Вариационно-статистическое распределение признака на карте (гистограмма) дается в одном из окон легенды в виде гистограммы, имеющей, как указывает Г. Ф. Лакин, «не только иллюстративное, но и аналитическое значение» [Лакин, 1980, с. 293]. Штриховка гистограммы соответствует штриховке интервалов на карте. Над столбцами гистограммы указана в % доля площади, занятая данным интервалом частот.

При необходимости на картах приводятся также две других гистограммы: а) вариационно-статистическое распределение исходных значений признака (в опорных точках), построенное в тех же интервалах, что и карта в целом. Сравнение гистограмм исходных и картографированных значений признака позволяет оценить новую информацию, которую вносит учет ареала при картографировании признака; б) вариационно-статистическое распределение картографированных значений признака в универсальной шкале: например, для частот генов — от 0 до 1. Это дает возможность сохранять единый генетический масштаб при сравнении распределений различных генов.

СТАТИСТИЧЕСКОЕ ОКНО ЛЕГЕНДЫ содержит, как правило, следующие показатели:

K — число опорных точек (их географическое положение приведено на карте);

N — число узлов регулярной сетки (число значений матрицы ЦМ);

MIN, MAX, M, S 2 — экстремумы, средняя и варианса признака, где М=∑pijРц/N; S2=∑(pij — М)2 / N, рij — значение признака в узле матрицы ЦМ с координатами i и j;

H T , H S , G ST — характеристики общего, внутри- и межпопуляционного генного разнообразия [Nei, 1975] (в качестве популяций выступают узлы сетки): Н T =M(1-M); H S =H T -D ST ; G ST =D ST /H T -F ST ; D ST =S 2 . Приведенные значения показывают вклад картографируемого аллеля в генное разнообразие локуса (L): Н Т(L) =∑Н Т(i) ; D ST(L) =∑H ST(i) ; H S(L) =∑H S(i) ; G ST(L) =∑G ST(i) /∑H T(i) ; берется сумма всех i-тых аллелей в локусе L.

Показатели, приводимые в «статистическом» окне легенды, несут разнообразную вспомогательную информацию о карте. Число опорных точек (K) и их размещение на карте помогают оценить надёжность исходной информации, а также выявить области карты, не обеспеченные ею, где мы целиком полагаемся на интерполяционную процедуру. Число узлов карты (N) несет косвенную информацию о достоверности картографо-статистических показателей: их ошибки благодаря густоте сетки невелики (в легенде есть вся информация для расчёта ошибок). Экстремумы (MIN, МАХ) дают представление о вариационном размахе (R=МАХ-MIN) признака и позволяют сравнивать разные генофонды.

Величина М указывает среднее значение ЦМ, а карта позволяет видеть, как этот «центр тяжести» [Миллс, 1958, с. 89] вариационно-статистического ряда распределён по территории. Величина М отличается от среднего значения признака, рассчитанного по опорным точкам принципиальным моментом: М является средневзвешенной величиной. В качестве веса выступает важнейшая характеристика популяции — её ареал, и потому географическое пространство популяции с необходимостью входит в расчёт среднего значения (М) и вариансы (S 2 ) частоты гена (см. раздел 5.1, § 5). Благодаря карте, мы определяем не только величину средней, но и занятые ею области картографируемого пространства.

§ 4. Надёжность картографического прогноза

Компьютеры ненадёжны, но люди ещё ненадёжнее.

Законы ненадёжности Джилба.

Карта каждого гена сопровождается специальной картой надёжности, которая для каждого узла сетки указывает достоверность рассчитанного значения частоты гена.

ЧТО ТАКОЕ «НАДЁЖНОСТЬ» КАРТЫ

При решении задачи математического моделирования существуют два аспекта: 1) адекватность (то есть соответствие) предлагаемой математической модели анализируемым данным;

2) надёжность (то есть статистическая достоверность) результатов математического моделирования.

Если вопросы адекватности математических моделей геногеографии (их соответствия картографируемым данным, прогностической ценности и т. д.) анализировались целым рядом авторов, то работы по решению проблемы надёжности результатов картографирования в мировой литературе отсутствуют. Нерешённость проблемы надёжности картографирования не позволяет проводить строго объективную интерпретацию геногеографических карт, является основным мотивом справедливой критики и тормозит широкое использование геногеографических методов. Поэтому наша компьютерная технология геногеографического изучения генофонда уже несколько лет включает в себя оценку надёжности (достоверности) картографического прогноза — построение карт надёжности картографических моделей генофонда.

Новая характеристика «надёжность карты» количественно характеризует степень устойчивости анализируемых значений картографической модели. Надёжность измеряется вероятностью осуществления прогноза карты в каждой её точке и оценивает статистическую достоверность каждого картографированного значения.

Любая геногеографическая карта предлагает модель распространения признака (например, частоты гена) в географическом пространстве. Поскольку любое значение карты, полученное в результате интерполяционной процедуры картографического моделирования, является прогнозом, важно оценить, какова надёжность такого прогноза, какова вероятность его осуществления. Оценка надёжности дает ответ на вопрос: если в данной (любой) точке пространства провести изучение генофонда, то какова вероятность получить значение частоты гена, достаточно близкое к прогнозу, показанному на его карте?

Надёжность карты в разных частях её пространства может значительно различаться, например, из-за неравномерного распределения на карте исходной информации. На нее накладывается и неравномерность их изученности, и неравная их значимость для карты (популяции в регионах с мощными эффектами дрейфа генов дают менее надёжный прогноз, чем популяции с большой численностью и интенсивным генным обменом). Результатом такой множественной неравномерности является и неравномерная надёжность любой геногеографической карты, при чтении которой всегда возникает вопрос: насколько надёжен прогноз в той или иной точке её пространства? Ответ на такой вопрос могут дать только карты надёжности, на которых для всех точек того же самого картографируемого ареала приведены комплексные оценки надёжности (вероятности правильности картографического прогноза). Совместный анализ геногеографической карты признака и карты её надёжности позволяет по-разному относиться к значениям в надёжных и ненадёжных областях карты и давать корректную интерпретацию пространственной изменчивости изучаемого признака.

Карты надёжности создаются, исходя из основных положений математической теории надёжности. В биологических науках также используются приложения этой теории — при изучении экологических систем, генетических систем, клеток, клеточных популяций и тканей, процессов старения, репарации и др. При этом теория надёжности «рассматривается как важный эвристический метод исследования биологических объектов. Подобный подход возможен на любом уровне интеграции» [Кутлахмедов, 1985, стр. 7].

Из теории надёжности в геногеографию вводятся два понятия: уровень строгости (достоверности) а и вероятность прогноза Р [Нурбаев, Балановская, 1997, 1998; Балановская, Нурбаев, 1999].

1) УРОВЕНЬ СТРОГОСТИ (α). Уровень строгости служит постоянным коэффициентом при интегрировании дифференциального уравнения, описывающего надёжность анализируемой системы. Он задаётся в соответствии с требованиями надёжности к данной системе. Уровень строгости (обычно от α=0.3 до α=0.7) исследователь выбирается, исходя из требований к степени надёжности результатов, масштаба картографируемой территории, объёма доступной исходной информации.

2) ОЦЕНКА НАДЁЖНОСТИ ПРОГНОЗА В ТЕРМИНАХ ВЕРОЯТНОСТИ (Р). Значение надёжности прогноза является решением дифференциального уравнения надёжности. При любом заданном уровне строгости оценка надёжности (вероятность осуществления прогноза Р) варьирует от Р=0 (абсолютно ненадёжные области) до Р=1 (такой высокой надёжностью прогноза могут обладать лишь исходные популяции). Оценка надёжности меняется при изменении уровня строгости а: те объекты, надёжность которых приближается к максимальной (Р∞1) при уровне строгости α=0.50, при переходе к более высокому уровню строгости α=0.90 будут оценены как менее надёжные (Р<<1).

КАРТЫ НАДЁЖНОСТИ

На картах надёжности интенсивность окраски соответствует степени достоверности картографического прогноза. Первый интервал (белый цвет) соответствует самой низкой оценке надёжности (Р<0.90). Второй интервал (0.90<Р≤0.95) окрашен на черно-белых картах в светло-серые тона — надёжность приближается к достоверной, но не достигает традиционного для биологических исследований требования 95 % уровня вероятности. Третий интервал (0.95<Р≤0.975) — уже удовлетворительная оценка, поскольку вероятность выше 0.95; он окрашен в интенсивно серый цвет. Четвертый интервал (0.975<Р≤0.99), окрашенный в темно-серый цвет, указывает на географическое положение высоко достоверных районов карты. Пятый балл (Р>0.99) соответствует наивысшей оценке надёжности (области исходных популяций) и окрашен на карте в самые интенсивные тона. Таким образом, повышение интенсивности цвета на карте надёжности соответствует увеличению надёжности картографирования.

При дальнейшем картографо-статистическом анализе надёжными считаются только те области карты, где вероятность правильного прогноза выше 95 % (Р>0.95): только эти области распространения данного гена (или другой характеристики генофонда) учитываются при всех видах расчётов — корреляций, главных компонент, гетерозиготности и т. д.

КАРТЫ С УЧЕТОМ НАДЁЖНОСТИ

На картах признаков их значения показаны только в «надёжной» зоне, то есть для узлов ЦМ с вероятностью правильного картографического прогноза выше 0.95. В областях с меньшей надёжностью значения признака не приводятся («белые пятна» на карте данного признака).

Итак, «ненадёжные», то есть слабоизученные области, залиты на картах белым цветом и не используются в анализе, а все характеристики карты рассчитываются только по её надёжному пространству [Нурбаев, Балановская, 1997, 1998]. Число узлов карты (N), вошедших в «надёжное пространство» данного гена, указано в легенде каждой карты. Например, для ряда обобщённых карт русского генофонда N=1294. Это означает, что из 9000 узлов карты около 5000 узлов соответствуют ареалу других народов Восточной Европы, Кавказа и Урала, а остальные 2706 узлов русского ареала являются ненадёжными для данной системы признаков.

Таким образом, входными параметрами математической модели надёжности являются исходная геногеографическая карта (размещение опорных точек) и уровень строгости (α), выбранный для надёжности этой карты. Выходным параметром является вероятность прогноза (Р) значения признака в каждом узле исходной карты. Карты надёжности служат для отбора лишь тех точек картографического пространства, которые удовлетворяют требованиям надёжности.

§ 5. Простые преобразования простой карты

Мы уже говорили о том, что самые простые преобразования карты — это операции с отдельным узлом карты. Их проще всего представить, потому что такие операции проводятся с каждым узлом независимо.

СПЕКТР ПРОСТЫХ ПРЕОБРАЗОВАНИЙ

Статистическая трансформация отдельной карты осуществляется на уровне цифровой модели: с каждым значением матрицы ЦМ производятся операции, заданные тем или иным алгоритмом. В результате замены всех исходных значений матрицы преобразованными значениями создается новая — результирующая — ЦМ новой карты. К основным операциям по трансформации отдельной карты отнесены следующие: арифметические операции с константой (увеличение или уменьшение значений ЦМ на константу, умножение или деление на нее); возведение значений ЦМ в степень (положительную, отрицательную, целую, дробную); тригонометрические функции; логарифмические функции; перевод в абсолютные значения (взятие по модулю); дополнение до единицы. Эти операции комбинируются в любые сочетания, образуя цепочки многоступенчатых преобразований.

Трансформация отдельной карты широко используется при решении различных задач. Обычно такие преобразования являются промежуточными при сложных расчётах, однако они могут иметь и самостоятельное значение, например: при создании карты распределения частоты гена на основе карты альтернативного аллеля путем «вычитания карты» из единицы (1-q); при создании карты распределения гомозиготного генотипа на основе карты частоты аллеля путем возведения карты в степень (q 2 ); при картографировании гетерозиготности и генетических расстояний двухаллельного локуса на основании карты частоты гена одного из аллелей;

для различных нормализующих преобразований карты признака: lg(x), lg(x ± const), arcsin (√x), 1/х, 1/√x, √x + √x+1, x 1..5 , x 2 .

Статистическая трансформация совокупности карт проводится путем трансформации их ЦМ. Все трансформируемые карты обязательно должны быть построены на единой картографической основе и иметь одинаковое число узлов сетки с идентичной географической привязкой. Процедура преобразования состоит в следующем. Последовательно с Rij элементом каждой матрицы ЦМ (где i и j — координаты узла равномерной сетки) осуществляется заданная операция, результат которой после обработки всех исходных ЦМ заносится в соответствующий Rij элемент результирующей ЦМ. После повторения этой процедуры для каждого узла цифровой модели будет получена новая матрица ЦМ — результирующей карты.

Элементарные операции комбинируются в любые алгоритмы, включающие также трансформации отдельной карты. Методы статистической трансформации карт позволяют осуществлять переход от географии отдельного гена к основной цели и проблеме геногеографии — географии генофонда. Этот путь пролегает через промежуточные ступени: географию генотипов и географию важнейших показателей генетического разнообразия.

В качестве примера статистической трансформации совокупности карт рассмотрим создание карт гетерозиготности, что отчасти иллюстрирует как спектр возможных приложений, так и набор элементарных трансформаций.

СОЗДАНИЕ КАРТ ГЕТЕРОЗИГОТНОСТИ

Уровень гетерозиготности служит интегральным индикатором состояния генофонда: он реагирует на воздействия всех важнейших факторов микроэволюции — дрейфа генов, инбридинга, миграций, давления отбора, служит генетической компонентой продолжительности жизни [Алтухов, 1984, 1995, 1996, 1999; Livshits, Kobyliansky, 1984а, b; Kobyliansky, Livshits, 1983, 1986; Comuzzie, Crawford, 1990; Алтухов, Курбатова, 1990, 1993; Дуброва и др., 1988, 1990; Курбатова, 1996; Спицын и др., 1996]. Величина среднего уровня гетерозиготности является важной характеристикой генофонда — есть основания полагать, что снижение или повышение гетерозиготности за пределы естественных флуктуаций несет угрозу для генофонда. Однако при картографировании гетерозиготности возникают методические сложности: для нее нельзя прямо использовать интерполяционную процедуру, так как функциональная связь гетерозиготности популяций с их географическим ареалом сложнее, чем в случае частот генов.

Поясним это на примере. Пусть на картографируемой территории наблюдается тренд (градиент) частот генов, так что опорные популяции А1 и А5, территориально удалённые друг от друга, характеризуются следующими частотами гена: q A1 = 0.1; q A5 = 0.9. Тогда на карте в промежуточных точках А2, АЗ и А4, лежащих на трансекте, проходящей через А1 и А5, интерполяционной процедурой задаются промежуточные значения частоты гена: q A2 = 0.3,

Чаз= 0 5 и Ч А4 =°- 7 -

Поскольку гетерозиготность Н определяется через q: H=2q(1-q), то Н А1 =0.18; Н А2 =0.42; Н АЗ =0.50; Н А4 =0.42; Н А5 =0.18. Т. е. при ярко выраженном линейном градиенте частоты гена (q A1 =0.1; q A3 =0.5; q A5 =0.9), значения гетерозиготности меняются нелинейно: в крайних точках они одинаково низки (Н А1 =Н А5 =0.18), а на промежуточной территории карты наблюдается повышение гетерозиготности до максимальных для двуаллельного локуса значений (Н АЗ =0.50). Если бы мы для получения карты гетерозиготности воспользовались непосредственно интерполяционной процедурой, то не сумели бы восстановить истинный рельеф гетерозиготности. В этом случае, поскольку в опорных популяциях А1 и А5 значения гетерозиготности одинаковы (Н А1 =Н А5 =0.18 ), вся карта гетерозиготности представляла бы собой унылую равнину: Н А1 =0.18; Н А2 =0.18 Н АЗ =0.18; Н А4 =0.18; Н А5 =0.18.

Этот пример показывает, что геногеографические карты признаков, нелинейно-связанных с частотой гена и географическим пространством, нельзя получить прямым путем, интерполируя значения этих признаков: в этих случаях необходимо использовать трансформацию карт исходных признаков. Таким образом, единственный путь создания карт гетерозиготности — это трансформация карт частот генов.

Карта ожидаемой гетерозиготности полиаллельного локуса создается путем трансформации совокупности карт аллелей [Балановская и др., 19946]. На первом этапе для каждого аллеля создаются карты географического распределения его частоты (для всех аллелей — в одном и том же ареале, с одними параметрами построения карты и т. д.). Затем для каждого локуса рассчитываются карты гетерозиготности (Н) путем статистической трансформации карт аллелей локуса по алгоритму:

Н=1=∑q2a , где qa — значения частоты a-того аллеля (в локусе — А аллелей).

Согласно этому алгоритму с картами аллелей каждого локуса проводятся следующие трансформации: 1) значения ЦМ карты каждого аллеля возводятся в квадрат (карты распространения гомозиготных генотипов); 2) полученные карты суммируются в пределах локуса (карта гомозиготности локуса); 3) дополнение этой карты до 1 дает искомую карту ожидаемой гетерозиготности.

В результате такой многоступенчатой трансформации создаются карты пространственного распределения гетерозиготности для каждого локуса. Карта средней гетерозиготности по совокупности локусов получается с помощью двух последовательных трансформаций: 1) сложение карт гетерозиготности всех локусов; 2) деление суммарной карты на число локусов.

С помощью приведённых алгоритмов статистической трансформации можно получить геногеографические карты гетерозиготности любого генного локуса, карты средней гетерозиготности нескольких локусов или же генофонда в целом.

Важно подчеркнуть, что для систем сцепленных генов карты интегральной гетерозиготности могут отличаться от карт средней гетерозиготности не только по величине показателей, но и по их географии. Отметим, что обоснование преимуществ трансформации карт относится не только к гетерозиготам, но и в целом к картографированию генотипов.

§ 6. Карты корреляций и трендов

Карты корреляций и трендов относятся к следующему шагу по сложности преобразования — это операции, проводимые не с отдельным узлом карты, а с заданной группой узлов. Такие операции проводятся благодаря разработанной нами технике «плывущего окна». Эта техника позволяет решать многие сложные задачи анализа генофонда. Одним из многих, но наиболее часто используемым приложением метода «плывущего окна» является задача выявления трендов. Однако тренды можно выявлять и иным методом — моделирования с учетом всех узлов карты. Это уже третий шаг по сложности — операции со всеми узлами карты сразу! В этом разделе на примере карт трендов мы рассмотрим оба типа операций — и с группой узлов, и со всеми узлами карты. Так их будет проще сравнить.

ЧТО ТАКОЕ ТРЕНДЫ?

Геногеографическая карта отдельного гена может дать ответы на конкретные вопросы о распределении частоты гена по ареалу популяции, может служить для прогнозирования значений признака в генетически неизученных областях ареала, для планирования полевых исследований или же для решения других, не менее важных, но все же частных вопросов. Однако основное назначение геногеографической карты — выявление пространственных закономерностей. Такими закономерностями (трендами) могут быть и клинальная изменчивость (градиент значений признака), пронизывающая весь ареал генофонда; и некое ядро — центр влияния с расходящимися кругами убывающей интенсивности; и взаимопроникновение влияний нескольких центров; и пространственная динамика колебательного типа; или иные более сложные и комбинированные пространственные закономерности.

Они могут быть различны для разных признаков в одном и том же регионе. Но отличительными чертами пространственных закономерностей являются их объективность и устойчивость во времени и пространстве. Масштаб пространства и масштаб времени в общем случае соизмеримы. Чем крупнее ранг историко-географического региона, охваченного геногеографическим анализом, тем более глубокие и древние закономерности мы надеемся выявить. Однако карта доносит их до нас с наложившимися влияниями и воздействиями более поздних эпох.

Если представить географическую карту современного генофонда как совокупность наложенных друг на друга карт различных генетических эпох, тогда перед исследователем встает задача вычленения серии таких карт из суммарной, построенной на данных о ныне наблюдаемой генетической изменчивости. Наиболее простые способы решения этой задачи — для отдельной геногеографической карты — возможны в терминах вычленения трендовых (фоновых) поверхностей геногеографических карт, представленных в данном разделе.

КАК ОБНАРУЖИТЬ ТРЕНД?

Картографическое распределение (Z) признаков любой природы — экономических, геологических, демографических, биологических — можно рассматривать как картографическое воплощение совместного действия совокупности факторов. Одна их группа представляет основные, наиболее значимые и устойчивые факторы, обозначаемые как фоновые (ZF), другая группа включает остаточные (ZO), второстепенные воздействия. Они накладываются таким образом, что Z=ZF+ZG [Берлянт, 1986].

Если такую операцию подразделения Z на ZF и ZO провести для каждого узла сетки ЦМ, то в результате получим две ЦМ новых карт: 1) фоновую ЦМ (ZF), отражающую географию воздействия ведущих и длительно действующих факторов, сформировавших генетический рельеф; 2) остаточную ЦМ (ZG), отражающую эфемерные явления. Эта ЦМ дополняет фоновую поверхность до исходной (Z0=Z-ZF) и потому содержит как положительные, так и отрицательные значения.

Меняя параметры алгоритма, можно для одной и той же исходной карты получить серию фоновых поверхностей (ZF1, ZF2, ZF3… ZFN), отражающих различные комплексы ведущих факторов. Построенная серия фоновых карт и будет представлять собою решение поставленной задачи: вычленения из суммарной карты (ныне наблюдаемой генетической изменчивости) её составляющих, отражающих разные эпохи и события. Каждая из карт этой серии несет информацию о тренде — основных пространственных закономерностях — определенного «стратиграфического пласта» генофонда. Глубина залегания этого пласта, степень его древности задаются параметрами построения фоновой картографической поверхности.

Мы приведем два наиболее универсальных способа получения фоновых карт — с помощью осреднения в «плывущем окне» (операции с группой узлов) и с помощью аппроксимирующей функции (операции со всеми узлами карты).

ТРЕНД В «ПЛЫВУЩЕМ ОКНЕ»

Вариантов получения фоновой карты методом осреднения немало — оно может проводиться вдоль определённых направлений или линий (например, параллелей или меридианов, рек или границ акваторий) или же для нескольких точек по границам ячейки определённых размеров (обычно по вершинам шестиугольника). Такие методы традиционны в картографии [Берлянт, 1969, 1986; Салищев, 1990]. Имея возможность получить компьютерное решение этой задачи, мы сочли более информативным осреднение не по линиям и точкам, а по площадям равномерно перемещающегося окна [Балановская, Нурбаев, 1995].

Разработанный метод получения трендовой поверхности с помощью осреднения в «плывущем окне» сводится к следующей процедуре. С помощью выбранного алгоритма вычисляется среднее значение для всех узлов ЦМ, находящихся на площади прямоугольника заданного размера. Результат осреднения присваивается центральной точке (узлу сетки ЦМ) прямоугольника. Затем прямоугольник перемещается на один шаг, равный расстоянию между узлами ЦМ, его центром становится соседний узел сетки ЦМ, и такая же процедура осреднения повторяется для него. После того, как для каждого узла сетки ЦМ повторена эта процедура и каждому узлу присвоены значения, средние по площади заданного прямоугольника, построение цифровой модели фоновой поверхности ЦМ (ZF) окончено.

Остаточная поверхность вычисляется как разность между исходной и фоновой картами: ЦМ (Z O )=UM (Z) — ЦМ (Z F ).

«ПЛЫВУЩЕЕ ОКНО» ПОСТОЯННОГО РАЗМЕРА

Наиболее очевидным вариантом метода плывущего окна является осреднение в окне с размером, постоянным по всему ареалу генофонда [Балановская, Нурбаев, 1995]. В этом случае царит полное равноправие — все узлы фоновой карты в любой части ареала получают информацию от одинакового числа узлов исходной карты и в одинаковой мере стирают флуктуации, наслоившиеся на трендовую поверхность.

Основная задача, стоящая здесь перед исследователем, — подобрать такой размер окна, который отвечал бы цели работы: необходимости сохранения локальных особенностей процесса, сформировавшего генетический рельеф, или же воспроизведения лишь самых общих его тенденций. С увеличением размера окна — меняя масштаб осреднения — мы вскрываем всё более глубокие подстилающие пласты «генетической коры» и более устойчивые тенденции генетического процесса. Однако платой за это является потеря фоновой картой информации обо всех локальных особенностях генофонда.

Наиболее универсальным является размер окна, соответствующий среднему ареалу популяции при избранном масштабе исследования. Например, если нас интересуют закономерности, наиболее близкие к современности, или же мы исследуем внутреннюю структуру генофонда отдельного этноса, то целесообразно избрать окно осреднения, равное среднему ареалу элементарной популяции. При изучении генофондов крупных многонациональных регионов, при исследовании общих закономерностей их формирования, как бы снимающих отдельные события истории этноса, целесообразно использовать окно, равное среднему этническому ареалу. При изучении ведущих, глобальных закономерностей, сформировавших основные, подстилающие слои генофонда, можно использовать окна много больших размеров, соответствующих тем или иным надэтническим уровням популяционной иерархии.

В работе [Балановская, Нурбаев, 1995] для иллюстрации разных масштабов осреднения приведено исходное распределение частоты гена НР*1 в Северной Евразии и три фоновые поверхности, полученные из исходной с помощью плывущего окна постоянного — для узлов каждой карты — размера. Окна осреднения соответствует площадям: «а» — 300x300 км; «б» — 900x900 км; «в» — 1500x1500 км. Различия между картами по степени обобщения генетической поверхности таковы. Карта с окном «а» в целом повторяет исходную карту, стирая «случайные черты» и облегчая её прочтение. При увеличении окна осреднения до «б» уже проявляются более глубоко лежащие закономерности. В основе генетического рельефа этой карты выявляется гряда высоких значений, широтно простирающаяся через весь субконтинент от запада до северо-востока и связанная с тремя пиками значений: северо-восточным; западносибирским; европейским. Как на север, так и на юг от гряды идет постепенное понижение генетического рельефа. В целом карта демонстрирует двухвекторный широтный тренд значений признака. Такое своеобразное широтное направление изолиний, возможно, отражает особенности разнонаправленного взаимодействия этого гена с факторами природной среды в северных и южных широтах.

При дальнейшем увеличении размеров плывущего окна — до «в» — сквозь широтную изменчивость начинает проявляться наиболее глубинная тенденция: долготный градиент

значений частоты гена в направлении «запад — восток». Эта пространственная закономерность — долготного тренда — является ведущей при формировании генофонда Северной Евразии (с палеолитической эпохи). Она может рассматриваться как базисная при формировании и генетического рельефа гена НР*1. По аналогии с геологическими процессами её можно представить как направление наклона основной «глубинной» геологической платформы, на которую накладывается воздействие вторичных факторов, формирующих рельеф местности.

Выделить основные и вторичные факторы и тем более локализовать их географически, глядя на исходную карту, практически невозможно. Однако после их выявления методами фоновых карт, прочтение исходной карты приобретает большую научную глубину и объективность, позволяет обсуждать пространственную изменчивость признака в терминах закономерностей, тенденций, локальных особенностей и аномалий, позволяет подойти ближе к пониманию факторов, сформировавших структуру генетического рельефа.

Для большой наглядности для карт любых признаков обычно приводятся карты трендов, полученные при небольшом окне сглаживания случайных колебаний в частоте признака. В этом случае легенды самих трендовых карт обычно несут информацию о сглаженном рельефе, характеристики исходного генетического рельефа можно найти в таблицах.

«ПЛЫВУЩЕЕ ОКНО» МЕНЯЮЩЕГОСЯ РАЗМЕРА

Однако способ осреднения в постоянном окне имеет свои ограничения. Он эффективен при соблюдении двух условий — во-первых, равномерной изученности признака во всем картографируемом пространстве и, во-вторых, малой изменчивости размеров популяционных ареалов. Если нарушено хотя бы одно из этих условий, то осреднение в разных частях картографируемого пространства осуществляется как бы на разных уровнях обобщения.

Например, при использовании окна с размером, равным среднему этническому ареалу народов Северной Евразии, резкие различия в размерах этнических ареалов народов Сибири и народов Кавказа приведут к тому, что генетический рельеф Кавказа окажется в значительной мере стёртым. Осреднение для популяций Кавказа будет происходить не на уровне этносов, а на уровне лингвистических семей или даже более крупном, поскольку окно осреднения намного превышает этнический ареал народов Кавказа. В Сибири то же самое окно осреднения окажется меньше этнического ареала и недостаточным для устранения флуктуаций, возникающих в результате дрейфа генов и локальных миграций, поскольку осреднение будет происходить на субэтническом уровне организации. Подобная неравномерность осреднения приводит к неоднородности фоновой карты, поскольку в разных её частях оказываются отражёнными пласты различной древности, закономерности разных уровней обобщения.

Для устранения этих искажений нами специально разработан метод осреднения в «меняющемся окне» («Changing Window»): плывущее окно осреднения в разных частях картографируемого пространства принимает разные размеры в зависимости или от изученности признака, или от размера ареала популяции, или иных заданных параметров [Балановская, Нурбаев, 1995].

Чаще всего используется окно осреднения, меняющееся по картографируемому пространству в зависимости от числа опорных точек карты (популяций с исходной информацией), попадающих в окно осреднения. При построении фоновой поверхности распределения алгоритм осреднения учитывает следующие параметры [Балановская, Нурбаев, 1995]:

W MIN — минимальный размер окна, с заранее заданным наименьшим числом узлов сетки карты.

W MAX — максимальный размер окна. Размер окна (измеряемый в числе узлов сетки карты) не увеличивается больше W MAX , даже если в него не попало ни одной опорной точки.

K OPT — заданное оптимальное число опорных точек, служащее пределом для увеличения окна.

f K — функция зависимости веса значений признака от числа опорных точек в каждом из квадрантов окна (для этого окно подразделяется на четыре равных части — 4 квадранта). Эта функция определяет степень участия узлов сетки квадранта (в зависимости от их числа) при расчёте средней величины.

Процедура осреднения производится в следующем порядке. Начиная с минимального размера W MIN , окно осреднения увеличивается до тех пор, пока в него не попадает число опорных точек равное K OPT . Если окно увеличилось до W MAX , то даже если число опорных точек, попавших в окно, ещё не достигло K OPT , окно перестает увеличиваться и проводится расчёт.

Затем проверяется, сколько опорных точек находится в каждом из квадрантов окна — чем больше точек в квадранте, тем больший вес придаётся значениям узлов сетки этого квадранта (в соответствии с функцией f K ) при расчёте среднего значения, которое присваивается центральной точке окна. Благодаря такой процедуре осреднения (повторенной для каждого узла сетки ЦМ), окно осреднения пропорционально популяционным ареалам и изученности картографируемого гена в различных областях картографируемого пространства. Благодаря различному весу квадрантов окна значения средних формируются по наиболее точным (наиболее обеспеченным опорными точками) областям окна.

В эффективности такого алгоритма легко убедиться при сравнении карты, полученной на его основе, с картами, полученными при плывущем окне постоянного размера. Это сравнение удобно тем, что оптимальное окно ожидается равным «б», WMIN соответствует фоновой поверхности с окном «а», WMAX соответствует фоновой поверхности с окном «в». В таблице 3.2. приведены статистические параметры сравниваемых карт: исходной карты распределения гена НР*1, трех карт с постоянным окном и карты с меняющимся окном (далее называемой CW — сокращенно от «Changing Window»).

Как и следовало ожидать, при увеличении размера окна осреднения экстремумы (MAX, MIN) сближаются и размах изменчивости R (R=MAX-MIN) падает (Ra=0.39, RB=0.24). При этом значение средней остаётся практически неизменным, варьируя около 0.33 (табл. 3.2). Наибольшие изменения наблюдаются в показателе межпопуляционной изменчивости GST: при увеличении окна от «а» до «в» его величина падает втрое (GSTa=0.018, GSTb=0.006). Наблюдаемое изменение GST соответствует переходу в анализе межпопуляционной изменчивости от уровня локальных популяций к уровню лингвистических семей.

Таблица 3.2. Приложения

Статистические показатели исходной и трендовых карт при различных параметрах алгоритма осреднения(на примере распределения гена НР*1)

Практически по всем статистическим параметрам (табл. 3.2.) карты с CW наиболее близки к карте с постоянным окном осреднения «б», причём особенно важна близость показателей GST (GST(CW)=0.011, GSTб=0.010). Однако при практически одинаковом размахе изменчивости (RCW=Rб=0.33) минимальные значения частоты гена НР*1 на карте с меняющимся окном приближаются к значениям карты с окном «в», а максимальные — к показателям карты с окном «а». Это связано с различной обеспеченностью областей экстремумов исходными данными: области минимальных значений оказались слабо обеспечены исходными данными и потому менее надёжны и более интенсивно осредняются, чем области максимальных значений, надёжно обеспеченные для данного гена опорными данными и потому сохраняющиеся при методе меняющегося окна.

Генетический рельеф карты с CW в целом также наиболее близок к карте с постоянным окном осреднения «б». Однако карта с CW географически и исторически более точно воспроизводит границы ареалов тех или иных частот, поскольку ориентирована на фактический размер популяционного ареала и генетическую изученность народов. Карта CW отражает масштаб осреднения, связанный не с аморфным физическим пространством, а с историческим пространством, освоенным этносом.

Таким образом, метод «Changing Window» — осреднения в плывущем окне, размер которого меняется в зависимости от реального масштаба популяционного ареала и обеспеченности исходной информацией — позволяет даже в чрезвычайно гетерогенном регионе проводить осреднение во всех его частях на заданном уровне обобщения. Благодаря этому методу географическое пространство, вмещающее генофонд, перестает быть аморфным, однородным и нейтральным по отношению к структуре генофонда: при ориентации на реальный размер популяционного ареала в неявном виде учитываются природные и социальные барьеры на пути распространения генов. Возможность гибко изменять все четыре параметра окна осреднения (W MIN , WMAX, K OPT’ f K ) позволяет создавать серии картографических версий заданного уровня обобщения и тем самым как бы объемно моделировать генетический рельеф тех или иных исторических эпох.

ВЫЯВЛЕНИЕ ТРЕНДА АППРОКСИМИРУЮЩЕЙ ФУНКЦИЕЙ

Однако методы осреднения в окне — постоянного или меняющегося размера — «носят эмпирический характер и содержат элементы субъективизма» [Берлянт, 1986, с. 169]. Альтернативными считаются методы аппроксимации той или иной функцией, поскольку их модели опираются на строгий математический аппарат. При использовании аппроксимирующих функций фоновая и остаточная составляющие выделяются строго формально: аппроксимирующая функция описывает фоновую поверхность карты, отражающую искомые закономерности, а неучтенная часть соответствует остаточной компоненте [Берлянт, 1986]:

Z=f(u,v) + Eps=Z F + Z O ; f(u, v)=Z F ; Eps=Z O .

Поставленной задаче — разделения фоновой и остаточной поверхностей — с математической точки зрения полностью соответствует математический аппарат разложения в ряды, в частности, ортогональные многочлены (полиномы) Чебышева. При их использовании фоновая поверхность представляет собой графическое изображение аппроксимирующего многочлена, сумма квадратов отклонений которого от фактической поверхности минимальна [Берлянт, 1986]. Но у математических моделей есть общий недостаток — простоте и четкости математического аппарата не всегда соответствует простота и ясность интерпретации.

В картографии, геологии, физике для аппроксимации принято использовать 1-й, 2-й и 3-й порядки ортогональных многочленов Чебышева, содержательная интерпретация которых наиболее очевидна. Согласно [Берлянт, 1986], каждой из этих моделей соответствуют определённые классы явлений, для которых они оптимальны. Аппроксимация многочленом 1-го порядка (ZF1) моделирует моноклинальные поверхности, выявляющие направление сквозного градиента частот в распределении картографируемого признака и пронизывающие в едином направлении весь картографируемый ареал. Многочлены

2-го порядка (ZF2) служат адекватной моделью для явлений, распространяющихся из единого центра с уменьшением градиента плотности признака во все стороны по мере удаления от центра. Многочленом 3-го порядка (ZF3) наиболее оптимально аппроксимируется наложение двух различно ориентированных факторов или поверхности интерференции, создаваемой двумя центрами.

Фоновые поверхности, полученные из исходной поверхности рассмотренного выше распределения гена НР*1 с помощью ортогональных многочленов Чебышева, дали следующие результаты (эти же закономерности характерны практически для всех геногеографических карт) [Балановская, Нурбаев, 1995]. Аппроксимация многочленом:

1) 1-го порядка-моноклинальная изменчивость — позволяет определить направление общего наклона картографической поверхности данного гена. Эту карту можно интерпретировать как основной тренд гена, преобладающее направление общерегионального градиента частот.

2) 2-го порядка указывает расположение гипотетического центра распространения гена согласно модели эволюции из единого центра. Пик прогнозируемых значений значительно превосходит реально наблюдаемые пределы вариации аллеля.

3) 3-го порядка, т. е. в предположении наложения влияния двух центров, практически не отличается от предыдущей: ядро лишь несколько смещается в том или ином направлении.

4) более высоких порядков в географии, как правило, не используется. Объясняется это тем, что «содержательная интерпретация фоновых поверхностей, описываемых уравнениями четвертой и более высоких степеней, встречает затруднения» [Берлянт, 1986, с. 173]. Видимо, это справедливо по отношению к несложным поверхностям, которые удовлетворительно описываются уже многочленом 2-го порядка [Берлянт, 1986]. Однако для геногеографических карт со сложным рельефом, сформировавшимся под действием многих, часто разнонаправленных и локальных факторов, использование более высоких степеней не только оправдано, но и необходимо. Компьютеризация процедур расчёта, усложняющихся пропорционально степени многочлена, позволяет построить аппроксимирующие поверхности любого порядка (необходимо лишь оборудование достаточно высокого класса, иначе построение карты высокой степени многочлена может занять несколько суток непрерывной работы компьютера).

В работе [Балановская, Нурбаев, 1995] приведены карты динамики прогнозируемого рельефа с ростом степени многочлена. Картина как бы постепенно уточняется, начинает учитывать локальные центры в изменчивости гена и от абстрактного указания на расположение источника распространения генов переходит к моделированию реального процесса его распространения. Поскольку величина порядка многочлена на единицу больше числа локальных экстремумов ряда, то можно предложить математически строгий критерий определения оптимальной степени многочлена. Его можно сформулировать следующим образом: степень оптимальной аппроксимирующей поверхности ортогонального многочлена Чебышева должна быть на единицу больше наблюдаемого числа локальных экстремумов исходной (аппроксимируемой) картографической поверхности. Многие особенности результирующей карты восстанавливают при этом реалии исходной карты распространения гена. Однако при этом карта моделирует потоки распространения гена из центров, независимых от внешних воздействий.

Таким образом, метод аппроксимации многочленами Чебышева позволяет подразделить фактическую поверхность и выделить её составляющие, различающиеся по происхождению. Первая составляющая (аппроксимируемая 1-й степенью многочлена и по определению не учитывающая локальные экстремумы) — это общий сквозной тренд моноклинальной изменчивости, пронизывающий весь ареал и объединяющий внешние воздействия на генофонд — как природной, так и социальной среды. Вторая составляющая — это реконструкция центров, путей и направлений собственного саморазвития, независимого от внешнего мира; причём при высоких степенях многочлена эта составляющая реконструирует не только первичные, но и вторичные центры независимого развития.

ОСТАТОЧНАЯ ПОВЕРХНОСТЬ

Интересные результаты может дать и исследование остаточных поверхностей. Если остаточная поверхность отражает лишь случайные воздействия на генофонд, она мозаична и, как правило, малоинтересна. Однако она может зафиксировать и локальные аномалии в воздействии общих факторов, которые порой представляют не меньший интерес, чем сами закономерности. Сопоставляя фоновую и остаточную поверхности, можно обнаруживать области, отклоняющиеся от выявляемого тренда, и анализировать причины возникновения и важность тех или иных локальных особенностей в распределении того или иного гена. При обобщении остаточных поверхностей большой совокупности генов исчезает мозаичность случайных всплесков карты и появляется уникальная возможность обнаружить области аномалий в пространственной динамике генофонда в целом, указывающих на особенности его эволюции.

Таким образом, технология вычленения трендов позволяет на основе исходной геногеографической карты создавать серии трендовых (фоновых) карт и выявлять закономерности в пространственном распределении картографированного признака.

КОРРЕЛЯЦИОННЫЕ КАРТЫ

При исследовании пространственной изменчивости генофонда одной из важнейших задач является анализ связей между различными генами, между общими характеристиками генофонда (гетерозиготность, главные компоненты, дифференциация и т. д.), между параметрами генофонда и параметрами среды, культуры и т. д. Картографические технологии геногеографии создают целый спектр возможностей для количественного анализа пространственных связей.

Одним из инструментов является корреляционно-регрессионный анализ. В методы статистической трансформации карт входят алгоритмы расчёта различных показателей связей между геногеографическими картами: парной, ранговой, частной и множественной корреляции, коэффициентов регрессии. Для оценки связи между признаками рассчитываются корреляции между цифровыми моделями (ЦМ) карт соответствующих признаков. Чаще всего в геногеографии используются два показателя связи — коэффициент ранговой корреляции Спирмена и коэффициент частной корреляции [Айвазян и др., 1989]. Оба этих показателя, в отличие от наиболее известного коэффициента парной корреляции Пирсона, используются в тех случаях, когда необходимо определить взаимозависимость между рядами, распределенными не по нормальному закону (распределение частот аллелей в большинстве случаев отличается от нормального).

Для многих разделов, например, экологической генетики, чрезвычайно важно получить не общую на весь ареал оценку связи, а карту, которая позволяет видеть географию связи. Такая карта, показывающая тесноту связи на разных территориях, является уникальным инструментом для оценки пространственной изменчивости самих связей [Балановская, Нурбаев, 1999].

Традиционно исследователь использует для анализа единственный коэффициент корреляции на весь ареал. Такие «валовые» коэффициенты корреляции позволяют оценить степень связи в анализируемой системе в целом (например, степень связи мёж-ду частотой гена и климатическими факторами среды, широтой и долготой местности [Spitsyn et al., 1998; Кравчук и др., 1998]). Однако гетерогенность среды и генофонда приводят к тому, что такая связь может различаться в различных частях ареала, причём не только по величине, но даже и по знаку. Поэтому наиболее полный и корректный анализ можно провести при картографировании самих корреляций, когда карта демонстрирует степень связи между анализируемыми параметрами в различных частях ареала.

Использование технологии «плывущего окна» позволяет создавать принципиально новые карты связей и зависимостей. В общем виде подход реализован нами следующим образом. На одной картографической основе строятся компьютерные интерполяционные карты всех анализируемых признаков (например, карта одного гена и карта средового параметра). Пункты изучения признаков не обязательно должны совпадать в пространстве, поскольку при переходе от исходных значений к карте интерполяция будет проведена на узлы густой равномерной сети. А уже сами картографические основы, сами сети карт должны быть идентичны. Далее используется процедура «плывущего окна»: в пределах части ареала («окна» заданного размера — постоянного или меняющегося) рассчитывается коэффициент корреляции (непараметрический), значение которого заносится в центральный узел «окна». Далее окно скользит на один узел, и вся процедура повторяется до тех пор, пока в каждый узел карты не будет занесено соответствующее ему значение корреляции. В результате этой процедуры получаем карту корреляций, демонстрирующую их гетерогенность в пространстве ареала. Размер окна (выбираемый в зависимости от задачи и масштаба исследований) может быть постоянным в пространстве карты, либо меняющимся, например, в зависимости от изученности частей ареала. Расчёт можно провести с учетом надёжности картографирования: части ареала с низкой достоверностью картографического прогноза не включаются в анализ корреляций.

Карта демонстрирует интенсивность связи в каждой точке пространства и позволяет анализировать пространственную изменчивость связей. Приведём распространённый пример. Коэффициент корреляции между картами двух признаков близок к 0. из чего делается вывод об отсутствии связи между признаками. Карта корреляций обнаруживает ошибочность этого вывода: половина ареала занята значениями корреляций r≈-1, другая половина — значениями r≈+1, и лишь узкий коридор между ними — промежуточными значениями r≈0. То есть карта обнаруживает не только высокую связь между признаками, но и её пространственную изменчивость: наличие двух областей с противоположным направлением связи, что позволяет искать факторы, определяющие взаимодействие признаков, формулировать гипотезы, которые можно проверять с помощью дальнейшего картографо-статистического анализа.

Таким образом, карты корреляций позволяют корректно анализировать связь как между параметрами среды и структурой популяции, так и между любыми другими признаками, гетерогенными в пространстве.

Корреляционные карты подразделяются на два основных типа: 1) картографирование связей между геногеографическими картами; 2) картографирование корреляций между картой частоты признака и географическими координатами местности — широтой и долготой.

В целом, в результате картографо-статистического корреляционного анализа создаются новые геногеографические карты закономерностей и связей, которые являются чрезвычайно чувствительным инструментом с большой разрешающей силой [Балановская, Нурбаев, 1999].

§ 7. «Синтетические» карты генетических расстояний

Карты изменчивости не одного признака, а сразу всей совокупности признаков, наиболее информативны при изучении закономерностей генофонда. Такие карты называют «синтетическими» или обобщёнными, поскольку они обобщают (синтезируют воедино) изменчивость многих отдельных признаков. Наиболее известны «синтетические» карты главных компонент — они служат основным инструментом изучения генофонда для коллектива Л. Л. Кавалли-Сфорца [Cavalli-Sforza et al., 1994]. В нашей картографической технологии реализован не один; а несколько подходов к созданию «синтетических» карт — не только главных компонент, но и карт общего генетического разнообразия, карт межпопуляционных генетических различий, карт гетерозиготности, а также карт генетических расстояний.

Наш опыт показывает, что наиболее объективным, мощным и вместе с тем наглядным вариантом «синтетических» карт являются карты генетических расстояний. Они позволяют формулировать и проверять гипотезы сходства и различий популяций. Ведь мы можем построить для одного и того же генофонда целую серию карт расстояний от самых разных популяций, как реальных (например, того или иного района, выделяющегося своеобразием, если мы хотим обнаружить генетические близкие ему популяции), так и обобщённых (начиная от обобщённых характеристик всего генофонда до характеристик самых разных его частей). В совокупности, вся серия карт генетических расстояний создаёт удивительно яркий и объёмный образ генофонда. При этом мы не являемся только созерцателями «портрета», а активно используем инструмент генетических расстояний, чтобы задавать генофонду все новые вопросы, получая всё более полные ответы.

ЧТО ТАКОЕ «КАРТА ГЕНЕТИЧЕСКИХ РАССТОЯНИИ»?

Это карта, рассчитанная по совокупности множества карт разных генов. В каждом узле такой карты находятся не частота гена, а величина средней генетической удаленности данного узла сетки от той популяции, которая нас интересовала при создании данной карты генетических расстояний. Для этого рассчитываются многомерные расстояния (показатели генетических различий) от каждой популяции на изучаемой территории до генетических характеристик популяции, интересующей исследователя (так называемой «реперной» популяции). Соответственно, на карте каждая популяция присущим ей значением расстояний говорит о себе, насколько она генетически сходна с реперной популяцией. Например, если за реперную точку отсчёта взять обобщённую русскую популяцию, придав ей средние — по всем русским популяциям — значения частот признаков, то карта генетических расстояний покажет, насколько все русские популяции сходны или же отличны от среднеэтнических характеристик. Затем мы можем задать вопрос, а какие русские популяции и насколько близки к татарскому этносу? И тогда для тех же русских популяций мы рассчитаем их генетические расстояния до татар, а карта наглядно даст ответ на поставленный вопрос. Если в следующие карты мы включим не только русские, но и соседние популяции Восточной Европы, то значения расстояний будут показаны и для популяций иных народов. Тогда по карте можно сразу же увидеть, какие из них генетически наиболее близки к русскому или к татарскому генофонду.

АЛГОРИТМЫ

Для построения карт генетических расстояний наряду с традиционной и общеизвестной оценкой генетических расстояний по М. Nei [1975], нами используется алгоритм расчёта угловых расстояний © [Cavalli-Sforza, Edwards, 1967], где для локуса / с А аллелями:

θ l =across∑√q na q ma , где q a — частота a-того аллеля, п и т — популяции.

Эта функция привлекательна тем, что её квадрат пропорционален времени, потребовавшемуся на формирование генетического расстояния. Картографирование квадратов расстояний, таким образом, связывает географию генофонда со временем его развития. Для совокупности L локусов:

θ2=1/k∑θ2l ; k =∑(A l -1).

Этот несложный алгоритм позволяет создать карту с принципиально новым генетическим рельефом, обнаруживающим в терминах генетических расстояний близость либо отдалённость любых районов от заданных (реперных) значений: близости соответствуют низины, отдалённости — поднятия генетического рельефа, в какой бы части ареала они ни встречались. Для создания такой карты достаточно для каждого из аллелей локуса вместо q am использовать реперную (например, средне региональную) частоту аллеля qa и провести для каждого узла сетки карты расчёт расстояний от локального значения признака в узле до средне-регионального: а I=

θ 2 l =across2∑√q an q a ,

где q a — константа, соответствующая заданному средне региональному значению частоты гена а; q an — значение частоты гена а в n-ном узле (с координатами i,j) сетки карты, где n принимает значения от 1 до N (общего числа узлов карты).

Помещая каждое из полученных значений θ2 в соответствующий n-ный узел новой карты, мы картографируем генетические расстояния и получаем искомую карту генетической удаленности каждой из точек карты от реперных частот. Усреднением карт по всем анализируемым генам получаются средние карты генетических расстояний, которые и используются как окончательный результат анализа.

Располагая достаточно большой выборкой генов и популяций, можно с помощью описанного инструментария — картографирования генетических расстояний — исследовать историю генофонда в целом, обнаруживать генетические следы исторических событий [Рычков, Батсуурь, 1987; Рычков, Балановская, 1988; Балановская и др., 1997, 1998; Кравчук и др., 1998, Почешхова, 1998]. Принципиально важно, что, создавая серии карт генетических расстояний, мы можем последовательно формулировать и проверять гипотезы о сходстве и генетических различиях между любыми группами народонаселения. Это позволяет перейти от картографического моделирования к картографическому эксперименту и открывает чрезвычайно широкие перспективы для геногеографии. В целом, инструментарий генетических расстояний является много более мощным и перспективным, чем методы главных компонент, автокорреляций, «wombling»-анализа и другие, используемые ныне мировым научным сообществом для описания генофондов.

§ 8. «Синтетические» карты главных компонент

Карты главных компонент представлять не надо, как и их аналог для признаков с внутригрупповой корреляцией — канонические переменные. Эти методы уже давно стали традиционными как в антропологии, так и в генетике.

СУТЬ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ

Метод главных компонент относится к группе методов снижения размерности, наряду с многомерным шкалированием, факторным анализом, анализом канонических переменных, методом экстремальной группировки признаков и другими [Айвазян и др., 1989]. Снижение размерности представляет собой переход от исходного набора многих показателей к небольшому числу вспомогательных переменных, на основании которых можно достаточно точно воспроизвести свойства анализируемого массива данных [Айвазян и др., 1989].

Первой главной компонентой исследуемой системы показателей называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих нормированно-центрированных линейных комбинаций обладает наибольшей дисперсией. Любой k-той главной компонентой называется такая нормированно-центрированная линейная комбинация, которая некоррелирована с предыдущими главными компонентами и среди всех прочих нормированно-центрированных и некоррелированных с предыдущими линейными комбинациями обладает наибольшей дисперсией [Айвазян и др., 1989].

Главные компоненты обладают следующими основными свойствами [Айвазян и др., 1989; Дерябин, 2001]:

1. Первые главные компоненты характеризуются наибольшей информативностью, которая определяется величиной их дисперсии (долей от общей суммарной дисперсии всех исходных признаков).

2. Все главные компоненты нескоррелированы и поэтому представляют собой независимые признаки.

Таким образом, анализ главных компонент представляет собой процедуру для упрощения многомерных данных с минимальной потерей информации [Cavalli-Sforza et al., 1994].

КАРТОГРАФИРОВАНИЕ-ГЛАВНЫХ КОМПОНЕНТ

Геногеография позволяет не только провести стандартную процедуру анализа главных компонент, но и увидеть их распределение в географическом пространстве. Каждая из карт главных компонент отражает динамику новых обобщённых признаков генофонда, имеет свой генетический ландшафт и выдвигает на первый план особый исторический сценарий [Cavalli-Sforza, Piazza, 1993] развития генофонда. Карты главных компонент уже не раз публиковались и демонстрировались для самых разных генофондов — Восточной Европы, Европы, Евразии, мира [Menozzi et al., 1978; Ammerman, Cavalli-Sforza, 1984; Rendine et al., 1986; Рычков, Балановская 1992; Cavalli-Sforza et al., 1995; Балановская, Нурбаев, 1997; Рычков и др., 1997, 1998].

Основным стимулом для развития всей компьютерной геногеографии (как для зарубежной, так и для отечественной геногеографических школ) явилось именно стремление построить географические карты главных компонент. По мнению Л. Д. Кавалли-Сфорца [Cavalli-Sforza et al., 1994], построение карт главных компонент может облегчить визуализацию древних миграций, а также иные факторы, однотипно влияющие одновременно на целый ряд генов. Впервые карты главных компонент были созданы коллективом под руководством L. L. Cavalli-Sforza [Menozzi et al., 1978], причём для этого коллектива карты главных компонент («синтетические» карты) являются основным методом картографического обобщения [Menozzi et al., 1978; Piazza et al., 1981 a,b; Ammerman, Cavalli-Sforza, 1984; Cavalli-Sforza et al., 1995]. Независимо собственная технология картографирования главных компонент разрабатывалась одним из авторов (Е. В. Балановской) в сотрудничестве с Ю. Г. Рычковым, С. М. Кошелем, Д. Б. Патрикеевым, Т. П. Папковой, С. Д. Нурбаевым. Последняя версия включает нормировку исходных данных, нормировку дисперсии, расчёт по корреляционной матрице и оптимизацию решения (упорядочивание собственных векторов и собственных чисел для обеспечения инвариантности решения). Основное отличие наших карт от создаваемых коллективом L. L. Cavalli-Sforza — в том, что наши карты обладают большей точностью и разработанностью деталей рельефа главных компонент (это связано с особенностями построения исходных карт генов). Однако по самой сути подхода и те, и другие карты главных компонент чрезвычайно сходны и могут сопоставляться без дополнительной коррекции.

Расчёт главных компонент осуществляется следующим образом. По значениям признаков (частот аллелей) в популяциях рассчитывается матрица корреляций всех аллелей друг с другом. Значения главных компонент для данной популяции вычисляются по значениям исходных признаков, умноженных на соответствующие коэффициенты. В качестве коэффициентов выступают собственные векторы ковариационной матрицы отдельных признаков, при условии некоррелированности получаемых на их основе главных компонент. Поэтому первым шагом является расчёт коэффициентов ковариации, затем производится решение соответствующего уравнения, корнями которого являются собственные вектора ковариационной матрицы, и, наконец, перемножением этих коэффициентов и значений частот аллелей находятся величины главных компонент.

Этот алгоритм расчёта главных компонент заложен практически во всех статистических программных пакетах. Поскольку в геногеографии необходимо провести расчёт карт главных компонент не по исходным данным, а по картам отдельных признаков, то для этого созданы оригинальные программы картографического пакета GGMAG. Так как цифровая модель карты представляет собой числовую матрицу со значениями частоты аллеля в каждом узле, то задача расчёта главных компонент сводится к получению значений главных компонент в каждом узле цифровой модели. При расчёте с использованием картографического пакета последовательность значений во всех узлах ЦМ выступает в том же качестве, как последовательность значений в одной строке таблицы данных при расчёте в обычном статистическом пакете. По данным во всех узлах ЦМ рассчитывается матрица корреляций всех ЦМ друг с другом. По корреляционной матрице вычисляются значения главных компонент для каждого из аналогов популяций (узлов равномерной сетки карты). Полученные значения главных компонент вновь присваиваются каждому узлу ЦМ. В результате создается ЦМ карт 1 главной компоненты, 2, 3… N главной компоненты, где N — число исходных карт отдельных признаков [Cavalli-Sforza et al., 1994; Балановская, Нурбаев, 1997]. Число результирующих карт главных компонент равняется числу исходных признаков, однако обычно рассматриваются карты только первых двух-трех компонент, описывающих основную часть изменчивости всех исходных признаков.

Таким образом, при расчёте карт главных компонент используется тот же алгоритм, что и при обычных статистических расчётах. Единственное отличие состоит в том, что получаемые значения главных компонент в популяциях (узлах сетки карты) имеют координатную привязку и поэтому представляются не в табличном формате, а в формате цифровой модели. Как указывалось, эта функция расчёта по значениям, привязанным к узлам ЦМ, реализована в программном пакете GGMAG.

ЗАЧЕМ НАДО СТРОИТЬ КАРТЫ ГЛАВНЫХ КОМПОНЕНТ?

Этот вопрос кажется простым — конечно, чтобы своими глазами увидеть невидимое — главные закономерности в изменчивости генофонда. Но на самом деле вопрос не так прост. Он подразумевает иное — а зачем надо разрабатывать сложные специальные программы? Почему геногео-графикам так важно строить карты главных компонент по исходным картам генов? Почему бы не рассчитать главные компоненты с помощью обычных статистических пакетов, а затем уже построить карты по полученным значениям главных компонент, как мы строим простые карты отдельных признаков? Иными словами, зачем так стараться создавать сложные карты, если можно построить простые? Особое значение, которое приобретает именно картографический, а не чисто статистический анализ главных компонент, объясняется в первую очередь неравномерностью исходных данных.

Неравномерность состоит в том, что по аутосомным генетическим маркёрам практически каждый локус изучен по собственному, отличающемуся от других, набору популяций. Это делает исходную информацию о генах несопоставимой и недоступной для прямого анализа главных компонент генофонда. Анализ главных компонент генофонда по исходным популяциям просто невозможен: большинство ячеек в матрице «популяции на гены» оказываются незаполненными, причём столь случайным образом, что из нее нельзя выбрать информацию, достаточно полно представляющую генофонд.

При изучении генофондов использование традиционного инструментария главных компонент наталкивается на почти непреодолимые трудности: необходимо, чтобы все популяции были изучены по одному и тому же набору генных маркёров. Однако (в отличие, например, от антропологии) программа генетических исследований не стандартизирована: практически каждый маркёр изучен по особому набору популяций. Требование унифицированности данных чрезвычайно сужает и набор популяций, и набор маркёров. Остаются два выхода: 1) ограничить число анализируемых популяций; 2) ограничить набор маркёров. Однако как несколько популяций не могут надёжно представлять всю популяционную систему, так и малый набор маркёров не может служить характеристикой генома в целом. При малом наборе популяций и маркёров анализ генофонда невозможен: анализируется случайный ряд популяций по нескольким генам, но не генофонд того или иного масшта- ба. Именно поэтому, как правило, исходная информация о генах не позволяет широко использовать классический анализ главных компонент.

Выход из этой ситуации дает геногеография. Картографическая интерполяция помогает найти наиболее вероятные значения признака для тех точек карты и популяций, по которым исходная информация отсутствует. В результате заполняются «пробелы» вырожденной матрицы и появляется возможность включить в анализ главных компонент генофонда все изученные популяции и полный репрезентативный набор генных маркёров, в своей совокупности отражающие основные свойства и историю генофондов. Карты «надёжности» [Нурбаев, Балановская, 1997, 1998] позволяют выбрать из всей совокупности интерполированных значений лишь те, которые обладают высокой надёжностью. (Карты надёжности несут информацию о достоверности интерполированных значений признака в каждой точке картографируемого ареала, поэтому те области карты, которые не были обеспечены исходной информацией, не участвуют в анализе главных компонент.)

Например, изучение генофонда Восточной Европы опирается на генетическую информацию о 1586 популяциях, однако ни одна (!) из популяций не изучена по всему набору 30 локусов (100 аллелей). Практически каждый ген изучен по собственному, отличающемуся от других, набору популяций. Это делает исходную информацию о генах несопоставимой и недоступной для прямого анализа главных компонент генофонда.

Итак, единственный выход — это выход геногеографический: создать серию унифицированных карт. Причём карты каждого гена должны одновременно удовлетворять двум противоположным требованиям: с одной стороны, полностью учитывать всю исходную информацию о гене; а с другой стороны — быть полностью сопоставимыми с картами всех других генов.

На этих картах каждый узел их равномерной сетки является аналогом популяции. Для всей совокупности таких новых популяций (на картах генофонда Восточной Европы их около 9000) и по всей совокупности генов (карты 100 генов) рассчитываются главные компоненты — по стандартной по процедуре, описанной выше. Полученные значения главных компонент вновь присваиваются каждой из 9000 узлов сетки. Эта процедура стандартна и полностью соответствует привычному — не картографическому — анализу главных компонент. На основе 100 карт генов рассчитывается корреляционная матрица. Значения главных компонент рассчитываются для каждого узла равномерной сетки карты. В результате создается ЦМ карт 1, 2, 3… 100 компонент; благодаря нормировке и оптимизации решения среднее значение соответствующей компоненты равно нулю, дисперсия — единице, корреляция между картами компонент равна нулю. В результате анализа мы характеризуем аналоги популяций новыми признаками — главными компонентами, обобщающими информацию обо всех исходных признаках.

Отличие картографического анализа лишь в том, что самих популяций (узлов сетки) очень много, и они имеют строго упорядоченную географическую привязку. Благодаря этому мы можем, объединив значения главных компонент в интервалы и окрасив их (отрицательные значения — в светлые тона, положительные значения — в темные) увидеть своими глазами, как значения главных компонент распределены в пространстве. Таким образом, карты главных компонент представляют собой отображение трехмерного пространства: два измерения -

географические, третье измерение — это генетический ландшафт главной компоненты. Обычно первые три компоненты вбирают в себя наибольшую часть общей дисперсии и как бы конденсируют в себе информацию об основных параметрах изменчивости наибольшей части генов.

КАК АНАЛИЗИРОВАТЬ КАРТЫ ГЛАВНЫХ КОМПОНЕНТ?

Далее можно изучать полученный генетический ландшафт главных компонент разными методами.

Во-первых, можно чисто качественно интерпретировать пространственные закономерности в терминах экологии или истории [Cavalli-Sforza et al.„1994; Рычков и др., 1997, 1999]. Но интерпретации могут быть разными. Главное в ином — мы выявляем объективно существующие пространственные закономерности всего генофонда, обнаруживаем «главные сценарии» в его изменчивости. Далее эти объективные закономерности могут поддаваться (или не поддаваться) той или иной интерпретации того или иного автора — важно, что есть реальный объект для обсуждения и выдвижения гипотез.

Во-вторых, выявленные картами главных компонент географические закономерности можно изучать количественно. Примером количественного изучения могут служить корреляции между картами главных компонент генофонда Европы и картами расселения земледельческого населения, материальной культуры палеолита, гетерозиготности, заболеваемости [Ammerman, Cavalli-Sforza, 1984; Cavalli-Sforza et al.„1994; Балановская и др., 1997; Рычков и др., 1998].

В-третьих, можно перейти к пространству главных компонент. Ведь на карте мы видим распределение аналогов популяций с определенными значениями главных компонент в географическом пространстве. Наша задача — увидеть, как распределены эти популяции в самом пространстве главных компонент.

ПРОСТРАНСТВО ГЛАВНЫХ КОМПОНЕНТ

Мы говорили, что метод главных компонент может использоваться как в обычном статистическом, так и в картографическом обличье. И эти два подхода не изолированы: существует переход от карт главных компонент к обычному, статистическому представлению тех же результатов на графике.

Обычное представление главных компонент — двумерный график, по осям которого отложены значения главных компонент, а каждая изученная популяция представляется как точка на графике. Положение точки задаётся её координатами — значениями главных компонент в этой популяции. На таком двумерном графике популяции расположены в собственном пространстве — пространстве главных компонент. А на карте — эти же популяции представлены в реальном географическом пространстве. При картографическом представлении популяцией является узел цифровой модели, и для этой «картографической популяции» известно значение главной компоненты и её положение в географических координатах.

И обычное, и картографическое представление результатов являются двумерными, но в первом случае популяция характеризуется одновременно по значениям двух главных компонент

и без указания географического положения, а во втором случае одна карта показывает значения только одной компоненты, зато представлена география. Итак, на двух картах представлена та же информация, что и на одном графике, плюс географическое измерение. И мы можем при желании отказаться от этого дополнительного измерения и «свернуть» две карты в один двумерный график.

Сделать это очень легко. Поскольку из карты первой компоненты известно значение компоненты для каждого узла карты, а из второй карты известны значения второй компоненты для тех же узлов, то каждый узел карты можно представить на обычном двумерном графике. Отличие такого графика пространства главных компонент, полученного через карты, от графика, полученного обычным статистическим путем, состоит только в числе и в географической равномерности точек-популяций: на картографическом графике их обычно сотни и тысячи — столько, сколько узлов в цифровой модели карты, в равномерной сети, покрывающей карту.

Несмотря на простоту такого графика, в процессе визуального анализа взаиморасположения изученных групп создается образ, несущий новую информацию о группах. В результате пространство главных компонент [Балановская, Нурбаев, 1997] становится важным инструментом для осмысления результатов, их критической интерпретации и сопоставления с информацией об истории и экологии изучаемых групп.

ЭТНИЧЕСКИЕ ОБЛАКА

При работе с картами возникает одна сложность. При обычном представлении мы опознаем каждую точку-популяцию по её номеру или названию, подписанному рядом с ней на графике. Но как назвать тысячи популяций, единственным «именем» которых являются их географические координаты? Для этого карта подразделяется на несколько зон, и узлы обозначаются особым значком в зависимости от того, в какую зону они входят. Этими зонами могут быть, например, ареалы народов, и такой приём позволяет обогатить график главных компонент новым содержанием. Если мы анализируем данные по нескольким народам, то на обычном графике главных компонент каждый народ будет представлен одной или немногими точками (изученными популяциями), а на графике, полученном через карты, каждый народ будет представлен целым облаком точек (узлов карты). Причём число точек в этническом облаке будет прямо соответствовать размеру этнического ареала. А компактность или же размытость этнического облака будет свидетельствовать соответственно о сходстве или же различиях разных популяций этого народа, то есть о большей или меньшей внутриэтнической гетерогенности.

Тем самым график главных компонент, построенный через карты главных компонент, показывает не только взаимное генетическое сходство изученных народов, но и степень популяционных различий внутри этих народов.

Как осуществить это технически? Процедуры и примеры их применения подробно описаны в [Балановская, Нурбаев, 1997]. Выделим на картах компонент ареалы интересующих нас этносов. А затем осуществим переход от географического пространства к пространству главных компонент следующим образом. Обозначим аналоги популяций — узлы сетки карты — в ареале каждого этноса значками единого цвета и формы. То есть цвет или значки будут выступать маркёрами этнической принадлежности популяций. Для каждого узла сетки считаем значения 1 и 2 компонент соответственно с ЦМ — цифровых матриц карт 1 и 2 компонент. Подчеркнём, что значения компонент считываются с ЦМ, а не с визуализированных карт: в ЦМ карты каждый аналог популяции — узел сетки — имеет математически строго определённое значение картографированного признака и не зависит от заданной шкалы интервалов. Разместим каждую популяцию в пространстве 1 и 2 главных компонент.

Количество точек — популяций — прямо пропорционально ареалу этноса. Популяции каждого этноса образуют как бы «этническое облако», причём «этническое облако» отражает межпопуляционную изменчивость этноса в пространстве главных компонент. «Центры тяжести» этнического облака соответствуют результатам традиционного — не картографического — анализа главных компонент, если бы этот анализ проводился по средним этническим частотам генов.

Важно отметить, насколько большую информацию мы получаем, используя всю картографическую информацию о разнообразии этноса, а не только положение в пространстве главных компонент этнических центров: различие в информативности «этнических облаков» (их размеров, положения, конфигурации, плотности и т. д.) и их «центров тяжести» соответствуют различиям в информативности картографического и традиционного анализа.

Этнические облака могут частично перекрываться. Такое перекрывание этнических облаков можно интерпретировать как генетическую близость. Возможны ситуации, когда этнические облака не перекрываются вовсе или же генофонд одного этноса размещён в пределах этнического облака другого этноса. К одним из наиболее важных преимуществ картографо-статистического анализа главных компонент следует отнести то, что этнос представлен в пространстве главных компонент не точкой, а всеми вариациями популяций в пределах этнического ареала. Компактность «этнического облака» свидетельствует о генетической однородности этноса, размытость границ — о неоднородности его генофонда. Поэтому для одних этносов «этническое облако» может сгущаться до состояния грозовой тучи, а для других — рассеиваться как перистые облака.

Важно подчеркнуть, что пространство главных компонент является не иллюстрацией, а важным элементом количественного анализа, поскольку положение популяций в этом пространстве адекватно отражает расстояния между популяциями. Причём «… геометрическое расстояние между любой парой популяций представляет собой «истинное» многомерное генетическое расстояние с наименьшей возможной ошибкой» [Cavalli-Sforza, Piazza, 1993, с.13]. (Хотя эта формулировка лучше соответствует другому методу снижения размерности — многомерного шкалирования — но в первом приближении может применяться и к графику главных компонент). Таким образом, благодаря пространству главных компонент, мы можем оценивать взаиморасположение популяций различных этносов, степень сходства и различий их генофондов, причём выражать эти сходство и различия в точных терминах генетических расстояний. Такая возможность — очень важное достоинство пространства главных компонент. Это означает, что визуальный образ, создаваемый пространством главных компонент, основан на математически точных пропорциях и соотношениях популяций.

Последнее замечание касается набора популяций. Поскольку в их качестве выступают узлы равномерной сетки, то весь ареал этноса представлен в пространстве главных компонент полностью и равномерно. Однако изученность этноса никогда не бывает равномерной: одни территории исследованы подробно, другие представляют собой белые пятна. Оценки частот генов для малоизученных территорий — лишь прогноз с определённой степенью надёжности. Это означает, что и значения главных компонент в разных частях ареала определены с разной степенью надёжности: для одних частей — они высоко достоверны, для других — имеют чисто прогностическое значение. Если у нас есть инструмент для оценки надёжности картографической информации, то мы можем оставить в «этническом облаке» лишь те популяции, в отношении которых информация достаточно достоверна. Эти диаграммы отражают «надёжное» пространство главных компонент в отличие от исходных диаграмм, отражающих «прогнозируемое» пространство главных компонент.

Сравнение «прогнозируемого» и «надёжного» пространства демонстрирует, какие популяции каждого из этнических облаков можно интерпретировать уверенно, а в отношении каких следует соблюдать осторожность. Важным выводом из сопоставления этих двух видов диаграмм является высокая устойчивость «центров тяжести» — средних этнических оценок главных компонент. В общих чертах все выводы, сделанные нами в отношении центров тяжести этнических генофондов и этнических облаков в целом при анализе прогнозируемого пространства, сохраняют свое значение при рассмотрении «надёжного» пространства главных компонент [см. Балановская, Нурбаев, 1997]. Лучше всего использовать одновременно обе диаграммы — «прогнозируемого» и «надёжного» пространства главных компонент: «прогнозируемое» пространство позволяет видеть этнос как целое в многообразии составляющих его популяций; «надёжное» пространство позволяет оставлять лишь те заключения, которые опираются на надёжно определённые популяции.

Рис. 3.2 Карта главной компоненты, построенная прямым способом: расчёт главным компонент и потом построение карты главной компоненты

Приведена карта второй главной компоненты изменчивости частот русских фамилий по «сельсоветным» данным

Рис. 3.1. Карта главной компоненты, построенная интерполяционным способом: сначала построение карт отдельных признаков и потом расчёт по этим картам главных компонент.

Приведена карта второй главной компоненты изменчивости частот русских фамилий по «сельсоветным» данным.

§ 9. Проблема ложных корреляций

В заключение коснемся важного методического вопроса, относящегося к картографированию главных компонент. Этот вопрос был очень остро поставлен в дискуссии между R. Sokal и L. L. Cavalli-Sforza об эффекте ложных корреляций, вносимых интерполяционной процедурой картографирования [Sokal et al., 1999ab; Rendine et al., 1999].

В чем же проблема? Поскольку число изученных популяций всегда много меньше числа узлов карты, при создании картографической модели необходимо использовать процедуру интерполяции данных. R. Sokal указывает, что это может привести к возникновению ложных корреляций между картами. Дело в том, что на территории промежуточной между изученными популяциями интерполяция прогнозирует постепенные изменения. И даже если в действительности картина более сложна, мы не сможем её выявить, пока не изучим промежуточные популяции, и наша карта будет «гладкой», с постепенными изменениями. Если теперь предположить, что постепенные изменения в данной области карты появятся на нескольких картах, то эти карты будут коррелировать друг с другом в данной области. Очевидно, что эта корреляция «индуцирована» интерполяцией и может иметь, а может и не иметь оснований в реальном распределении двух признаков. А так как главные компоненты вычисляются по матрице корреляций между картами, то и главные компоненты должны нести те или иные искажения вследствие ошибки таких ложных корреляций. Если же значения главных компонент были бы рассчитаны «прямым способом», то есть по исходным данным (без всяких карт), а уже потом по результатам такого расчёта построена карта главных компонент, то в этом случае, как указывает R. Sokal, мы избежали бы ошибки ложных корреляций. Вместе с тем R. Sokal согласен, что подобный способ расчёта (сначала рассчитать значения главных компонент, а потом уже картографировать «готовые» значения) возможен лишь в тех чрезвычайно редких случаях, когда весь ряд популяций изучен по всему набору признаков.

В целом, соглашаясь с логикой R. Sokal, мы считаем, что предложенный им выход — отказ от карт главных компонент — является мерой крайней и поспешной. Следует, по-видимому, провести более тщательное изучение этого вопроса — как теоретическое, так и путем прямого эксперимента. По аутосомным генетическим маркёрам провести такой эксперимент нельзя, так как нельзя построить карту главных компонент «прямым способом», поскольку популяции изучены по разному набору маркёров (в таблице «все популяции на все маркёры» многие ячейки пустуют). Однако квазигенетические маркёры (фамилии) и однородительские ДНК маркёры изучены обычно во всех популяциях (см. главы 6 и 7). Это позволило нам провести экспериментальную проверку значимости эффекта ложных корреляций.

ЭФФЕКТА ЛОЖНЫХ КОРРЕЛЯЦИЙ — НЕТ!

Итак, мы решили напрямую проверить — есть ли в действительности, а не в теории, эффект ложных корреляций?

РУССКИЕ ФАМИЛИИ. Для этого нами были построены карты главных компонент изменчивости русских фамилий в двух вариантах — расчёт «по картам» и расчёт «прямым способом». Во избежание всяких сомнений, эти карты были построены по популяциям строго одного уровня — по данным о частотах фамилий в сельсоветах. Рис. 3.1. демонстрирует результат первого способа расчёта («по картам»), вызвавшего сомнения R. Sokal (построение карт отдельных признаков и потом расчёт по этим картам главных компонент). На рис. 3.2. приведена карта этой же компоненты, но рассчитанная «прямым способом» и рассматриваемая как эталон правильности (расчёт главных компонент по исходным данным).

При сопоставлении этих карт становится очевидным их полное сходство. Коэффициент корреляции составил r=0.963. Это значит, что расчёт главных компонент «по картам» и «прямым способом» дал идентичные результаты.

ГАПЛОГРУППЫ У ХРОМОСОМЫ В РУССКОМ ГЕНОФОНДЕ. Но, может быть, только фамилии обнаруживают столь полное совпадение? Нет. Мы провели полностью аналогичный анализ и для ДНК маркёров — изменчивости гаплогрупп Y хромосомы в историческом русском ареале. И вновь расчёт главных компонент «по картам» и «прямым способом» дал идентичные результаты: коэффициент корреляции составил r=0.997 [Balanovsky et al., 2008].

АДЫГЕЙСКИЕ ФАМИЛИИ. Такое же полное сходство (коэффициент корреляции составил r=0.98) мы обнаружили при сравнении расчёта главных компонент «по картам» и «прямым способом», проведённым по фамилиям иного народа — адыгейцев. Здесь важно не только то, что фамилии этого народа «говорят» на языке совсем другой лингвистической семьи и имеют много более древнюю историю и устойчивость. Для картографирования важнее иное — сам ареал адыгейцев имеет конфигурацию, альтернативную русскому ареалу. Если русский ареал един и компактен, то ареал адыгейцев он состоит из двух самостоятельных частей, разделённых Большим Кавказским хребтом. И, тем не менее, оба столь полярно различающиеся ареалы русского и адыгейского народа продемонстровали высочайшую степень сходства между картами главных компонент, полученными «по картам» и «прямым способом».

ВЫВОД. Проведённые эксперименты показали, что метод вычисления главных компонент по интерполированным данным не приводит к ошибке «ложных корреляций».

Важно подчеркнуть, что при расчёте компонент учитывались лишь области с высокой достоверностью прогноза (р>0.95), полученные благодаря специальной технологии оценивания надёжности карт. Можно полагать, что именно включение в анализ только областей с высокой надёжностью важно для избавления от ложных корреляций.

Разумеется, требуются многочисленные исследования, чтобы выяснить границы применимости метода главных компонент в общем случае. Однако практически полное совпадение результатов, полученных «по картам» и «прямым способом» во всех трех случаях — русских фамилий, адыгейских фамилий и гаплогрупп Y хромосомы в русском ареале — указывает, что (при учете надёжности информации) результирующие карты главных компонент не содержат ошибки ложных корреляций.

Это позволяет утверждать, что обсуждаемые в данной книге карты главных компонент правомочны и отражают реальную картину пространственной изменчивости русского генофонда.

 

4. ОБЪЕКТИВНОСТЬ ГЕНОГЕОГРАФИИ

В предыдущих разделах мы бегло осмотрели понятийный аппарат и арсенал геногеографии. По ходу книги по мере необходимости давались «технические» пояснения. Но чтобы увидеть единство этой книги, анализирующей разные признаки, по-разному рассказывающие о русском генофонде, надо ответить на ряд важнейших общих вопросов. Без ответа на них результаты останутся отдельными страницами разрозненных томов.

Например, насколько изложенные выше положения о структуре генофонда являются спорными? Получим ли мы с помощью арсенала геногеографии действительно объективный портрет генофонда? Как глубока генетическая память? Насколько далеко в глубь времен проникают генетические «зонды»? Соответствуют ли данные генетики данным других наук — археологии, истории, демографии, антропологии, лингвистики? Насколько надёжны и устойчивы оценки изменчивости генофонда? Можно ли в данных о совершенно разных признаках разглядеть общую картину изменчивости генофонда?

В этом разделе мы попробуем дать краткие ответы на эти первостепенные вопросы.

Поговорим, например, о важной характеристике генофонда — его разнообразии (дифференциации).

Выше мы утверждали, что если возьмём средний по множеству генов показатель различий между популяциями F ST , то получим такую интегральную оценку дифференциации генофонда, которая уже не зависит от неравной приспособленности аллелей к среде и потому называется «селективно-нейтральной». Иными словами — не зависит от действия отбора. Эта оценка определяется только историей генофонда (F ST ≈F e ) и зависит только демографического облика популяции: от соотношения исторически сложившихся размера популяций N e и миграций М е :

F ST ≈F e =1/(4N e M e +1).

Это положение — одно из самых важных для понимания изменчивости генофонда и истории его сложения, как бы мы его ни изучали: с помощью многомерной статистики или компьютерных карт. Однако именно оно зачастую вызывает сомнения. Действительно, казалось бы, как можно по генам, каждый из которых потенциально подвержен отбору, получить портрет генофонда, сформированный только историей? Получить селективно-нейтральный портрет генофонда, не зависящий от отбора, не зависящий от биологической функции гена, не зависящий от среды? Можно ли найти доказательства этому странному положению?

Чтобы дать убедительный ответ на этот один из самых коварных вопросов — а без ответа на него нет смысла описывать ни русский, ни любой другой генофонд! — мы приведём два ряда доказательств: § 1 и § 2 данного раздела. Эти доказательства выходят далеко за пределы не только русского генофонда, но и Европы. Но лишь охватив изменчивость многих генофондов, в больших масштабах времени и пространства, можно проверить основную гипотезу: гипотезу выполнения равенства F ST ≈F e =1/(4N e M e +1) .

Первый ряд доказательств относится к генохронологии (§ 1). Генохронология по данным генетики оценивает возможное время реальных исторических событий. Она дает датировки давно прошедших событий в истории генофонда. Причём все её датировки основаны на предположении равенства F ST ≈F e =1/(4N e M e +1) . Поэтому генохронология дает одну из самых очевидных возможностей проверки этого равенства. Если генетическая датировка будет соответствовать исторической дате события, то гипотеза F ST ≈F e верна, и мы действительно можем реконструировать селективнонейтральную историю генофонда по совокупности генов, подверженных отбору.

Второй ряд доказательств (§ 2) относится к прямому сопоставлению оценок разнообразия генофонда, полученных по данным генетики (F ST ) и по данным других наук (F e ). При этом для одного и того же генофонда мы получаем две независимые оценки его дифференциации. С одной стороны, оценку дифференциации генофонда F ST , полученные по множеству генов. А с другой стороны — оценку дифференциации F e , полученную по информации, вообще никакого отношения к генам не имеющей: по чисто демографическим оценкам размера популяций N e и миграций М е ; или же по данным о распределении фамилий. Если такие ряды независимых оценок будут соответствовать друг другу — то мы получим веское доказательство справедливости основной гипотезы F ST ≈F e =1/(4N e M e +1).

Оба ряда приводимых доказательств созданы благодаря таланту и усилиям Юрия Григорьевича Рычкова и его школы. Они сводят воедино данные многих исследователей, многих научных работ по изучению генофонда народов СССР, которые специально планировались профессором Ю. Г. Рычковым для проверки равенства F ST ≈F e и были проведены под его руководством. Эти данные публиковались в целом ряде статей в разном составе авторов, однако сейчас незаслуженно забыты. Мы приведём эти результаты так, как они изложены в наших совместных публикациях с Ю. Г. Рычковым: описание генохронологии (§ 1) приводится по книге Е. В. Балановская, Ю. Г. Рычков «Геногеография (гены человека на карте СССР)» [Балановская, Рычков, 1990а]; сопоставление генетических и не генетических оценок дифференциации (§ 2) — по статьям цикла Е. В. Балановской и Ю. Г. Рычкова «Этническая генетика» [Балановская, Рычков, 19906,в; Рычков, Балановская, 1990а]. Мы старались — вопреки вынужденным сокращениям — полностью сохранить дух и стиль изложения этих работ. Хотя обобщение и описание этих результатов приведено в наших общих с проф. Ю. Г. Рычковым публикациях, однако основная часть данных была получена задолго до начала нашей совместной работы. Поэтому, не беря на себя смелость редактировать или исключать те черты, которые кажутся нам отнюдь не бесспорными, из уважения к памяти Ю. Г. Рычкова мы приводим их именно в том виде, который его удовлетворял.

В § 3 мы рассмотрим, от чего зависит устойчивость оценок изменчивости генофонда, в § 4 дадим обзор генетической изменчивости в основных регионах мира, а в § 5 немного поговорим об истории нашей науки.

§ 1. Генохронология

МЕРА — ПОКОЛЕНИЕ

Человеческие гены вовлекаются в исторический процесс, поскольку человек не только творец истории и исторического времени, но и творение этой истории. Это значит, что генетические процессы, происходящие в человечестве, не только регулируются историей, но и происходят в историческом времени. Причём гены обеспечивают людям всего лишь возможность кратковременной жизни, тогда как люди обеспечивают генам возможность передачи по длинной цепи поколений.

Поколение — естественная генетическая единица времени. А смена поколений — это ход часов, отмеряющих время течения генетических процессов. Но поколение — это ещё и определённый период в социальной истории человека. Поэтому можно два ряда событий (естественной истории населения и его социальной истории) выразить через одну единицу времени — поколение. Историческая наука при датировке пользуется иным — астрономическим временем, к которому сводимы любые календарные системы — линейные и циклические. Есть ли здесь место поколению? Можно ли представить в поколениях хронологию всеобщего или локального исторического процесса, не возвращаясь при этом к «доисторическому» способу времяисчисления, когда заучивание каждым своего места в генеалогической цепи, тянущейся от предков-основателей, было равносильно изучению истории и познанию исторического времени?

Термин «историческое событие» в его прямом значении — событие в истории. Но обычно историческим событием мы называем то, что (как мы сейчас думаем) не исчезнет из истории в будущем, то, что войдёт в нее. Генохронология датирует такие события, которые и в прямом, и в переносном смысле являются историческими: только оставив свой след в истории дальнейших поколений, эти события могут быть уловлены генетическим методом.

ИСТОРИЧЕСКОЕ СОБЫТИЕ

Будем считать генетически значимым такое историческое событие, которое привело к изменению дифференциации генофонда [F e =1/(4N e M e +1) ], то есть затронуло важнейшие параметры генофонда — дрейф генов N e и миграции генов М е , рассмотренные нами выше (Приложение, раздел 1, § 3). Например, это может быть изменение типа хозяйства или даже какой-нибудь конкретной технологии культуры, которое привело к росту эффективности хозяйства. А затем через это изменение — к приросту численности населения, к изменению возрастной структуры, а значит, и к изменению генетического размера популяции N e . Но цепь генетических последствий такого события на этом может не оборваться и продолжиться дальше в форме увеличения подвижности населения, роста культурно-экономических контактов и так далее, что непременно скажется на изменении показателя миграции М е . Таких событий — множество.

Намного сложнее найти пример такого события общественной истории, для которого можно было бы категорически отрицать его генетические последствия. Вся разница лишь в длине цепи и отдалённости генетических последствий от их исторической первопричины. Так, события в области не только материальной, но и духовной культуры потенциально являются и событиями в истории генофонда. Наглядными примерами могут служить широко известные генетические последствия событий в истории мировых религий и малых сект (генетикам хорошо известно чрезвычайное генетическое своеобразие ряда сектантских общин, заключающих браки только с единоверцами). Для формирования русского генофонда важнейшее значение имели духовная мощь русского монашества и его распространение за пределы этнического ареала. Монастыри и одинокие скиты не приносили гены на окраины ареала, где они основывались в надежде уйти от суеты мирской жизни. Но они становились форпостами русской культуры, центрами духовной и культурной жизни, вокруг которых организовывалась общественная и экономическая жизнь (вспомним хотя бы, что важнейшие ярмарки России проводились у монастырей, куда съезжался православный люд), возникали новые крупные популяции.

ГЕНЕТИЧЕСКИЕ ЧАСЫ

Современная наука предлагает немалый. набор самых совершенных часов для измерения времени в различных эволюционных процессах. Но для анализа генетических последствий они не годятся. Ведь радиоуглеродные часы будут отсчитывать время, прошедшее с момента гибели какого-либо существа, будь то водоросль, дерево, бабочка или человек. Они имеют отношение к хронометрированию именно той истории, которая когда-то (и часы должны указать, когда именно) оборвалась. Здесь все зависит от того, успел ли тот человек, кости которого из археологических раскопок попали в радиоуглеродную лабораторию (или в лабораторию палеоДНК), оставить потомков или передать какую-либо иную весть в будущее. И если нет, то такие часы будут указывать всего лишь время обрыва какой-либо цепи. Получается, что, располагая совершенным хронометром, мы не имеем никакой гарантии и можем лишь надеяться, что датируемое им событие прошлого имело отношение ко всему последовавшему за ним будущему. Парадокс фантастической бабочки Рэя Брэдбери, описанный одновременно с изобретением радиоуглеродных часов, имеет прямое отношение к ним.

Поэтому воспользуемся поколением как единицей времени. Основываясь на исследованиях, проведённых генетиками и антропологами, можно считать, что у человека, к какому бы кругу народов и культур он ни принадлежал, средняя длительность поколения составляет около 25–26 лет, если за точку отсчёта взять средний возраст родителей при появлении у них первого ребенка. В таком темпе происходит нарождение новых поколений у папуасов Новой Гвинеи и москвичей, у пигмеев Конго и армян, у эскимосов и чукчей Чукотки и литовцев, у алеутов Командорских островов и уйгуров Средней Азии, у удэгейцев дальневосточного Приморья и монголов.

Итак, используя гены современного человека как часы, отсчитывающие время генофонда, мы точно знаем, что (в отличие от калий-аргоновых и радиоуглеродных часов) у этих генов были свои предшественники в каждом предыдущем поколении, и что время, отсчитываемое поколениями, не прерывалось ни разу. Точка отсчёта времени всегда условна — ведь и сегодня на традиционных календарях разных народов одни и те же события приходятся на разные даты из-за разных точек, выбранных в качестве начала летоисчисления Поэтому мы примем за начальный момент для обратного отсчёта времени год генетического изучения тех популяций, события в истории которых мы попытаемся отыскать в генетической летописи.

ДАТИРУЕМЫЕ СОБЫТИЯ

Генохронологически датированные события расположим в хронологическом порядке: от совсем недавних времен — к древним.

ХОТОНЫ. На крайнем северо-западе Монголии проживает небольшая этническая группа — хотоны. Как этнос они начали формироваться около 250 лет назад, когда во время войн джунгаров пленные (из узбеков, казахов, уйгуров и других народов Центральной Азии) были поселены в этом уголке Монголии в надежде, что они наладят в этой скотоводческой стране земледелие. Хотя навыки к земледелию, принесенные с родины, в новой окружающей этнической среде постепенно утрачивались, но новая этническая общность — хотоны — все же возникла. После революции в Монголии хозяйство хотонов претерпело резкую реорганизацию. Их земледелие оказалось столь малоэффективным, что в 1934 г. специальным постановлением хотоны были переориентированы на новый для них тип хозяйства — скотоводство.

Это постановление повлекло полную реорганизацию и всей популяционной структуры хотонов, в том числе структуры брачных связей, а значит, и миграций генов. Как видим, цепь, связывающая исторические события с возможными генетическими последствиями, здесь очень коротка.

Запомним дату события: 1934 год. Генетически хотоны были исследованы под руководством Ю. Г. Рычкова монголом Ж. Батсуурем в 1978 г. Эта дата будет точкой обратного отсчёта генетического времени.

УЙГУРЫ и ДУНГАНЕ. В связи с историей хотонов мы уже упомянули уйгуров — древний народ Центральной Азии с весьма трудной исторической судьбой. Была эпоха их гегемонии в этом районе мира, расцвет культуры, собственная письменность, но их силы истощились в борьбе с пришельцами, завоевавшими их родину. Один из актов этнической трагедии происходит в 70х годах XIX века, когда в борьбе за самосохранение уйгуры примкнули к восстанию дунган. Дунгане — ещё одно многомиллионное национальное меньшинство Китая, также испытывавшее притеснения. Дунгане и уйгуры в этом восстании потерпели сокрушительное поражение от регулярной китайской армии. В поисках спасения уйгуры и дунгане отдельными группами и семьями устремились из разных районов через горные перевалы в среднеазиатские пределы России.

Русским пограничникам было дано указание, пропустив беглецов, закрыть границу перед преследовавшими частями китайской армии. Эти события происходили с осени 1870 по 1881 г., когда граница была окончательно закрыта. Но до 1884 г. мелкие группы беженцев просачивались через границу. В Средней Азии им были отведены территории для поселения. Часть уйгурских и дунганских семей поселилась в Ферганской долине, где 100 лет спустя, в 1970 г., их современные поколения, образовавшие несколько популяций, были изучены под руководством Ю. Г. Рычкова уйгуром Х.А. Каримовым.

Итак, датировка описанных событий и начала формирования в Фергане популяций уйгур и дунган: 1870–1884 гг. Точка обратного отсчёта времени: 1970 г.

АЛЕУТЫ. Из конца XIX века переместимся в его начало. Тогда в число территориальных владений России входила Русская Америка, простиравшаяся от Аляски на севере до Калифорнии на юге. Географически и экономически к ней относились и Алеутские острова, хотя административно они управлялись не из Новоархангельска — столицы Русской Америки, а из Охотска, игравшего тогда роль форпоста России на Тихом океане, которая позднее перешла к Владивостоку. Алеутские острова издревле, как указывают радиоуглеродные датировки археологических и палеоантропологических материалов, на протяжении 8 тысяч лет, были заселены алеутами — народом, родственным эскимосам, но с иной специализацией традиционного хозяйства.

Что же касается Командорских островов, лежащих между Алеутской грядой и Камчаткой, то они не были обитаемы ни в древности (по данным археологической разведки), ни в момент их открытия при кораблекрушении экспедиции Беринга в 1741 г., ни позднее вплоть до 1826–1829 гг. (если не считать временно высаживавшихся там промысловых артелей русских, добывавших песца и морского зверя и возвращавшихся с добычей на Камчатку). В документах Российско-Американской компании сохранилось одно яркое свидетельство необитаемости островов в начале XIX

в. С одного из кораблей Российско-Американской компании сообщалось (командиром брига «Финляндия» штурманом И. Ф. Васильевым), что в 1812 г. с острова Беринга им был снят один русский, оставленный там своей артелью на год охранять добытые шкуры, которые не могли увезти с собой, да забытый на целых три года. Другие его семеро товарищей, в свою очередь, были высажены в 1805 г. на острове Медном и забыты там на целых семь лет [Русская Америка, 1979]. Так, эта русская робинзонада определённо указывает, что и в 1812 г. Командоры все ещё были необитаемы.

Наконец, было решено основать на Командорах постоянное поселение, которое служило бы и стоянкой для судов — единственной связи Русской Америки с Россией. Но поскольку Русской Америке и так остро недоставало русских, на Командорские острова было решено переселить алеутов с Алеутского архипелага. Осуществлял этот проект Ф. П. Литке во время кругосветной экспедиции на военном шлюпе «Сенявин» в 1826–1829 гг.

Этими годами (1826–1829 гг.) и датируются два исторических события: Командорские острова утратили очарование необитаемости, но в составе народов России появился новый народ — алеуты (Алеутские острова ныне относятся к США). Их генетическое исследование было проведено Ю. Г. Рычковым вместе с И. В. Перевозчиковым и В. А. Шереметьевой в 1970 г.

ВОСТОЧНО-САЯНСКИЕ ТЮРКИ. Спустимся далее в глубь времен, пропустив ещё тысячу триста лет. Следующая группа народов — тюркоязычные тувинцы, тоджинцы и тофалары в Саянах. Напомним, что ныне тюркские языки распространены от Колымы на северо-востоке Евразии до Босфора на юго-западе Евразии. Но предполагаемая их родина — в Алтае-Саянском нагорье и прилегающих районах Монголии. Время появления тюрок на исторической арене зафиксировано в древнекитайских летописях. Древний Китай на протяжении тысячелетий вел с переменным успехом, но в целом наступательные войны за овладение Центральной Азией, поэтому естественно, что все происходящее в этом регионе, тем более сложение нового народа — потенциального противника — привлекало пристальное внимание и фиксировалось в хрониках. Первое упоминание о тюрках относится к 518 г., и в нем уже встречаются этнонимы «теле» и «тубо», которые и сегодня звучат в названиях народов: «теле» — на Алтае (теленгиты, телеуты, телесы), «тубо» — на Алтае и в Саянах (тубалары, тофалары, тувинцы).

В период 626–659 гг. погибли две тюркские империи — Западный Каганат и Восточный Каганат, между которыми Саяны составляли северный пограничный район. Выход из-под центральной власти дал начало самостоятельному развитию тюркоязычных народностей на Северной (Сибирской) окраине Внутренней Азии.

Можно предположить, что это произошло в названный период распада империи: 626–659 гг. А самая ранняя дата из истории тюрок — 518 г. также может служить вехой в генетическом путешествии в прошлое.

ТОФАЛАРЫ и ТУВИНЦЫ. Другими событиями с зафиксированными датами история Саян небогата. Но, пожалуй, можно попытаться отыскать в генетике современных популяций след ещё одного события. В конце жизни Чингисхана (умер в 1227 г.) монголы покорили саянских тюрок. Владычество монголов в Саянах длилось с XIII по XVI вв. Еще по указанию Чингисхана были созданы золотые прииски в самом центре земли тофаларов. Прииски действовали и века спустя, пока на огромной площади не были сведены все леса, пошедшие на костры для разогрева мерзлой земли в штольнях. И ныне этот район — на протяжении дня пути через него — полностью лишен леса и обходится тофаларами, чье традиционное хозяйство базируется на охоте и транспортном оленеводстве. Так возникла экологическая граница, разъединившая популяции тофаларов, живущих по разные стороны зоны золотых приисков.

Поэтому попытаемся с помощью генохронологии отыскать в генах современных тофаларов след событий, связанных с монгольским завоеванием Саян и происходивших в XIII–XVI вв. Генетическое исследование тофаларов и других групп саянских тюрок было проведено Ю. Г. Рычковым со студентами Московского университета в 1964 г.

ТУНГУСО-МАНЬЧЖУРЫ ПРИМОРЬЯ. Углубимся в прошлое ещё на тысячелетие и переместимся на Дальний Восток, в Приморье, где ныне проживают тунгусо-маньчжурские народности: удэгейцы и нанайцы, по традиционному укладу — рыболовы и охотники. Теперь их всего несколько сот человек в двух посёлках. Однако за той картиной демографии и быта, которую застали русские в момент присоединения Приморья к России, скрывалась длительная и насыщенная событиями история народов Дальнего Востока. Она восстановлена российскими исследователями и проконтролирована по все тем же древнекитайским хроникам.

Некогда население этого края было столь многочисленным, что в Приморье и соседней Маньчжурии возникали мощные племенные союзы и государства с городами, укреплениями, регулярным войском и высокой культурой, соперничавшей порой с древнекитайской. Знаменитый Конфуций посетил этот край. Первые отрывочные сведения об этих племенах восходят ещё ко II тысячелетию до н. э., а с середины I тысячелетия до н. э. они становятся уже постоянными в китайских хрониках. Еще позднее эти племёна становятся известны как создатели Золотой империи чжурчженей, затем государств Мохэ и Бохай. В конечном счете, все они потерпели поражение в борьбе с Древним Китаем, а затем и с монголами.

У современных потомков этих блестящих предшественников на момент их генетического обследования все ещё сохранялись элементы преемственности материальной и духовной культуры. Так, один из мифов, сохранившихся до наших дней, описывает, как однажды на небе вспыхнуло сразу десять солнц, испепелив на Земле все живое и расплавив Землю. О времени возникновения мифа есть некоторые сведения — древние китайцы знали о нем, по меньшей мере, не позднее III в. до н. э.: в это время он уже нашёл отражение в китайской поэзии. Вот отрывок из стихотворения «Призывание души» Цюй Юаня, жившего в III в. до н. э.:

Восточной стороне не доверяйся. Там великаны хищные живут И душами питаются людскими. Там десять солнц всплывают в небесах И расплавляют руды и каменья, Но люди там привычны ко всему.

Таковы стихи III в. до н. э. о той стороне, где современное коренное население все ещё помнит легенду о десяти солнцах, нарушивших порядок поочерёдного появления на небе и вспыхнувших все разом.

Итак, I тысячелетие до н. э., причём не позднее III в., а скорее всего, первая половина-середина I тысячелетия — такова историческая датировка этногенеза тунгусо-маньчжурских народов Приморья, которую можно сопоставить с данными генохронологии.

Генетическое исследование тунгусо-маньчжурских народностей Приморья было проведено в 1970–1973 гг. под руководством проф. Ю. Г. Рычкова приморской исследовательницей В. Г. Ворониной.

ЗАСЕЛЕНИЕ АМЕРИКИ. Перейдя рубеж нашей эры, мы оказались в раннем железном веке в пору его расцвета повсюду в Евразии, в том числе на Дальнем Востоке. Пожалуй, только крайний северо-восток нашей страны в это время все ещё пребывает в каменном веке в отношении материальной культуры. Весь образ жизни этих племён и даже тип их жилища, как указывал академик А. П. Окладников, оставались и на пороге новой эры близким к образу жизни древнейшего населения Сибири — охотников на мамонтов и на других крупных стадных животных ледниковой эпохи. Исчезнувших мамонтов, носорогов, лошадей заменили киты, моржи, тюлени — добыча, которая по-прежнему надолго обеспечивала пищей все население какого-либо посёлка на побережье пролива и моря Беринга.

Поэтому без особых потерь информации пойдём ещё дальше в глубь времени — в верхний палеолит. Это отнюдь не пора безлюдья и запустения. Костры на стоянках верхнепалеолитических охотников светились повсюду на территории нашей страны. В том числе и в Сибири, которая не подвергалась покровному оледенению, где на месте современной равнинной и горной тайги и даже тундры простирались различные варианты степных ландшафтов. Именно в это время произошло подлинное — первое в истории человечества — открытие Америки древними сибирскими охотниками на мамонта. Следуя за стадами мамонтов, они пересекли тот условный меридиан, который сегодня разделяет два острова Диомида. В то время, о котором идет речь, вместо островов перед людьми, по-видимому, предстали две относительно небольшие, покрытые кустарниками сопки, каких и сегодня немало на Чукотке и Аляске. И к северу, и к югу от этих сопок простиралась суша, а реки Чукотки и Аляски продолжали течь в своих долинах по этой земле, как текут они и сегодня под водами Берингова моря. Первооткрыватели Америки шли по земле, которую после таяния ледников покрыло море. И о суше, ставшей дном Берингова и Чукотского морей, теперь догадываются лишь ученые, называя эту исчезнувшую землю Берингией.

Но когда Сибирь и Америка ещё не были разделены морем, а Америка даже не была заселена человеком, предки тех, кого мы сейчас называем «коренным населением Америки» и «коренным населением Сибири» генетически отличались не более, чем сегодня различаются популяции в пределах одного народа. Радиоуглеродных дат для стоянок, найденных российскими и американскими археологами, много, и разброс в оценках времени велик. Но все же средняя дата (по данным на 80е годы XX века, когда было проведено описываемое исследование) для самых древних стоянок статистически вполне реальна: 25±3.4 тысяч лет назад. Эта дата и включена в генохронологию. Ею отмечен канун такого события, как разделение исторических путей популяций Америки и Сибири.

НАРОДЫ СИБИРИ. Оставим теперь в стороне праамериканцев и обратимся к населению, оставшемуся в Сибири и начавшему формировать собственный генофонд, то есть к далеким прямым предкам современных сибирских народов. Эпоха верхнего палеолита в укладе жизни этих людей ещё продолжалась. Очень медленно, растянутые на тысячелетия, происходили незаметные изменения климата, ландшафта, животного мира в направлении к современным. Такие изменения едва ли могут быть отмечены в памяти сотен поколений. Воспоминания о них накапливаются лишь в виде мифов и воспринимаются как чудесные сказки. Лишь современная археология может установить их здравый смысл. Лишь современная генетика может подтвердить, что столь далекие предки действительно существовали и более того — их гены дошли и до сказителя, и до слушателей его сказок.

Радиоуглеродные датировки существуют для многих сибирских стоянок различной древности. Здесь можно провести лишь условную границу древности, основываясь уже не на географических рубежах вроде Берингова пролива, а на рубежах различных археологических культур. Тогда для древнейших стоянок средняя радиоуглеродная дата (по данным на 80е годы XX века) составит 20 ± 2.5 тысяч лет назад. Люди, оставившие для последующей радиоуглеродной датировки угли костра, зажжённого в ледниковом периоде, передали и другие вести в будущее, и, прежде всего потомков, разведших в тех же или в новых местах и в новых поколениях новые костры.

Добавим в заключение, что генетическое исследование современных коренных народов Сибири и Америки проведено соответственно российскими и американскими генетиками и антропологами за последние 20–30 лет XX века. По отношению к тем десяткам тысячелетий, на которые нам предстоит опуститься в глубь времен, эти два-три десятка лет, конечно, могут быть приняты за единую точку отсчёта времени.

Как мы видим, в представленных фрагментах истории народов нет никакой системы. Единственное условие их включения в геохронологический анализ — наличие в прошлом какого-либо события, время которого документировано и которое могло иметь генетические последствия на всем дальнейшем протяжении времени, вплоть до современности, в которой мы пробуем отыскать его генетические следы.

РАСЧЁТ ГЕНЕТИЧЕСКИХ ДАТ

Теперь, располагая необходимой генетической информацией об этих популяциях, можно перейти к генетическим датировкам исторических событий.

Для этого генохронология использует простую формулу:

F t =F e (1-e -t/2Ne )=(4N e M e +1) -1 (1-e -t/2Ne ), где t — символ неизвестного нам числа прошедших со времени событий поколений, F e =(4N e M e +1) -1 , то есть определяется селективно-нейтральными демографическими данными о размере популяций N e и миграций генов М е (раздел 4 Приложения). Формула описывает накопление с ходом времени межпопуляционных различий F t . Эта величина различий между популяциями, достигнутая по прошествии t поколений от разделении прапопуляции, представляет собой ныне наблюдаемые нами генетические различия между дочерними популяциями F t =F ST .

Таблица 4.1. Приложения

Историческая и генетическая датировки событий в истории генофондов

Таким образом, левая часть равенства F t =F ST оценивается нами как средняя F ST =L -1 ∑F ST(i) по данным о L множестве i-тых генов, каждый из которых может быть подвержен тому или иному типу отбора. Это означает, что генофонд данной исследуемой группы населения был изучен по широкому спектру (i) генетических маркёров. Для каждого i-ro маркёра были получены свои оценки — F ST (i)  — дифференциации популяций в пределах генофонда данной группы населения. Далее оценки F ST(i) были усреднены по всей совокупности i-тых генов и для данного генофонда получена средняя оценка: F ST . Правая же часть равенства содержит только селективно-нейтральные параметры — время t, размер популяций N e , миграции генов М е .

На основании этого равенства, предполагающего селективную нейтральность F ST , рассчитываются оценки генохронологии — время в поколениях t, прошедшее от исходного исторического события до времени изучения этого генофонда. Время в поколениях t было умножено на среднюю величину поколения (25 лет), что позволило перейти к более привычным для нас датам солнечного календаря — в годах.

Если гипотеза верна — исторические датировки должны быть близки к генетическим датировкам. Если гипотеза неверна — между историческими и генетическими датами сходства не будет.

СРАВНЕНИЕ ГЕНЕТИЧЕСКИХ И ИСТОРИЧЕСКИХ ДАТ

Итоги генохронологии сведены в таблице 4.1. Сопоставим описанные выше исторические даты (левый столбец), полученные по данным истории и археологии, с датами генетическими (правый столбец), полученными по данным об изменчивости современного генофонда.

ХОТОНЫ. Историческая дата: постановление о переходе хотонов от земледелия к скотоводству было принято в 1934 г. Генетический календарь показал, что для генофонда хотонов переломным стал год 1936.

УЙГУРЫ и ДУНГАНЕ. По историческим данным дунгане и уйгуры переселились из Китая в 1870–1884 гг. Генетическая датировка: 1870–1886 гг.

АЛЕУТЫ. Исторически зафиксированное заселение алеутами Командорских островов приходится на 1826–1829 гг. Генетическая датировка: 1827 г.

ТОФАЛАРЫ и ТУВИНЦЫ. Исторические летописи дают двухвековой разброс для даты «рассечения» золотыми приисками земли тофаларов (XIII–XVI вв.). Генетическая датировка легла в эти пределы: 1420 г.

ВОСТОЧНО-САЯНСКИЕ ТЮРКИ. По историческим данным, начало самостоятельного этногенеза восточно-саянских тюрок, вероятнее всего, приходится на период 626–659 гг. Генетическая датировка: 640 г.

ТУНГУСО-МАНЬЧЖУРЫ ПРИМОРЬЯ. Начало этногенеза тунгусо-маньчжуров Приморья по генетической датировке определяется VI в. до н. э. Не эти ли события, вызвавшие вспышку этногенеза, привлекли внимание Конфуция (551–479 гг. до н. э.), совершившего путешествие к «восточным иноземцам»?

НАРОДЫ СИБИРИ. Средняя радиоуглеродная датировка древнейших поселений (20±2.5 тыс. лет назад) перекрывается с датировкой генохронологии (19.4±1.7 тыс. лет назад), полученной по оценкам дифференциации сибирского генофонда, включающего все современные коренные народы Сибири.

ЗАСЕЛЕНИЕ АМЕРИКИ. И, наконец, что касается времени открытия и заселения Америки, то здесь генетические часы (26 тыс. лет назад) вновь показывают такую же точность, что и радиоуглеродные (25 тыс. лет назад). Отметим ещё одно важное обстоятельство. Радиоуглеродные часы указывают на время появления археологических стоянок, на время, когда на этих стоянках горели костры (ведь угли от древних костров и используются главным образом для такой датировки). Но что стало в дальнейшем с людьми, оставившими эти стоянки? Об этом, конечно же, радиоуглеродный метод не позволяет судить. Генетические же часы говорят и об этом. Показываемая ими дата означает, что гены тех людей, что разожгли эти костры на своих стоянках тысячи лет назад, дошли до нашей современности.

Итак, все генетические датировки случайно выбранных исторических событий в происхождении самых разных народов оказались соответствующими датировкам историческим. Совпадение датировок открывает удивительную возможность анализа древней истории населения по данным о его современном генофонде, о генетической дифференциации ныне живущих популяций.

Конечно, генохронологические датировки немногочисленны и в этом отношении оставляют сомнение, как всякое ограниченное наблюдение. Однако эта ограниченность иного рода, чем та, с которой обычно мы встречаемся при статистических наблюдениях. Те исторические события, которые были подвергнуты генохронологическому изучению, рассеяны почти по всему мыслимому диапазону времени человеческой истории — от десятков лет (хотоны) до десятков тысяч лет (коренное население Сибири и Америки). Что же. касается ограниченного числа контрольных исторических дат, то число таких дат оказалось не меньше числа контрольных образцов органического вещества, которые послужили для разработки (калибровки) радиоуглеродного метода датирования.

Результаты как генохронологии, так и изучения этапов становления генофондов коренного населения Европы, Сибири и Америки [Рычков, Ящук (Балановская), 1980, 1983, 1986] свидетельствуют, что генофонд представляет не хаотическую массу генов, а исторически стратифицированную систему изменчивости генных частот, в слоях которой содержится память о событиях и этапах развития генофонда многотысячелетней давности. Для геногеографии — как истории генофонда в образах пространства — этот вывод очень важен.

Итак, геногеография создаёт пространственный образ генофонда, отображающий процесс и этапы его формирования. Из-за краткости нашей жизни практически невозможно непосредственно наблюдать генетикоэволюционные процессы в человеческих популяциях. Создание возможности такого наблюдения как за самими процессами, так и за их результатом — основная идея геногеографического подхода.

§ 2. Соответствуют ли данные генетики прогнозу?

Итак, мы выявили согласованность между историческими датами и датами генетическими, полученными по множеству генов, подверженных отбору. Что нам это дает? Прежде всего, согласованность дат, полученная для огромного диапазона человеческой истории — от современности до палеолита — говорит о точности генетической летописи, хранимой нашим генофондом. Свидетельствует о ясной и глубокой памяти генофонда. Во-вторых, она свидетельствует об объективности геногеографии, что является предметом обсуждения данного раздела.

Но самое главное для предмета всей нашей книги и возможности изучения генофонда — такая согласованность свидетельствует о селективной нейтральности средних генетических различий между популяциями F ST , полученных по множеству селективно-значимых генов. Это положение лежало в основе генетических датировок: F ST ≈F e =1/(4N e M e +1) .

Напомним, что F e — это величина селективно-нейтральной дифференциации генофонда. Это тот ожидаемый уровень генетических различий между популяциями, который определяется демографическими параметрами размера популяций и миграций F e =(4N e M e +1) -1 при стационарном процессе, то есть когда достигнуто равновесие между дрейфом и миграциями. Стационарные распределения являются базисными во многих аспектах изучения генетической структуры популяций. Например, согласно Р. Левонтину: «… популяционная генетика — это теория, рассматривающая равновесное состояние…», причём «… в практических приложениях мы пользуемся только равновесными положениями и стационарными распределениями» [Левонтин, 1978; стр.275]. При этом стационарность генетического процесса (например, при использовании равенства F e =[4N e M e +1] -1 ) обычно принимается по умолчанию. Эмпирически наблюдаемые различия между популяциями F ST оцениваются как средняя арифметическая по всему набору (L) i-тых генетических маркёров, то есть F ST =[L -1 ∑F ST(i) ], где i=1, 2…, L. Близость оценок F ST ≈F e связана с тем, что с ходом времени F ST растёт не линейно, а по экспоненте. Большая часть генетического разнообразия (40–80 % от F e возникает уже в самые первые поколения существования дочерних популяций, как это было показано Ю. Г Рычковым для популяций Берингоморья и R. Ward для индейцев племени яномама (см. [Рычков, 1984]).

Выполнение равенства F ST ≈F e  означает для нас возможность изучить генофонд в целом (F e ) по отдельным генам F ST(i) , каждый из которых потенциально подвержен отбору. Почему это для нас так важно? Потому что мы всегда имеем дело лишь с частным проявлением — отдельным геном и с его частной судьбой, столь зависимой от особенностей среды и многих иных случайностей. А нам необходимо разглядеть общее — «исторический» портрет генофонда как такового, не зависящего от превратностей судьбы того или иного гена, случайно попавшего в нашу выборку из генома.

Однако история сложна, многогранна и полна событий. Не случилось ли так, что любой генетической дате можно в истории подобрать соответствующее ей событие? Чем обширнее эрудиция автора, чем богаче его творческое воображение — тем проще подобрать к генетической дате её исторический эквивалент. Как ответить на такого рода сомнения? Любые ответы — что чем дальше вглубь, тем меньше исторических дат; что генетический смысл имеют лишь те исторические события, которые привели к переломному изменению популяционной структуры, и так далее — звучат как оправдание и оттого не убедительно. Тем более, что нас самих всегда отпугивали смелые интерпретации генетического рельефа в терминах истории — слишком велик соблазн отыскать в калейдоскопе исторических событий такое, которое может объяснить особенности географического распространения гена.

Поэтому попробуем найти другие ряды доказательств равенства F ST ≈F e , пусть не столь эффектные, как генохронология, но зато более прямолинейные. Логика здесь проста. Надо сравнить не даты, а непосредственно эмпирические данные генетики (F ST ) и их прогноз — величину F e , получив прогноз из качественно иных данных, не имеющих отношения к генетике.

Такие «не генетические» и вообще «не биологические» данные нам могут дать две науки. Первая наука — демография. С помощью чисто демографических оценок размера популяций N e и миграций М е , можно получить искомый прогноз F e =1/(4N e M e +1) . Вторая наука — лингвистика, или точнее антропонимика — наука об именах и фамилиях. Используя данные о фамилиях как об аналогах генов, можно получить независимые, не биологические и потому не зависящие от отбора (селективно-нейтральные) оценки дифференциации генофонда Fe. Обе оценки — по демографии и по фамилиям — дают прогноз величины F e по «не генетическим» данным. Получив этот прогноз, мы можем сравнить его с эмпирической величиной F ST , полученной по данным генетики.

Выражение F ST ≈F e =1/(4N e M e +1) означает, что средние оценки F ST , полученные по случайной репрезентативной выборке классических или ДНК маркёров, соответствуют селективно-нейтральному уровню дифференциации генофонда F e . Этот вывод явился эмпирически обобщением, полученным в результате анализа многочисленных данных самыми разными исследователями. При этом выявлено, что случайная выборка из генома размером 20–30 локусов (или 50 аллелей) уже дает устойчивую оценку FST [Cavalli-Sforza, Piazza, 1993; Bowcock et al., 1987; Айала, Кайгер, 1988; Fuerst et al., 1977; Chacraborty et al., 1978; Nei, 1975]. Например, в работах L. L. Cavalli-Sforza и его коллег [Bowcock et al., 1991a; Bowcock et al., 1991b] считается достаточным для корректной оценки F ST ≈F e лишь увеличение выборки генов, а среднее значение F ST рассматривается как селективно-нейтральное без каких-либо дополнительных обоснований.

Равенство F ST ≈F e принимается по умолчанию практически во всех известных нам исследованиях. Например, в обширной и детальной дискуссии, которая развернулась вокруг теста на селективную нейтральность Левонтина-Кракауэра (где F e определяется через F ST ) и в которой участвовали крупные авторитеты в области популяционной генетики (R. С. Lewontin, J. Krakauer, М. Nei, Т. Maruyama, A. Robertson, W. J. Ewens, M. W. Feldman, L. B. Jorde, L. L. Cavalli-Sforza и др.) основополагающее равенство FST≈Fe ни разу не подвергалось сомнению [Nei, 1965; Cavalli-Sforza, 1966; Lewontin, Krakauer, 1973; Левонтин, 1978; Кимура, 1985; Jorde, 1981; Bowcock et al., 1991a,b; Sanchez-Mazas et al., 1994; Poloni et al., 1995; Cavalli-Sforza, Piazza, 1993].

В основе такого общепринятого подхода лежат многочисленные данные, полученные при сопоставлении генетической и не генетической информации о дифференциации генофонда. Например, в основополагающей монографии L. L. Cavalli-Sforza, W. F. Bodmer [1971] приводятся результаты изучения широкого спектра генов в различных регионах ойкумены: в подразделённой популяции Италии, в коренном населении Африки и у аборигенов Новой Гвинеи. Авторы приходят к заключению о выполнении равенства F ST ≈F e : «во всех этих случаях F оценки, полученные по данным о генных частотах, и ожидаемые F оценки, полученные на основе матрицы брачных миграций, находятся в хорошем согласии» [Cavalli-Sforza, Bodmer, 1971, стр. 454].

Целенаправленно и пристально вопрос о равенстве F ST ≈F e рассматривался в многочисленных работах Ю. Г. Рычкова и его школы.

Одна из наших совместных работ по этнической генетике [Рычков, Балановская, 1990 а] специально была посвящена обобщению всей накопленной информации о сравнении эмпирических оценок F ST и селективно-нейтрального показателя F e , получаемого по «не генетическим» данным.

Результаты, приведенные в таблице 4.2. убедительно свидетельствуют о близости эмпирических оценок F ST и их прогноза F e , полученного по «не генетическим» данным — как по демографии, так и по фамилиям.

При этом равенство F ST ≈F e оказывается необычайно устойчивым и выполняется при разных, столь варьирующих условиях (табл. 4.2.):

а) при использовании для оценки F ST значительно различающихся панелей генов;

б) при анализе популяций разного происхождения (от Прибалтики до Дальнего Востока);

в) при анализе популяций разных иерархических уровней и древности — от современных народов до Сибиро-Американской общности, уходящей корнями в верхний палеолит.

Остановим внимание лишь на одном удивительном моменте: равенство F ST ≈F e соблюдается даже в совокупности циркумполярных популяций Заполярья, включающей целый ряд народов Арктики — от лопарей на западе до алеутов и эскимосов на востоке [Рычков, Шереметьева, 1976; Rychkov, Sheremetyeva, 1979]. Эти популяции в течение длительного времени преемственного развития (по-видимому, ещё с донеолитической эпохи, 10-5 тыс. до н. э. [Рычков, Шереметьева, 1976; Rychkov, Sheremetyeva, 1979]) испытывали мощное давление экстремальных условий среды, чрезвычайно суровой и практически однородной во всем огромном ареале Заполярья. Естественно было бы ожидать, что именно в этих популяциях мощное давление однородной среды отклонит оценки разнообразия F ST от селективнонейтрального уровня F e и приведёт к нарушению равенства F ST ≈F e Однако этого не произошло].

Показанное сохранение равенства F ST ≈F e даже в подразделённой популяции, находящейся в столь экстремальных условиях и занимающей обширнейшую территорию (все Заполярье Восточного полушария площадью 3750 км2), указывает, что в менее экстремальных ситуациях мы тем более можем определять селективно-нейтральную изменчивость F e через среднюю оценку F ST по репрезентативной выборке генов.

§ 3. Надёжны ли оценки изменчивости генофонда?

В этом разделе мы рассмотрим вопрос об устойчивости оценок изменчивости генофонда и попробуем сформулировать те правила, выполнение которых позволяет рассчитать надёжные устойчивые величины.

Итак, мы доказали согласованность (F ST ≈F e ) между эмпирическими оценками дифференциации генофонда F ST и прогнозом F e , полученном по трем независимым рядам данных — исторических датировок (§ 1), данных демографии и антропонимики (§ 2). Это дает нам полное право использовать обобщение, проведённое по выборке генов, для характеристики генофонда в целом.

Однако следует ответить ещё на два вопроса. Во-первых, какую часть генов (а, следовательно, и тотального генофонда) описывают оценки F ST , получаемые по выборке полиморфных генов? А во-вторых, насколько надёжны такие оценки? Иными словами, насколько они устойчивы? В какой степени зависят от набора генетических маркёров, от набора популяций, от набора использованных методов?

Таблица 4.2. Приложения

Сравнение двух оценок дифференциации генофонда: эмпирических F ST

Примечания:

* данные, источники информации, методы, доверительные интервалы и характеристика генных маркёров (наборы которых существенно отличаются друг от друга) приведены в цикле работ, выполненных учениками Ю.Г. Рычкова под его руководством. Поскольку сейчас нам уже сложно восстановить точно, какие именно исследования были выполнены каким коллективом соавторов, отсылаем читателя к работам, где приведены краткие сводки этих работ и данных [Рычков, 1984; Рычков, 1986; Рычков, Балановская, 1990 а].

** данные по адыгейцам [Балановская и др., 1999].

Специально проведённые исследования [Балановская, Рычков, 19906,в; Рычков, Балановская, 1990а] позволили сформулировать два вывода.

ВЫВОД 1

Средние оценки различий между популяциями F ST ≈F e , полученные по классическим и ДНК маркёрам, адекватно описывают межпопуляционное разнообразие структурных генов генома. При этом они не зависят от того, получены ли они по классическим (иммуно-биохимическим) маркёрам или же по ДНК маркёрам (молекулярно-генетическим). Согласно [Bowcock et al., 1987; Рычков/ Балановская, 19906; Bowcock et al., 1991a,b; Cavalli-Sforza, Piazza, 1993] с помощью таких оценок F ST мы описываем средний уровень изменчивости аутосомных генов — наиболее значительной части генома, включая не только уникальные последовательности ДНК, но и мини- и микросателлитные последовательности [Лимборская и др., 1998; Беляева и др., 1998]).

Отметим, что факт независимости Fst от типа маркёров — классические или ДНК — до сих пор порой вызывает недоумение. Ход рассуждения таков. Как же так? Классические маркёры определяются по их белковым продуктам, и потому должны быть намного сильнее подвержены отбору, чем ДНК маркёры — случайно взятые фрагменты ДНК, в большинстве своем от отбора укрытые. Из этого делается, казалось бы, логический вывод, что изменчивость (F ST ) классических маркёров, ограничиваемая отбором, должна быть намного меньше, чем изменчивость ДНК маркёров. Ошибка «логики» здесь в том, что она помнит только о стабилизирующем типе отбора, сужающим изменчивость (F ST ), забывая о дифференцирующем отборе, который может увеличить изменчивость гена (F ST ) по сравнению с селективно нейтральной. Если же выборка генов случайна по отношению к отбору — то отбор не в силах сместить среднюю оценку F ST .

Данные, приведённые в таблице 4.3. для мирового генофонда (и подробнее рассмотренные в разделе 8.1.) демонстрируют очень хорошее согласие между классическими и ДНК маркёрами в оценках различий между популяциями. Причём для восточноевропейского генофонда анализ проведён максимально строго. Во-первых, и ДНК, и классические маркёры анализируются в Восточной Европе по полностью идентичному набору этносов. А это очень важный момент. Представим, что в одну выборку народов Восточной Европы мы бы включили только восточных славян, а в другую — и восточных славян, и лопарей, и калмыков, и народы Кавказа. Понятно, что реальных размах генетических различий во второй выборке должен быть намного шире, чем в первой (чисто «славянской»). И тогда разница между уровнями изменчивости двух типов маркёров могла бы быть вызвана не тем, что изучены разные маркёры, а тем, что изучены разные наборы народов. Во-вторых, в выборку ДНК маркёров включены, главным образом, высокополиморфные мини- и микросателлитные маркёры. Это привело к тому, что уровень гетерозиготности H S оказался в два раза (!) выше, чем по классическим маркёрам. И, несмотря на это, оценки межпопуляционных различий F ST оказались одинаковы (раздел 7.1). Такое соответствие оценок F ST по классическим и ДНК маркёрам — при идентичном наборе популяций и резко различном размахе полиморфизма (гетерозиготности) — указывает на то, что мы получаем не частную оценку изменчивости конкретной выборки генов, а общую оценку изменчивости генофонда.

ВЫВОД 2

Средние оценки различий между популяциями генофонда (F ST ≈F e ) обладают высокой устойчивостью. В таблице 4.3. приведены четыре ряда оценок разнообразия мирового генофонда, полученных принципиально различными методами [Levontin,1972; Latter, 1980; Рычков, Балановская, 1990 б; Bowcock et al., 1987]. Все ряды оценок резко различаются по всем исходным параметрам: по числу изученных народов мира и их составу; по числу генных маркёров и их составу; и даже сами меры межпопуляционного разнообразия — различны. Общими для этих работ были лишь охват всего мирового разнообразия в целом и проведение исследования на едином (этническом) уровне популяционной системы. При этом оценки межпопуляционного разнообразия F ST оказались чрезвычайно устойчивыми и индифферентными к методическим расхождениям авторов. Характер маркёров — белковые продукты генов [Levontin, 1972; Latter, 1980; Рычков, Балановская, 1990 а] или же ДНК-полиморфизм [Bowcock, 1987; Bowcock et al., 1991a; Bowcock, Cavalli-Sforza, 1991] — также не сказался на значениях FST и HS (табл. 4.3).

Полученный результат является важнейшим свидетельством устойчивости средних оценок разнообразия генофонда.

НАСКОЛЬКО УСТОЙЧИВЫ ОЦЕНКИ ДИФФЕРЕНЦИАЦИИ ГЕНОФОНДА?

Основываясь на приведённых данных, кратко ответить на этот вопрос можно так.

Средние оценки дифференциации генофонда F ST , полученные по репрезентативному набору полиморфных маркёров (и по классическим, и по ДНК маркёрам) характеризуют основную часть генофонда. Эта характеристика отражает селективно-нейтральный процесс формирования генофонда. При корректной организации материала (выборка генов, выборка популяций, выборка индивидов), эта характеристика является чрезвычайно устойчивой, что можно считать отражением реального уровня изменчивости генофонда.

Таблица 4.3. Приложения

Устойчивость средних характеристик генного разнообразия: межпопуляционного F ST и внутрипопуляционного H S

Однако, сужая масштаб исследования — переходя от генофонда всей ойкумены, всего человечества ко всё более дробным уровням популяционной структуры, — мы переходим к исторически менее устойчивым генофондам и должны быть готовы к менее устойчивым оценкам генного разнообразия. Здесь от исследователя требуются особая методическая точность и чуткость, чтобы компенсировать сужение масштаба исследований. Это особенно важно, когда мы переходим к анализу лишь одного этноса.

Не претендуя на полноту, попробуем обобщить методические требования к изучению генного разнообразия в подразделённых популяциях меньшего размера, чем ойкумена.

ТРЕБОВАНИЕ ПЕРВОЕ: ЕДИНЫЙ УРОВЕНЬ ПОПУЛЯЦИОННОЙ ИЕРАРХИИ

Это требование означает, что нельзя включать в один анализ, например, данные о народах в целом (среднеэтнические) и данные о локальных популяциях внутри этноса.

Иерархичность организации генофондов не требует специальных доказательств. Определим популяцию человека как исторически сложившуюся, занимающую определённый ареал и устойчивую в поколениях совокупность людей, генетический вклад которых в каждое последующее поколение своей популяции больше, чем вклад мигрантов (пришельцев из иных популяций).

Такой генетический вклад (соотношение генов из «своей» популяции и из «иных» популяций среди всех генов, переданных в следующее поколение) рассчитывается на основе брачных миграций и оценивается через гаметный вклад. Кроме генофонда человечества, то есть видовой популяции Н. sapiens (гаметный вклад которой по определению 100 %, поскольку нет межвидовых скрещиваний), этому определению наиболее бесспорно отвечают этносы — племёна, народности, народы, нации. Этнографы и антропологи знают: если в каком-либо этносе начинают устойчиво преобладать браки с пришельцами из иных народов, значит, дни этого этноса могут быть сочтены. Этнический уровень организации популяционной иерархии существует как данная нам реальность: сами этносы, уровень их эндогамии, их история, динамика их ареалов определены достаточно рельефно, благодаря этническому самосознанию [Долуханов, 2000]. Именно поэтому выбор как единиц исследования именно этносов (а не административных или территориальных групп населения) позволяет сравнивать примерно на едином уровне иерархии даже столь разные генофонды, как, например население Европы и коренные народы Америки [Рычков, Ящук (Балановская) 1980, 1982, 1983, 1984,1986; Rychkov, Yashchuk (Balanovskaya), 1985].

Для проведения исследования на иных уровнях популяционной иерархии (выше или ниже этноса) требуется реконструкция популяций с помощью разных наук — демографии, этнографии, лингвистики, антропологии. Даже при выделении наиболее очевидного уровня элементарных популяций необходимо учесть гаметный вклад. Показано, что даже в разных частях ареала одного и того же этноса — русского народа — элементарным популяциям соответствуют разные группы населения: отдельные деревни (Архангельская, Вологодская области), сельсоветы (Костромская область), группы сельсоветов (Кировская область), районы (Белгородская область) и даже группы районов (Краснодарский край) [Пасеков, Ревазов, 1975; Ревазов и др., 1979, 1988; Сладкова и др., 1990; Брусинцева и др., 1993; Сорокина, 2005].

При изучении подразделенного генофонда необходимо стремиться к тому, чтобы все изучаемые субпопуляции принадлежали к одному уровню популяционной иерархии — будь то элементарные популяции или этносы. Нарушение этого требования может исказить оценки межпопуляционного разнообразия. Как бы ни было трудно фиксировать уровни популяционной иерархии, ещё больше осложнений возникнет, если их не выявить, если включить в анализ популяции безотносительно к их рангу в популяционной системе.

Поясним на примере. Даже в крупных исторически сложившихся популяционных системах (таких, как коренное население Америки, Сибири, Европы) третья часть всей межпопуляционной изменчивости FST (рис. 4.1.) приходится на разнообразие популяций в пределах этноса [Рычков, Ящук (Балановская), 1980, 1982, 1983, 1984, 1986; Rychkov, Yashchuk (Balanovskaya), 1985].

Рис. 4.1. Соотношение внутри- и межэтнической дифференциации в генофондах коренного населения Европы, Сибири и Америки

Рис. 4.2. Соотношение внутри — и межэтнической дифференциации в субгенофондах Сибири

Теперь спустимся на один популяционный уровень — к субрегионам (рис. 4.2.) и рассмотрим три субрегиона Сибири — Западную, Среднюю и Восточную Сибирь. Мы видим, что в них на разнообразие популяций в пределах этноса приходится уже много больше — две трети от всей межпопуляционной изменчивости F ST субрегиона (рис. 4.2). Предположим, что исследование Средней Сибири будет проведено на уровне этносов, а Восточной Сибири — на уровне локальных популяций. Из рис. 4.2. ясно, что будет нельзя сравнивать полученные оценки изменчивости! Мы видим, что дифференциацию Средней Сибири в этом случае мы занизили в три раза (откинув 63 % всей изменчивости, которая приходится на различия локальных популяций внутри этноса) по сравнению с Восточной Сибирью.

Например, исследователь № 1 решил сравнить два субрегиона — Среднюю и Восточную Сибирь. При этом он совершил ошибку смешения разных уровней иерархии, смешения разных «матрёшек»: в Средней Сибири — оценил различия между этносами, а в Восточной Сибири — между локальными популяциями. Иными словами, он оценил разнообразие генофонда Средней Сибири (обозначим как MS) по различиям между его народами — долганами, нганасанами, кетами, энцами и другими. Он включил в анализ средние частоты для каждого народа (этнический уровень). В этом случае он получил бы в результате величину F ST(MS-№ 1) =2.59 , А в Восточной Сибири (ES) исследователь № 1 включил в анализ у бурят — все 17 изученных популяций, а не одну «средне-бурятскую» частоту, для эвенов — включил все 15 изученных популяций вместо «средне-эвенской», для якутов — все 36 популяций, для юкагиров — все 4 популяции. И так далее. То есть в Восточной Сибири он провёл анализ на другом уровне — уровне различий локальных популяций в регионе, а не этносов. Поэтому он получил бы в результате величину F SТ(ЕS-№ 1) =6.37 . Сравнив изменчивость двух субрегионов Сибири, исследователь № 1 пришёл бы к выводу, что разнообразие генофонда Средней Сибири (2.59) намного меньше, чем Восточной Сибири (6.37): F ST(MS-№ 1) <

Предположим, что исследователь № 2 также решил сравнить эти два субрегиона. Он совершил ту же ошибку смешения уровней иерархии, смешения разных «матрёшек», только как бы наоборот: в Средней Сибири — оценил различия между локальными популяциями, а в Восточной Сибири — между этносами. То есть, рассматривая генофонд Средней Сибири, он включил в анализ все 8 популяций долган вместо «средне-долганской» (как делал исследователь № 1), все 4 популяции нганасанан вместо «средненганасанской», все 5 популяций кетов, все 4 популяции энцев и т. д. Иными словами, в Средней Сибири он провёл анализ на уровне локальных популяций, а не этносов. Тогда он получил бы в результате величину F ST(MS-№ 2) =7.00 . А в Восточной Сибири исследователь № 2 поступил включил в анализ у нивхов Сахалина одну «средне-нивхскую» частоту, для эвенов — «среднеэвенскую», для якутов — «средне-якутскую», для юкагиров — «средне-юкагирскую». И так далее. То есть в Восточной Сибири он провёл анализ на уровне не локальных популяций, а этносов. Тогда он получил бы в результате величину F ST(MS-№ 2) =2.36 . Сравнив изменчивость, исследователь № 2 пришёл к выводу, что разнообразие генофонда Средней Сибири (7.00) намного больше, чем Восточной Сибири (2.36): F ST(MS-№ 2) >> F ST(ES-№ 2) !

Итак, оба исследователя изучали одни и те же регионы, использовали одну и ту же базу данных, исходные данные у них были совершенно одинаковы. Но выводы их оказались диаметрально и статистически достоверно (!) противоположны. И при этом оба вывода неверны. На самом деле изменчивость этих двух генофондов практически одинакова, причём на любом из уровней иерархии! На уровне различий между популяциями субрегионов в Средней Сибири F ST(MS) =7.00, а в Восточной Сибири F ST(M S) =6.37. На уровне различий между этносами субрегионов в Средней Сибири F ST(MS-ET) =2.59, а в Восточной Сибири F 8T ( ES-ET )=2.36. А единственная причина, по которой получены совершенно неверные выводы лишь в том, как они организовали одни и те же данные, на каком уровне популяционной иерархии проводили анализ — причина в смешении разных уровней иерархии, сравнении разных «матрёшек».

Поясним ещё одним примером — реальным. Авторитетный исследователь изучил один из коренных народов Сибири, и получил величину различий между популяциями этого народа F ST(данного этноса) ≈9 . Много это или мало? Чтобы ответить на этот вопрос, он сравнил с величиной изменчивости популяций Сибири F ST(Сибири) ≈11. И сделал вывод, что различия популяций этого этноса несколько меньше, чем это принято в Сибири, но, в общем-то, такие же, как для других сибирских народов. Но вся беда в том, что та величина, с которой он сравнивал свой единственный этнос, F ST(Сибири) ≈11 , охватывает популяции не одного этноса, а все популяции всех этносов Сибири! Иными словами, в эту величину (F ST(Сибири) ≈11 ) уже вошли не только различия между популяциями усредненного сибирского этноса, но и различия между всеми народами всей Сибири. На рисунке рис. 4.1. мы видим, что средняя гетерогенность сибирского этноса (различия между популяциями одного «усредненного» народа Сибири) составляет треть от F ST(Сибири ) ≈11 , то есть примерно F ST(среднего этноса) ≈3 . Это означает, что народ, изученный этим исследователем, обладает уникально огромными различиями между популяциями — в три раза большими, чем для среднего этноса Сибири! Что требует специальных исследований и объяснений. Налицо совершенно неверный вывод — гетерогенность этого сибирского этноса (на изучение которого было потрачено столько сил!) вовсе не меньше среднего по Сибири (как заключил автор), а в три раза больше «нормы»! И столь ошибочный вывод был сделан лишь потому, что автор забыл об уровнях популяционной иерархии.

Ошибка F ST , заданная неправильной организацией материала, столь велика, что сопоставление генофондов теряет всякий смысл: F ST зависит уже не от свойств генофонда, а лишь от соотношения этносов и локальных популяций в выборке. Если наиболее изученные регионы (или гены) исследованы на уровне локальных популяций, а менее изученные — на уровне этносов, то оценки F ST(i) — только за счет выборки популяций — для наиболее изученных объектов будут на треть-две трети больше, чем для слабо изученных. В этом случае сравнение регионов (или генов) будет отражать только ошибку в организации данных, а не особенности генофонда. Сравнительное изучение дифференциации региональных генофондов или разных генов в этом случае проблематично: оценки абсолютно ненадёжны, независимо от того, каковы статистические оценки их достоверности.

Поэтому, сравнивая дифференциацию разных генов F ST(i) при анализе одного и того же генофонда, мы должны включать в анализ популяции одного и того же иерархического уровня. Когда мы переходим к сравнению генофондов разных регионов, то здесь добавляется ещё одно требование: иерархические уровни самих регионов, самих тотальных популяций должны быть идентичны.

Например, корректно сравнивать по величине дифференциации (F ST ) генофонды таких регионов, как Европа, Сибирь и Америка — они находятся на одном иерархическом уровне. Можно сравнивать субрегионы — генофонды Средней Сибири и Северной Европы — они также находятся на одном иерархическом уровне (субрегионов). Но нельзя сравнивать субрегион с регионом — например, Среднюю Сибирь с Европой в целом, считая их равноценными партнерами сравнения, забывая об их иерархии. Это наглядно видно из сравнения рис. 4.1. и 4.2. — легко рассчитать, что дифференциация F ST Сибири в два раза больше, чем дифференциация её субрегионов. Значит, сравнивая Среднюю Сибирь и Европу, мы сравниваем «половинку» с «целым», приравниваем их. Что же сказать о таких сравнениях, как дифференциация отдельного этноса и региона в целом? В этом случае малая часть (треть или даже четверть) как бы приравнивается к целому! Выводы таких сравнений — а их немало в популяционных публикациях — содержат столь крупную методическую ошибку, что она сводит на нет все усилия авторов. Иными словами, сравнение популяций разных иерархических уровней содержит в себе очень серьёзную ошибку и приводит к заведомо неверным результатам, если при интерпретации мы забываем о разном «ранге» сравниваемых популяций.

ТРЕБОВАНИЕ ВТОРОЕ: ПОЛИМОРФИЗМ ГЕНЕТИЧЕСКИХ МАРКЕРОВ

Это требование налагает запрет на включение в анализ редких аллелей.

Надёжность эмпирических оценок F ST(i) зависит от уровня полиморфизма изучаемых генов. Эта важно учитывать при оценке селективных сил, поскольку при низком уровне полиморфизма (то есть если частота аллеля близка к 0 или 1) динамика частот генов «будет независима не только от далекого прошлого, но, возможно, и от недавней истории процесса отбора» [Левонтин, 1978].

Традиционно предлагаются два критерия полиморфизма: 1 % (то есть 0.01≤q≤0.99) и 5 % (0.05≤q≤0.95). Иногда — например, при исследовании гетерозиготности Н — вводятся и более жесткие рамки: Н>0.02, что соответствует 0.14≤q≤0.86. Необходимость введения критерия полиморфизма при анализе F ST -статистик убедительно показана при компьютерном моделировании F ST(i) при разных значениях генных частот (i) (рис. 4.3., приводится по [Bowcock et al., 1991]). Из графика видно, что при средней частоте гена в тотальной популяции q<0.05 оценки межпопуляционной изменчивости F ST(i) варьируют случайным образом в чрезвычайно широком диапазоне. Они выходят на плато при q≈0.05 и практически неизменны при q>0.10. Вспомним, что для достоверного определения F ST(i) и q при малых концентрациях гена необходимы ещё и огромные популяционные выборки: чем меньше частота аллеля, тем больше должна быть выборка для того, чтобы эта частота достоверно отличалась от нуля. Из этого становится ясно, как важно следовать критерию полиморфизма, и сколь высока возможность ошибки при включении генов с низким уровнем полиморфизма (редких аллелей).

Рис. 4.3. Компьютерное моделирование ожидаемых оценок межпопуляционного разнообразия FST в отсутствие отбора.

По оси абсцисс — частота гена q ; по оси ординат — F ST ; % — вероятность значений F ST (квантили) по [Bowcock et al., 1991].

Насколько велика может быть эта ошибка, видно, например, из двух опубликованных оценок дифференциации коренного населения Австралии по гену FY*B: 1) F ST(i) =0 при q=0.00 [Балановская, Рычков, 1990]; 2) F ST(i) =8.5 при q=0.01 [Cavalli-Sforza, Piazza, 1993]. Величина F ST(i) =8.5 очень велика — она составляет половину изменчивости человечества (F ST =14.5, табл. 4.3). Насколько можно судить по приведенным данным, во второй работе в выборку попали метисы коренных австралийцев с европейцами (у которых частота этого гена существенна) — такой случайности достаточно, чтобы на порядок изменить не реальную дифференциацию коренных австралийских популяций, а получаемую оценку дифференциации низко полиморфного гена.

Итак, включение в выборку низко полиморфных генов приводит к неустойчивости (непредсказуемости оценок дифференциации генофонда F ST , а также к отклонению от изменчивости по селективно-нейтральному типу (то есть F ST ≈F e ).

Именно поэтому для получения устойчивых оценок дифференциации генофонда FST желательно использовать выборки генов, соответствующию строгому критерию полиморфизма: 0.05≤q≤0.95. Это важно ещё и потому, что для слабо полиморфных генов велика не только случайная ошибка. На её фоне проявляется и систематическая ошибка: включение слабо полиморфных генов вызывает занижение средней оценки дифференциации F ST .

Поясним этот момент. На рис. 4.4. представлены оценки для шести основных регионов мира из сводки [Cavalli-Sforza et al.,

1994]. Мы рассчитали их в двух вариантах: 1) по всем маркёрам (0

Итак, рассмотрение разных оценок изменчивости генофондов основных регионов мира выявило, что устойчивость оценок F ST связана с тремя факторами: 1) долей низко полиморфных генов; 2) средним уровнем их полиморфизма; 3) организацией данных о генофонде. Существует ещё один фактор — использование маркёров одного или же разных типов. Чтобы учесть его, необходимо выполнить ещё одно требование к организации исходных данных.

ТРЕБОВАНИЕ ТРЕТЬЕ: РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ ГЕННЫХ МАРКЕРОВ

Это требование означает, что нельзя включать в анализ маркёры одного лишь типа — это может привести к смещению полученных оценок изменчивости.

Структура генофонда отражена в результатах его изучения с той или иной точностью. Но, как положено в естественных науках, два корректных исследования одного и того же параметра для одного и того же генофонда должны привести к одинаковым выводам. Конечно же, число генов, по изменчивости которых делается вывод об изменчивости всего генофонда, должно быть достаточно велико, но оно всегда намного меньше общего числа генов в геноме (и, соответственно, в генофонде). Поэтому обобщённая изменчивость в разных исследованиях может определяться по совершенно разным, не перекрывающимся множествам генов, но результаты этих исследований все равно должны совпасть.

Это и понятно, поскольку целью этих работ является не изучение изменчивости данного набора генов, а исследование закономерностей генофонда. И если сравнивается изменчивость двух разных типов генов в одном и том же ареале, то ожидаемым и естественным должно быть совпадение результатов. Если же результаты несходны, то это тревожный знак того, что, по крайней мере, одна из систем не дает оценку «обобщённого гена», по крайней мере, один из результатов неверен. Неверен в том смысле, что он не отражает общую структуру генофонда, хотя возможно, вполне удовлетворительно описывает изменчивость данного набора генов.

Это снова подводит нас к вопросу о том, сколько и каких конкретных генов надо включить в анализ, чтобы их совокупная изменчивость соответствовала изменчивости некоего «обобщённого гена», отражала изменчивость не конкретного набора генов, а генофонда в целом. Но прежде ещё раз подчеркнём, что характеристику генофонда можно получить по разным панелям генетических маркёров, и все эти оценки могут быть правильными и равноценными и, что наиболее существенно, они должны совпадать друг с другом.

Формулируя требования к репрезентативности выборки генов — по отношению ко всему геному — важно учитывать обе её стороны, количественную и качественную.

1) КОЛИЧЕСТВЕННЫЙ АСПЕКТ ФОРМИРОВАНИЯ ВЫБОРКИ — ЧИСЛО ГЕННЫХ МАРКЁРОВ В ДАННОЙ ПАНЕЛИ.

Разные авторы пришли к эмпирическому обобщению, что, как правило, выборка примерно из 20–30 локусов (или ≈50 аллелей) является достаточной для надёжной оценки F ST . При дальнейшем увеличении выборки средняя оценка F ST практически не меняется [Bowcock et al., 1987; Айала, Кайгер, 1988; Cavalli-Sforza, Piazza, 1993]. Меньшая выборка генов тоже может давать корректные результаты, но необходима проверка её корректности. Меньшая выборка требует обязательного контроля её репрезентативности с помощью прямых оценок F e (§ 2) или иных доказательств её адекватности и соблюдения равенства F ST =F e .

Рис. 4.4. Оценки селективно-нейтральной дифференциации генофондов F ST ≈F e для основных генофондов коренного населения ойкумены

Примечания: заштрихованные столбцы — оценка по всем генам (0

2) КАЧЕСТВЕННЫЙ СОСТАВ ВЫБОРКИ ГЕНОВ ИЗ ГЕНОМА — ЕЁ СЛУЧАЙНОСТЬ ПО ОТНОШЕНИЮ К ДЕЙСТВИЮ ЕСТЕСТВЕННОГО ОТБОРА.

Если в выборке будут преобладать гены, подверженные стабилизирующему отбору — средняя оценка F ST будет занижена. Если будут преобладать гены, на которые действует дифференцирующий отбор — средняя оценка F ST будет завышена по сравнению с истинной, селективно-нейтральной дифференциацией генофонда. При этом важно знать, что некоторые типы маркёров — например генетико-биохимические маркёры (в отличие от иммунологических) [Балановская, 1998] или, тем более, гены наследственной патологии — всегда занижают среднюю оценку F ST , поскольку для них преобладающим является стабилизирующий отбор.

В разных разделах мы приводили целый ряд примеров высокой устойчивости F ST и выполнения равенства F ST =F e при использовании очень разных наборов классических маркёров. Адекватные выборки генов различаются столь сильно и по их размеру, и по их составу, что невозможно определить иное «правило» для их создания, чем случайность по отношению к эффектам отбора (что обычно обеспечивается включением в выборку самых разных типов классических маркёров). Более того, новые аутосомные маркёры не меняют картины: накапливающаяся информация по ДНК маркёрам указывает, что их средние F ST близки к F ST =F e , определяемым по «классическим» маркёрам (см., например, табл. 4.3. и раздел 8.1). При включении в выборку новых маркёров со своеобразной функцией в организме, с особым характером микроэволюции, требуется специальная проверка выполнения для них равенства F ST ≈F e .

Такая проверка была проведена, например, для генов, связанных с иммунным ответом, для системы HLA (human leukocytal antigen) [Евсеева, 2001]. Ряд тесно сцепленных локусов этой генетической системы обладает выраженным полиморфизмом: панель аллельных вариантов каждого локуса необычайно обширна, поскольку обеспечивает генетический контроль иммунного ответа. Одни и те же народы Крайнего Севера, представляющие три разных лингвистических семьи, были изучены как по панели аллелей HLA (проверялось наличие 160 аллелей 6 локусов HLA-I и HLA-II классов), так и по панели классических маркёров (15 аллелей 5 локусов иммуно-биохимического полиморфизма). Каждый аллель HLA природой предназначен для ответа на запросы особой внешней среды. Поэтому можно было ожидать, что оценки дифференциации F ST системы HLA — причём в экстремальных условиях Крайнего Севера! — будут чрезвычайно смещены (F ST ≠F e ) от селективно-нейтральных. Однако проверка показала, что — вопреки ожиданиям — средняя оценка дифференциации по системе аллелей HLA соответствует селективно-нейтральной дифференциации! Видимо, разнообразие факторов среды, на которые система HLA обеспечивает иммунный ответ, столь велико, что все разнонаправленные векторы компенсируют и взаимно «гасят» друг друга при расчёте средних оценок F ST . В силу исключительного высокого полиморфизма система HLA дает устойчивую и объективную картину различий между генофондами.

§ 4. Сравнение основных регионов мира

При рассмотрении русского генофонда мы учитывали характеристики генофонда ойкумены и генофондов коренного населения всех крупных историко-географических регионов мира. Поэтому кратко сравним их (табл. 4.4. и 4.5.). Эти характеристики, полученные в цикле работ Ю. Г. Рычкова и Е. В. Балановской, являются наиболее полным обобщением данных о генофонде всех регионов мира по классическим маркёрам, и поэтому служат важнейшим дополнением к обобщающей монографии Кавалли-Сфорца с соавторами [Cavalli-Sforza et а., 1994].

ОРГАНИЗАЦИЯ ДАННЫХ

Эти характеристики получены по репрезентативной выборке классических маркёров (49 аллелей 20 локусов) и с учетом иерархической структуры популяций — в каждом из регионов в качестве популяций выступают этносы. Всего по частотам генов в -50000 популяций были получены характеристики 5135 этносов, в среднем по каждому локусу изучено 257 народов мира. Для всех видов анализа и во всех генофондах выполнены единые требования: репрезентативность и единообразие выборки генов для всех генофондов; достаточный уровень полиморфизма; единый уровень анализа популяционной системы (этнический); единый исторический масштаб и целостность генофондов (историко-географический регион).

Организованный таким образом генофонд в наибольшей степени отвечает как требованиям, предъявляемым к объектам популяционно-генетического анализа, так и основным положениям и моделям теоретической популяционной генетики (в частности, предположению о стационарности генетического процесса).

Во-первых, генофонд ойкумены является сложно организованной популяционной системой самого высокого уровня и потому обладает наибольшей устойчивостью средних генных частот во времени. Во-вторых, этносы являются не только наиболее точно фиксированными и универсальными популяционными единицами, но и сами обладают высокой устойчивостью средних генных частот. В-третьих, историко-географические регионы — в отличие от чисто географических, политических, расовых, культурологических или конфессиональных подразделений — наиболее полно и комплексно отражают вехи в пространственно-временной эволюции генофонда Homo sapiens. Они не позволяют оставить за рамками анализа те группы населения, которые по демографическим параметрам или темпам социально-экономического развития находятся на периферии современности (поскольку вклад популяции в генофонд человечества не определяется её численностью и динамичностью на данном временном срезе).

Таблица 4.4. Приложения

Организация данных о коренном населении историко-географических регионов

Пояснения требуют лишь два момента.

Историко-географические регионы охватывают все коренное народонаселение ойкумены за исключением населения Северной Африки: им пришлось пожертвовать, поскольку его включение в регион, объединяющий народы Европы и Юго-Западной Азии, могло показаться слишком смелым решением — также, как и выделение его в отдельный регион Средиземноморья в целом (Северная Африка, Южная Европа, Ближний Восток); а объединение с населением «черной Африки» неверно по существу — по истории генофондов Северной Африки и Африки южнее Сахары.

Второй момент — объединение Европы и Юго-Западной Азии в один генофонд. Хотя все расчёты сначала были проведены и для каждого из этих регионов отдельно, однако их тесная связь на протяжении всей истории Homo sapiens (по крайней мере, последних 40 тысяч лет) столь ярко проявилась в особенностях их общего генофонда (самая низкая межпопуляционная изменчивость и самая высокая гетерозиготность), что дробить этот общий генофонд в угоду европоцентризму мы не стали. Дело в том, что генетические различия между народами Европы очень малы. Мы объединили народы европейской оконечности Евразии с народами Юго-Западной Азии, чтобы показать, что даже в этом случае эти различия остаются малыми.

Анализируется репрезентативная выборка генов (49 аллелей 20 локусов). Для анализа была использована сводка [Mourant et al., 1976]. В ней подведен итог тому этапу изучения генетики человека, когда реестр маркёров представлял собой достаточно случайную выборку из генофонда и потому мог служить надёжной основой для характеристики «обобщённого» гена. Население Северной Евразии в сводке практически не представлено и информация о нем взята из Банка данных «GENE POOL» (см. главу 3). Историко-географические регионы выделены согласно [Mourant et al., 1976; Брук, 1981]. На основе популяционных частот 49 аллелей мы рассчитали частоты для каждого из народов мира.

Основные характеристики генофондов мира сведены в таблице 4.5. Дадим только краткое описание некоторых параметров (подробно см. [Балановская, 1998]).

Таблица 4.5. Приложения

Сравнительные характеристики генетического разнообразия (Hj, H S , F ST ), генетических расстояний (d) и корреляции селективной структуры (к) в иерархической популяционной системе ойкумены

ГЕНЕТИЧЕСКИЕ РАССТОЯНИЯ «РЕГИОН — МИР»

Степень сходства по частотам генов между каждым из регионов с одной стороны и ойкуменой с другой стороны определена через генетические расстояния d РЕГ-МИР (рис. 4.5., табл. 4.5.). Диапазон различий оказался чрезвычайно велик: он достигает трёхкратного уровня, колеблясь от 0.108 в Северной Евразии до 0.360 в Австралии. Коренное население Австралии, Африки и Меланезии в пространстве генных частот значительно удалено от мировых средних (d РЕГ-МИР >0.24 ), то есть эти регионы генетически своеобразны, они являются «генетическими окраинами» ойкумены. Ближе находятся Евразийские регионы (В.Азия, Индостан и Европа), и наиболее близок к мировому «генетическому центру» (d РЕГ-МИР =0.108 ) генофонд Северной Евразии.

Рис. 4.5. Средние генетические расстояния d РЕГ-МИР между генофондом каждого региона и мировым генофондом.

ГЕНЕТИЧЕСКОЕ РАЗНООБРАЗИЕ

Для каждого генофонда рассчитаны (табл. 4.5.) три основные характеристики генного разнообразия [Nei, 1975] в среднем по всем генам: Н T — общее разнообразие региона, H S — средняя гетерозиготность этносов (рис. 4.6.); G ST ≈F ST — дифференциация этносов в регионе. Мы видим, что уровень гетерозиготности H S в коренном населении трех регионов достоверно выше, чем в среднем по всем генофондам: он выше в Европе, Северной Евразии, Индостане (H S >0.32).

Рис. 4.6. Внутрипопуляционное разнообразие H S регионов мира

Достоверно снижена гетерозиготность коренного населения Австралии и Америки (H S <0.25).

Уровень межэтнических различий F ST концентрирует в себе итоги микроэволюции генофонда, связанные с эффектами генных миграций и дрейфа генов: размах различий по F ST между регионами во много раз выше, чем по H S и Н т (табл. 4.5). Достоверно выше среднерегионального F ST в Америке и Меланезии, достоверно ниже — в населении Европы и В. Азии.

Население Северной Евразии характеризуется высоким уровнем всех показателей генетического разнообразия: по уровню общего разнообразия Н T этот генофонд занимает первое место в мире; по уровню гетерозиготности H S — второе; по уровню F ST — третье место в мире.

Рис. 4.7. Сходство селективной структуры генофонда каждого региона с мировым генофондом

Приведён показатель сходства k — коэффициент контингенции.

СЕЛЕКТИВНАЯ СТРУКТУРА

Направление и интенсивность отбора оценивались через отклонения F ST(i) от селективно-нейтрального уровня F ST . Рассмотрен новый параметр генофонда — его селективная структура, в которой выделяются три класса генов. Класс «LOWER DIFF» включает гены, дифференциация которых достоверно ниже селективно-нейтральной: F ST(i) F ST ; для этих генов выдвигается гипотеза дифференцирующего отбора. На основе трех статистических критериев — у 2 , t, F — была определена достоверность отличий F ST(i) от F ST для каждого гена в каждом из генофондов ойкумены и получены оценки селективной структуры генофондов.

Показано, что в разных генофондах одни и те же гены подвержены разным типам отбора.

Наименее устойчив класс «NEUTRAL»: ни один из генов не оказался селективно-нейтральным во всех регионах мира. Генный состав класса «LOWER DIFF» в генофондах мира более стабилен, чем класса «SUPER DIFF».

Степень сходства по селективной структуре в целом (коэффициент контингенции к) региональных генофондов с мировым позволяет распределить генофонды по степени близости к «общевидовому» ответу на давление среды (табл. 4.5., рис. 4.7). В целом по структуре отбора регионы имеют незначительное сходство с общемировым (k=0.29). В восточно-азиатском (k=0.18) и австралийском (k=0.13) генофондах сложились свои независимые типы селективной структуры генофондов. Генофонды коренного населения Африки и Европы, Америки и Индостана, Меланезии и Океании, столь различные и географически, и антропологически, — демонстрируют один и тот же невысокий уровень сходства с глобальной селективной структурой (k≈0.3). И лишь один регион — Северная Евразия — занимает особое положение: уровень его сходства с глобальной селективной структурой (k=0.60) в два раза выше среднерегионального!

При этом высокий уровень сходства отмечается не для какого-нибудь одного, а для всех классов селективной структуры: для LOWER DIFF коэффициент связи k=0.6, для NEUTRAL k=0.5, для SUPER DIFF k=0.7.

ИТОГИ. СЕВЕРНАЯ ЕВРАЗИЯ

Сведем воедино показатели, полученные с помощью трех основных инструментов — частот генов, их разнообразия и селективной структуры (табл. 4.5, рис. 4.5.-4.7). Комплексная оценка позволила получить принципиально новые результаты. Одним из них является особое положение генофонда Северной Евразии — по всем независимым показателям он наиболее полно воспроизводит мировой генофонд. Из всех региональных генофондов мира лишь генофонд Северной Евразии занимает центральное положение в пространстве как генных частот (наименьшее расстояние до мирового генофонда d РЕГ-МИР =0.108 ), так и селективной структуры (наибольший показатель сходства с мировой селективной структурой k РЕГ-МИР =0.60 ), и сохраняет наибольшее генное разнообразие (Н т =0.362 ). Поэтому именно этот регион является наиболее информативным для изучения общих проблем эволюции.

ИТОГИ. ЕВРОПА

Вопрос о том, каково генетическое разнообразие народов Западной Европы, обычно волнует всех.

В главе 5 (табл. 5.3.1.) мы привели оценки генетических различий между локальными популяциями (Епоп.этн) для многих народов Западной Европы и для многих народов Сибири. И в том, и в другом регионе рассмотрены наиболее генетически изученные народы. По одним и тем же наиболее изученным классическим маркёрам (АВ0, PTC, MNS, RH, FY, FUT2, PI, KEL, LE, HP, GC, TF) мы рассчитали среднюю генетическую гетерогенность для европейского этноса и для сибирского этноса (F ПОП-ЭТН - различия популяций внутри одного народа). Сводка данных по Сибири была составлена нами и Н. А. Таусик в то же время, что и сводка по Зарубежной Европе [Mourant et al., 1976]. «Выровняв» таким образом и число народов, и число аллелей, мы получаем наиболее сопоставимые оценки для генофондов этих регионов.

Различия популяций в пределах этноса Зарубежной Европы оказались чрезвычайно малы: F ПОП-ЭТН =0.76±0.24. Средние генетические различия популяций в пределах коренного сибирского этноса очень велики: F ПОП-ЭТН =404±0.98. Это означает, что гетерогенность сибирского этноса в пять раз выше, чем в Западной Европе.

Обратим внимание, что эта величина почти в три раза меньше, чем приведённая в таблице 4.5. F ПОП-РЕГ =2.41 для «синтезированного» нами много более гетерогенного региона, объединившего Западную Европу с Юго-Западной Азией.

Рассчитаем теперь генетические различия не внутри этноса, а между народами Западной Европы — может быть, они окажутся велики? Нет, генетические различия между теми же народами Западной Европы столь же малы и составили всего лишь F ЭТН-РЕГ =0.87 .

Теперь мы можем рассчитать, каковы же генетические различия между всеми популяциями всех народов Западной Европы. Этот общий размах межпопуляционных различий для Европы составил, F ПОП-РЕГ =F ПОП-ЭТН +F ЭТН-РЕГ =0.76 +0.87=1.71. Таким образом, оказывается, что всегенетические различия всего населения Западной Европы (F ПОП-РЕГ =1.71) в два раза меньше, чем гетерогенность (F ПОП-ЭТН =4.04) лишь одного «среднего» коренного народа Сибири!

Таким, образом, генетические различия всех элементарных популяций всей Зарубежной Европы — от португальцев до лопарей и от исландцев до греков — достигают лишь чрезвычайно низкого уровня. В генетическом масштабе населения не только ойкумены, но и всех иных регионов мира, европейский мир предстает генетически гомогенным. Наши исследования ([Рычков, Ящук (Балановская), 1983; Балановская, 1998]) показывают, что эта гомогенность возникает не на последних этапах развития европейской цивилизации, а свойственна этому региону практически на всем протяжении его, в том числе и не писаной, истории.

Но в данном контексте важно установить сам уровень генетических различий популяций Европы, являющийся итогом особенностей её исторического развития. Важно и то, что эти результаты получены по классическим маркёрам четверть века назад. Эти результаты позволяли прогнозировать и столь же низкое генетическое разнообразие народов Западной Европы по маркёрам митохондриальной ДНК. Широко развернувшиеся в последние годы исследования мтДНК народов Европы показали удивляющую многих гомогенность населения Западной Европы (см. главы 6, 8, 9), полностью подтвердив возможность прогнозирования параметров изменчивости большинства ДНК маркёров по данным о классических маркёрах.

Большинства — но, к счастью, не всех. Высокая изменчивость гаплогрупп Y хромосомы — как в пределах Европы, так и в пределах русского народа [Balanovsky et al., in print] — служит важным исключением. Оно не просто подтверждает правило, но и обнаруживает «исключительный» маркёр, помогающий дифференцировать потоки миграций, анализировать географическую и этноисторическую изменчивость населения Европы. Правда, необходимо ещё оценить степень изменчивости Y хромосомы в других регионах мира — не окажется ли, что там она ещё выше, и Европа тогда и по этому маркёру сохранит положение гомогенного региона (в сравнении с другими регионами).

Знание как основных «правил» изменчивости каждого регионального генофонда, так и редких «исключений», позволяет планировать генетическое исследование так, чтобы дать и полноценную характеристику генофонда в целом, и проследить отдельные его своеобразные черты. В этом и состоит идеология изучения генофонда с помощью множества «очевидцев».

§ 5. Немного истории

В этом разделе мы не станем писать подробную историю геногеографии — такая задача потребовала бы отдельной книги и специального исследования. Это задача скорее для историков науки, а наше видение, конечно же, субъективно. Но все же и наши сведения имеет смысл привести — наравне с иными свидетельствами они помогут восстановить истинную картину. К тому же мы лишь наметим основные вехи развития нашей науки — в том свете, как они видятся авторам. Причём опишем их далеко не всегда в хронологическом порядке, а следуя логике развития науки. Для удобства чтения назовём эти вехи по именам ученых, внесших решающий вклад на поворотных этапах геногеографии, а для современного этапа будем считать такими вехами разработку того или иного геногеографического метода.

А. С. СЕРЕБРОВСКИЙ

Возникновение и термина «геногеография», и самой идеи чтения истории популяций в книге пространственного распространения генов связаны с именем Александра Сергеевича Серебровского.

В этой книге мы уже не раз упоминали его имя как основателя геногеографии. Поэтому сейчас приведём только один пример элегантности его работ: едва ли не первым геногеографическим исследованием было изучение истории народов Дагестана по географической изменчивости морфологических признаков у домашних кур, которых разводили эти народы. Действительно, большая или меньшая изоляция популяций человека друг от друга приводит и к соответствующим различиям между популяциями домашней птицы, тесно связанными с популяциями человека. А для кур во времена Серебровского было известно уже немало фенотипических признаков, которые могли служить хорошими генетическими маркёрами [Моисеева и др., 2003]. Для популяций человека таких маркёров почти не было. Но сходство или различия между популяциями кур того или иного ущелья можно было использовать как свидетельства сходства или различий между популяциями их хозяев.

Серебровскому принадлежит и понятие генофонда, и мысль о том, что геногеография является наукой исторической, призванной изучать историю генофонда.

Ф. Г. ДОБРЖАНСКИЙ

Эти идеи, как и многие другие достижения российской генетики, были перенесены в англоязычную науку Феодосием Григорьевичем Добржанским — известным российским генетиком, который с конца 20х годов работал в США и оказал огромное влияние на зарубежные генетические и эволюционные научные школы [Dobzhansky, 1937 и др.]. Русскоязычный термин «генофонд» превратился благодаря Добржанскому в «gene pool», аналогично на американском континенте была интродуцирована и геногеография (gene geography). Правда, представление о сложности генофонда при этом значительно потускнело (pool — нечто бесструктурное). Что же касается интродуцированной геногеографии, то она стала соответствовать тому, что мы сейчас называем частной геногеографией — то есть изучению географического распространения отдельных генов. Нужно ли говорить, что при этом исчезла сама тема геногеографического изучения не генов, а генофонда. Затерялось и представление о геногеографии как о науке исторической — термин «gene geography» стал ассоциироваться скорее с изучением медицинских следствий из закономерностей распространения гена, чем с изучением истории народов. Мы перечислили эти особенности зарубежного восприятия геногеографии, чтобы ярче подчеркнуть те черты этой науки, которые особенно важны для отечественной традиции.

Т. Д. ЛЫСЕНКО

Об этом имени и о сессии ВАСХНИЛ 1948 года написано много. Мы лишь напомним, что после признания генетики лженаукой в СССР начались гонения на генетику и генетиков, включая и геногеографию.

Е. М. ЧЕПУРКОВСКИЙ

Однако геногеографический или очень близкий к нему по духу подход сохранялся в среде антропологии, которая, хотя и ценой больших жертв, избежала участи генетики (см. об этом в разделе 2.1). Антропологию того времени связывали с геногеографией два моста. Первым был географический подход, который постепенно становился краеугольным камнем этнической антропологии. Этот подход, восходящий к классическим работам Ефима Михайловича Чепурковского, можно в терминах популяционной генетики описать так: для популяций, сходных по значениям ряда признаков и занимающих соседние географические ареалы, можно предполагать их родство по происхождению; а популяции, сходные по значениям ряда признаков, но географически далекие друг от друга, нельзя считать родственными по происхождению, если для этого нет иных убедительных свидетельств. Этот географический метод важен для антропологии тем, что он отметает множество фантастических гипотез, основанных на сходстве нескольких признаков в популяциях, которые географически и исторически удалены друг от друга.

В. В. БУНАК

Вторым мостом, связывающим антропологию с геногеографией, было отношение к генам как к новым антропологическим признакам. Антропогенетика (по сути, та же геногеография) длительное время была частью антропологии, и ведущие антропологии возлагали большие надежды на использование этих новых признаков («кровяных групп») — ведь они лишены многих недостатков, свойственных «обычным» антропологическим признакам.

Главным достоинством генетических признаков в глазах антропологов было то, что они проявляются независимо от окружающей среды: у ребенка будет та группа крови, которую он унаследовал от родителей, независимо от того в каких условиях ребенок рос. А для многих антропологических признаков на генетическую, унаследованную составляющую, накладывается влияние условий жизни индивидуума и всей популяции. Достоинством была и «дискретность» генетических признаков — за них отвечал один ген, а не совокупность генов, как для антропологических признаков.

Поэтому таким разочарованием проникнута работа ведущего антрополога Виктора Валерьяновича Бунака [Бунак, 1969]. Ее основной вывод — в «полиареальности», то есть мозаичном, а не закономерном распределении частот генов по ареалу.

Это ведь сейчас мы знаем, что распределение генов в действительности подчиняется строгим закономерностям — но чтобы их выявить, нам необходимо проанализировать десятки генов. А в распоряжении антропологов того времени было, по сути, только две генетические системы — группы крови АВ0 и резус, поэтому и был получен результат «по-лиареального» распределения генов.

Г Ф. ДЕБЕЦ

Столь глубокая внутренняя связь антропологии и геногеографии и была причиной того, что после снятия в нашей стране запрета на генетику геногеография возродилась из антропологических недр. Это второе рождение геногеографии связано с именем Юрия Григорьевича Рычкова, а связующим звеном, пронесшим мечту о настоящей генетической антропологии через десятилетия запрета на генетику, был его учитель, ведущий антрополог советской школы Георгий Францевич Дебец. По словам Юрия Григорьевича, мечтой и целью Дебеца было создание со временем подробного атласа распространения генетических признаков в населении нашей страны. И когда эта работа стала возможной (как по политическим, так и по техническим условиям), она была начата под руководством Ю. Г. Рычкова.

Ю. Г. РЫЧКОВ

С именем Юрия Григорьевича связаны широкомасштабные исследования генофонда народов СССР, которые проводились в рамках генетико-антропологической экспедиции не только в Сибири, но и во многих других регионах СССР. Но главное — именно благодаря Ю. Г. Рычкову началось возрождение геногеографии как науки. Для реализации мечты Г. Ф. Дебеца о геногеографическом атласе первым необходимым шагом было сведение воедино всех опубликованных и архивных данных о частотах генетических систем в популяциях СССР. Эта огромная работа была начата для населения Сибири Н. А. Таусик, завершала эту работу Е. В. Ящук (Балановская). На этом этапе первоочередным стал вопрос, который ставил ещё Г. Ф. Дебец — вопрос об организации данных для картографирования на популяционном или же. на этническом уровне.

Для большинства антропологов естественно является анализировать (и картографировать) популяционные данные как они есть — то есть использовать имеющиеся значения признака для каждой изученной популяции и наносить на карту эти значения в точки, занимаемые популяциями. Альтернативный подход — усреднить значения во всех изученных популяциях данного народа и наносить на карту именно усреднённое, этническое значение признака, помещая его в исторический или географический центр этнического ареала. Для антропологических признаков обычно пользуются популяционными данными, но для генетических признаков был весомый аргумент в пользу картографирования этнических данных. Этот аргумент состоял в ограниченном объёме, в нехватке генетических данных для сплошного популяционного картографирования. Нехватка данных усугублялась тем, что большинство популяций были изучены по немногим генам, и наборы этих генов для каждой популяции различались (программа признаков, изучаемых антропологами, стандартизована в значительно большей мере). Поэтому наиболее объективную генофонда картину можно было создать именно на этническом уровне.

АНАЛИЗ G ST В ПОПУЛЯЦИОННЫХ СИСТЕМАХ: ЭКВИДИСТАНТНОСТЬ

Но прежде, чем использовать вместо частот в локальных популяциях среднеэтнические частоты генов, необходимо было понять, не потеряется ли основная часть изменчивости при таком переходе от популяционных к этническим частотам? В более общем виде — какие закономерности связывают эти характеристики? Прекрасно разработанный в популяционной генетике аппарат анализа межпопуляционной изменчивости в иерархических системах популяций был применён к генетическим данным о народонаселении Сибири, а затем Западной Европы и Америки. Причём рассматривались не двууровневые системы («локальные популяции» и «этносы»), а многоуровневые системы (добавляя над уровнем «этносы» уровни «лингвистические группы» и «лингвистические семьи» при лингвистической классификации или иные объединения этносов при этно-конфессиональной, антропологической и этнографической классификациях народов) [Рычков, Ящук (Балановская), 1980, 1983, 1986].

Результатом этих работ стало открытие принципа эквидистантности (равноудалённости) разных уровней популяционной системы: изменчивость популяций в пределах этноса была равной изменчивости этносов в пределах лингвистической группы, и межпопуляционная изменчивость средних частот аллелей в лингвистических группах, относящихся к одной лингвистической семье, равнялась все той же величине. Эквидистантность оказалась характерна не только для всех изученных популяционных систем человека (коренное население Сибири, Америки и Европы) [Рычков, Ящук (Балановская), 1984], но и для других видов организмов [Алтухов, 2003]. Была предложена (и доказана её справедливость) популяционно-генетическая модель скачкообразного роста популяционной системы, состоящего в распаде единой прапопуляции на дочерние, которые, в свою очередь, со временем распадаются на популяции следующего, низшего уровня. И при росте популяционной системы на один уровень, генетическое разнообразие популяций увеличивается на одну и ту же величину («квант»), что и приводит к феномену эквидистантности всех уровней системы [Рычков, Ящук (Балановская), 1985].

Феномен эквидистантности позволил дать и общий ответ на вопрос — можно ли строить карты по среднеэтническим частотам генов? Стало ясно, что в зависимости от масштаба, от ранга популяционной системы мы теряем при этом лишь около трети или четверти информации, но приобретаем устойчивость оценок. Этим открывалась возможность создания картографического атласа генофонда СССР.

Разработанная тогда методология анализа межпопуляционной изменчивости широко используется в геногеографии и сейчас. Уровень межпопуляционной изменчивости является универсальным и весьма информативным показателем при характеристике любого этнического или регионального генофонда. Для генофондов крупных регионов методология применяется уже в полную силу — с анализом изменчивости на разных уровнях популяционной системы и с обязательным использованием феномена эквидистантности. Примером может служить изучение генофонда Кавказа [Балановская и др., 1999; см. также раздел 2.2. этой книги].

ПЕРВЫЕ КАРТОГРАФИЧЕСКИЕ ТЕХНОЛОГИИ

Несмотря на успехи, достигнутые при чисто статистическом анализе генофондов, целью отечественной геногеографической школы оставалось создание крупных картографических атласов. При наличии исходных данных вопрос упирался в метод построения карт, который должен был быть, во-первых, объективным (воспроизводимым в руках разных исследователей), а во-вторых, обеспечивать «непрерывное» картографирование (расчёт ожидаемого значения частоты гена для каждой точки карты, даже вдалеке от непосредственно изученных популяций). Выбор метода интерполяции — способа расчёта ожидаемого значения из данных по опорным точкам — стал главной задачей. Поскольку интерполяционное картографирование необычайно трудоёмко и требует значительных вычислений, этот метод с самого начала задумывался как компьютерный. Однако на каждом этапе карты строились также и вручную — это позволяло параллельно развивать теоретические подходы к картографированию. В течение нескольких лет были созданы три разных компьютерных метода — триангуляционный, «чернильных пятен» и средневзвешенной интерполяции — и созданы соответственно три разных картографических технологии. Опишем их предельно кратко и образно.

Триангуляционный метод разрабатывался совместно с сотрудниками кафедры биофизики МГУ А. Т. Терехиным и Е. В. Будиловой. Он основывается на соединении всех изученных популяций линиями, формирующими густую нерегулярную сеть треугольников, и вдоль этих линий вычисляются градиенты частоты гена. В результате из множества треугольников рождается визуальная карта распространения гена. К сожалению, у этого метода серьёзное ограничение — значение признака рассчитывалось для областей, и эти области менялись от карты к карте. Нельзя было рассчитать точные значения частоты гена для каждой точки карты. Исследователь видит результирующую карту, но не может получить числовую матрицу, лежащую в её основе. А значит, и не может дальше делать с картой любые статистические преобразования, не может превращать одну карту в другую или по совокупности исходных карт создать синтетическую карту.

Поэтому следующим методом в геногеографии стала технология, созданная совместно с А. В. Рычковым. Ее образно можно назвать «технология чернильных пятен». Каждая изученная популяция представлялась в виде небольшого «пятна» с заданной интенсивностью цвета, соответствующей частоте гена. Начинался итерационный процесс, на каждом шаге которого каждое пятно, видимое на экране компьютера, расширялось на один пиксель. На каком-то этапе соседние пятна (происходящие из соседних изученных популяций) начинали сливаться, и тогда зона «контакта популяций» окрашивалась в промежуточный цвет или же в серию переходов промежуточных цветов, если популяции различались друг от друга более чем на один интервал шкалы. Полным завершением этого процесса было бы полное слияние всех пятен друг с другом, когда вся карта представлялась равномерным серым пятном — все генетические различия полностью нивелировались! Поэтому главным вопросом при использовании этой технологии был выбор — на каком шаге итерации следует остановиться, чтобы популяции успели «провзаимодействовать», но не стали бы полностью идентичными. Этот вопрос решался по анализу дисперсии на каждой итерации: дисперсия, изначально очень большая, постепенно снижалась и выходила на плато. Именно этот момент и был сигналом к остановке итерационной процедуры и рассмотрению полученной карты.

Как можно видеть, такой метод по сравнению с триангуляционным обладает тем преимуществом, что позволяет рассчитать значения для каждой точки карты. Этот метод был использован для первого геногеографического атласа, созданного для населения Монголии [Балановская и др., 1990]. Однако дальнейшее развитие геногеографии оказалось связанным с иным, третьим методом, который также позволял получить числовые значения для каждой точки карты, но обладал и рядом дополнительных преимуществ. А главное — субъективные факторы (как, например, остановка на той или иной итерации) были сведены к минимуму.

ТЕХНОЛОГИЯ НА ОСНОВЕ СРЕДНЕВЗЕЩЕННОИ ИНТЕРПОЛЯЦИИ

Ведущая роль в создании этой технологии принадлежит картографической группе кафедры картографии МГУ под руководством С. М. Кошеля. Наша совместная работа является замечательным примером долгого и плодотворного сотрудничества профессиональных картографов и геногео-графов. Еще до встречи с генетиками группа С. М. Кошеля широко использовала картографический пакет MAG и разработала оригинальную программу Metacopy для визуализации карт. Привнесение генетической методологии значительно изменило ситуацию. Программный пакет превратился в GG MAG (GG обозначает геногеографию — Gene Geography) и приобрёл множество функций, специально нацеленных на анализ генетических данных: начиная от использования данных в нерегулярно расположенных опорных точках (поскольку генетические данные именно таковы) до внедрения в пакет широких возможностей математических и статистических операций с картами. Пакет GGMAG прошёл длительную эволюцию, и в настоящий момент используется его последняя, четвёртая версия с некоторыми оригинальными добавлениями.

Подробное описание самой технологии приводилось в разделе 3 Приложения, поэтому здесь укажем лишь её основные черты. Во-первых, при интерполяции для каждой регулярно расположенной точки карты (узел «сетки» карты) рассчитывается с помощью ортогональных полиномов средневзвешенное значение, получаемого из значений в нерегулярно расположенных опорных точках (популяциях). Значения во множестве опорных точках усредняются, причём каждая опорная точка выступает с весом, обратно пропорциональным расстоянию от нее до данного узла сетки. Тем самым прогнозируемое значение приближается к значениям в ближайших опорных точках, а удалённые опорные точки сказываются на прогнозе незначительно. Заметим, что тот же принцип независимо использовался и в нескольких зарубежных программах, специально созданных для картографирования генетических данных. Правда степень весовой функции от расстояния (между узлом сетки и опорной точкой) в них строго фиксирована (обычно это квадрат), тогда как в пакете GGMAG исследователь может задавать любую степень (часто оптимальные результаты получаются при использовании шестой или даже десятой степени). Другое важнейшее отличие GGMAG — использование для интерполяции ортогональных полиномов. Это позволяет адекватно прогнозировать изменение значений признака в пространстве даже при отсутствии данных, прямо указывающих на это изменение: интерполяционный алгоритм улавливает наличие тренда по окружающим точкам и продолжает его на смежные территории. Аналогично выбору степени весовой функции, исследователь может задать и различную степень полинома (при нулевой степени расчёт ведется без учета полинома, только как средневзвешенная интерполяция). Исследователь также может сам определить тот радиус, в пределах которого учитываются опорные точки (исходные популяции). Это позволяет моделировать разный круг взаимодействующих популяций. Сочетания всех трёх параметров (радиус для опорных точек, степень весовой функции расстояния до опорной точки, степени полинома) создают широчайший спектр возможностей для построения наиболее корректной компьютерной модели при данном сочетании популяций и значений признаков.

КАРТЫ. ПОСТРОЕННЫЕ ВРУЧНУЮ

Хотя магистральной линией было создание компьютерной геногеографии, на разных этапах множество карт было построено и вручную. С компьютерными картами их роднило всё — и непрерывность картографирования (значения для каждого узла равномерной сетки карты), и использование математического расчёта, а не научной интуиции при выборе картографируемого значения, при этом сам алгоритм вычислений мог быть самым разным. «Ручные» карты, сыгравшие наибольшую роль в истории геногеографии — это карты антропологических признаков в русских популяциях. Эта работа была специально задумана как проверка картографического метода — предполагалось, что если эти новые методы чего-то стоят, то они должны выявить новое даже в наиболее полных и прекрасно разработанных данных. А наиболее полными были данные по антропологии русского народа, собранные Русской антропологической экспедицией. Результаты этого геногеографического анализа антропологических данных описаны в разделе 2.3, поэтому скажем только, что успех этой работы превзошел ожидания. О следах летописных славянских племён, обнаруженных, благодаря геногеографическому методу в современном русском населении, был сделан доклад на авторитетной конференции, на которой присутствовало большинство отечественных антропологов и археологов [Рычков, Балановская, 1988]. То полное признание и одобрение, которое получили эти результаты, следует целиком отнести к тому стилю картографирования и той методологии анализа, которая впоследствии оформилась в компьютерную геногеографию. С этого времени можно начинать отсчёт широкого применения отечественной картографической технологии в изучении популяций человека.

БАНКИ ДАННЫХ

Наряду с картографической технологией и статистическими методами важное место в геногеографии занимают банки данных. Дело в том, что объём данных, которые используются даже не в слишком масштабном геногеографическом исследовании, огромен, а сами исходные данные обычно рассеяны во множестве статей.

Представьте себе анализ даже такого сравнительно небольшого, хотя и гетерогенного региона, как Кавказ. Пусть Вам необходимо проанализировать данные только по классическим маркёрам. Однако подобные данные получали и публиковали самые разные авторы — от медицинских исследований групп крови АВ0 и резус, до работ по многим системам, выполненными в московских и кавказских генетических лабораториях. Некоторые данные по Кавказу публиковались и зарубежными авторами. Библиография данных о Кавказе насчитывает многие десятки наименований, и далеко не все эти статьи легко доступны, а многие из них даже неизвестны большинству исследователей. Итак, тому, кто решит провести геногеографическое изучение Кавказа, предстоит провести сперва большую работу по сбору и систематизации данных о частотах генов, опубликованных за несколько десятилетий. Если же представить, сколько разных генофондов было изучено геногеографами, и вообразить, какой объём предварительной работы требуется, к примеру, для анализа в масштабе СССР, то задача сбора и систематизации опубликованных генетических данных предстанет во всем своем величии и неприступности.

Кардинальное решение этой задачи может быть только одно — собрать ВСЕ когда-либо опубликованные данные по частотам генов в ЕДИНОЕ хранилище. И при анализе любого генофонда лишь обращаться в хранилище и брать готовые систематизированные данные по частотам генов в популяциях интересующего региона.

Именно таким хранилищем и стал банк данных «GENEPOOL», разработанный под руководством одного из авторов этой книги. В банк данных вводилась практически вся доступная информация по частотам классических маркёров в популяциях Северной Евразии, а отчасти и по другим регионам мира. Впоследствии банк был пополнен и данными по аутосомным ДНК маркёрам. Структурная организация банка и запрограммированные функции делают его не только хранилищем данных, но и инструментом их проверки, систематизации и анализа. Аналогичный банк данных создавался и зарубежной геногеографической школой Кавалли-Сфорца. Он содержит информацию по остальным регионам мира (кроме Северной Евразии, представленной весьма скудно), хотя запрограммированные возможности этого банка не столь обширны.

Отечественной геногеографической школой создавался и ряд других банков данных: «ПАЛЕОЛИТ РОССИИ», база данных о русских фамилиях, банк данных по митохондриальной ДНК в населении мира и банк данных «РУССКИЙ ГЕНОФОНД» кратко описаны в разделе 5 Приложения.

ЦЕЛЬ — СИНТЕТИЧЕСКИЕ КАРТЫ

Использование банка данных является первым необходимым шагом при картографическом анализе любого гена. Но на всех этапах разработки картографической технологии главной целью оставалось картографирование не отдельных генов, а извлечение из карт отдельных генов общей информации о генофонде. Общепринятым методом обобщения тогда был (и остаётся доныне) анализ главных компонент. Этот статистический метод позволяет в изменчивости множества признаков выделить основные тенденции и представить их в изменчивости немногих новых условных признаков — главных компонент. Это метод чисто статистический, но чтобы сделать его картографическим, нужно, казалось бы, совсем немного — рассчитать значения главных компонент для каждой популяции и нанести их на карту.

Сложность заключается в том, что разные гены изучены в разных популяциях, а для расчёта главных компонент необходимы данные о значении каждого гена в каждой популяции. Решить эту проблему можно было лишь с помощью карт, основанных на цифровых матрицах. Ведь для таких карт мы имеем значение признака в каждой точке карты. А для другого признака — опять-таки знаем его значение в каждой из тех же самых точек. Таким образом, расчёт главных компонент проводится не по исходным данным, а по картам. Точнее, по картографированным (интерполированным) значениям в каждой точке карты (каждом узле регулярной сетки карты). Карты главных компонент строились и технологией «чернильных пятен». Но когда была создана технология картографирования на основе средневзвешенной интерполяции, и был разработан алгоритм проведения с цифровой матрицей математических операций, то создание карт главных компонент в отечественной геногеографической школе стало обычной и широко используемой процедурой.

Каково же было удивление, когда на этом этапе обнаружилось, что в зарубежных статьях (к тому же не в самых последних, а давностью в несколько лет) уже опубликованы карты главных компонент генофонда! Впрочем, изумление перед этим фактом быстро сменилось сознанием того, что такое совпадение подтверждает правильность избранного пути, а также ту огромную востребованность в геногеографии общих параметров генофонда, которая назрела в мировой науке.

Очевидно, именно такой была общая логика развития популяционной генетики в 70е и 80е годы, как за рубежом, так и в нашей стране: 1) необходимо обобщить данные о многих генах; 2) был общепринятый метод обобщения — главные компоненты; 3) для содержательной интерпретации результатов нужно было знать географию главных компонент, то есть построить для них карты; 4) для расчёта необходимы данные по каждому признаку в каждой точке карты; 5) получить такие данные возможно только при картографировании каждого признака, причём самым главным результатом картографирования должна быть не сама графическая карта, а лежащая в её основе матрица точных значений признака в каждом узле карты.

Самое забавное, что вместо разочарования и глубокого огорчения, что приоритет синтетических карт остался закреплён не за нами, основным чувством была радость

— нам стало намного проще объяснять, сколь необходимы геногеография и компьютерные картографические технологии. Если до этого солидные члены солидного Ученого совета заявляли, что подобные нашим контурные карты они рисовали в пятом классе, и нечего заниматься такими пустяками в Академии наук, то теперь авторитет «заграничных» исследований и популярность синтетических карт в мировой науке позволила нам развернуть куда более обширную работу и у нас в России.

CAVALLI-SFORZA И ЕГО ШКОЛА

Публикации карт главных компонент, о которых мы только что рассказали, принадлежали коллективу, который возглавлял Луиджи Лука Кавалли-Сфорца. Сразу оговоримся, что с историей зарубежной геногеографии авторы знакомы существенно меньше, чем с историей отечественной науки. Поэтому очертим её лишь несколькими штрихами и назовём только два имени.

Первое из них принадлежит А. Е. Mourent, организатору и автору крупнейшей сводки данных о частотах генов в населении мира [Mourent et al., 1976]. Этот прекрасный труд сыграл огромную роль для развития геногеографии. На страницах этой книги были сведены данные, кропотливо собранные из сотен публикаций разных лет, причём для каждой изученной популяции приводились подробные сведения о её географическом положении, отнесении к основным регионам мира, характере выборке (пациенты, здоровые, военнослужащие, коренное или «смешанное» население), а также подробная библиографическая ссылка на исходную публикацию этих данных. Для самых изученных генов были приведены и карты их распространения в мире. По сути, этот труд явился прообразом банка данных о генофонде популяций всего мира, а по полноте и объёму данных по классическим маркёрам он не утратил своего значения и сейчас.

Второе имя хорошо известно каждому, кто хотя бы бегло знаком с работами по популяционной генетике человека. Лаборатория и научная школа L. L. Cavalli-Sforza являются, пожалуй, наиболее известными в мировой науке. Этим коллективом выполнен целый ряд ставших классическими работ: по совершенствованию методов расчёта генетических расстояний, построению кластеров родства популяций, анализу фамилий как аналога генетических маркёров и множество иных исследований. Именно перу Кавалли-Сфорца принадлежит крупнейшая обобщающая монография в области популяционной генетики человека [Cavalli-Sforza et al., 1994]. Для нашего рассказа наиболее важно, что именно этим коллективом была независимо разработана картографическая технология, в общих чертах аналогичная технологии, созданной отечественной геногеографической школой. Именно эта технология легла в основу названного обобщающего труда, в котором не только приведены геногеографические карты для регионов всего мира, но и дано тщательное описание их генофондов.

Главным и важнейшим инструментом для школы Кавалли-Сфорца являются карты главных компонент («синтетические карты» в его терминологии). Каждая из карт интерпретируется как отражение одного из исторических сценариев, сформировавших генофонд популяции, причём предполагается, что более значимые компоненты описывают хронологически более ранние этапы формирования генофонда.

СОВРЕМЕННАЯ ОТЕЧЕСТВЕННАЯ ГЕНОГЕОГРАФИЯ

В своих важнейших чертах отечественная геногеографическая школа перекликается с только что описанной зарубежной. Это, во-первых, нацеленность на изучение не частной геногеографии отдельных генов, а общих черт строения генофонда. Во-вторых, это широкое использование компьютерных карт, и в первую очередь обобщённых карт (например, главных компонент). В-третьих, применение всего комплекса остальных (не картографических) популяционно-генетических методов для целей геногеографии — выявления объективных закономерностей в структуре генофонда.

Особенностью же отечественной школы является в первую очередь наличие развитой и широко разветвлённой картографической технологии [Балановская и др., 1994а, 19946, 1995, 1997]. В разделе 3 Приложения описывается, сколь большой комплекс методов и математических преобразований может быть выполнен с картами отдельных генов. Поэтому, например, результатом работы отечественной школы стало создание не одного, а трех типов синтетических карт: наряду с картами главных компонент создаются и анализируются карты гетерозиготности и карты генетических расстояний. Важным достоинством отечественной картографической технологии является также возможность расчёта корреляций между картами разных признаков, построение корреляционных карт и карт межпопуляционного разнообразия. Одним из последних и самых важных достижений отечественной геногеографии авторы считают внедрение в технологию карт надёжности. Эти карты показывают степень достоверности картографического прогноза на разных территориях в зависимости от обеспеченности исходной информацией, позволяют включать в компьютерные карты лишь данные с высоким уровнем надёжности и исключать из картографирования мало надёжные территории [Нурбаев, Балановская, 1998].

Еще одной особенностью отечественной школы можно считать анализ не только исторической (селективно-нейтральной) изменчивости генофонда, но и выявление действия естественного отбора на конкретные гены. Выше рассказывалось об анализе межпопуляционной изменчивости в генофондах разных регионов и выявленном при этом феномене эквидистантности. Такие устойчивые показатели межпопуляционной изменчивости получаются при усреднении величин изменчивости, характерных для большого числа изученных генов. При этом изменчивость каждого отдельного гена может отличаться от среднего, селективно-нейтрального уровня. И единственной причиной, которая может вызвать достоверные отклонения изменчивости данного гена от средней, является действие естественного отбора на этот ген. Если изменчивость данного гена снижена, можно предполагать действие стабилизирующего отбора. Указанием же на дифференцирующий отбор является ситуация, когда изменчивость рассматриваемого гена оказывается достоверно выше средней изменчивости всей совокупности изученных генов. Именно на этом основана технология выявлении эффектов отбора, опубликованная в работах [Рычков, Балановская, 1990а; Балановская, Нурбаев, 1997, 1998а, 19986, 1998в, 1999].

Итак, мы вкратце описали основные вехи развития геногеографии — от работ А. С. Серебровского до формирования современной геногеографической технологии, позволяющей проводить всесторонний анализ пространственной изменчивости как отдельных генов, так и генофондов. Подводя общий итог, можно выделить три основные группы методов современной геногеографии:

1) анализ межпопуляционной изменчивости при иерархической организации изучаемых популяций (анализ средней FST);

2) анализ селективной структуры (выявление действия естественного отбора на отдельные гены по отклонениям от средней FST);

3) картографические методы (анализ пространственной структуры генофонда с помощью интерполяционных карт).

РАЗНЫЕ ГЕНОФОНДЫ. РАЗНЫЕ ПРИЗНАКИ

Рассказывая об истории нашей науки, мы говорили больше об истории идей — истории разработки тех или иных геногеографических методов. И это оправдано, потому что именно наличие мощного метода является главнейшим условием для надёжных исследований конкретных генофондов. Более того, именно разработка методов всегда была стимулом для разработки теоретических вопросов геногеографии. Но неверно думать, что её история сводится лишь к разработке методов. Намного более многочисленны — столь многочисленны, что здесь невозможно перечислить даже главнейшие из них — были исследования конкретных генофондов или конкретных генов.

Чтобы дать хотя бы общее представление о масштабе и количестве выполненных геногеографических работ, перечислим некоторые из изученных нами генофондов. Из геногеографически изученных генофондов отдельных народов следует назвать адыгов, башкир, белорусов, марийцев, монголов, осетин, русских, украинцев. Из региональных генофондов — Кавказ, Восточную Европу, всю Европу, Уральский регион, Сибирь, Северную Евразию, Старый Свет (Евразия и Северная Африка). Также изучались генофонды всех основных регионов мира (см. § 4 этого раздела).

Разнообразие признаков, изучаемых геногеографией, ещё ярче, чем разнообразие изученных ею генофондов. Если изначально геногеография мыслилась как наука о географии генов, то сейчас перечень используемых для описания генофонда маркёров намного шире. Это, во-первых, антропологические признаки (соматология, дерматоглифика, одонтология). Во-вторых, данные археологии. Одно из важнейших геногеографических исследований — генофонда палеолита — выполнено не на данных о частотах генов, а на данных о признаках материальной культуры (орудия, искусство, жилища) и фауны разных этапов палеолитической эпохи. В-третьих, в современной геногеографии широко используется анализ квазигенетических маркёров, в первую очередь фамилий. Время от времени геногеографические технологии применяются и для признаков, вовсе далёких от генетики, таких как заболеваемость, техногенная напряжённость среды, гормональный статус или показатели антропологического развития детей. Правда, в этих случаях решаются не столько популяционные, геногеографические задачи, сколько геногеографические технологии используются для решения задач смежных наук. Но конечно, большинство геногеографических исследований проводились на основе данных о частотах генетических маркёров, причём всех их типов: и классических, и аутосомных гипервариабельных ДНК маркёров, и инсерционно-делеционного ДНК полиморфизма, и маркёров митохондриальной ДНК, и гаплогрупп Y хромосомы.

 

5. АТЛАСЫ ГЕНОФОНДОВ

В этом разделе рассматриваются технические вопросы создания всего множества карт, приведённых в книге. Описаны исходные данные для картографирования, указаны параметры построения разных видов карт, отмечены особенности различных Атласов.

§ 1. Атласы русского генофонда

БАНК ДАННЫХ «РУССКИЙ ГЕНОФОНД»

Создание геногеографических Атласов невозможно без предварительной разработки банков данных, содержащих исходную информацию. В ряду созданных нами банков, использованных в этой книге («GENEPOOL», «World Mitochondrial», «Палеолит Северной Евразии» и другие) банк данных «Русский генофонд» занимает особое место.

Этот Банк данных (информация на конец 2005 г.) содержит данные о русских популяциях (более 500), изученных по признакам генетики и антропологии (350 маркёров различного типа).

Для того чтобы стать не просто хранилищем самых разнообразных сведений о русском генофонде, а материальной основой для синтеза этой информации, Банк данных должен был решить задачу унификации данных. Вся информация дается в Банке по единой схеме и для генетических, и для антропологических данных. Именно единство формата позволяет отбирать любые данные по общим формальным признакам и комбинировать их.

Банк данных (БД) включает в себя десять разделов, объединяемых в три группы: А) информация, общая для всех тематических разделов БД; Б) тематические разделы; В) справочники.

A) ОБЩАЯ ИНФОРМАЦИЯ

1. Популяционный раздел.

Детальные описания каждой популяции — административная принадлежность, географические координаты, особенности сбора выборки, статус и т. д.

2. Библиографический раздел.

Сведения по тем источникам, откуда были взяты данные.

Б) ТЕМАТИЧЕСКИЕ РАЗДЕЛЫ

3. Соматологические признаки (3276 записей),

4. Дерматоглифические признаки (201 запись).

5. Классические генетические маркёры (2754 записей);

6. Аутосомные ДНК маркёры (962 записи);

7. Гаплогруппы митохондриальной ДНК (363 записи).

8. Гаплогруппы У хромосомы (112 записей);

B) СПРАВ0ЧНИКИ

9. Административно-территориальная классификация

Перечень государств мира, областное деление стран СНГ до уровня областей, административное деление России на субъекты РФ и их подразделение на районы. Справочник позволяет каждой изученной русской популяции дать точную привязку к территории и административной единице.

10. Справочник маркёров и другие специальные справочники.

Основные задачи БД — обеспечить удобный ввод данных, проверку правильности их введения, возможность поиска (фильтрации) и любого комбинирования данных, выгрузку нужной комбинации данных в заданном виде, который «понимает» та или иная программа последующего анализа.

Банк данных обладает развитой системой поиска и отбора информации по различным параметрам и по запросам различного характера: группе популяций,

набору маркёров, интервалу значений признаков, любому сочетанию этих условий и т. д. Фактически — благодаря использованию готовых иерархически организованных списков — не представляет затруднений быстро отобрать из всего массива данных сведения по интересующей пользователя популяции или группе популяций, причем по любому конкретному маркёру или их заданной группе.

ОТ БАНКА — К АТЛАСАМ

Информация из банка данных выгружалась в формат данных для картографирования, и с использованием нашего геногеографического программного пакета GGMAG создавались карты — как для отдельных признаков, так и синтетические карты.

Все карты Атласов русского генофонда построены при следующих постоянных параметрах:

— Число узлов ЦМ: 88x103;

— Параметры интерполяции: степень полинома 0. радиус 10, степень весовой функции 6;

— Построение трендовых карт: осреднением в плывущем окне постоянного (для данной карты) размера. Для разных карт использованы окна разной величины (см. ниже описания каждого отдельного Атласа).

— Шкалы: равномерные, как правило, семиинтервальные.

— Надёжная область: зона с вероятностью правильного прогноза более 95 % при заданном уровне строгости.

Другие параметры (например, размер окна сглаживания, уровень строгости, мера расстояний) различались от Атласа к Атласу и указаны ниже при описании построения соответствующих карт.

АТЛАС СОМАТОЛОГИИ РУССКОГО НАРОДА

(рассмотрен в главе 4 ).

Атлас основан на информации базы данных «Соматология» (содержит 3 276 записей) банка данных «Русский генофонд». Сводка данных составлена проф. В. Е. Дерябиным по материалам Русской антропологической экспедиции под руководством В. В. Бунака и Т. И. Алексеевой [Происхождение…, 1965],

антропологической экспедиции М. В. Витова [Битов, 1964, 1997], а также по данным В. П. Алексеева [Алексееу и др., 1994]. При составлении сводки (включена информация только о мужчинах) В. Е. Дерябиным была проведена коннексия данных с учетом различий в методических приёмах измерений разных авторов. При невозможности коннексии по какому-либо признаку данные по этому признаку не включались в подраздел объединённых данных.

Атлас состоит из трёх разделов.

1. «ПРОСТЫЕ» КАРТЫ. ПЕРВЫЙ РАЗДЕЛ основывается на данных Русской антропологической экспедиции (РАЭ). Раздел включает в себя карты 30 антропологических признаков, изученных РАЭ в 107 русских популяциях.

Перечень признаков: длина тела, процент светлых глаз, поперечный диаметр головы, продольный диаметр головы, ширина носа, высота носа от бровей, горизонтальный профиль лица, рост бороды, скуловой диаметр, наименьший лобный диаметр, морфологическая высота лица, нижнечелюстной диаметр, высота носа от переносья, высота верхней губы, ширина рта, толщина губ, цвет глаз, цвет волос по Фишеру (средний балл), цвет волос по Бунаку (средний балл), рост волос на груди, рост бровей, высота переносья, частота вогнутой спинки носа, частота выпуклой спинки носа, положение кончика носа, положение основания носа, профиль верхней губы, складка верхнего века, наклон лба, развитие надбровья (средний балл).

2. «ПРОСТЫЕ» КАРТЫ. ВТОРОЙ РАЗДЕЛ включает как данные РАЭ, так и данные М.В. Витова по северным русским популяциям [Битов, 1964, 1997]. Этот раздел мы обозначаем как «АБВ» — от первых букв фамилий исследователей (Алексеева, Бунак, Битов). Раздел «АБВ», в отличие от раздела «РАЭ», включает меньше признаков, но зато основывается на данных о большем числе популяций (180 популяций). Раздел состоит из 18 карт, показывающих изменчивость основных антропологических признаков. Публикуются трендовые варианты карт, полученные осреднением в окне 5x5 узлов сетки.

Приведены значения этих 18 признаков в 180 русских популяциях: 107 изученных Русской антропологической экспедицией; 60 изученных М. В. Битовым; 13 изученных В. П. Алексеевым с соавторами. В 11 случаях обе экспедиции обследовали русское население одних и тех же районов. Однако, согласно концепции построения БД, эти популяции введены независимо, поскольку при совпадении этнической и административно-территориальной привязки популяций фактически были изучены разные выборки из одной генеральной совокупности.

Перечень признаков: длина тела, продольный диаметр головы, поперечный диаметр головы, наименьшая ширина лба, морфологическая высота лица, скуловой диаметр, нижнечелюстной диаметр, высота носа от бровей, ширина носа, цвет глаз, доля светлых волос, доля темных волос, рост бороды, горизонтальный профиль лица, доля вогнутых спинок носа, доля выпуклых спинок носа, положение кончика носа, профиль верхней губы.

3. ОБОБЩЁННЫЕ КАРТЫ. ТРЕТИЙ РАЗДЕЛ Атласа содержит обобщённые карты двух видов — карты канонических переменных и карты расстояний, а также карты надёжности. Все обобщённые карты построены в двух вариантах: РАЭ (см. первый раздел Атласа) и АБВ (см. второй раздел Атласа).

Карты канонических переменных являются аналогами карт главных компонент и показывают основные закономерности в изменчивости русских популяций. Карты канонических переменных: не вычислялись из карт исходных признаков, а картографированы «готовые» значения канонических переменных, рассчитанные В. Е. Дерябиным по 18 (АБВ) или 30 (РАЭ) признакам. Приводятся трендовые карты (размер окна сглаживания 5x5 узлов сетки).

Карты генетических расстояний показывают сходство каждой русской популяции со среднерусскими характеристиками. Карта по данным РАЭ построена в трёх вариантах (главы 2 и 4), различающихся числом признаков и методом построения, в одном из вариантов степень весовой функции в виде исключения равнялась 10. Карта по данным АБВ показывает расстояния Махаланобиса, рассчитанные от усреднённой русской популяции до каждой из 180 популяций в программе DJ. Использованы данные по 16 признакам: признаки «доля темных волос» и «доля светлых волос» не использованы из-за отсутствия данных по их внутригрупповой корреляции с остальными признаками, а эти корреляции необходимы для расчёта по Махаланобису. Полученные величины расстояний картографированы аналогично отдельным признакам, приводится трендовая карта (окно 3x3).

Карты надёжности показывают, для какой территории картографирование (интерполяционный прогноз) является статистически надёжным. Созданы две карты надёжности — для данных РАЭ (уровень строгости 0.5) и для данных АБВ (уровень строгости 0.7). Все карты Атласа приводятся в границах «надёжной» зоны, т. е. территории, хорошо обеспеченной исходными данными.

4. ГЕНЕТИЧЕСКИЙ ДЕТЕКТИВ. Сложность работы по созданию Атласа проиллюстрируем лишь одним примером. Казалось бы, коль скоро разработаны сложнейшие программные пакеты для картографирования, создана база антропологических данных, проведена их коннексия, то задача картографирования данных уже решена — остаётся лишь определить географические координаты популяций. Однако даже столь частная задача (о которой мы, как правило, и не упоминаем) может превратиться в неразрешимую проблему. Обычная процедура определения координат проходит следующим образом: в компьютерном Атласе (например, [Большой атлас России…, 2002]) открывается карта той административной области, к которой принадлежит популяция. В ней по справочникам отыскивается заданная популяция. Далее она отыскивается на карте, определяются ее точные координаты, которые и заносятся в популяционный справочник Банка данных.

Однако проблема в том, что авторы далеко не всегда указывают точную привязку изученных популяций, часто дают им произвольные рабочие наименования или допускают ошибки в их названиях. Могут встречаться несколько популяций со сходными названиями, со временем меняются и названия популяций и административные границы регионов и т. д. И тогда уже ординарная процедура определения координат превращается в детективную историю.

Например, популяции, обследованные М. В. Битовым, указаны в списке под условными названиями, соответствующими административному району — это первый источник информации. На картах М. В. Витова для этих же популяций указаны конкретные названия обследованных населённых пунктов — это уже второй источник информации. Третий источник информации — Банк данных «Русский генофонд» — содержит справочник всех районов России, соотнесённых с её областным делением. Необходимо сопоставить эти три источника. При совпадении их информации можно предположить, к какой административной области относится искомая популяция, и далее определять координаты по обычной процедуре. Однако после этих сопоставлений и ряда специальных ухищрений осталось несколько неидентифицируемых популяций.

Например, среди популяций М. В. Витова (источник информации № 1) есть «Приозёрская», а Приозёрский район (согласно источнику информации № 3) существует только в Ленинградской области. Однако на карте М. В. Витова (источник информации № 2) в занимаемой этим районом части Ленинградской области не отмечено ни одной изученной популяции. С другой стороны, на карте есть несколько населённых пунктов, которым нет соответствия в списке названий популяций. Просмотрев эти населённые пункты и другую вспомогательную информацию (время, маршруты обследования и многое иное) мы предположили, что наиболее вероятным кандидатом для популяции «Приозерский район» (источник информации № 1) может быть Конево (один из «беспризорных» пунктов источника информации № 2, т. е. не имеющий соответствий в источнике № 1). Основания для гипотезы были очень хрупкие: Конево находится рядом с Плесецким (Плисецким у М. В. Витова) районом Архангельской области, изученным М. В. Битовым в этом же 1955 году (правда, наряду с ещё 15 районами Костромской, Вологодской и Архангельской областей). В настоящее время вблизи от Конево существуют два района — Плесецкий и Каргопольский. Проблема в том, что оба района изучены М. В. Битовым и значатся в источнике информации № 1.

Тогда — на следующем витке детективной истории — мы предположили: а вдруг ранее существовал и Приозёрский район, а теперь он поглощен Плесецким и Каргопольским? Хотя вероятность этого мала, мы все же стали звонить в различные администрации Архангельской области, надеясь получить ответы на свои вопросы. Администрация Плесецкого района решала проблемы «космического» масштаба, и более перспективным оказался поиск через Каргопольский район. О Приозёрском районе там ничего не знали. Но в результате поисков мы выяснили, что в настоящее время в составе района имеется Приозёрский сельсовет. Беда только в том, что Конево в него не входит. Мы решили все же продолжать поиск. Дозвонившись в Приозёрский сельсовет, мы узнали, что Конево входило в него! Ныне, после укрупнения районов и смене их границ, Конево отошло к другому — Плесецкому району. Но ранее всегда относилось к Приозёрскому району, затем ставшему Каргопольским. Таким образом, в результате этих розысков, мы смогли популяцию «Приозёрский район» правильно поместить в Архангельской, а не в Ленинградской области, связав с популяцией «Конево» на карте М. В. Витова.

Однако оставался также не идентифицированным, например, «Виноградовский район». На карте М. В. Витова (источник информации № 2) такого населённого пункта нет. Однако район со столь южным названием по нашему справочнику Банка данных (источник информации № 3) числится в Архангельской области. Ищем дополнительные сведения. Оказывается, что в перечне изученных в том же 1955 году популяций (источник информации № 1) рядом с «Виноградовским» перечислен и Шенкурский район. А недалеко от Шенкурска на карте М. В. Витова (источник информации № 2) указано село Семёновское, которое оказалось также «беспризорным» — его нет в списке изученных популяций (источник информации № 1). Сопоставив логически всю цепь данных, можно выдвинуть мало вероятную, но все же гипотезу: Семёновское — это и есть Виноградовский район.

Беда только в том, что такого населённого пункта в Виноградовском районе не оказалось! Оставалось пытаться все же выяснить этот вопрос в районном центре Виноградовского района. Им оказался посёлок Березняки. В результате долгих розысков и звонков мы выяснили, что «столица» Виноградовского района — Березняки — до 1960 года называлась «Семёновское»! Оказалось, что Семёновское, указанное на карте М. В. Битовым, через пять лет после антропологического обследования было переименовано. О прежнем названии сейчас не помнят даже жители села — лишь в архиве района мы смогли обнаружить эту информацию! Итак, в результате дедуктивного метода и долгих поисков информация всех трёх источников совпала: мы сумели «Виноградовский район» из списка популяций совместить с Семёновским карты М. В. Витова и п. Березняки современной карты России.

Не будем перечислять другие истории нашего «расследования» (например, «Кировский район» оказался Фирово Тверской области) — мы хотели лишь показать на этих примерах, что до момента появления на свет карты распространения признака приходится преодолевать множество самых непредсказуемых препятствий.

АТЛАС ДЕРМАТОГЛИФИКИ РУССКОГО НАРОДА

(рассмотрен в главе 4 ).

Атлас основан на информации базы данных «Дерматоглифика» (содержит 201 запись) банка данных «Русский генофонд». Сводка данных составлена сотрудником Института этнологии и антропологии РАН к.и.н. Н. А. Долиновой (часть этих данных опубликована в монографии Г. Л. Хить «Дерматоглифика народов СССР»). Составитель любезно предоставила нам эту сводку для картографирования в русском ареале.

Атлас основывается на значениях 7 ведущих некоррелированных дерматоглифических признаков в 28 русских популяциях, в основном из Центральной России. Имеющаяся в банке данных популяция № 29 (Крымская) не учитывается при картографировании, так как находится вне «исконного» ареала.

Перечень признаков: дельтовый индекс, положение осевого карпального трирадиуса, индекс Камминса (основных ладонных линий), дополнительные межпальцевые трирадиусы, узоры на тенаре (Th/I), узоры на гипотенаре, европеоидно-монголоидный комплекс.

«ПРОСТЫЕ» КАРТЫ. Построены карты семи ведущих дерматоглифических признаков, перечисленных в главе 4. Приводятся трендовые карты (окно 5x5).

ОБОБЩЁННЫЕ КАРТЫ. Главные компоненты рассчитаны по картам распространения шести отдельных признаков (исключен европеоидно-монголоидный комплекс, который является производным из частот остальных признаков) в ареале надёжного пространства. Приводятся трендовые карты (окно 9x9).

Карта надёжности построена при уровне строгости 0.5. Она одна для всех карт дерматоглифики — простых и обобщённых — поскольку все эти карты основаны на информации об одних и тех же 28 русских популяциях.

АТЛАС КЛАССИЧЕСКИХ МАРКЁРОВ РУССКОГО НАРОДА (рассмотрен в главе 5)

Атлас основан на информации базы данных «Классические маркёры» (содержит 2 754 записей) банка данных «Русский генофонд». Данные собирались в течение ряда лет авторами этой книги и их коллегами (участвовавшими в создании БД «GENEPOOL») из многих источников. Некоторые публикации, надо полагать, не были нами найдены, но процент таких пропусков в базе данных, как нам кажется, очень мал. Поэтому Банк данных можно рассматривать как практически полное собрание всех накопленных в науке данных о полиморфизме классических маркёров в русском населении.

Чтобы сделать эту информацию доступной широкому кругу специалистов, мы приводим её на сайте www.genofond.ru и в Приложении (раздел 6).

Банк данных содержит частоты 100 аллелей 33 локусов иммуно-биохимического и физиологического полиморфизма. Использованы данные о частотах генов в 290 русских популяциях. В среднем локус изучен в 26 популяциях, но изученность разных маркёров крайне неравномерна.

Перечень признаков: АВН, АВ0, АСР, АК, СЗ, CER, СНЕ, CV, DI, ESD, F13B, FY, GC, GD, GLO1, HLA-A, HLA-B, HLA-C, HP, JK, KEL, KEL-KP, КМ, LEW, LU, MNS, P, 6PGD, PGM1, PI, PTC, RH, TF.

ИСХОДНЫЕ ДАННЫЕ, представляют собой частоты классических маркёров в русских популяциях, географические координаты которых лежат в пределах от 43° до 70° северной широты и от 24° до 60° восточной долготы плюс популяция г. Асбест, включённая в порядке эксперимента из-за её хорошей изученности (результаты этого эксперимента описаны в главе 5). Таким условным способом были отобраны русские популяции «исконного ареала» и как можно видеть, ареал взят с большим «запасом» — фактически включена вся Европейская часть России.

Для рассматриваемого ареала в Банке данных имелись сведения о ряде русских популяций по 24 локусам из 33. Однако степень изученности этих локусов резко различалась — как по числу изученных популяций, так и по географии этих популяций (например, чтобы они не были сосредоточены лишь в одной половине ареала). Поэтому 24 локуса были разделены на три группы.

1) В первую группу маркёров вошли тридцать пять аллелей тринадцати локусов, изученных для русских популяций достаточно хорошо (АВ0, АСР, ESD, GC, GLO1, HP, MN, 6PGD, PGM1, PI, PTC, RH-D, TF).

2) Во вторую группу маркёров вошли локусы, изученные не столь подробно: CV, KEL, LEW, а также HLA*B27. Для этих маркёров или число популяций было признано недостаточным (например, только 8 для системы HLA), или их география была неудовлетворительной (например, для цветовой слепоты в основном ограничена одним лишь центром исконного ареала).

3) В третью группу маркёров вошли слабоизученные локусы: АК, C3F, GD, HLA, КР, LU, Р.

Картографированы были маркёры всех трёх групп. Однако анализ главных компонент проведён только по локусам первой группы (наиболее изученным), картографо-статистический анализ (табл. 5.2.1.) — для первой и второй групп, третья же группа генов для количественного изучения русского генофонда не использовалась — карты привлекались лишь для общего сравнения с остальными разделами Атласа.

«ПРОСТЫЕ» КАРТЫ. Раздел включает 66 карт, показывающих распространение каждого из картографируемых аллелей первой и второй групп: 44 карты аллелей, перечисленных в табл. 5.2.1. (для диаллельных локусов строились карты обоих аллелей), а также 22 карты аллелей трёх локусов HLA.

Для 44 аллелей был проведён картографо-статистический анализ этих карт, в том числе построены корреляционные карты связи каждого из аллелей с географической долготой, широтой и множественной корреляции с географическими координатами (табл. 5.2.1). Приводятся трендовые карты (выбор размера окна зависел от степени изрезенности рельефа карты, чаще всего использовались окна 7x7 и 11x11).

Каждая карта первого раздела сопровождается своей картой надёжности (уровень строгости 0.3). В этом особенность Атласа по классическим маркёрам. Если в остальных Атласах все признаки изучены в одних и тех же популяциях, то каждый из классических маркёров изучен в различных популяциях: от 8 популяций по генам системы HLA до 182 популяций по системе АВ0. Соответственно, резко различаются площадь и очертания «надёжной» зоны для карт разных классических маркёров. На приводимых картах значения частоты аллеля показаны только в пределах «надёжной» зоны. Поэтому карты распространения одних маркёров показывают их изменчивость в пределах одной лишь Центральной России, тогда как другие маркёры картографированы в русском населении практически по всей Восточной Европе.

Понятно, что общее число карт надёжности (18 карт) соответствует числу локусов первой и второй групп, а не числу аллелей: все аллели локуса изучены в одних и тех же популяциях, поэтому их изученность описывается одной и той же картой надёжности.

ОБОБЩЁННЫЕ КАРТЫ представлены синтетическими картами главных компонент (и их трендами, полученными в окнах 9x9, 11x11, 15x15). Они обобщают 35 карт аллелей первой группы и рассчитаны только по «надёжному пространству» обобщённой карты надёжности. Для её построения все карты надёжности для локусов из первой и второй групп (кроме HLA), были усреднены, при этом каждая карта надёжности отдельного локуса выступала с весом, равным числу аллелей в этом локусе. Например, «вес» карты надёжности системы АВ0 был равен трем, глиоксалазы 1 — двум, а трансферрина — пяти.

АТЛАС ГАПЛОГРУПП Y ХРОМОСОМЫ РУССКОГО НАРОДА (рассмотрен в главе 6)

Атлас основан на информации базы данных «Гаплогруппы Y хромосомы» (содержит 112 записей) банка данных «Русский генофонд». Информация представляет собственные данные авторов [Balanovsky et al., in print].

Атлас основан на данных о 14 русских популяциях, обследованных в ходе экспедиционной работы по изучению русского генофонда. Картографируются 8 гаплогрупп Y хромосомы, удовлетворяющих однопроцентному критерию полиморфизма: средняя частота в 14 популяциях выше 0.01.

Перечень признаков: гаплогруппы E3b, I1а, I1b, J2, N2, N3, R1a, R1b.

«ПРОСТЫЕ» КАРТЫ. Карты восьми гаплогрупп построены в пределах «надёжного» пространства русского ареала и использованы для создания карт главных компонент. В книге вместо этих «русских» карт приводятся карты распространения гаплогрупп на всей территории Европы (включая и надёжный русский ареал, очерченный серой линией). Создание «европейских карт» описано ниже.

ОБОБЩЁННЫЕ КАРТЫ. Синтетические карты главных компонент построены по восьми картам гаплогрупп в пределах надёжно изученного русского ареала. Приводится трендовая карта (окно 7x7).

Карта надёжности едина для всех простых и обобщённых карт (уровень строгости 0.3).

АТЛАС ФАМИЛИЙ РУССКОГО НАРОДА (рассмотрен в главе 7)

Атлас основан на информации базы данных «ONOMA». Содержится информация о фамилиях 1 201 000 человек.

Представлены 1166 популяций, относящихся к 107 районам одиннадцати административных областей. Общее число фамилий в базе данных превышает 67 тысяч. В алфавитном порядке первой стоит фамилия «Аабд», последней — «Ящуков». Исходно фамилии сгруппированы по населённым пунктам (или сельским объединениям), для которых указана их административная принадлежность. Это позволило рассчитывать частоту фамилии для любых заданных групп популяций.

ИСХОДНЫЕ ДАННЫЕ. Фамилии коренного сельского населения изучены главным образом в пределах «исконного» русского ареала. Для этого собирались данные по сельским поселениям, а также по тем небольшим городам, население которых сформировалось главным образом за счет жителей ближайших деревень. Население крупных городов игнорируется по той же причине, почему оно не изучается нами и по остальным маркёрам — чтобы минимизировать влияние недавних миграций. Единственное исключение сделано для фамилий Кемеровской области. Этот регион представляет «периферийное» русское население, далеко за пределами «исконного» ареала. И поскольку всё население — и сельское, и городское — сформировано мигрантами (из «исконного» ареала), то не было и смысла отсеивать «мигрантное» население городов.

Исходные данные представляют собой списочный состав населения изученного региона: перечень фамилий в каждом населённом пункте, где каждая фамилия соответствует одному человеку — её носителю. Очевидно, что одни и те же фамилии в этом списке могут повторяться многократно (родственники, однофамильцы). Программа «ONOMA» и создана для того, чтобы перейти от списка членов популяции к частотам фамилий в популяции, а затем провести необходимые расчёты.

Исходные данные могут дать информацию только о том, сколько раз та или иная фамилия встречена в данном населённом пункте. Этого достаточно для изучения структуры генофонда, а сама информация остаётся при этом анонимной — имеются данные не о людях, а лишь о частотах их фамилий.

Для статистического анализа использовалась вся база данных целиком, а для картографического — только данные о 75 фамилиях. Эта информация получена из двух источников.

1) Данные А. П. Бужиловой по частотам 75 русских фамилий в 55 популяциях уровня сельсоветов, представляющих 23 области Европейской части России. Средний объем выборки по масштабам, принятым в анализе фамилий, невелик — немногим более 300 человек.

2) Информация нашей базы данных «ONOMA» по тем же 75 фамилиям в 51 популяции уровня районов, представляющих 7 областей. Из 50 районов, используемых в статистическом анализе (см. табл. 7.2.1.) Репьёвский район Воронежской области не успел пока войти в картографический анализ, зато обширный Каргопольский район Архангельской области представлен как три популяции, что и дает в сумме 51 картографированную популяцию. Средняя выборка на район значительна — около 20 000 человек.

Сравнение этих двух источников показывает, что второй (наша база данных) основан на обширных выборках, но представляет только 7 областей, а у первого (данные А. П. Бужиловой) выборки невелики, зато география популяций очень хорошая. Поэтому для картографирования данные этих двух источников были объединены. По пяти районам (Холмогорский район Архангельской, Кашинский район Тверской, Кологривский и Вохомский районы Костромской, Велижский район Смоленской областей) имелись данные в обоих источниках. Для этих районов данные А. П. Бужиловой не использовались, и в этих точках картографировались только данные нашей базы данных. Таким образом, общее число опорных точек картографирования составило 101 популяцию: 50 популяций Бужиловой плюс 51 популяция нашей базы данных.

Кроме различия в уровне иерархии популяций (сельсоветы или же районы) между двумя источниками имеется и ещё одно — важнейшее — различие. Данные А. П. Бужиловой ограничены 75 фамилиями, которые оказались по её данным наиболее распространенными. В нашей же базе данных представлено не 75, а 14 000 «условно коренных» распространенных фамилий. Но поскольку для картографирования оба источника объединяются, то мы можем построить подробные «простые» карты лишь тех же 75 фамилий.

ПРЕОБРАЗОВАНИЕ ИСХОДНЫХ ДАННЫХ. В отличие от всех иных признаков, где преобразования от экспериментальных данных до частот признаков многократно описаны и общеизвестны, преобразования с данными о фамилиях не стандартизованы. Поэтому схематично приведем их.

1. «Маскулинизация» фамилий. В исходных данных присутствуют фамилии и мужчин, и женщин. Поэтому, чтобы одну и ту же фамилию не учитывать как две разные, все фамилии преобразуются к орфографии мужского рода. Например, список «Иванов, Смирнова, Иванова, Сидорова» превращается в «Иванов, Смирнов, Иванов, Сидоров». Надёжный алгоритм такого преобразования разработать не так просто (см. «Крик души» в конце параграфа).

2. Исключение неинформативных популяций. Как правило, в каждом районе есть несколько посёлков, где большинство жителей — недавние мигранты или их потомки. Такие поселения являются чуждыми включениями и не отражают изучаемую популяцию. К тому же они, как правило, недолговечны — их состав текуч, и сами они так же быстро исчезают с карты, как и появляются. Информация об уровне миграций в населённых пунктах собирается в ходе экспедиционного обследования. Разработана специальная методика: каждому населённому пункту местными экспертами проставляется степень его «мигрантности» по пятибалльной шкале. Оценки обычно выставляют два эксперта, правила оценок стандартизованы, что, как мы надеемся, сводит к минимуму субъективный момент в определении уровня миграций. Программа выводит список населённых пунктов вместе с оценкой «мигрантности» и позволяет выбрать, какие из них необходимо исключить из анализа (пункты с высоким уровнем миграции).

3. Исключение неинформативных фамилий. Очевидно, что часть пришлых, «залётных» фамилий может встретиться и в тех населённых пунктах, где население в основном коренное. Поэтому мы исключаем фамилии, число носителей которых в изучаемом районе меньше заданного порога. Обычно мы пользуемся разработанным нами «демографическим» критерием: фамилия считается неинформативной, если она встречена менее чем у пяти человек в районе (см. раздел 7.3). Программа «ONOMA» позволяет подразделить согласно этому критерию весь список фамилий на условно «коренные» и условно «пришлые». Условия их выделения (строгость критерия) можно выбрать разные. Все дальнейшие операции можно проводить с любыми выделенными группами фамилий — «коренными» (частыми), «пришлыми» (редкими) или по всей совокупности фамилий.

4. Расчёт частот фамилий. Каждая фамилия «прикреплена» в базе данных к тому населённому пункту, где она встречена. Однако мы не проводим анализ на уровне отдельных населённых пунктов. Нами принята организация данных на трёх других более высоких иерархических уровнях. Первый уровень — «популяция» (сельская администрация, волость, сельсовет), объединяющая несколько населённых пунктов. Второй уровень — «район». Он включает все популяции, относящиеся к данному району согласно современным административным границам. Третий уровень — «регион». Он соответствует области или нескольким соседним областям и включает все районы, которые были обследованы в этих областях. Программа работает последовательно с каждым из уровней. Сначала объединяются списки фамилий всех населённых пунктов, относящихся к данной популяции, и рассчитывается частота каждой фамилии в полученном списке. Это частоты на уровне популяций. Далее усредняются частоты фамилии во всех популяциях данного района, и записывается полученная частота фамилии в районе. Далее усредняются частоты фамилии во всех районах данного региона, и записывается полученная частота фамилии в регионе. На всех уровнях иерархии можно рассчитывать и взвешенные, и невзвешенные средние частоты, что определяется конкретной задачей. Программа обеспечивает анализ и на любых других уровнях иерархии — например, населённых пунктов, или же заданных групп районов, или же заданных областей, или, например, географически соседних районов разных областей.

5. Размещение в базе данных. Частоты каждой фамилии в каждой популяции, каждом районе и каждом регионе записываются в базу данных. Причём, частота фамилии в данной группе населения может быть рассчитана разными способами. Осуществляется целый веер расчёта частот. Фамилии могут быть «коренные», «пришлые» или любые. Частоты взвешенные или невзвешенные на том или ином уровне. Население может включаться только сельское или же и городское. Неинформативные популяции могут исключаться в разных вариантах или же включаться в анализ. То есть мы получаем несколько оценок частоты одной и той же фамилии в одной и той же группе населения. Чтобы избежать путаницы, они помещаются в разные разделы базы данных. Весь веер полученных частот для каждой популяции может храниться в БД и использоваться для дальнейшего анализа. Каждый из- этих вариантов расчёта оптимален для решения своего круга задач.

6. Оценка случайного инбридинга. Традиционно в популяционной генетике фамилии используются для расчёта случайного инбридинга (см. раздел 7.6). Инбридинг оценивается просто — методом изонимии (I). Он представляет вероятность случайного заключения брака между носителями одной фамилии (это справедливо при условии панмиксии). Соответственно, вероятность случайного инбридинга рассчитывается как четверть от суммы квадратов частот всех фамилий [Crow, Mange, 1965]. Программа «ONOMA» рассчитывает коэффициент изонимии (I) для популяций любого уровня и для частот фамилий, полученных разными способами.

Перечень признаков: Абрамов, Александров, Алексеев, Андреев, Анохин, Антонов, Афанасьев, Балашов, Белов, Борисов, Быков, Васильев, Веселов, Виноградов, Волков, Воробьёв, Воронин, Голубев, Горбачёв, Григорьев, Гуляев, Гусев, Денисов, Дружинин, Егоров, Ершов, Ефимов, Иванов, Ильин, Калинин, Киселёв, Ковалёв, Козлов, Костеров, Котов, Кротов, Крылов, Кудряшов, Кузьмин, Кузнецов, Курочкин, Лебедев, Макаров, Михайлов, Морозов, Никитин, Николаев, Новиков, Носков, Осипов, Павлов, Пестов, Петров, Поляков, Попов, Прокофьев, Романов, Савельев, Семёнов, Сидоров, Смирнов, Соколов, Соловьёв, Степанов, Тарасов, Тимофеев, Тихонов, Трифонов, Фёдоров, Филиппов, Цветков, Чернов, Чистяков, Щербаков, Яковлев.

«ПРОСТЫЕ» КАРТЫ включают 75 карт, построенных в пределах «надёжного» пространства и при минимальном сглаживании (окно 3x3).

ОБОБЩЁННЫЕ КАРТЫ включают карты главных компонент (тренд в окне 7x7), карты генетических расстояний и карты случайного инбридинга.

Карты главных компонент и генетических расстояний (от среднерусских частот фамилий) рассчитаны по 75 картам отдельных фамилий в пределах надёжного пространства (уровень строгости 0.5). Карты главных компонент обсуждаются в главе 7. Карта генетических расстояний не приводится, поскольку неравномерная изученность не позволяет рассматривать ее как надёжный результат, хотя её общий паттерн весьма напоминает карты расстояний, приводимые в соматологическом атласе.

Карта случайного инбридинга основана только на информации нашей базы данных по 49 районам. Поэтому эти карты построены по данным не о 75, а обо всех 14000 «коренных» фамилий. Расчёт оценок случайного инбридинга проводился в программе ONOMA в двух вариантах — на уровне популяций (сельсоветов) и на уровне районов. Приводится «районная» карта (тренд 11x11).

КРИК ДУШИ

При описании программы или базы данных, чем понятней стараешься изложить механизмы их работы, тем проще кажется задача создания этих программных продуктов. Поэтому проиллюстрируем нелегкую работу программистов одним лишь примером. Он касается простейшей, казалось бы, задачи — приведения фамилий к орфографии мужского рода.

В действительности, нельзя создать алгоритм определения того, к мужскому или же к женскому роду относится фамилия, однозначно охватывающий все 100 % фамилий. Фамилии, оканчивающиеся на «А», далеко не всегда оказываются женскими. Могут быть и мужские. Например, ДУБРАВА. Мало того, даже одна и та же фамилия, оканчивающаяся на «А», может включить в себя две разных фамилии, одна из которых мужского рода, а другая — женского. Например: ГОЛОВА. Это может быть как ГОЛОВА так и ГОЛОВА. В первом случае это и мужская и женская фамилия и изменять её нельзя. А во втором случае это женская фамилия и её надо превратить в мужскую — ГОЛОВ. Для программной обработки в таких случаях нет признака пола. И создать общий для всех популяций алгоритм, чтобы различить эти фамилии — нельзя.

Если женская фамилия оканчивается на «АЯ», то мужская фамилия равновероятно может оканчиваться на «ИИ», «ОЙ», «ЫЙ». Если в списках присутствует только женская фамилия, то конвертировать её в мужскую без ошибки нет возможности. Гипотетический пример. В популяции встречаются две мужские фамилии ГОРСКИЙ и ГОРСКОЙ. Обе они дают одну женскую фамилию ГОРСКАЯ. Тогда обнаружив в списке женскую фамилию, не зная ударения, нельзя однозначно произвести из нее мужскую фамилию.

Утешает одно — таких случаев немного.

Учитывая это, после просмотра преобразования фамилий нескольких районов из разных областей и поиска ошибок, был принят следующий алгоритм трансформации фамилий в мужские.

1. В большинстве случаев фамилии с окончаниями ОВА, ЕВА, ИНА, ИВА, ЕНА, ЫНА являются женскими и их можно заменить на мужские, отбросив последнюю букву «А».

2. Для других фамилий оканчивающихся на «А» применить следующую методику.

2.1. Отбросить последнюю букву и запомнить трансформированную фамилию.

2.2. По этой трансформированной фамилии организовать её поиск по базе.

2.3. Если нет такой — считать, что фамилии “мужская”.

2.4. Если такая находится, то значит это фамилия “женская” и её надо заменить на найденную мужскую.

3. Для окончаний «АЯ>> искать трансформированные фамилии с окончаниями «ИИ», «ОИ», «ЫИ». При положительном поиске произвести замену женской фамилии на найденную мужскую.

§ 2. Атласы генофондов Европы и Евразии

Атлас генофонда Восточной Европы рассматривается в главе 8 и состоит из пяти разделов: классические маркёры; аутосомные ДНК маркёры; митохондриальная ДНК; соматология; дерматоглифика. Фактически это отдельные атласы, но для целей нашей книги их удобнее рассмотреть все вместе. Перечень всех маркёров Атласа сведен в обобщающей таблице 8.1.1.

РАЗДЕЛ «КЛАССИЧЕСКИЕ МАРКЁРЫ ВОСТОЧНОЙ ЕВРОПЫ»

Карты основаны на информации Банка данных «GENEPOOL» (см. главу 1) о частотах 100 аллелей 30 классических генетических маркёров в популяциях Восточной Европы (в широком смысле, т. е. включая Урал и Северный Кавказ). Как и для карт классических маркёров в русском ареале, число изученных популяций резко варьирует: от 12 до 881 популяций по разным локусам. В сравнении с ранее проводившимся анализом [Балановская, Нурбаев, 1997; Рычков и др., 2002] данные пополнены информацией о популяциях русских и калмыков.

«ПРОСТЫЕ» КАРТЫ. По этим данным построены сто карт отдельных аллелей для ареала народов Восточной Европы.

ОБОБЩЁННЫЕ КАРТЫ включают три типа карт, построенных по 100 картам отдельных аллелей: карты главных компонент, карта гетерозиготности (средняя по 33 локусам) и карты генетических расстояний от средних частот генов в русских популяциях и от средних частот генов в популяциях белорусов.

Карты надёжности построены при уровне строгости 0.3 для каждого из локусов (30 карт надёжности). Общая карта надёжности создана на основе 30 различающихся карт следующим способом. На первом этапе каждая карта надёжности преобразована в балловую: значения менее 0.95 (низкая надёжность) заменены на значение «0»; значения выше 0.95 заменены на «1». Полученная карта принимает только два значения: в узлах с низкой надёжностью ноль, в узлах с высокой надёжностью — единица. Именно эти балловые карты были усреднены. (При усреднении взвешивание по числу аллелей не проводилось, чтобы обеспечить совместимость с аналогичной «среднебалловой» картой надёжности по ДНК маркёрам. Надёжными узлами полученной карты считались узлы со значением выше 0.5 (то есть те узлы, которые являются надёжными более чем для половины изученных локусов). Чтобы привести к обычному виду карты надёжности, значения в каждом узле были увеличены на 0.45, после этого надёжными, очевидно, являются узлы со значениями выше «обычного» порога 0.95. Необходимость такой «среднебалловой» карты (а не обычной средней карты, как например, в атласе классических маркёров для русских популяций) вызвана тем, что низкая надёжность в абсолютном значении является крайне малой, и единственная карта с низкой надёжностью на какой-либо территории дает на усреднённой карте надёжность ниже 0.95, даже если все остальные карты на этой территории высоко надёжны. В дальнейшем анализе при построении обобщённых карт использовались карты отдельных аллелей только в надёжном пространстве «среднебалловой» общей карты надёжности.

РАЗДЕЛ «АУТОСОМНЫЕ ДНК МАРКЁРЫ ВОСТОЧНОЙ ЕВРОПЫ»

Карты основаны на информации Банка данных «GENEPOOL» (см. главу 1). Картографический анализ проводился неоднократно в течение нескольких лет (по данным о четырех, семи и шести локусах), в главе 8 описывается вариант, выполненный по шести наиболее изученным локусам. Из них четыре ДНК маркёра относятся к микросателлитным : CAct685 (14 аллелей), DM (28 аллелей), DRPLA (23 аллеля), SCA1 (19 аллелей); один ДНК маркёр представляет класс минисателлитных маркёров: АроВ (28 аллелей); и один ДНК маркёр инсерционно-делеционного полиморфизма : CCR5del32 (2 аллеля).

«ПРОСТЫЕ» КАРТЫ. Раздел включает 114 карт распространения 114 аллелей 6 аутосомных ДНК маркёров.

ОБОБЩЁННЫЕ КАРТЫ. Раздел включает карты главных компонент, генетических расстояний и средней гетерозиготности.

Карты главных компонент (тренд 11x11) построены по 51 одной карте полиморфных аллелей — использованы карты только тех аллелей, средняя частота которых в Восточной Европе выше 1 %.

Карты генетических расстояний построены по 114 аллелям (включая как 51 условно-полиморфный аллель, так и прочие редкие аллели, поскольку расстояния Нея позволяют совместное использование частых и редких аллелей). Созданы пять карт расстояний: от среднерусских частот, от средних частот в уральской семье, индоевропейской, алтайской и от средних частот в Восточной Европе. Расчёт средних частот, например, по уральской семье, проводился так: брались данные по частотам 114 рассматриваемых аллелей в популяциях уралоязычных народов, локализованных в Восточной Европе; рассчитывались сначала среднеэтнические частоты (по всем популяциям данного народа), и затем уже усреднением среднеэтнических получали средние частоты в популяциях уральской семьи. Средневосточноевропейские значения получены усреднением частот во всех семьях. Такой иерархический расчёт средних частот выполнен в программе MEGERA 2.0. Карты генетических расстояний от каждой семьи строились сначала по каждому локусу отдельно, и затем усреднением шести карт получены итоговые карты. (Карта расстояний от русских основана на пяти локусах, поскольку CAct685 не изучен в русских популяциях). Приводятся трендовые варианты карт (окно 9x9).

Карты гетерозиготности построены для шести локусов (по 114 аллелям), и рассчитана средняя карта гетерозиготности. Приводится трендовая карта (окно 11x11).

Карты надёжности построены при уровне строгости 0.3 для каждого из локусов (6 карт надёжности). Обобщённая (среднебалловая) карта надёжности создана так же, как для восточноевропейского атласа классических маркёров.

РАЗДЕЛ «МИТОХОНДРИАЛЬНАЯ ДНК ВОСТОЧНОЙ ЕВРОПЫ»

Карты основаны на информации Банка данных «World Mitochondrial» по частотам гаплогрупп и гаплотипов мтДНК. Использована информация на 2003 год о 22 восточноевропейских популяциях.

«ПРОСТЫЕ» КАРТЫ. Раздел включает карты распространения в Восточной Европе 16 отдельных гаплогрупп (С, D, Н, HV, I, J, К, R, Т, U2, U3, U4, U5a, U5b, V, W), а также карту «бланка» (суммарной частоты всех прочих редких гаплогрупп).

ОБОБЩЁННЫЕ КАРТЫ. Раздел включает суммарные карты гаплогрупп и карты гаплотипического разнообразия (являющегося для однородительских маркёров аналогом средней гетерозиготности аутосомных маркёров).

Суммарная карта распространения восточно-евразийских гаплогрупп построена по данным о суммарной частоте гаплогрупп А, В, С, D, G, F, Y, Z.

Карты главных компонент построены по 17 картам отдельных гаплогрупп.

Карта общего гаплотипического разнообразия показывает географическое распределение уровня гаплотипического разнообразия, который был рассчитан по данным о частотах отдельных гаплотипов (линий). Приводится трендовая карта (окно 11x11).

РАЗДЕЛ «АНТРОПОЛОГИЯ ВОСТОЧНОЙ ЕВРОПЫ»

Подраздел «СОМАТОЛОГИЯ» описывает изменчивость 22 признаков соматологии в 253 популяциях Восточной Европы.

ОБОБЩЁННЫЕ КАРТЫ. Подраздел включает карты первой и второй канонических переменных изменчивости 22 антропологических признаков в популяциях восточноевропейских народов. В отличие от карт главных компонент в остальных атласах, эти карты строились не по картам отдельных признаков, а по значениям признаков в изученных популяциях. Расчёт значений канонических переменных выполнен В. Е. Дерябиным, и эти данные были затем нами картографированы.

Подраздел «ДЕРМАТОГЛИФИКА». Исходные данные о значениях шести ведущих некоррелированных признаков в 72 популяциях Восточной Европы были предоставлены Н. А. Долиновой.

«ПРОСТЫЕ» КАРТЫ. Были построены шесть карт распространения ведущих признаков дерматоглифики в Восточной Европе.

ОБОБЩЁННЫЕ КАРТЫ представлены картами главных компонент (тренды в окне 15x15). Расчёт главных компонент проведён в двух вариантах — только по «надёжному» ареалу карты, и по всему пространству карты. Надёжный ареал при уровне строгости 0.5 состоит из обширной центральной зоны и нескольких отдельных «анклавов» по периферии Восточной Европы. Поскольку восприятие карты главных компонент в таком разорванном ареале может затруднить читателя, мы приводим карты главных компонент в «полном» ареале, то есть построенные без учета надёжности. Впрочем, изученность дерматоглифики достаточно высокая, и как «надёжные», так и «безнадёжные» карты выявляют одинаковые закономерности в географии главных компонент.

АТЛАС «ГАПЛОГРУППЫ Y ХРОМОСОМЫ В ЕВРОПЕ»

Карты основаны на сводке о частотах гаплогрупп Y хромосомы в населении Европы, составленной А. С. Пшеничновым по литературным данным, и включающей также наши неопубликованные данные по русским, украинским и белорусским популяциям. Для картографирования выбраны восемь гаплогрупп, которые наиболее часты в населении Европы: E3b, J2, Иа, I1b, N2, N3, R1a, R1b.

Поскольку разные источники (оригинальные публикации) использовали разные схемы определения гаплогрупп, и типирование проводилось с разным уровнем филогенетического разрешения (дробности определения гаплогрупп), не для всех популяций было возможно определить частоты каждой из восьми гаплогрупп. В случае, если источник содержал информацию по парагруппе R1 (xRlb), эти частоты учитывались как относящиеся к гаплогруппе R1a. Число изученных популяций максимально для гаплогруппы R1a (К=148) и минимально для гаплогруппы N2 (К=74).

Большинство малочисленных выборок (N<40), имевшихся в сводке данных, не использовались для картографирования или были присоединены к более крупным выборкам. Такое объединение выборок проводилось только для географически близких популяций, принадлежащих к одному народу.

АТЛАС ГЕНОФОНДА ЕВРАЗИИ

(рассмотрен в главах 5, 6, 9 )

Классические маркёры представлены четырьмя картами для генов групп крови АВ0 и резус (глава 5, раздел 5.2). Аутосомные ДНК маркёры представлены картой гена CCR5 (глава 6, раздел 6.1). В обоих случаях использована информация банка данных GENEPOOL. Но главным образом Атлас включает карты по митохондриальной ДНК (глава 9, раздел 9.2).

БАНК ДАННЫХ ПО МИТОХОНДРИАЛЬНОЙ ДНК. Источником исходных данных по мтДНК послужил банк данных World Mitochondrial. (Его последние версии обозначаются также MURKA database). Банк данных объединяет подавляющее большинство опубликованных данных по изменчивости митохондриальной ДНК в популяциях всех регионов мира. Объём банка данных на 2007 год превышает 67 000 изученных образцов мтДНК. Создание банка велось под общим руководством первого автора этой книги: начальные версии составлялись другим автором, затем сбор данных осуществлял А. С. Пшеничное, а нынешняя версия банка данных в значительной мере пополнена В. В. Запорожченко, которым написана также программа автоматического отнесения образцов к гаплогруппам.

Для каждого образца содержится информация по ГВС1, а также (при наличии таких данных в оригинальных статьях) по ГВС2 и по информативным мутациям в кодирующем регионе мтДНК («ПДРФ маркёры»). В банк включены также сведения по изученным популяциям, включая их этническую (народ) и административную принадлежность (страна, провинция) и географические координаты.

ОПРЕДЕЛЕНИЕ ЧАСТОТ ГАПЛОГРУПП. Особенность всех митохондриальных баз данных в том, что информация содержится в формате «образец (из определённой популяции) — его гаплотип», а не в формате «популяция — частота аллеля (гаплогруппы)», обычном для популяционно-генетических баз данных. Соответственно, на первом этапе использования митохондриальной базы данных необходимо для каждого образца указать его гаплогруппу, и только потом можно рассчитать и картографировать частоты гаплогрупп. Однако определение гаплогруппы для огромного массива образцов, изученных разными авторами по различным наборам маркёров с использованием различающихся обозначений одних и тех же гаплогрупп, представляет собой сложную задачу.

Для создания Атласа митохондриальной ДНК Евразии (версия 2007 года) мы использовали следующий алгоритм. Для образцов, по которым имелись удовлетворительные данные о ПДРФ маркёрах кодирующей части мтДНК, гаплогруппы определялись по наличию характеристических мутаций в кодирующей части, то есть наиболее корректным путём. Для образцов, по которым имелись данные только по ГВС1 (или данные по обоим сегментам, и ГВС1, и ГВС2), гаплогруппа определялась по степени сходства данного гаплотипа со всеми гаплотипами, для которых надёжно известна гаплогруппа. В качестве такой референтной базы (обучающей выборки) использовались образцы, секвенированные полностью или подробно охарактеризованные по ПДРФ маркёрам. Например, если гаплотип данного образца по набору мутаций оказывался наиболее сходен с восемнадцатью другими гаплотипами, несомненно относящимся к гаплогруппе U4, то и рассматриваемый гаплотип мы относили к той же гаплогруппе. Такая операция проводилась программным путём (используя возможности MURKA database), при необходимости результаты проверялись и корректировались вручную (экспертная оценка). Такой способ достаточно эффективен и в большинстве случаев точен (как показано для похожего алгоритма [Behar et al., 2007]), но не гарантирует стопроцентное определение гаплогруппы. Действительно, если тестируемый образец сходен с двадцатью гаплотипами, относящимися к одной гаплогруппе, и с сорока гаплотипами другой гаплогруппы, то классифицировать наш гаплотип затруднительно. Во всех подобных случаях гаплогруппа не проставлялась (считалась неизвестной), и популяции, в которых доля таких неизвестных гаплогрупп превышала 1 %, не включались в картографический анализ. Впрочем, для ряда гаплогрупп (тех, для которых общепринято выделение по ГВС1) такого исключения популяций не проводилось, поэтому карты разных гаплогрупп основаны на несколько различающихся наборах популяций.

Такой алгоритм позволил гарантировать высокую надёжность исходных картографируемых данных (частот гаплогрупп) и при этом использовать все имеющиеся данные: как из работ, включавших обязательное определение ПДРФ маркёров, так и данные из многочисленных исследований, в которых проводилось лишь секвенирование ГВС1 (например, публикации лабораторий судебно-медицинской экспертизы). Использованные для картографирования частоты гаплогрупп представлены на сайте www.genofond.ru (к моменту выхода книги представлены частоты 11 основных гаплогрупп в 136 популяциях Западной Евразии).

«ПРОСТЫЕ» КАРТЫ. Были построены 43 карты распространения отдельных гаплогрупп. Можно было построить карты для множества дробных гаплогрупп, но для целей этой книги мы выбрали 43 гаплогруппы, представляющие основное разнообразие митохондриальной ДНК в Евразии.

Перечень картографированных признаков : гаплогруппы А, А4, А5, А* В, С, D, F, Н, J, К, Ml, М3, М7, М7* М7а, М7b, М7Ы, М7b2, М7bЗ, M7b* М7с, Т, Tl, Т2-Т5, Т2, Т* U2, U2* U2a, U2b, U2c, U2e, U4, U5a, U5b, V, W, X, XI, X2, X*,Z.

ОБОБЩЁННЫЕ КАРТЫ. Весь анализ проведён в пределах надёжного пространства, задаваемого картой надёжности (построенной по 278 популяциям при уровне строгости 0.2).

Суммарные карты западноевразийских и восточноевразийских гаплогрупп основаны на картах гаплогрупп H, J, К, Ml, М3, T, Tl, T2-T5, T2, T* U2, U2* U2a, U2b, U2c, U2e, U4, U5a, U5b, V, W, X, XI, X2, X* (западноевразийские гаплогруппы) и A, A4, A5, А*, В, С, D, F, M7, M7* M7a, M7b, M7bl, M7b2, M7b3, M7b*, M7c, Z (восточноевразийские гаплогруппы).

Карты главных компонент изменчивости генофонда построены по картам 20 гаплогрупп А, В, С, D, F, Н, J, К, Ml, М3, М7, Т, U2, U4, U5A, U5B, V, W, X, Z. Набор гаплогрупп сократился только за счет уменьшения их дробности — чтобы гаплогруппы со множеством субгаплогупп (например, многочисленные варианты М7 или U2) не смещали оценки главных компонент.

Карта генетических расстояний суммирует расстояния от средних частот тех же 20 гаплогрупп в русских популяциях.

Наконец, для построения карты гаплотипического разнообразия отдельной гаплогруппы (V) рассчитано разнообразие всех гаплотипов, входящих в гаплогруппу V (дополнение до единицы суммы квадратов частот всех гаплотипов), и полученные значения картографированы. «Карта прародины» получена перемножением карт разнообразия и карты частоты гаплогруппы V.

* * *

Созданные атласы русского генофонда обобщают практически всю информацию об изменчивости русских популяций, накопленную антропологией и генетикой. Восточно-Европейский атлас выявляет взаимодействие русского генофонда с соседями — опять-таки не только по ДНК маркёрам, но и по классическим генетическим маркёрам, а также по антропологическим признакам. А евразийский атлас показывает место русского генофонда в общей системе генофондов Евразии.

Авторы надеются, что эта книга послужит не памятником научным эпохам изучения русского народа по данным антропологии и классическим генным маркёрам, а инструментом при его дальнейшем исследовании в «ДНК-эру». Думается, что ценнейшим преимуществом «ДНК-эры» является её богатое наследство: уникальная возможность объективного сравнения новых результатов с итогами прошлых исследований. Такое сравнение выявляет и новые возможности, и новые промахи молекулярно-генетических исследований, позволяет прокладывать путь не по абрису, а по надёжной геногеографической карте.

 

6. ТАБЛИЦЫ ЧАСТОТ ГЕНОВ

В этом разделе мы приводим те исходные генетические данные, на которых основано наше изучение русского генофонда. Для русских популяций информация приводится полностью — указаны изученные популяции, частоты генов, объем выборки, литературная ссылка на оригинальную публикацию этой информации, административная принадлежность и географические координаты популяций (таблицы 6.1. — 6.4).

Но изучение русского генофонда проведено не изолированно — в книге мы широко пользуемся данными по другим народам Европы и по другим регионам Евразии. Не имея возможности вместить в книгу всю имеющуюся информацию о популяциях человека, мы приводим усредненные данные по крупным регионам мира, а для Северной Евразии — дополнительно и по ее субрегионам. Для каждого гена в каждом регионе указаны две ключевые характеристики — средняя частота и межпопуляционная изменчивость (таблицы 6.5. и 6.6). Эти сведения являются результатом кропотливого труда, выполненного много лет назад, и мы рады возможности, наконец, представить их широкому, кругу читателей.

Почему мы столь подробно приводим информацию для классических маркеров? Накопление данных по классическим маркерам продолжалось во всем мире несколько десятилетий и в основном завершилось. Подавляющее большинство новых работ посвящено теперь иным — ДНК маркерам. Поэтому важно зафиксировать в таблицах итоги изучения классических маркеров — как в русских популяциях, так и во всем мире (таблицы 6.1. — 6.6. Приложения). Что же касается ДНК маркеров, то по ним объем информации растет как лавина, и сегодняшние сводки данных устареют уже через несколько лет. Тем не менее, мы приводим информацию и по ДНК маркерам — в главе 9 помещена таблица 9.2.1. с частотами гаплогрупп митохондриальной ДНК в основных регионах Евразии, глава 6 завершается таблицей 6.4.1. с частотами гаплогрупп Y хромосомы у народов Европы, а в главе 5 содержится таблица 5.1.1. с частотами аллеля CCR5del32 в русских популяциях. Объем табличных данных по русским фамилиям столь огромен, что мы можем привести лишь частоты 250 «общих» фамилий в шести регионах (глава 7, табл. 7.3.4). Таким образом, мы постарались опубликовать наши исходные данные по возможности полностью, насколько это позволяет объём книги. Исключение составляют лишь соматологические и дерматоглифические данные. Публикация этих сводок является прерогативой их составителей — проф. В. Е. Дерябина и к.и.н. Н. А. Долиновой.

Вся приводимая информация по разнообразным генетическим маркерам и по фамилиям является лишь печатной версией — и то очень ограниченной и частичной — созданных нами Банков данных о генофонде народов мира. Именно эти электронные базы данных являются реальной основой нашего исследования. В таблицах этой книги они отражены лишь частично. Поэтому исходную информацию банков данных мы постепенно публикуем на нашем сайте www.genofond.ru.

Таблица 6.1.

Частоты аллелей систем АВ0, MN, Rhesus в русских популяциях.

Продолжение таблицы 6.1.

Продолжение таблицы 6.1.

Продолжение таблицы 6.1.

Продолжение таблицы 6.1.

Таблица 6.2.

Частоты гаплотипов и субвариантов систем ABO, MN, Rhesus в русских популяциях.

Продолжение таблицы 6.2.

Таблица 6.3.

Частоты аллелей системы HLA в русских популяциях.

Продолжение таблицы 6.3.

Таблица 6.4.

Частоты аллелей других классических маркёров. в русских популяциях.

Таблица 6.5.

Средние частоты классических маркеров в регионах мира

Таблица 6.6.

Межпопуляционное разнообразие классических маркеров в регионах мира

Таблица 6.7.

Средние частоты q и межпопуляционное разнообразие классических маркеров в субрегионах Северной Евразии

 

СПИСОК ЛИТЕРАТУРЫ К ТАБЛИЦАМ ПРИЛОЖЕНИЯ

1) Boyd W. С., Boyd L. G. Sexual and racial variations in ability to taste phenilthiocarbamid, with some data on the inheritance // Ann. Eugen. 1937. V. 8. 60 p.

2) Glossman O. Materialen zur Frage der isohamagglutination // Ukrain. Zbl. Blutgruppenforsch. Bd 3, H. 1. 1929. lip.

3) Mourant A. E., Kopec A. C., Domanievska-Sobczak K. The Distribution of the Human Blood Groups and other polimorphisms. London: Oxford Univ. Press. 1976. 1055 P.

4) Post R. N., Neel J. V., Schull W.J. Tabulations of phenotype and gene frequencies for 11 different genetic systems, studied in the American Indians // Biomedical challenges presented by the American Indians. Sci. Publ., N 165. Washington, D. C.: Pan American Health Organization, 1968. 141–185 p.

5) Sistonen P., Mainio E., Lukka М., Sajantila A. Blood groups and other genetic blood markers in the Vologda Russians // Physical anthropology and population

genetics of Vologda Russians / Suomen Anthropologinen seura. The Finnish Anthropological Society. Helsinki: 1993. N 32. 58 p.

6) Tongmao Z., Gliang Z., Dazhang L., Zhijong C., Jinxiang Z. The distribution of human immunoglobulin Gm, Km factors in Han nationality and Uighurs // Acta genet. Sinica. 1983. V. 10. P. 311.

7) Абдиров Ч., Рысназаров H. Распределение групп крови по системе АВ0 и MN у населения Каракалпакской АССР // Тр. суд. мед. экспертов Узбекистана. Ташкент: 1975. Т. 3. С. 142.

8) Акимова 3. И., Шамшина Н. М. Распределение групп крови системы АВ0 и резус среди населения (доноров) Ульяновской области // Науч. практ. конф. врачей. Ульяновск: 1977. С. 103.

9) Алексеев В. П., Беневоленская Ю. Д., Гохман И. И., Давыдова Г. М., Жомова В. К. Антропологические исследования на Лене // СЭ. 1968. N 5. С. 21.

10) Алексеева Т. И., Волков-Дубровин В. П., Павловский О. М., Смирнова Н. С., Спицын В. А., Щекочихина Л.К. Антропологические исследования в Забайкалье в связи с проблемой адаптации у человека (морфология, физиология и популяционная генетика): I. Население Баргузинской котловины в свете исторических и популяционно-генетических данных // Вопр. антропологии. 1970. Вып. 36. С. 3.

11) Амбалов Ю. М., Линник В. Г., Малышева Л. И., Маликова Л. П. Распределение лейкоцитарных антигенов в здоровой популяции коренных жителей Ростовской области (казаков) // Второй Всесоюзный съезд мед. генетиков. Тез. докл. 4–6 декабря 1990 г. Алма-Ата. М.: 1990. С. 3.

12) Анненков Г. А., Котрикадзе Н. Г., Мгебришвилли О. М. Полиморфизм сывороточных гаптогпобинов и трансферринов у людей различных национальностей г. Сухуми // Вопр. антропологии. 1972. Вып. 41. 77 с.

13) Асеева С. М. Группы крови у населения Абхазии // Тр. Тропического ин-та Наркомздрава АССР Абхазии. Тбилиси: 1936. Вып. 2. С. 110.

14) Барашевич Н. К., Моралева А.В., Малышева Г.1А. Группы крови системы АВ0 и резус фактор у населения Ивановской области // Гемолитическая болезнь и желтухи у новорожденных. Иваново: 1973. 50 с.

15) Белкина В. И. Реакция изогемагглютинации у народов Алтая // Тр. III Всесоюзн. съезда зоологов, анатомов и гистологов. Л: 1928. С. 318.

16) Белов А. П. Об установлении типов Нр в жидкой крови человека и о распределении типов Нр среди части жителей Советского Союза // Пробл. гематологии и переливания крови. 1964. Т. 9. N 7. С. 18.

17) Беляев А. И. Кровяные группы у туберкулезных больных // Ukrain. Zbl. Blutgruppenforsch. Bd 1(6), H. 1932. 2(3). С. 53.

18) Беневоленская Ю. Д., Давыдова Г. М. Русское население Псковского обозерья // Полевые исследования Ин-та этнографии АН СССР в 1977 г. М.: 1979. С. 180.

19) Беседин Г. И. К вопросу о групповом (по крови) распределению русских // Рус. антропол. 1927. Т. 16. Вып. 1, 2. С. 28.

20) Брилль Г. Е. Группы крови и гематологические заболевания // Тр. Сарат. мед. ин — та. 1970. Т. 71. С. 57.

21) Бронникова М. А. Судебно-медицинское исследование вещественных доказательств. М.: Медгиз, 1947. 206 с.

22) Бубнов Ю. М. Изучение отбора нормальных признаков человека //1 Всесоюз. конф. по мед. генетике: Тез. докл. М.: 1975. С. 48.

23) Будяков О. С. Определение подгрупп А1 и А2 в жидкой крови фитагглютининами // Вопр. антропологии. 1966. Вып. 22. С. 120.

24) Бунак В. В. Русское население в Забайкалье // Тр. Ин-та этнографии АН СССР. Нов. сер., Антропол. сб. 4. М.: 1963. Т. 82. 195 с.

25) Бунак В. В. Геногеографические зоны Восточной Европы, выделяемые по факторам крови АВ0 // Вопр. антропологии. 1969. Вып. 32. С. 6.

26) Вайнштейн С. Г. Распределение агглютиногенов системы Льюиса в эритроцитах жителей Казани // I Всесоюзн. конф. по мед. генетике: Тез. докл. М.: 1975. С. 50.

27) Веревкина Л. В., Разживина Е. А., Тихомирова Н. В. Группы крови системы АВ0 у больных псориазом и экземой // Генетика человека и патология: Материалы I итоговой конф. НИИ мед. генетики. Томск: 1989. С. 58.

28) Вишневский Б. Н. К вопросу о расовом биохимическом показателе // Врачебное дело. 1925. N 6. С. 484.

29) Вишневский Б. Н. Кровяные группы и антропология // Ukrain. Zbl. Blutgruppenforsch. Bd 1, H. 2. 1927. 3 с.

30) Вишневский Б. Н. К исследованию кровяных групп народностей СССР // Ukrain. Zbl. Blutgruppenforsch. Bd 3, H. 4. 1928. С. 277.

31) Гафаров Н. И., Филимонов С. Н., Горбатовский Я. А. Распределение сывороточных биохимических маркеров крови среди здоровых лиц и при инфаркте

миокарда// Проблемы генетики человека. Новокузнецк: 1991. С. 52.

32) Генофонд и геногеография народонаселения / Под ред. Ю. Г. Рычкова: Том I. Генофонд населения России и сопредельных стран. СПб.: Наука, 2000. 611 с.

33) Горбатовский Я. А., Лузина Ф. А., Филимонов С. Н. Группы крови системы Льюис у больных инфарктом миокарда // Проблемы генетики человека. Новокузнецк: 1991. С.52.

34) Гридчик Л. П. Групповая дифференцировка крови по системе АВ0 у жителей городов Ногинск и Электросталь (Моск. обл.) // Вопр. антропологии. 1970. Вып. 35. С. 139.

35) Грубина А. Распределение кровяных групп среди школьников Кзыл-Орды (Казахстан) // Ukrain. Zbl. Blutgruppenforsch. Bd 4, H. 4. 1929. C.240.

36) Давыдова Г. М. Антропологические исследования среди семейств русского Забайкалья // Тр. Ин-та этнографии АН СССР. Антропол. сб. 4. М.: 1963. Т. 82. С. 196.

37) Давыдова Г. М. Популяционно-генетическое исследование манси // Этногенез финно-угорских народов по данным антропологии. М.: 19746. С.96.

38) Дебец Г. Ф. Антропологические исследования на Петровских озерах // Краткие сообщения о научных работах НИИ и Музея антропологии за 1938–1939 гг. М.: 1941а. С.21.

39) Добротина И. А. Распределение генетического типа гаптогпобина у больных некоторыми дерматозами // Сов. медицина. 1973. N 12. С. 75.

40) Добротина И. А., Казакова И. М., Ежова Г. П. Антигены клеток крови и других тканей человека. Горький: 1990. 67 с.

41) Дьяченко В. Д. Антропологический состав и распределение некоторых наследственных факторов у народов Украины и Молдавской ССР (сравнительно с другими народами мира). 1968.

42) Евнина И. И., Мошлевская Г. П., Шургая А. М., Соколова А. Е., Нагичева Л. Н., Колосова Л. Д., Аверко Н. Н., Светличный Э. А., Сычев B.C. Активность некоторых ферментов пентозно-фосфатного цикла и гликолиза в крови больных врожденными пороками сердца // XVII Всесоюз. съезда терапевтов. М.: 1974. С.230.

43) Ермильченко Г. В., Соловьева Н. П. Изучение частоты дефицита активности Г6ФД в крови у лиц из популяции Архангельской области // Пробл. гематологии и переливания крови. 1973. Т. 18. N 11. С. 23–26.

44) Зайцева Г. А., Драверт Е. Д., Стражникова Г. А., Муравьев А. В., Арибжанов И. М. О некоторых различиях в распределении антигенов у доноров Коми, Марийской АССР и города Кирова // Современные вопросы трасфузиологии: Тез. докл. к науч. — практ. конф. Горький: 1981. С. 33.

45) Зам П. Т., Волынская Т. А. К вопросу об изогемагглютинации у вотяков. 1927…

46) Золотарев Д. А. Кольские лопари // Материалы комиссии экспедиционных исследований АН СССР. Сер. Север. Л: 1928. Вып. 9. С. 100.

47) Золотарева И. М. Распределение групп крови у народов Северной Сибири // Тр. VIIМКАЭН. М.: 1968. Т. 1. С. 31.

48) Ибраимов А. И., Байбурина С. X., Кожухова А. С. Изучение способности ощущать вкус фенилтиокарбамида (РТС-тест) среди населения, проживающего в Киргизии // Генетика. 1977. Т. 13. С. 330.

49) Иванов В. П., Спицын В. А., Романцов О. В. Распространение некоторых полиморфных систем крови в популяции русского населения Курской области // Генетика человека и патология: Материалы 2-й итог. Конф. НИИ мед. генетики. Томск: 1992. С. 88.

50) Иванов В. П., Тостановская А. И., Шмидт С. И. Фенотипические частоты эритроцитарных антигенов систем АВ0, резус, MN, их генофонд и сравнительное изучение среди жителей центрального Казахстана // Генетика. 1977. Т. 13. С. 1463.

51) Иванова P. Л, Каражанова Л. К., Жангелова М. В., Набиев А. Н Распределение антигенов гистосовместимости у больных хроническим диффузным гломерулонефритом (ХДГН) // Второй Всесоюз. съезд мед. генетиков. Алма-Ата 4–6 декабря 1990 г. М.: 1990. С. 163.

52) Икрамова Н. Т., Маркевич Э. М., Шакиханов Р. Р. Распределение резус принадлежности и групп крови в популяции Узбекистана // I Всесоюз. конф. по мед. генетике: Тез. докл. М.: 1975. С. 63.

53) Ирисова О. В. Этногеографическое распределение типов фосфоглюкомутазы (КФ 2.7.5.1): Некоторые данные о полиморфизме PGM1 среди населения Советского Союза// Вопр. антропологии. 1977. Вып. 56. С. 45–56.

54) Исмаилов М. Ф., Курмышкин А. А., Исмаилов Ш. М., Тананов А. Т. Распределение антигенов I класса главного комплекса гистосовместимости среди здоровых жителей Казани // Казан, мед. журн. T.LXXIII. 1992. N 3. С. 161–164.

55) Исмаилова Б. Д., Алексеенко И.Ф., Кудояров Д. К. Типы гаптоглобинов у детей русской и киргизской национальностей севера Киргизии // Здравоохранение Киргизии. 1981. N. 2. С. 24–27.

56) Касенов К. У., Сундетов Ж. С. Иммунологические различия в популяциях человека и их эпидемиологическое значение // Изв. АН Каз. ССР. Сер. биол. 1979. N. 5. С. 68.

57) Касенов К.У., Сундетов Ж. С. Типы гаптоглобина среди населения Западного Казахстана и их взаимосвязь с некоторыми гуморальными факторами резистентности организма // Генетика. 1985. Т. 21. N 2. С. 347–349.

58) Коваленко П. П., Маликова Л. П., Труфанова Т. И., Кутаржинская С. В. Распределение антигенов HLA у жителей Ростовской области // Матер. II междунар. совещ. по тканевому типированию. Л: 1981. С. 141.

59) Ковтюх Л. П. Личное сообщение. 1993.

60) Коненков В. И. Иммуногенетика нарушений функций иммунитета при диффузионных заболеваниях соединительной ткани. 1985. 403 с.

61) Коников А. П. К вопросу о гемоагглютинатинах человеческой крови // Моск. мед. журн. 1925. N 5. С. 9.

62) Кузовлева Ю. А. Материалы по генетике дальтонизма // Антропол. журн. 1937. N 3. С. 70.

63) Кучер А. Н., Пузырев В. П., Дуброва Ю. Е., Лемза С. В., Грахова Е. В. Изменчивость иммунологических и биохимических маркеров генов в сельских пришлых популяциях Томской Области // Генетика. 1992. Т. 28. С. 102.

64) Кучер А. Н., Пузырев В. П., Иванова О. Ф., Сюй Ц.Ц., Ху Ц. Ю., Ду Ж. Ф. Изучение субтипов сывороточных белков у русских жителей Томской области // Генетика. 1993. Т. 29. N 5. С. 845–852.

65) Леухина М. В., Лузина Ф. А., Гафаров Н. И., Лотош Е. А., Талыпина Н. В. Наследственный полиморфизм групп крови и сывороточных белков у коренного населения Горного Алтая // Генетика населения и патология. Материалы I итоговой конф. НИИ мед. генетики. Томск: 1989. С. 76–77.

66) Леухина М. В., Лузина Ф. А., Лотош Е. А Секреция АВН-антигенов в популяциях русского населения Горного Алтая // Пробл. генетики человека. Новокузнецк: 1991. С. 63–64.

67) Либман Е. Г. Распределение групп крови среди великоруссов // Тр. III Всесоюз. съезда зоологов, анатомов и гистологов. Л.: 1929. С. 337.

68) Лопатенок А. А., Будяков О. С. Распределение антигенов в крови изосерологических систем АВ0, резус (Rh), Р, Kell, Gm среди некоторых национальностей Советского Союза// Науч. конф. суд. медиков: Тез. Докл. Л.: 1973. С. 96.

69) Лысенко А. Я., Идельсон Л. И., Воронов А. А., Абрашкин-Жучков Р. Т., Алексеева М. И., Бахрамов С. М., Махмудова Н.А., Науймин Н. М., Петраков А. А., Султанова Г. Ф., Маньков А. Н., Федулова Г. А., Кардаш В. С., Аксянова Г. А. Распространение наследственного дефицита гпюкозо-6-фосфатдегидрогеназы среди населения СССР //1 Всесоюз. конф. по мед. генетике: Тез. докл. М.: 1975. С. 23

70) Мелких А. А., Гриншг Ц. Л. Кровяные группы у русских и евреев // Иркут, мед. журн. 1926. Т. 4. N 5–6. С. 5..

71) Мизуров Н. А. К характеристике групповой и резус-принадлежности крови у чувашей // Казан, мед. журн. 1977. Т. 58. N 1. С. 76–77.

72) Мякоткин В. А. Генетическая структура изолированной популяции // Медико-генетическое исследование ревматизма в Тофаларии. Иркутск: 1978. 19 с.

73) Нерсисян В. М., Мартиросян И. Г., Мусаелян Н. О. Установление частоты встречаемости антигенов системы HLA у населения Еревана // Тез. докл. Всесоюз. конф. «Функциональная морфология». Новосибирск: 19846. С. 194.

74) Нерсисян В. М., Мусаелян Н. О., Мартиросян И. Г. Антигенный состав сывороточных белков системы Inv в норме и при гематологических заболеваниях в популяции армян // Гематология и трансфузиология. 1992. Т. 37. N 2. С. 24–26.

75) Орановская Е. Г., Широкова С. Ф. Об испытаниях цветоощущения у железнодорожников — дальтоников цветными сигналами // Здравоохранение на Юго-Восточной железной дороге. Сб. 1. Воронеж: 1936. С. 147.

76) Парин Б. В. Кровяные группы у зырян // Журн. эксперим. биологии и медицины. 1927. Т. 8. С. 532.

77) Парин Б. В. Кровяные группы у пермяков (коми) // Ukrain. Zbl. Blutgruppenforsch. Bd. 3, H. 3. 1928. С. 223.

78) Перевозчиков И. В. Антропология старожилов Камчатки // Проблемы эволюционной морфологии человека и его рас. М.: Наука, 1986. С. 159–165.

79) Петров Г. И. Распределение групп крови у финских народов СССР // Тр. III Всесоюз. съезда зоологов, анатомов и гистологов. Л.: 1928. С. 343.

80) Простакишина В. И., Платонова М. А. Распределение групп крови и резус-фактора у населения Бурятской АССР // Матер. III респ. конф. практич. врачей Бурятии. Улан-Удэ: 1975. С. 139.

81) Рабинович П. Д., Домбрачева Н. И. Некоторые особенности фукогликопротеидов у бурят // Генетика. 1982. Т. 28. С. 668.

82) Рафалович М. В., Бессонова Г. А., Зильберт Н. И., Ледуховская Л. Г., Мазурова А. М., Миниева М. Н., Молоткова Л. С., Тарала Г. Г. Распределение групп крови по системе АВ0 среди населения Карачаево-Черкесской авт. обл. и их корреляция с частотой ишемической болезни сердца // Пробл. гематологии и переливания крови. 1982. Т. 27. N 2. С. 21.

83) Ревазов А. А., Козаченко Б. Н., Тарлычева Л. В., Филиппов И. К. К популяционной генетике населения европейского Севера РСФСР: III. Демографические и генетические характеристики двух сельских советов Пинежского района Архангельской обл // Генетика. 1979. Т. 15. N 5. С. 917–926.

84) Ревазов А. А., Пасеков В. П., Лукашева И. Д. К популяционной генетике населения европейского Севера СССР: II. Данные по распределению некоторых групп крови и антропогенетических признаков в шести деревнях Архангельской области // Генетика. 1975. Т. И. N 7. С. 156..

85) Рогинский Я. Я. Закономерности пространственного распределения групп крови у человека // Тр. Ин-та этнографии АН СССР. Нов. сер. М.: 1947. Т. 1. С. 33.

86) Рубашкин В. Я. Кровяные группы в СССР // Ukrain. Zbl. Blutgruppenforsch. Bd. 1, H. 1. 1927. С. 66..

87) Рычков С. Ю. Распределение частот генов групп крови систем АВ0 и Rhesus по территории Ростовской области: курсовая работа // Ростовский гос. ун-т. Биол. — почв. факультет. Ростов: 1992. С. 15.

88) Саливон И. И., Тегако Л. И., Микулич А. И. Очерки антропологии Беларусии. Минск: 1976. 272 с.

89) Салиев К. К., Сеттарова Д. А., Чуканин Н. Н. Распространение недостаточности глюкозо-б-фосфатдегидрогеназы эритроцитов среди населения Ферганской долины // Пробл. гематологии и переливания крови. 1977. Т. 22. N 8. С. 59.

90) Сахаров С. Взаимосвязь групп крови с нормальной и па тологической конституцией // Днепропетр. мед. журн. 1930. N 7-12. С. 427.

91) Соловенчук Л. Л. Биохимические полиморфные системы в популяциях пришлых жителей Северо-Востока СССР: I. Генетическая структура и ее гетерогенность, обусловленная половым диморфизмом и длительностью проживания этих групп в экстремальных условиях среды // Генетика. 1983. Т. 19. N8. С. 1327–1334.

92) Соловенчук Л. Л., Переверзева В. В., Невретдинова 3. Г. Особенности распределения HLA-антигенов и гаплотипов у пришлых жителей Магадана // Генетика.

93) Спиренкова А. Е., Попов Е. А., Далечин Н. Б., Нелюбин О. В., Левитан Б. Н., Прошина П. П Сравнительная характеристика антигенных профилей системы HLA локусов А и В у различных национальных групп, проживающих на территории Астраханской области // Деп. в ВИНИТИ 09.07.90. N.3778-В90. 1990.

94) Спицын В. А. Антропологические аспекты изучения генетико-биохимического полиморфизма // Дис…. д-ра биол. наук. М.: 1984. 344 с.

95) Спицын В. А., Афанасьева И. С., Агапова R К., Цурикова Г. В., Щекотихина Ю. А., Краузе Д., Куххайзер В. Изучение генетических маркеров у русских и немцев в рамках совместного Российско-Германского исследовательского проекта // Генетика. 1994. Т. 30. N 5. С. 702–708.

96) Спицын В. А., Афанасьева И. С., Боева С. Б., Ирисова О. В., Цудик А. 3. К популяционной генетике С5-варианта псевдохолинэстеразы сыворотки крови // Вопр. антропологии. 1978. Вып. 59. С. 58–63.

97) Спицын В. А., Мухина Н. Н. Распределение типов гаптоглобина у русского населения Мезенского района Архангельской области // Вопр. антропологии. 1975. Вып. 50. С. 179.

98) Спицын В. А., Куххойзер В., Макаров С. В., Бычковская Л. С., Пай Г. В., Балановский О. П., Афанасьева И. С. Генофонд русского народа. Частоты генетических маркеров // Генетика. 2001. Т. 37. N 3. С. 386–401.

99) Старовойтова Р. А. Сывороточные (Нр, Gc, Gm, Tf) и эритроцитарные (АВ0, MN, Rh, Р) системы крови населения среднего Поднепровья УССР (к вопросу о современных генетических связях украинского народа). Автореф. дис…. канд. ист. наук. М.: 1974. 24 с.

100) Старовойтова Р. А. Этническая геногеография Украинской ССР. Киев.: Наукова думка, 1979. 142 с.

101) Сухова А. В. Особенности обонятельной и вкусовой чувствительности у русских школьников Архангельской области // Вопр. антропологии. 1991. Вып. 85.

102) Тегако Л. И., Саливон И. И., Микулич А. И. Биологическое и социальное в формировании антропологических особенностей. Минск.: Наука и техника, 1981. 288 с.

103) Тельнов В. И. Оценка распределения генотипов гаптоглобина у людей, подвергшихся хроническому профессиональному облучению в значительных дозах // Генетика.

104) Тимошенко Л. П., Лавровская Л. Н. Распределение эритроцитарных антигенов и белковых факторов крови среди населения некоторых геногеографических зон Украинской ССР // Цитология и генетика. 1978. Т. 12. N 6. С. 535–540.

105) Тихонов В. П. Содержание и типы гаптоглобина сыворотки крови у больных ревматизмом // Терапевт, арх. 1970. Т. 42. N 4.

106) Торгомян Т. Л. Распределение групп крови среди населения Армянской республики // Сб. науч. трудов НИИ гематологии и переливания крови им. проф. Еоляна. Ереван: 1961. Т. 9. С. 133–137.

107) Трофимова Т. А., Чебоксаров Н. Н. Североукраинская экспедиция Музея антропологии // Краткие сообщения о научных работах НИИ и Музея антропологии за 38–39 гг. М.: 1941. С. 67..

108) Туманов А. К., Томилин В. В. Наследственный полиморфизм изоантигенов и ферментов крови в норме и при патологии человека. М.: 1969.435 с.

109) Фарузджева К. Я., Багдасарова Т. А., Талыбова Л. М. Носительство дефекта активности глюкозо-б-фосфатдегидрогеназы среди детей (по материалам обследования в г. Баку) //1 Всесоюз. съезд гематологов и трансфузиологов: Тез. докл. М.: 1979. С. 230–231.

110) Фишман Р. М. Изогемагтлютинация и конституция среди рабочих завода им. Петровского // Днепропетр. мед. журн. 1929. N 7-12. С. 336.

111) Фридман Л. М. Кровяные группы у грузинских детей и связь с другими наследственными факторами // Ukrain. Zbl. Blutgruppenforsch. Bd. 4, H. 4. 1929. С. 279.

112) Чурикова А. С. Распределение антигенов системы АВ0, MN, резус, Р и Льюис среди населения г. Андижана // Вопросы инфекционной и неинфекционной патологии. Ташкент: 1975. С. 388.

113) Чурикова А. С., Дымшиц Е. Л., Мухатдинова Т.К. Распределние антигенов системы АВ0, MN, резус и Р среди населения Андижанской области // Тр. суд-мед. экспертов Узбекистана. 1978. Т. 5. 96 с.

114) Шилин Я. В. К вопросу о распространении цветоощущения и методах его определения // Рус. офтальмол. журн. 1929. Т. 9. N 1.

115) Шнейдер Ю. В., Тихомирова Е. В., Шильникова И.Н. Материалы по изучению генофонда народов России и сопредельных стран. Русское население Тверской области // Генетика. 1994. Т. 30. N 3. С. 419–427.

116) Шнейдер Ю. В., Тихомирова Е. В., Шильникова И.Н. Материалы по изучению генофонда народов России и сопредельных стран. Русское население Вологодской области // Генетика. 1994. Т. 30. N. 4. С. 549–554.

117) Щерба М. М., Ткачук В. Н., Турин Е. И., Цыкин Д. Б. Распределение типов Нр у жителей Ленинграда // XII Междунар. конгр. по переливанию крови: Тез. докл. М.: 1969. 93 с.

118) Ярхо А. И. Алтае-Саянские тюрки // Антропологический очерк. Абакан: 1947. 148 с.