В предисловии к своей новой книге «Кому мешает ДНК-генеалогия», которая вскоре выйдет в свет, профессор А.А. Клёсов, пишет, что её жанр оказался необычным. Это и учебник ДНК-генеалогии, и серия иллюстраций о достижениях ДНК-генеалогии, о ее открытиях и находках за последние годы, и срывание масок с лжецов и провокаторов, которым ДНК-генеалогия откровенно мешает. А в чем мешает – будет рассказано и показано. Пока же продолжаем вопросы и ответы по ДНК-генеалогии, которые занимают немалую часть новой книги. По ссылкам первая часть и вторая часть…
Как современные гаплотипы могут указывать, когда и в какую сторону шли миграции тысячелетия назад?
Когда шли миграции (или пребывание данной популяции на рассматриваемой территории) – рассчитывается по временному расстоянию до общего предка популяции на данной территории, причем такие расчеты проводятся для той же гаплогруппы или субклада на разных территориях. Другими словами, проводится картирование территорий на максимально возможных расстояниях, по всему континенту или на нескольких континентах. Если вдоль пути миграции, то есть шлейфа миграций, идет систематическое уменьшение времен до общего предка, то миграция шла в сторону уменьшения времени. Пример – сопоставление серий гаплотипов гаплогруппы R1b в Средней Азии и в Европе показало, что общий их предок жил 16 тысяч лет назад. Но в Европе общий предок гаплотипов гаплогруппы R1b жил 4800 лет назад (на Пиренейском полуострове) и 4500 лет назад (в центральной Европе). Следовательно, миграции эрбинов, носителей гаплогруппы R1b, шли со стороны Средней Азии на запад, в сторону Европы.
Последующие исследования показали, что гаплогруппа R1b в районе Урала и на Русской равнине имела общих предков как минимум 7000 лет назад, на Кавказе – 6000 лет назад, в Месопотамии и на Ближнем Востоке – 5500 лет назад, на Пиренеях – 4800 лет назад. В ходе этого исследования направления миграций и их времена стали более понятны. Датировки ископаемых гаплотипов позволили подтвердить выводы, полученные при изучении современных гаплотипов – на территории ямной культуры (в Самарской области) были найдены костные останки носителей гаплогруппы R1b с археологическими датировками 5300 лет назад, а в Южной Сибири – костные останки носителя гаплогруппы R с датировкой 24 тысячи лет назад. В Европе (в Германии) были найдены ископаемые гаплотипы на территории культуры колокололовидных кубков, принадлежащие гаплогруппе R1b с датировкой 4500-4100 лет назад. Интересен и их состав по субкладам – M269, P310/L151, L51, P312, U152. Первый – обычный далекий родительский субклад из Сибири или ближнего Зауралья, два следующих – ближневосточные (образовались примерно 6200 и 5700 лет назад), P312 – ранний иберийский субклад, начальные колоколовидные кубки, U152 – его потомок (время образования примерно 4500 лет назад). Как видим, времена и направления миграции эрбинов, полученные поначалу с использованием гаплотипов современников, подтвердились на ДНК ископаемых костных останков.
Еще пример – датировки (по мутациям в гаплотипах) гаплогруппы R1a-Z93 уменьшаются от 5500 лет назад в Европе до 4050 лет назад в Индии (для субклада R1a-Z93-L657, которого в Европе еще не было), то есть по ходу миграционного маршрута появляются и новые, нисходящие снипы. И таких примеров можно приводить множество.
Оперирует ли ДНК-генеалогия понятием «раса»?
Понятия «раса» в ДНК-генеалогии нет. ДНК-генеалогические линии поднимаются из глубин тысячелетий, десятков тысяч лет, сотен тысяч лет, а расовые признаки отдельных людей могут кардинально меняться за несколько поколений. Дело в том, что расовые признаки являются продуктом отца и матери, и если родители принадлежат разным расам, признаки расплываются, и через несколько поколений могут измениться до неузнаваемости. Вот пример – как женитьба на русских женщинах всего в трех поколениях сделала из сибирских монголоидов (хакасов) внучек-европеоидов.
Еще пример – раскопки алтайской пазырыкской культуры позволили выснить, как скифы гаплогруппы R1a стали монголоидными всего за несколько поколений. Причина обратная той, что на фотографиях выше. Раскопки показали, что у этих скифов типичные монголоидные митохондриальные ДНК, то есть они женились на местных монголоидных женщинах, и через несколько поколений дети становились монголоидами, при наличии унаследованной по мужской линии гаплогруппы R1a. Иначе говоря, мужские гаплогруппы не определяют расу, и напротив, раса не определяет гаплогруппу. В этой ситуации понятие расы в ДНК-генеалогии ничего не дает.
Что могло вызывать массовые миграции в древности?
В самом общем виде ответ такой – поиски лучшей доли. Конкретные причины могли быть самыми разнообразными – это и передвижения за уходящим зверем, который давал пищу и одежду, и уход от превосходящих сил неприятеля, но самый мощный, видимо, фактор был резкое ухудшение климатических условий – суровые зимы, наводнения, засухи, надвигающиеся оледенения. В середине III тыс. до н.э., в результате заселения Европы эрбинами, носителями гаплогруппы R1b, разрушилась Старая Европа, погибли процветающие тысячелетиями балканские культуры, и в Европе древние гаплогруппы либо погибли, либо бежали на периферии континента. Это – гаплогруппы G2a, I2a, E1b-V13, R1a. Гаплогруппа R1a передвинулась на восток, на Русскую равнину, но только малым составом. Об этом говорит то, что в Европе древних гаплогрупп R1a практически не осталось, за исключением малых долей процента, а в Восточной Европе гаплогруппа R1a практически обнулилась, то есть прошла бутылочное горлышко популяции, и общий предок практически всех носителей R1a жил примерно 4600-4900 лет назад (по разным выборкам).
Произошли ли люди от обезьян?
Произошли, но не от тех обезьян, которых мы видим в зоопарке. Те, что в зоопарке, или резвятся на полянах в Африке или в Азии, или ходят по краю крыши домов в Индии – это продукты эволюционного развития от общих предков их и человека миллионы лет назад. Например, общий предок шимпанзе и человека жил более 4 миллионов лет назад, и тот, что сейчас в зоопарке – прошел свой эволюционный путь, видимо – не самый удачный. Мы, современные люди, произошли от того же общего предка, несколько более удачным образом, правда, не все. И не только с шимпанзе у нас был общий предок. Был общий предок и с гориллой, и с орангутангом, и с макакой. Вот как совпадают их нуклеотидные последовательности в ДНК.
На рисунке – сопоставление нуклеотидных последовательностей фрагмента Y-хромосомы для современных человека, шимпанзе, гориллы, орангутанга и макаки. Как видно, из 97 нуклеотидов показанной последовательности Y-хромосомы у современного человека и шимпанзе не совпадают только четыре, то есть совпадение наблюдается в 96% нуклеотидов. Совпадение с гориллой – в 93% нуклеотидов. Случайных совпадений до такой степени быть не может, мы – родственники, правда, весьма отдаленные.
Многие, даже в научной литературе, педалируют тот факт, что мы не можем найти «пропущенные звенья» эволюции, и что это якобы ставит под сомнение теорию эволюции. Да, найти их было бы интересно, но приведенные выше данные по геному делают эти «пропущенные звенья» не такими уже и обязательными. Ясно, что они где-то лежат глубоко в земле, но всю землю пока не перекопали, и перекопают не скоро. Тем не менее, новые находки не прекращаются, и каждый раз непредсказуемые. Появятся и пропущенные звенья.
Коррелирует ли Y-хромосома с общим геномом?
Когда как. Часто коррелирует, иногда нет. Описано немало случаев, когда у двух родных братьев определяли гаплотипы Y-хромосомы, и они были, разумеется, одинаковы или практически одинаковы, а данные по аутосоме (то есть по рекомбинируемым хромосомам генома) заметно различались. И братья далеко не всегда были похожи друг на друга. Порой напротив, геномные данные были близки, а гаплотипы отличались друг от друга на тысячи лет (при переводе мутаций в хронологические показатели). Осложняет картину и то, что геномные данные разные исследователи представляют по-разному. И действительно, секвенирование геномов дает списки из десятков, сотен тысяч или миллионы снипов, и существует множество способов, как эти списки наглядно или не очень наглядно представлять. Каждый раз – это по сути поиск вариантов приближения или упрощения общей картины, подгонка приближения к ответу на заданный вопрос.
Есть ли «русская ДНК» или «русский геном»?
Говоря об отдельных людях – нет. Если говорить о большой группе этнических русских – в целом есть. И понятно, почему есть. Свои обычно, статистически, женятся на своих, как и выходят замуж. Вряд ли в русских деревнях встречали много чернокожих, монголов, австралийских аборигенов или американских индейцев. Поэтому в целом одни и те же огромные наборы снип-мутаций крутятся в популяции веками, вносимых мужчинами и женщинами этой популяции. Если построить карту мира, состоящую из таких популяций, то африканские будут совершенно отличны от монгольских, китайских, латиноамериканских или европейских. Здесь я пишу «европейских» более осторожно, потому что разойдутся ли они по разным «цветам», или останутся однородными по всей Европе зависит от того, как представлять данные, на каком уровне обработки и приближения. Нередко бывает, что, например, русских от французов не отличить, но если перейти на другой уровень обработки данных, то различаются.
Каковы перспективы геномного анализа популяций и их истории?
В целом перспективы у популяционного анализа геномных данных – но это все равно пока не ДНК-генеалогия – огромные, но пока мы находится в самом начале этого пути, идя методом проб и ошибок. Примитивизм обработки данных и получаемых выводов порой просто шокирует, хотя сами исходные данные определенно замечательны. Срезание углов и шапкозакидательство в науке никогда не помогали. К сожалению, у популяционных генетиков не принято при анализе генома давать погрешности расчетов, приводить альтернативные варианты интерпретаций данных и воздерживаться от мнений, которые в избытке вбрасываются в статьи. В итоге достоверность полученных интерпретаций часто не просто нулевая, а имеет отрицательную величину. Целый ряд рассмотрений подобных статей с «геномным анализом» приведен в моей авторской колонке на Переформате.
Например, недавно по миру прошла широковещательная информация, что геномные данные показали, что носители гаплогруппы R1b из ямной археологической культы (нынешняя Самарская область) принесли в Европу индоевропейские языки. Там что ни слово, то недоразумение. Во-первых, авторы не получили никаких данных, что носители ямной культуры (примерно 5300 лет назад), гаплогруппа R1b, говорили на индоевропейских языках, это было просто придумано. Да и как могли получить? Выкопаннные кости они и есть кости, они не говорят. Всё, что определили, это то, что ДНК в них относилась к гаплогруппе R1b. Далее, то, что носители той ДНК/R1b пришли из ямной культуры в Европу (и принесли ИЕ языки), было провозглашено только на том основании, что в Европе много гаплогруппы R1b. Иначе говоря, авторы просто провели прямую линию между ямной культурой и Европой. Они даже не посмотрели на то, что они нашли не просто R1b, а ее субклад R1b-Z2103/Z2105, которого в Европе почти нет. Миграционный путь субклада Z2103/Z215 был не в Европу, а на юг, в Месопотамию и на Ближний Восток, где этого субклада множество, причем с той же датировкой 5000-6000 лет назад. Но в Месопотамии сейчас нет индоевропейских языков, как нет нигде на миграционном пути гаплогруппы R1b из Южной Сибири в Европу, с основным входом через Пиренейский полуостров, где у басков имеется около 90% гаплогруппы R1b, и язык опять неиндоевропейский. Это, к сожалению, типичный пример, как популяционные генетики используют геномный анализ для «изучения истории».
Насколько точны (или неточны) расчеты в ДНК-генеалогии?
Все расчеты в ДНК-генеалогии производятся с погрешностями. Точные цифры получены быть не могут в принципе. Дело в том, что мутации неупорядоченные, поэтому мы имеем дело со статистикой. Чем больше выборка, тем точнее расчеты. Чем длиннее гаплотипы — тем точнее расчеты. Погрешность зависит от числа гаплотипов в выборке, от протяженности гаплотипов, от того, насколько точно определена и выверена, откалибрована константа скорости мутации, от того, насколько древний общий предок. Особенно неточно сравнивать мутации в парах гаплотипов, особенно гаплотипов коротких. На двух гаплотипах мутация-другая могла добавиться буквально в предыдущем или нынешнем поколении. Это может сразу привести к прибавлению-отнятию тысячи лет «в одном поколении». А в большой выборке разница относительно нивелируется статистикой. Есть выборки в тысячи гаплотипов — там расчеты, конечно, точнее. В ДНК-генеалогии часто важна не абсолютная точность, а концептуальный вывод.
Например, если некто утверждает, что носители гаплогруппы R1b (которые сейчас составляют примерно 60% мужского населения Западной и Центральной Европы), жили там, в Европе, еще 30 тыс. лет назад (а такими утверждениями популяционных генетиков, без расчетов, была заполнена академическая литература по данным вопросам до недавнего времени), а расчеты ДНК-генеалогии показали 4800 лет назад, то здесь дело не в точности, а в принципиальном выводе. То же самое по ДНК-генеалогии Кавказа — если данные показывают, что Кавказ заселялся носителями гаплогруппы J2 из Месопотамии примерно 7-6 тыс. лет назад, причем заселялся разными племенами и по разным территориям, и уже известно какими именно, и в какое время, то это дает важные данные историкам и археологам, которые продолжают горячо спорить по данным вопросам. То же самое по ДНК-генеалогии Прибалтики — данные показывают, что Прибалтика со стороны Финляндии и со стороны Южной Балтики заселялась всего 2000-2500 лет назад (со стороны Южной Балтики примерно на 500 лет раньше), но сами мигранты, которые на исходе миграции разделились на две большие ветви — северная и южная — имеют общего предка примерно 3575 лет назад, который, видимо, жил на Урале.
В какой степени гаплотипы определяются территориями и регионами?
Гаплотипы в немалой степени (но не всегда) связаны с определёнными территориями. Причина в том, что в древности большинство людей передвигались племенами, родами. Род, по определению, это группа людей, связанных родством, то есть происходят (по мужской линии) от одного общего предка. То есть гаплотипы у них обычно одинаковые или близкие. Проходили тысячелетия, численность родов порой сокращалась до минимума («бутылочное горлышко» популяции), и если выживший имел некоторую мутацию в гаплотипе, то его потомки уже «стартовали» с этой новой мутацией, копируя ее поколениями в своих ДНК, а мужчины — в своей Y-хромосоме. В популяционной генетике это называется «эффект основателя», что, в общем, особой дополнительной смысловой нагрузки не несет, это просто калька с английского языка, в котором это тоже не несет определенной информации. Некоторые люди покидали род по своей или чужой воле — плен, бегство, путешествия, военные походы, и выжившие начинали новый род на новом месте. В итоге карта мира с точки зрения ДНК-генеалогии получилась пятнистой, и каждое пятно порой имеет свой превалирующий гаплотип — гаплотип рода. Часто он и есть гаплотип предка, начавшего род на данной территории.
Получается, людей можно классифицировать по виду гаплотипов и снипов?
Да, это именно так. Например, носители гаплогрупп А и В сейчас в основном живут в Африке (но где эти гаплогруппы появились, пока непонятно, похоже, что не в Африке); гаплогруппа С встречается особенно часто среди монголоидов и жителей Австралии и Океании, хотя жители Австралии и Океании далеко не монголоиды (что показывает, в совокупности с другими данными, что первые носители гаплогруппы С были не монголоидны), подгруппы (субклады) далеко отклонились друг от друга в ходе развития или эволюции; гаплогруппу G находят в древней Европе (в основном ископаемые гаплотипы), на Кавказе, в Передней Азии, в Афганистане; гаплогруппа J — образовалась или в древнейшие времене перешла на Ближний Восток, и оттуда многие носители гаплогруппы J и ее субкладов J1 и J2 перешли Кавказ не позднее 6-7 тысяч лет назад; представителей гаплогруппы J1 довольно много на Кавказе, а также среди арабов и евреев на Ближнем Востоке, гаплогруппы J2 много на Кавказе, в Месопотамии и среди жителей Средиземноморья; гаплогруппа L появилась, похоже, в Передней Азии или на Ближнем Востоке, и разошлась в разные стороны — ее подгруппа (субклад) L1a — в Индии, L1b — в Грузии, L1c — в Афганистане, в северном Пакистане, на восточном Кавказе.
Гаплогруппу N имеют многие жители Китая, Сибири, севера России, Прибалтики и части Скандинавии, куда и прибыли носители гаплогруппы N с востока — Урала и до того Южной Сибири тысячелетия назад. Гаплогруппа I — возможно, имеет историю на Русской равнине продолжительностью не менее 40-45 тысяч лет, и после почти полного вымирания или истребления примерно 4500 лет назад сейчас почти исключительно находится в Европе, где возродилась относительно недавно, 3700-2300 лет назад (для I1 и части I2, соответственно).
Гаплогруппы R1a и R1b появились в Южной Сибири после долгой миграции их предков, носителей гаплогруппы К, из которой образовалась гаплогруппа Р и затем Q и R, возможно, из Европы или с Русской равнины на восток, далеко за Урал. Оттуда гаплогруппы R1a и R1b пришли в Европу, причем разными миграционными путями. R1a стала основной гаплогруппой Восточной Европы, R1b — западной и центральной Европы.
Данное положение сводится к тому, что у каждого мужчины есть снип из определённого набора, по которому можно отнести носителя к определённому древнему роду. Времена появления снипов, обычно применяемых в ДНК-генеалогии, относятся к диапазону от 25-40 тысяч лет для «старых» снипов до 10-15 тысяч лет для «молодых», но сейчас уже выявляют снипы, образовавшиеся всего 600-1000-1500 лет назад. Четверть всего ирландского мужского населения имеют снип (R1b-M222), который образовался примерно 4300 лет назад, но прошел бутылочное горлышко популяции в начале нашей эры, и общий предок этой четверти населения жил всего 1800 лет назад. В континентальной Европе снипа М222 практически нет.
Сколько всего имеется основных родов, или гаплогрупп человечества?
Гаплогруппы не просто соответствуют своим родам, но образуют определённую последовательность, лестницу гаплогрупп, показывающих их иерархию — последовательный, ступенчатый переход от точки расхождения африканских и неафриканских популяций (примерно 160 тыс. лет назад) до самой недавней гаплогруппы R, образовавшейся примерно 30 тыс. лет назад. Эта лестница называется филогенетическим деревом гаплогрупп и их снипов. Все гаплогруппы и субклады на дереве должны включать снипы «вышестоящих» гаплогрупп и субкладов. То есть принцип «лесенки» должен выполняться. Преемственность узловых родов человечества должна соблюдаться.
Всего в мире насчитывают 20 основных гаплогрупп, которые обозначают буквами латинского алфавита, от А до Т, хотя систему порой нарушают. В последнее время в классификацию добавили гаплогруппы A0 и A00, хотя их носителей обнаружили в количестве считанных единиц, все они живут в Африке. Но они настолько отстоят по снип-мутациям от всех остальных людей на Земле (тестированных на мутации в ДНК), что их пришлось выделить в отдельный род-гаплогруппу. Помимо этого, были идентифицированы промежуточные, сводные гаплогруппы, такие, как СТ, DE, GHIJK и другие, так что минимальный состав генеалогического дерева мужской половины человечества включает уже 39 основных гаплогрупп, то есть главных уровней Y-хромосомной генеалогической структуры. С подгруппами это составляет уже много сотен.
Если же считать все уровни генеалогического дерева (уровень в этом случае – это субклад), то гаплогруппа R1a, основная гаплогруппа (род) этнических русских, уже насчитывает 66 субкладов, гаплогруппа R1b – 443 субклада, и это при том, что на диаграмме ниже они обе входят в сводную гаплогруппу R, которой примерно 30 тысяч лет со времени образования. Образовалась гаплогруппа R при появлении необратимой мутации в виде спонтанного превращения одного нуклеотида в другой в ДНК (Y-хромосоме) патриарха, или его выжившего потомка, в свою очередь, потомки которого дожили до настоящего времени в количестве более миллиарда человек. Если точнее, то у него, патриарха гаплогруппы R, по сравнению с ДНК его отца (относящегося к гаплогруппе Р) произошло спонтанное превращение аденина в гуанин, и это произошло в участке Y-хромосомы под номером 15 миллионов 581 тысяч 983. Всего же в Y-хромосоме мужчин насчитывается, как сообщалось выше, примерно 58 миллионов нуклеотидов.
Можно ли рассчитать, когда жил общий предок всех сегодняшних людей на Земле?
Можно, с определенной степенью допущений. Первое и самое главное допущение – что общий предок сегодняшних людей на Земле на самом деле существовал. Естественно, речь не идет о том, что на Земле когда-то жил один мужчина, и с ним рядом была одна женщина, как повествует библейская притча. Такого никогда не было. Во все времена было множество мужчин и множество женщин, а до них было множество самцов и самок, предшественников тех самых мужчин и женщин, и переход одних в других занял миллионы лет, и никто не может дать четких определений, в чем выражался этот переход, это все вопросы определений, которых, в общем-то, нет. Да, наверное, никого это отсутствие четких определений особенно и не беспокоит.
Чисто концептуально, «общий предок» всех людей на сегодняшней планете – это тот, потомство которого выжило, в отличие от множества его современников, и продолжилось в потомках до настоящего времени. Помимо этого – это был тот человек, у которого было как минимум два сына, потомство которых выжило до настоящего времени. Как следствие первых двух условий, все потомки унаследовали снип-мутации своего «первопредка», и добавили снип-мутации в последующем. Поэтому есть еще одно условие, точнее, следствие – мутации в гаплотипах потомков при экстраполяции в прошлое сходятся к «первопредку». Таким образом, можно определить его гаплотип, независимо от того, как давно он жил.
Но в реальности картина более сложная – ДНК-линия от первопредка к сегодняшним потомкам часто выглядит как цепь сосисок с перетяжками во многих местах. Эти места – бутылочные горлышки популяции, и порой перетяжки образуют такие сужения, что при расчетах они тоже формально соответствуют одному человеку, патриарху после прохождения бутылочного горлышка. Иначе говоря, имеем последовательную цепь патриархов. Это легко представить на примере хрестоматийного «последнего из могикан» Фенимора Купера. Вспомним сюжет – от всего племени могикан остался один мужчина. Умрет он – и вся линия ДНК, идущая из глубин, возможно, 12-15 тысяч лет назад, оборвется. Для следующего поколения американских индейцев могикан как бы и не существовало, несмотря на их многотысячелетнюю историю. Но если «последний из могикан» выживет, женится, обзаведется сыновьями – он станет патриархом для последующих поколений его рода.
Подобных случаев в истории Земли было, видимо, неисчислимое количество. В итоге вопрос про «общего предка человечества» несколько расплывается. В каждой прямой ДНК-линии её общий предок жил относительно недавно – где сотни лет назад, где тысячу-другую лет назад. Но совокупность ДНК-линий, даже только выживших, помещает общих предков на 20-40 тысяч лет назад в каждой гаплогруппе. Совокупность ДНК-линий разных гаплогрупп помещает общего предка неафриканцев на 64±6 тысяч лет назад, до наиболее отдаленного бутылочного горлышка популяции, а африканцев – примерно на 217 тысяч лет назад, но это не потому, что африканские предки древнее, а потому что по какой-то причине совокупность африканских (по их нынешнему месту обитания) ДНК-линий прошла бутылочное горлышко популяции намного ранее.
Можно ли считать, что 217 тысяч лет назад жил общий предок современного человечества? Нет, нельзя. Потому что неафриканские и африканские ДНК-линии сходятся к общему предку примерно 160 тысяч лет назад. Именно тогда разошлись африканские и неафриканские (по нынешнему месту обитания) ДНК-линии. Но глубже во времени уходит общий эволюционный ствол африканцев и неафриканцев, который расходится на гаплогруппы А00 и А0-Т примерно 217 тысяч лет назад. У нас нет оснований не считать носителей гаплогрупп А00 и А0-Т не членами вида Homo sapiens, так что общий предок современного человечества уходит глубже 217 тысяч лет назад. Но еще глубже, 300-400-500 тысяч лет назад, уже времена образования неандертальцев, которых вряд ли можно считать общими предками современного человечества. Вот и очерчены рамки времен возникновения общего предка современного человечества. Называть его «Адам», чем увлекаются некоторые, нет никаких оснований.
Почему в ДНК-генеалогии за поколение принимается 25 лет? Ведь протяженность поколения – величина нестабильная. Как это сказывается на расчетах в ДНК-генеалогии?
Действительно, в расчетах ДНК-генеалогии обычно оперируют поколениями, потому что при расчетах на один год константы скоростей мутации имели бы много нулей, а много нулей увеличивает вероятность ошибки. Например, для 12-маркерных гаплотипов (в стандартной системе FTDNA) величина константы скорости мутации равна 0.02 на гаплотип за условное поколение, или 0.0008 на гаплотип за год, или 0.0000666 на маркер за условное поколение. Условное поколение в контексте ДНК-генеалогии — это событие, которое происходит четыре раза в столетие. Численно и по времени оно близко к продолжительности поколения в житейском смысле этого слова, но не обязательно равно ему. Хотя бы потому, что продолжительность «бытового» поколения не может быть точно или хотя бы в среднем определена, она «плавает» в реальной жизни в зависимости от многих факторов, включая культурные, религиозные и бытовые традиции, примерно и в среднем от 18 до 36 лет, хотя границы этого не определены.
Такие организации, как ООН и ее подчиненные организации, как ЮНЕСКО и другие, как и прочие международные организации обычно принимают в своих подсчетах и рекомендациях продолжительность поколения в 25 лет, это же обычно принимают и демографы. Это все, разумеется, условности, и приняты только для некоторой стандартизации. Популяционные генетики рекоментациями ООН не руководствуются, и, в общем, правильно, но при этом используют продолжительности поколения кто во что горазд. Никакой научной основы в это не закладывают, поэтому уйдя от одних рекомендаций они никаких других не выработали. Недавно вышла статья по геномному анализу, там в расчетах применяли 29 лет на поколение, на каком основании – не пояснили. Другие берут от 18 до 35 лет на поколение.
В ДНК-генеалогии произвольные значения продолжительности поколений не используются, поскольку использовать столь «плавающую» величину для расчётов в широких временных диапазонах и для разных народов не представляется возможным или разумным. Исходя из этого положения, скорости мутаций откалиброваны под условно взятое поколение продолжительностью 25 лет. Если кому-то больше нравится 30 лет на поколение или любое другое количество лет, скорости можно перекалибровать, и в итоге окажутся ровно те же величины в годах. Так что сколько лет приходится на поколение — в данном случае не имеет значения, потому что при расчётах меньшему числу лет на поколение будет просто соответствовать пропорционально большее число поколений, и итоговая величина в годах не изменится.
Например, для 67-маркерных гаплотипов средняя константа скорости мутаций равна 0.12 на гаплотип на условное поколение в 25 лет. Поэтому при 120 мутаций на 50 гаплотипов общий предок этих 50 гаплотипов жил 120/50/0.12 = 20 условных поколений назад, то есть 20х25 = 500 лет назад. Если кому-то не нравится величина 25 лет на условное поколение (правда, причины такой нелюбви к 25 годам на поколение будут загадочными), и этот некто захочет использовать 30 лет на поколение, то нет проблем, просто константу скорости мутации придется пропорционально пересчитать, и она получится 0.12х30/25 = 0.144 мутаций на поколение в 30 лет. Тогда для 120 мутаций имеем 120/50/0.144 = 16.666 поколений по 30 лет, или те же 500 лет до общего предка. От чего ушли, к тому же и пришли.
Какие требования предъявляются к выборкам гаплотипов для расчетов в ДНК-генеалогии?
Как уже пояснялось, если взять любую выборку, тупо считать количество мутаций в гаплотипах, и разделить его на число гаплотипов и на константу скорости мутации, то что-то, конечно, получится. Именно так и проводят «расчеты» популяционные генетики. Но на самом деле там, скорее всего, получится некое бессмысленное число в поколениях или годах до якобы общего предка. Но откуда известно, что для данной выборки общий предок был один? А ведь так всегда и работают попгенетики, усредняя любые выборки. Поскольку после некоторых проб и ошибок ими было найдено, что таким образом происходит «умоложение» общих предков выборок, то попгенетики не нашли ничего лучшего, как втрое занизить величину константы скорости мутаций. Собственно, они ее «константой» никогда и не называли, просто «популяционная скорость мутаций». Вот так и работали – за счет усреднения время до общего предка занижали в неизвестное число раз, а за счет искусственного занижения «скорости мутаций» его опять увеличивали, правда, опять в неизвестное число раз, по принципу – «авось скомпенсируется». А оно не компенсировалось, а либо получалось значительно заниженным, либо значительно завышенным. Когда общий предок выборки был случайно один, то завышение времени до него составляло обычно 280-350%. Так и работали, и вот такими завышенными датировками заполонили академические журналы.
Честь нанесения такого ущерба науке, если попгенетику называть наукой, принадлежит Л.А. Животовскому, сотруднику Института общей генетики РАН. На основании какого-то вывиха здравого смысла, эту «популяционную скорость» узаконили после 2004 года, и более десяти лет в академических журналах гнали откровенный мусор. Широко известны «датировки» «общего предка» гаплогруппы R1a в Индии, которые Животовский с соавторами (эстонская школа попгенетики) загнали в 12-15 тысяч лет назад, когда они на самом деле составляют 3500-4000 лет назад, для разных выборок. Это на долгие годы не только затормозило изучение истории ариев в Индии, но и направило изучение истории по ложному пути.
Возвращаясь к исходному вопросу, только те мутации в гаплотипах имеет смысл рассчитывать, экстраполируя ко времени общего предка, которые подчиняются определённым количественным закономерностям. ДНК-генеалогия оперирует тремя экспериментальными факторами: 1) наличием снипов, относящих человека к определённому роду; 2) наличием мутаций, позволяющих оценивать время, прошедшее от общего предка совокупности гаплотипов и — при больших выборках — от начала самого рода, от самого далёкого из предков ныне живущих потомков данного рода (то есть здесь считаются сами мутации); 3) закономерностями переходов гаплотипов в их мутированные формы, без численного учёта самих мутаций (то есть здесь мутации не считаются, считаются немутированные гаплотипы).
Это позволяет оценить, насколько достоверны расчёты времени жизни общего предка по мутациям, и даёт ещё один, независимый способ расчетов. Методы, в которых считаются мутации, называются линейным, квадратичным и пермутационным, из которых наиболее прост линейный метод. Метод, в котором считаются немутированные гаплотипы, называется логарифмическим. В принципе, он использует формулы химической кинетики первого порядка (дополнительно вводя поправку на возвратные мутации). В линейном методе общее число мутаций в серии гаплотипов делится на число гаплотипов и на константу скорости мутации для данных гаплотипов. В логарифмическом методе берется логарифм отношения общего числа гаплотипов к числу немутированных гаплотипов, и делится на константу скорости мутации. Очень важно понять, что если линейный и логарифмический методы дают разные времена до общих предков, то выборка «кривая», то есть неоднородная, и происходит от нескольких общих предков, как минимум от двух. Получаемые времена до общих предков тогда лишены определенного смысла, предок «фантомный».
Приведем пример. Имеем неоднородную выборку из 300 гаплотипов в 25-маркерном формате, в которой 200 гаплотипов происходят от общего предка, который жил 3000 лет назад, и 100 гаплотипов – от предка, который жил 800 лет назад. Если мы построим дерево гаплотипов, то сразу увидим, что 200 гаплотипов образуют одну большую и глубокую (высокую) ветвь, и 100 гаплотипов – плоскую ветвь. Тогда сразу можно разделить ветви, и каждую из двух ветвей обсчитывать отдельно. В первой ветви из 200 гаплотипов все 25-маркерные гаплотипы будут разными (то есть логарифмический метод с ними работать не будет), что уже покажет, что общий предок жил более 2500 лет назад (при 2500 годах в выборке могли бы быть два одинаковых гаплотипа, потому что [ln(200/2)]/0.046 = 100 условных поколений, или 2500 лет до общего предка). На все 200 гаплотипов будет 1104 мутаций от базового гаплотипа, что даст 1104/200/0.046 = 120 условных поколений, или 120х25 = 3000 лет до общего предка (вкладом возвратных мутаций здесь для простоты пренебрегаем).
Во второй ветви из 100 гаплотипов в 25-маркерном формате 23 гаплотипа будут идентичными друг другу. Это даст [ln(100/23)]/0.046 = 32 условных поколений, то есть 800 лет до общего предка. Иначе говоря, если смешать эти 200 и 100 гаплотипов, то в этой смеси 23 гаплотипа будут одинаковыми (из молодой ветви), и мы получим [ln(300/23)]/0.046 = 56 условных поколений, то есть якобы 1400 лет до общего предка якобы одного для всех 300 гаплотипов. А мутаций во всей составной, неоднородной выборке будет 1251, если базовые гаплотипы обеих ветвей случайно совпадут. Тогда линейный метод даст 1251/300/0.046 = 91 условное поколение, или 2275 лет до якобы общего (фантомного) общего предка. Если базовые гаплотипы обеих ветвей будут разными, то время до фантомного общего предка будет практически любым между 3000 и 800 лет.
Итак, подводим итоги. Выборка составная, неоднородная, общие предки жили 3000 и 800 лет назад. Линейный метод дал фантомного общего предка 2275 лет назад, логарифмический – 1400 лет назад. То, что эти времена не совпали друг с другом, говорит о том, что так считать нельзя, и выборки надо разделять. Обычно разделение проводится с использованием деревьев гаплотипов.
Выборки в ДНК-генеалогии обычно несоизмеримо малые по сравнению с реальными величинами самих популяций. Как таким выборкам можно доверять? Есть «мнения», что выборки должны иметь как минимум 10 тысяч гаплотипов, чтобы получать относительно разумные данные.
Это совершенно ненаучная постановка вопроса, опять «по понятиям», по «мнениям», ни на чем не основанным. На это можно задать встречный вопрос – чтобы понять, что море соленое, нужно ли пробовать воду из всех бухточек? А как же химики делают анализ растворов, беря пробу всего лишь в долю миллилитра из ведра, цистерны, озера? Когда делают анализ крови, что, всю кровь из вас выкачивают? Нет. Значит, вопрос о размере пробы поставлен некорректно. Вопрос на самом деле сводится не к каким-то с потолка взятым числам, а к тому, равномерно ли перемешана система, чтобы по малой пробе, или выборке, судить обо всей системе. Этот вопрос в ДНК-генеалогии давно проработан, и результаты сопоставительных исследований показаны, например, в следующей таблице. Перед вами история определений времени до общего предка гаплогруппы R1a на «пост-советском пространстве» по разным сериям гаплотипов:
Из таблицы видно, что при последовательном переходе от серии из 26 гаплотипов до 2000 гаплотипов, и при увеличении числа мутаций в них в двести с лишним раз расчетное время до общего предка этих гаплотипов, в данном случае проживавшего на Русской равнине около пяти тысяч лет назад, получается практически одинаковым, в пределах погрешности расчетов. Это значит, что гаплотипы гаплогруппы R1a на пост-советском пространстве перемешаны достаточно хорошо, и все выборки вполне репрезентативны.
Конечно, могут быть и другие ситуации. Например, в горах в каждой долине состав гаплотипов (и гаплогрупп/субкладов) может заметно различаться, в отличие от того, что может наблюдаться на равнине, где гаплотипы более перемешаны за тысячелетия. Но в любом случае расчеты и выводы по гаплотипам относятся только к той конкретной выборке, которая рассматривалась, и только сопоставление разных выборок может показать, насколько система «перемешана», и решить вопрос об обобщении результатов расчетов и выводов на всю популяцию региона, или только ее конкретную часть. Но пока репрезентативность разных выборок наблюдается и в горах. Например, разные выборки осетин и карачаево-балкарцев дают воспроизводимые результаты для каждого из этих этносов. Перемешивание между ними обнаружено, но очень незначительное, практически не влияющее на результаты расчетов.
В большинстве случаев результаты расчетов почти не зависят от размера выборки (при числе гаплотипов больше двух-трех десятков), то есть они устойчивы к статистическим вариациям, если популяция достаточно перемешана и выбрка произведена неупорядочено. Размер выборки увеличивает точность, и то только до определенных пределов. Это, повторяем, относится к довольно большим популяциям, которые перемешались за тысячелетия, но именно с такими обычно и работают.
Что такое «деревья гаплотипов» в ДНК-генеалогии?
По ходу изложения в книге показываются деревья гаплотипов, которые отражают ДНК-картину этносов, родов, племен. Это вовсе не значит, что гаплотипы определяют этнос. Но они его в определенной степени описывают, каждый этнос по-разному. Человеку непривычному эти деревья представляются некими абстрактными образованиями, но в них на самом деле заключен большой смысл и в их графическом виде дается большой объем информации. Для того чтобы сделать деревья в этой книге более понятными и осмысленными, приведем несколько вводных, «модельных» примеров.
На рисунке приведено дерево реальной выборки из 68 гаплотипов гаплогруппы R1a. Гаплотипы простенькие, 6-маркерные, общий предок всех жил всего 625 лет назад, так что мутаций в гаплотипах набежало мало. Можно даже заранее посчитать, сколько. Это дерево гаплотипов потомков Джона, Лорда Британских островов, который жил в 14-м веке и умер в 1386 году. Его потомки — известный шотландский клан Мак-Доналдов (один из Мак-Доналдов был маршалом у Наполеона). Константа скорости мутации для 6-маркерных гаплотипов равна 0.0074 мутаций на гаплотип на условное поколение в 25 лет. Тогда за 625 лет (25 условных поколений) в каждом гаплотипе набежит 0.0074х25 = 0.185 мутаций, и на все 68 гаплотипов будет 0.185х68 = 13±4 мутаций. Погрешность рассчитывается по обычным правилам математической статистики.
Смотрим на дерево гаплотипов. Там – 15 мутаций, то есть в пределах погрешности. Можно посчитать самим, это все «вылезающие» из колеса спицы. А вылезают они в разных (и заранее непредсказуемых) местах, потому что мутации происходят неупорядоченно. 53 гаплотипа не мутированы, они образуют ровную гребенку, или «колесо» вокруг центральной части. Это — тот же самый гаплотип, что имел общий предок всех 68 человек, то есть Джон, Лорд Островов: 13 25 15 11 12 11.
53 человека этот гаплотип полностью сохранили, потому что 625 лет — это относительно малое время, и 15 мутаций — это все отклонения от предкового гаплотипа, что за это время смогли произойти. Показанные выше шесть чисел соответствуют шести участкам в Y-хромосоме ДНК, в которых повторяются выбранные исследователями короткие нуклеотидные последовательности. В первом участке — 13 повторов, во втором — 25 повторов, в третьем — 15 повторов и т.д. Мутация — это изменение числа повторов. Ошибся копирующий фермент при биологическом копировании Y-хромосомы, скопировал третий участок не 15 раз, как завещали предки, а 16 раз, получилось 13 25 16 11 12 11. Это — два идентичных гаплотипа, на дереве под номерами 054 и 060. С правой стороны — гаплотип 061, он имеет вид 14 25 15 11 12 11. У него мутация проскочила в первом участке, было 13 повторов, стало 14. То есть опять система копирования ошиблась в сторону завышения числа повторов. А вот в семерке идентичных гаплотипов под номерами 055-057, 062, 064, 066, 068 — мутация прошла во втором участке, на понижение (25 → 24) и получилось 13 24 15 11 12 11.
Действительно, этот участок, или маркер, как их называют, один из самых подверженных мутациям. Теория подсказывает, что в первом участке на все гаплотипы произойдет только одна мутация, во втором – семь мутаций, в третьем — две мутации. Так и получилось на практике. То есть даже при такой малой статистике закономерности в целом выполняются. Более того, все остальные пять мутаций на дереве гаплотипов относятся к тому же (второму) быстрому маркеру. Гаплотипы под номерами 059, 063 и 065 имеют вид 13 26 15 11 12 11, то есть мутация прошла на единицу на повышение, 25 → 26. Последние две мутации, в гаплотипах под номерами 058 и 067, оказались двойными (25 → 23, 25 → 27):
13 23 15 11 12 11
13 27 15 11 12 11
Они и сидят по обе стороны «букета», потому что не происходят одна из другой. Заметьте, что длина «спицы» в двух последних случаях тоже двойная, по сравнению со всеми остальными. То есть по виду дерева гаплотипов можно сказать, какие мутации одиночные, какие — двойные или тройные.
Внешний вид «дерева» определяется настройками профессиональной компьютерной программы, которая строит его на основании вводимого списка гаплотипов. Она сортирует гаплотипы по ветвям, то есть по похожести гаплотипов, сортирует по тому, в каких маркерах произошли мутации, сколько мутаций произошло, и по тому, насколько ветви древние. Поэтому по виду дерева человек опытный сразу может понять, какова структура той или иной популяции, сколько в ней основных ветвей, каков относительный возраст ветвей, и далее по числу мутаций в ветвях рассчитать, когда жил общий предок каждой ветви. Таких компьютерных программ много, наиболее известная – PHYLIP, с преобразованием MEGA.
По виду базовых гаплотипов в разных регионах и по возрасту их ветвей можно устанавливать, откуда, куда и когда проходили древние миграции людей и где сейчас живут их потомки. То есть можно проводить ДНК-генеалогическое картирование регионов, материков, и всей планеты, как в пространстве, так и во времени. В этом — методология ДНК-генеалогии. А дальше идут интерпретации получаемых данных в терминах истории, языкознания, антропологии, стыковка их с известными данными (тогда это по сути «калибровка»), или с данными неустоявшимися, сомнительными, конфликтными — тогда это дополнительная «точка опоры», или, наконец, это введение в научный оборот совершенно новых данных, и открытие пути для их верификации, проверки, обсуждения, выдвижения новых гипотез и положений.
Анатолий А. Клёсов,
доктор химических наук, профессор
Перейти к авторской колонке