А. А. Клёсов

ДНК-генеалогия от А до Т


Скачать книгу

общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ± 10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.

      Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:

      Таким образом, погрешность расчетов для 100 мутаций в серии равна ± 14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).

      Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ± 28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, доверительный интервал в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ± 10 % является завышенной, на практике она не превышает ± 2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ± 14.14 %, а ± 10.31 %.

      Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».

      Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59 ± 8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (см. врезку) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ± 13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ± 30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае