Евгений Кунин

Логика случая. О природе и происхождении биологической эволюции


Скачать книгу

методом НЭ, но теоретически он предпочтительнее, будучи (в отличие от НЭ) статистически более достоверным (то есть при наличии достаточного количества данных гарантирует получение наиболее правдоподобного дерева). На практике метод НП часто превосходит метод НЭ. Методы НП чрезвычайно затратны с вычислительной точки зрения и непрактичны при работе с большими наборами данных. Таким образом, методы НП зачастую используются для оптимизации предварительных деревьев, полученных методом объединения ближайших соседей и методом Фитча. Для тех же филогенетических исследований, где точность построения дерева важнее скорости, следует выбирать методы НП. Более того, недавние алгоритмические достижения более чем на порядок ускорили построение филогенетических деревьев методами НП без серьезных потерь точности (Price et al., 2010).

      Байесовский подход

      Подобно методу НП, этот подход использует функцию правдоподобия, но прибегает к теореме Байеса с целью связать апостериорную вероятность дерева с правдоподобием данных и априорную вероятность дерева с эволюционной моделью. В отличие от методов НЭ и НП, которые выводят наилучшее дерево или набор деревьев, методы байесовского вывода выбирают деревья пропорционально их правдоподобию и определяют представительный набор деревьев. Метод хорошо работает для относительно небольших объемов данных, но непрактичен для больших.

      Проверка точности филогенетических методов и достоверности деревьев

      Модельные деревья

      Филогенетические методы постоянно проверяются на искусственно смоделированных данных, для которых известна точная история эволюции. Методы сравниваются по критерию точности реконструкции топологии для искусственно построенных деревьев. Как правило, различные методы НП и байесовские методы превосходят все остальные для небольших наборов данных. Наилучшие результаты показывают итерационные методы, которые используют исходное дерево, построенное по методу НП, чтобы выравнивать данные, перестраивать дерево и повторять так до сходимости.

      Бутстреппинг

      Наиболее часто используемый тест на надежность топологии филогенетического дерева, при котором рассматриваются выборки данных (колонки выравнивания) и дерево оценивается по большому числу выборок. Процент выборок (то есть репликаций), в которых реконструируется данный узел дерева, называют уровнем поддержки. Статистика бутстреппинга еще не полностью разработана, поэтому пороговые значения для «достаточно высокого» уровня поддержки определяются путем моделирования или эмпирического анализа и могут варьировать в зависимости от целей конкретного исследования (например, значения более 90 процентов, или более 70 процентов; поддержка ниже 50 процентов обычно не считается надежной).

      Статистические критерии проверки филогенетических гипотез (топологий деревьев)

      Для сравнения правдоподобия различных топологий деревьев, выводимых из одного