Денис Владимирович Соломатин

Математические модели в естественнонаучном образовании. Том II


Скачать книгу

rel="nofollow" href="#_52.jpg"/>, запишите уравнения для каждого из 6 таких расстояний выраженных через

. Объясните, почему, если даны числовые значения расстояний между терминальными таксонами, эти уравнения вряд ли будут иметь точное решение.

      в. Приведите такой конкретный пример значений 6 расстояний между терминальными таксонами, чтобы уравнения в части (б) не могли иметь точного решения. Приведите еще один пример значений, для которых уравнения могут быть решены.

      5.2.8. Известен ряд различных мер для оценки степени согласованности между данными о расстояниях и метрическими деревьями. Пусть

 обозначает расстояние между таксонами
 и
 до
 вдоль дерева. Во второй половине прошлого века были предложены следующие три меры:

           (Фитч и Марголиаш, 1967)

               (Фаррис, 1972)

                    (Татено и др. , 1982)

      Во всех этих мерах суммы включают слагаемые для каждой отдельной пары таксонов

 и
.

      а. Вычислите эти меры для дерева, построенного в разделе, используя FM- алгоритм, а также дерева, построенного из тех же данных с помощью UPGMA в задаче 5.2.3. Согласно каждому из этих показателей, какое из двух деревьев лучше подходит для данных?

      б. Объясните, почему эти формулы разумно использовать для оценки соответствия. Объясните, как различия между формулами делают их более или менее чувствительными к различным типам ошибок.

      Примечание: Фитч и Марголиаш предложили выбрать оптимальное метрическое дерево для соответствия данным как такое, которое минимизирует

. Алгоритм FM был введен в попытке получить аппроксимацию оптимального дерева.

      5.2.9. Смоделируйте данные a1, a2, a3 и a4 в соответствии с моделью Джукса-Кантора с молекулярными часами. Сохраните их в файл seqdata.mat путём ввода save seqdata.mat. Загрузите ранее сохраненные данных из файла seqdata.mat в MATLAB путем ввода load seqdata. Затем исследуйте производительность UPGMA с расстоянием Джукса-Кантора, чтобы построить дерево для последовательностей a1, a2, a3 и a4. Все расстояния между последовательностями можно легко вычислить, поместив последовательности в строки массива с помощью команды a=[a1;a2;a3;a4], а затем используя команду [DJC DK2 DLD]=distances(a). Хотя эта команда вычисляет расстояния, используя каждую из формул Джукса-Кантора, 2-параметрической модели Кимуры и формул логарифмического расстояния, для решения этой задачи используйте только расстояния Джукса-Кантора.

      а. Нарисуйте дерево UPGMA для 4 таксонов, пометив каждое его ребро длиной.

      б. По длинам ребер вычислите расстояния между таксонами при обходе вдоль дерева. Близки ли они к исходным расстояниям?

      5.2.10. Повторите решение предыдущей задачи, но используя алгоритм FM вместо UPGMA. Является ли дерево, которое получится в результате, «лучше», чем то, которое получалось раньше? Объясните почему.

      5.2.11. Смоделируйте данные b1, b2, b3, b4 и b5 в соответствии с моделью Джукса-Кантора, но без молекулярных часов. Сохраните их