Whan that Aprylle / wyth hys showres soote
The drowhte of Marche / hath pcede to the rote
“Крайст-Черч”:
Whan that Auerell wt his shoures soote
The droght of Marche hath pced to the roote
“Эджертон”:
Whan that Aprille with his showres soote
The drowte of marche hath pced to the roote
“Хенгурт”:
Whan that Aueryll wt his shoures soote
The droghte of March / hath pced to the roote
Первое, что нужно сделать с последовательностью ДНК или текстом, – выявить сходства и различия. Для этого нужно их “выровнять” – а это бывает не так-то просто: тексты могут быть фрагментарными и иметь разную длину. Здесь очень помогает компьютер, но чтобы выровнять первые две строки “Общего пролога”, он не понадобится. На рисунке выделены 14 позиций, по которым тексты не совпадают.
Вторая и пятая позиции представлены даже не двумя вариантами, а тремя. В целом это дает 16 “различий”. После того, как мы составили список различий, нужно определить, какое древо лучше всего их объясняет. Есть множество способов это сделать, и все их можно применить и к животным, и к текстам. Самый простой пример – группировка текстов на основе общего сходства. Как правило, при этом используют варианты следующего метода. Сначала мы находим пару наиболее сходных текстов. Затем мы используем эту пару в качестве единого усредненного текста и сравниваем его с оставшимися, чтобы найти следующую пару наиболее сходных текстов. Так мы последовательно формируем новые пары, пока не получится генеалогическая схема. Такой способ построения деревьев используется чаще всего и называется методом поиска ближайшего соседа (neighbourpmmg). Он прост, но не учитывает логику эволюционного процесса: мы просто оцениваем сходство. Поэтому сторонники “кла-дистического” подхода в систематике (он основан на принципах эволюции) предпочитают иные методы. Первым был разработан метод парсимонии (экономии).
Экономия, как мы узнали из “Рассказа Орангутана”, означает здесь экономичность объяснения. В эволюции (животного ли, манускрипта ли) самым экономичным является объяснение, подразумевающее наименьшее число эволюционных изменений. Если два текста объединены общим признаком, самое экономичное объяснение будет гласить: оба текста унаследовали этот признак от общего предка. Конечно, и у этого правила есть исключения, однако чаще всего оно верно. Метод парсимонии – по крайней мере в теории – сравнивает все возможные деревья и выбирает то, в котором количество изменений минимально.
Когда мы сравниваем деревья по их экономичности, некоторые виды признаков оказываются бесполезными. Признаки, уникальные для манускрипта или вида животного, неинформативны. В методе поиска ближайшего соседа такие признаки учитываются, однако метод парсимонии целиком их игнорирует. Метод парсимонии опирается на информативные признаки, то есть такие, которые наблюдаются более чем в одном манускрипте. Предпочтительным древом является объясняющее максимальное количество информативных признаков общим происхождением. В строках Чосера пять таких информативных признаков. Четыре из них делят манускрипты на следующие группы:
{“Британская библиотека” + “Эджертон”} и (“Крайст-Черч” + “Хенгурт”}
Эти признаки выделены первой, третьей, седьмой и восьмой вертикальными линиями. Пятый признак – косая черта – выделен двенадцатой вертикальной линией. По этому признаку манускрипты подразделяются на другие группы:
{“Британская библиотека” + “Хенгурт”} и {“Крайст-Черч” + “Эджертон”}
Полученные результаты противоречат друг другу. Мы не можем построить древо, в котором каждое изменение отображалось бы лишь один раз. Самым приемлемым окажется древо, изображенное ниже (заметьте – оно неукорененное). Эта схема сокращает противоречия до минимума: мы повторно учитываем лишь один признак – косую черту.
Вообще-то я не уверен, что мы сделали правильное предположение. В текстах часто встречаются совпадения и реверсии, особенно если смысл строк при этом не меняется. Средневековый переписчик наверняка не испытывал угрызений совести, изменяя написание, и еще меньше его волновали вставки или удаления знаков, например косой черты. В этом случае информативнее такие изменения, как перестановка слов. В генетике аналогами таких изменений являются “редкие геномные изменения”: крупные вставки, делеции и дупликации ДНК. Мы можем оценить информативность, присвоив большее или меньшее значение (вес) различным типам признаков. Недостоверные или слишком частые изменения при подсчете будут иметь меньший вес. А редкие изменения, которые служат надежными показателями родства, – больший вес. Повышенный вес признака говорит о том, что мы не хотим учитывать его дважды. Таким образом, наиболее экономное древо – то, которое имеет наименьший общий вес.
Метод парсимонии широко используется для поиска эволюционных деревьев. Но в том случае, когда конвергенций и реверсий слишком много – а это случается и с последовательностями ДНК, и с текстами Чосера, – метод парсимонии может оказаться недостоверным. Эта проблема известна как “эффект притяжения длинных ветвей”.
Кладограммы – как укорененные, так и неукорененные – отражают лишь порядок ветвления. Филограммы, или филогенетические деревья, похожи на кладограммы, но в них длина ветвей несет дополнительную информацию. Обычно длина ветвей отражает эволюционное расстояние: длинные ветви обозначают крупные изменения, а короткие – мелкие. На основе первой строки “Кентерберийских рассказов” можно построить следующую филограмму.
Здесь длина ветвей не слишком различается. Но представьте, что будет, если два манускрипта сильно отличаются от двух других. Тогда ветви первых манускриптов будут очень длинными. Однако изменения могут оказаться не уникальными. Изменения могут случайно оказаться идентичными изменениям в другом месте древа. Но с наибольшей вероятностью (именно в этом заключается проблема) они совпадут с изменениями на другой длинной ветви. Ведь длинные ветви – это те, в которых произошло наибольшее число изменений. И если изменений окажется слишком много, две длинные ветви на филограмме будут отображаться как родственные, даже если это не так. Таким образом, метод парсимонии, основываясь на простом подсчете изменений, может ошибочно сгруппировать две самые длинные ветви, “притянуть” их друг к другу.