Идея прочитать геном человека родилась еще в 1986 году по инициативе Министерства энергетики США — впоследствии оно же финансировало проект вместе с Национальными институтами здравоохранения США. При стоимости в 3 миллиарда долларов проект, в котором участвовали Китай, Германия, Франция, Великобритания и Япония, был рассчитан на 15 лет. Директором проекта по чтению генома человека был Джеймс Уотсон, один из первооткрывателей структуры молекулы ДНК, пока его не сменил Фрэнсис Коллинз.
Позволю себе предположить, что международный проект по чтению генома человека затянулся бы не на тринадцать, а на все двадцать лет, если бы не старания весьма амбициозного ученого — Крейга Вентера. Крейг Вентер и его компания Celera Genomics, основанная в 1998 году, сыграли примерно такую же роль в истории геномики, как Советский Союз в истории полета американцев на Луну. Вентер заявил, что его компания закончит расшифровку генома человека раньше, чем завершится международный проект, а именно к 2001 году. Международный проект задерживался и, по новым оценкам, должен был завершиться в 2005-м. Причем сделать геном человека Вентер собирался не за миллиарды долларов, а всего за 300 миллионов благодаря новому подходу к чтению ДНК, названному whole genome shotgun (раздробление генома, или «метод дробовика») и основанному на фрагментации ДНК и чтении случайных коротких участков генома в произвольном порядке.
«Мы сделаем геном человека, а вы можете сделать мышь», — ехидно предложил Вентер своим конкурентам.
Этот период вошел в историю геномики как время «геномных войн». Научное сообщество всполошилось! Дело было не только в том, что Вентер собирался утереть нос членам уважаемых международных коллективов, но и в том, что компания Celera Genomics собиралась заработать на проекте, создав полную базу данных генетических последовательностей, платную для всех, кто хотел бы пользоваться ею в коммерческих целях. В первую очередь это касалось фармацевтических компаний. Тогда шли острые споры о возможности патентования генетических последовательностей, и было неясно, что случится, если первой до генома человека доберется коммерческая Celera, а не финансируемые из бюджета научные организации.
Чем отличается метод дробления ДНК от тех методов, которые использовал международный консорциум по чтению генома человека? Обычные методы подразумевают последовательный анализ генома: мы шагаем по хромосомам, читая фрагмент за фрагментом. Концы предыдущих прочитанных фрагментов выступают затравками для чтения новых и так далее. Этот подход надежен и неизбежно приводит к нужному результату, не требует каких-то сложных алгоритмов для анализа данных, но очень медлителен и требует серьезных усилий со стороны ученых-экспериментаторов, которым приходится ставить эксперимент за экспериментом, реакцию за реакцией.
Метод раздробления генома начал применяться для чтения коротких фрагментов ДНК еще в 1979 году
[271], но мало кто верил, что с его помощью можно будет прочитать большой геном. Мы взяли ДНК, раздробили, прочитали разрозненный набор фрагментов, которые называются чтениями. И что дальше? Как мы все это соберем? И можно ли вообще собрать такой «пазл»? Задача по «сборке» генома из чтений легла на специалистов в области вычислительной биологии — биоинформатики, еще одного бурно развивающегося направления современной науки.
Возьмем множество прочитанных фрагментов ДНК. Найдем такую пару последовательностей, которые имеют хорошее перекрытие, объединим их и получим более длинный фрагмент. Последовательно сшивая перекрывающиеся фрагменты, мы будем получать все более длинные последовательности, пока в идеале не получим целые хромосомы. Иллюстрация такого объединения фрагментов приведена ниже.
На практике с таким подходом возникают определенные проблемы, которые приходится решать. Во-первых, каждое чтение получено из случайно взятой молекулы ДНК. Какие-то фрагменты ДНК по воле случая будут прочитаны по десять или даже по сто раз, а какие-то не будут прочитаны вовсе, и в нашем геноме появятся «дырки». Решается эта проблема тем, что мы делаем очень большое «покрытие» генома, чтобы в среднем на каждый участок приходились десятки, а то и сотни чтений. Увы, некоторые участки генома читаются очень плохо, и даже большое покрытие чтениями не всегда помогает. В таких случаях дырки можно попробовать залатать, применив альтернативные методы чтения ДНК.
Еще одна проблема заключается в том, что чтение ДНК происходит не без ошибок. Избежать ошибок при сборке можно, сравнивая большое количество чтений одного и того же места в геноме. Наиболее часто встречающийся вариант, скорее всего, правильный.
Отличить ошибку чтения от двух разных вариантов (аллелей) гена тоже можно: разные варианты будут присутствовать примерно в равном количестве.
Картину портят повторяющиеся последовательности, которые присутствуют в некоторых геномах. Из-за них мы иногда рискуем сшить два несвязанных фрагмента. Представьте, что у нас есть последовательность ATTGAAAATAAAA на одной хромосоме и последовательность GGCCAAAATAAAA на другой. С какой из них мы склеим последовательность AAAATAAAAGCGT? В такой сложной ситуации желательно иметь какие-то дополнительные данные (например, более длинные прочитанные фрагменты ДНК), но иногда приходится признавать, что мы не знаем, как правильно склеить фрагменты. В итоге в нашей сборке останется «дырка». Если «дырок» не слишком много, это не помешает большинству последующих анализов с использованием данного генома.
Но в результате оказалось, что Вентер был в значительной степени прав. Если пошевелить мозгами, мы действительно можем собирать геномы (по крайней мере, вполне удовлетворительного качества) даже из множества мелких фрагментов. В 2000 году Celera, объединив усилия с лабораторией генетика Джеральда Рубина, доказала эффективность своего подхода к чтению ДНК, опубликовав в журнале Science статью о прочитанном геноме плодовой мушки дрозофилы Drosophila melanogaster
[272].
Пинок со стороны Вентера и его команды в рамках «геномных войн» стимулировал конкурентов, и уже в 2001 году почти одновременно и после долгих торгов были опубликованы сразу два генома человека. Один со стороны международного проекта, а второй со стороны Celera, в журналах Nature и Science соответственно
[273]
[274]. «Геномные войны» закончились победой науки, а за ней последовало интересное продолжение.