Грейнджер, наивный, полагал, что к тому времени уже давно наступил прочный мир. В июне 2001 года, вскоре после праздника в Белом доме и задолго до появления статьи в PNAS, биологи-программисты из Celera и Международного консорциума по геному человека встретились по инициативе президента Клинтона на нейтральной территории (Медицинский институт имени Ховарда Хью в Чеви-Чейз, штат Мэриленд) для обсуждения стратегий секвенирования и сборки. Как отметила газета The New York Times, «встреча биологов-программистов, на которой отсутствовали руководители лабораторий, проходила в сердечной атмосфере»
{214}. В своем выступлении Грейнджер рассказал о том, как сотрудникам Celera удалось осуществить сборку генома человека без какого бы то ни было использования общедоступных данных, причем с лучшими результатами. Неудивительно, что последовавшие за этим нападки привели его в такой гнев: выводы статьи в PNAS были уже опровергнуты за год до этого в Чеви-Чейз, где «мы представили ряд весьма убедительных данных о преимуществах сборки полного генома методом дробовика». К тому моменту на нашей стороне выступило уже немало заметных фигур из государственного консорциума. Одним из них был Джим Кент из Калифорнийского университета в Санта-Круз, бородатый здоровяк, считавшийся одним из наиболее выдающихся ученых. Еще будучи аспирантом, он сумел в одиночку написать программу для государственного проекта GigAssembler, с помощь которой 100 компьютеров на процессорах «Пентиум III» завершили сборку генома за четыре недели, то есть в срок для презентации в Белом доме
{215}. Это достижение произвело на меня глубокое впечатление. Кент не согласился с выводами статьи PNAS, поскольку на основании расхождений между «государственными» и нашими данными понимал (еще до того, как мы завершили сборку генома мыши), «что реконструкция общедоступных данных, предположение о которой выдвигают Ландерс и др. в PNAS, не может быть полной правдой»
{216}. Он заключал: «Думаю, Celera справилась со сборкой генома лучше, чем мы» и добавлял далее, что ландеровская программа сборки «Арахна» подозрительно близка к нашей, а это является «еще одним доказательством того, что методы Celera, несмотря на определенные ограничения, в основном весьма эффективны».
Вспомним, что перейдя от расшифровки генома человека к сборке генома мыши, мы вообще игнорировали данные государственной программы в GenBank, а пользовались только собственной информацией, полученной методом дробовика. С помощью усовершенствованной программы сборки мы получили более качественные результаты, чем в случае генома человека. Ари Патринос, входивший тогда в группу пяти компаний, перечитал статью Ландера в PNAS и констатировал, что «откровенно говоря, она производит грустное впечатление. Метод прекрасно работал, что и было доказано его применением для расшифровки мышиного генома». Даже мой старинный недруг Майкл Морган признал, что «плевать против ветра следует с большой осторожностью. Все эти статьи тем или иным образом навредили их авторам». После публикации нашего второго опровержения мне стало ясно, что единственный способ победить в научном споре – это использовать реальные данные
{217}. Я связался с Майком Ханкапиллером из ABI. Также расстроенный выступлениями наших конкурпентов, он был готов к бою за истину. Помня о всех наших конфликтах с Applera и Тони Уайтом по вопросу о публикации данных, я добавил к нашему договору о покупке новых секвенаторов ДНК у ABI юридически обоснованное соглашение, предоставлявшее нам неограниченное право публиковать свои данные (полученные Celera), в том числе на общедоступных сайтах. (В 2005 году Celera прекратила продажу информации о геноме и стала размещать ее в открытом доступе.) Кроме того, по данному соглашению мой институт получал полный комплект данных о геноме человека для использования в научных целях. После подписания соглашения мы провели обширную совместную работу с учеными, оставшимися в Celera, с целью сравнить сборку полного генома этой компанией с другими версиями, включая «окончательный» результат государственной программы.
Это сотрудничество возглавил Сорин Истраил, один из ведущих сотрудников группы Джина Майерса, который к тому времени получил должность заведующего отделом биоинформатики в Celera. Проведение анализа заняло больше года и потребовало разработки множества новых вычислительных методов, которые позволили бы впервые сравнить полные геномы человека. Я поделился своими планами с одним из редакторов PNAS, который выразил удовлетворение нашим переходом к политике открытой публикации данных и заявил, что готов помочь в разрешении спора, опубликовав результаты совместного проекта в виде статьи. Наши данные однозначно доказывали точность полной сборки генома методом дробовика. Эта работа, опубликованная в начале 2004 года, позволила тщательно сравнить геномы, расшифрованные нами и участниками государственной программы. Результаты Celera отличались большей упорядоченностью и ориентированностью, а сборка государственного консорциума полнее охватывала повторы. Лаборатории, получавшие средства от государства и Wellcome Trust, вели работу над уточнением своей версии генома в течение четырех лет, что обошлось примерно в 100 миллионов долларов. Сравнительный анализ показал, что на каждом этапе этих исследований «государственная» версия становилась все ближе к версии Celera в плане как последовательности, так и ориентации фрагментов. Расшифровка Celera, в сущности, ликвидировала многочисленные пробелы в «окончательном» геноме, о получении которого участники государственной программы с большой помпой объявили в журнале Nature в 2004 году
{218}. Мы же опубликовали свою статью без всяких заявлений для прессы, считая, что полученные данные говорят сами за себя
{219}.
Когда открытая вражда пошла на убыль, я стал готовиться к новой фазе исследований генома человека. Итак, коллектив TCAG (после слияния трех из пяти некоммерческих институтов получивший название Института Вентера) приступил к секвенированию и анализу индивидуального генома. Объектом исследования стал я сам, причем не из тщеславия или эгоизма, а по научным причинам. В первых композитных версиях генома, в том числе и полученных Celera, катастрофически недооценивалась его вариативность от одного носителя к другому. «Государственный» геном был собран на основе разрозненных кусочков (клонов), полученных от ограниченного числа лиц, так что генетические вариации в нем были незаметны. Геном Celera представлял собой согласованную последовательность, построенную на основе геномов пяти человек, включая меня самого. Мы пользовались принципом «победителю достается все»: наш расшифрованный геном состоял из участков, которые встречались у большинства доноров. При подобном подходе также терялись вариации, вызванные инделами (полиморфизм за счет инсерций и делеций), то есть участками генетического кода, где изменено более одного нуклеотида. Наша программа сборки замечала существенные инсерции или делеции ДНК лишь в том случае, если они встречались в большинстве последовательностей. Иными словами, обе сборки генома, о которых было с большим шумом объявлено в июне 2000 года, никак не отвечали на вопрос, являвшийся одной из главных причин их расшифровки. В смеси или мозаике ДНК, полученной от разных людей, теряются индивидуальные различия, вызывающие у некоторых лиц предрасположенность к онкологическим, сердечно-сосудистым или другим заболеваниям (хотя, разумеется, делались попытки картировать и снипы, вариации одного нуклеотида). Кроме того, первые работы по расшифровке генома касались лишь одной копии генетического кода конкретного человека, в то время как мы наследуем две таких копии, по одной от каждого родителя. На некоторых участках доминантен ген отца, на других – матери. Для точной расшифровки человеческого генома следовало изучить не три, а шесть миллиардов пар оснований.