Фридман бросил генетику, потому что в первой четверти ХХ века (по крайней мере на фермах) генетикам приходилось слишком много времени просто сидеть вокруг и ждать, пока глупые звери начнут размножаться: это было больше похоже на животноводство, чем на научный анализ данных. Если бы Фридман родился поколением-двумя позже, он бы смог взглянуть на те же вещи совершенно иначе. К 1950-м годам биологи уже регулярно ссылаются на пары оснований А-Ц-Г-Т как на биологические «биты» и на генетику в целом как на код, который нужно взломать. Генетика окончательно превратилась в анализ данных и продолжала развиваться в этом направлении – в том числе благодаря работе более молодого последователя Уильяма Фридмена – инженера Клода Шеннона. Его работы охватывают как криптографию, так и генетику.
Ученые регулярно цитируют магистерскую диссертацию Шеннона, написанную 21-летним студентом Массачусетского технологического института в 1937 году: эта работа признается самой важной магистерской диссертацией в истории. В ней Шеннон изложил метод комбинирования электронных схем и элементарной логики для проведения математических операций. С помощью этого метода молодой ученый мог проектировать схемы для выполнения сложных вычислений, на которых основываются все цифровые цепи. Десять лет спустя Шеннон написал статью об использовании цифровых цепей для кодирования сообщений и более эффективной их передачи. Едва ли будет преувеличением сказать, что благодаря этим двум открытиям были с нуля созданы современные цифровые коммуникации.
Совершая судьбоносные открытия, Шеннон находил время и для других занятий. В своем офисе он любил жонглировать, ездить на одноколесном велосипеде, а порой делать и то и другое одновременно. Дома он постоянно возился со всяким хламом в подвале. Среди его прижизненных изобретений – фрисби с ракетным двигателем, палочки пого с моторчиком, машины для сборки кубика Рубика, механическая мышь по имени Тесей, выбирающаяся из лабиринтов, программа THROBAC, проводящая вычисления в римских цифрах, и «переносной компьютер» размером с пачку сигарет, предназначенный для того, чтобы срывать банк на рулетке
[25].
Шеннон проявил интерес к генетике и в своей докторской диссертации, которую защитил в 1940 году. В то время биологи дорабатывали такой вопрос, как связь между генами и естественным отбором, но многих из них отпугнул большой объем статистики. Хотя позже Шеннон признавался, что в то время почти не разбирался в генетике, он погрузился в эту проблему. Он постарался сделать для генетики то, что уже сделал для электронных схем: свести все сложности к простым алгебраическим расчетам, в результате чего для любых вводных данных (генов в популяции) можно легко и быстро рассчитать результаты (какие гены будут успешно развиваться, а какие – исчезнут). Шеннон посвятил этой статье несколько месяцев, а потом, после защиты докторской, был окончательно соблазнен электроникой и больше никогда не возвращался к генетике. Впрочем, это неважно. Его новая работа послужила основой для информационной теории: настолько универсальной области знаний, что она и без непосредственного участия Шеннона начала активно применяться в генетике.
В соответствии с теорией информации Шеннон определяет, как передавать сообщения с наименьшим количеством ошибок – цель, которую реализовали биологи, аналогична разработке лучшего генетического года, минимизирующего количество ошибок в строении клетки. Кроме того, биологи приняли работы Шеннона об эффективности и избыточности различных языков. Как однажды подсчитал Шеннон, английский язык как минимум на 50 % является избыточным (бульварный роман Реймонда Чандлера, который он исследовал, и вовсе оказался избыточным на 75 %). Биологи также изучали эффективность, так как, согласно естественному отбору, эффективные организмы являются и более здоровыми. Соответственно, менее избыточная ДНК, по их выводам, приведет к тому, что клетка будет накапливать больше информации и быстрее ее обрабатывать, что является серьезным преимуществом. Однако членам клуба галстуков РНК известно, что ДНК в этом отношении более чем неоптимальна. Целых шесть триплетов А-Ц-Г-Т для одной-единственной аминокислоты – чрезвычайная избыточность! Если бы клетки экономили и использовали меньшее число триплетов для аминокислоты, они бы могли собирать больше аминокислот, чем канонические 20, что открыло бы новые горизонты молекулярной эволюции. Ученые в действительности доказали, что должным образом подготовленные клетки в лабораторных условиях могут использовать до 50 аминокислот.
Однако если у избыточности есть недостатки, то, как указывал Шеннон, должны быть и достоинства. Некоторая избыточность языка гарантирует, что мы сможем поддержать беседу, даже если некоторые слоги или целые слова будут утрачены. Блшнств лдй бз прблм мжт прчт прдлжн с прпснн бкв. Другими словами, если слишком большая избыточность отнимает время и энергию, небольшая – препятствует появлению ошибок. Применительно к ДНК избыточность тоже имеет смысл: это делает менее вероятным появление неверных аминокислот в результате мутаций. Более того, биологи подсчитали, что даже если мутация внедрит в организм неправильную аминокислоту, мать-природа подтасует так, что в любом случае шансы на то, чтобы новая аминокислота имела те же физические и химические характеристики и, следовательно, сложилась надлежащим образом, увеличатся. Это можно назвать аминокислотой-синонимом, так как клетки могут сохранить смысл «предложения».
Избыточность может иметь место и за пределами генов. Некодирующая ДНК – длинная последовательность ДНК между генами – содержит некоторые слишком избыточные отрезки символов, которые выглядят так, как будто кто-то не глядя провел пальцами по клавиатуре природы. Хотя эти и прочие участки кажутся мусором, ученым неизвестно, действительно ли такие последовательности не представляют никакой ценности. Один ученый задумался: «Геном – это низкопробный роман, в котором можно вырвать сто страниц, и ничего не изменится, или же он больше похож на произведение Хемингуэя, где вся сюжетная линия может потеряться из-за утраты одной страницы?» Однако в ходе исследований мусорной ДНК, в которых применялись теоремы Шеннона, обнаружилось, что их избыточность во многом похожа на избыточность в языке – это может значить, что некодирующая ДНК имеет еще не открытые лингвистические возможности.