Коган считает это естественным развитием медицины, и даже не особо радикальным. «Что такое диагноз? – спрашивает он. – Диагноз, по сути, является утверждением, что вы оказались в той же ситуации, как и множество ранее изученных людей. Если я, не дай бог, диагностирую у вас инфаркт, то скажу, что у вас та же патофизиология, которую я уже видел у других людей с сердечным приступом».
Диагноз, по сути, является примитивным вариантом поиска двойника. Проблема в том, что наборы данных, которые используют врачи для его постановки, слишком маленькие. Сегодня диагноз основывается на опыте доктора, лечившего своих пациентов, и он может быть дополнен данными из научных статей о популяциях, с которыми работали другие исследователи. Как мы видели, поиск двойника может стать действительно полезной штукой – необходимо только, чтобы он включал в себя намного большую статистику.
Вот область, в которой большие данные на самом деле могут помочь. Так почему же на внедрение метода требуется столько времени? Почему он до сих пор широко не используется? Проблема заключается в сборе информации. Большинство медицинских заключений по-прежнему существуют только на бумаге и похоронены в папках. А те, которые оцифрованы, часто не могут быть использованы вследствие несовместимых форматов. «Мы нередко имеем больше информации о бейсболе, чем о здоровье», – говорит Коган
{133}. Но простые меры порой идут длинными путями. Ученый неоднократно говорил о «низко висящих плодах». Например, он считает, что даже просто создание базы данных, включающей информацию о росте и весе детей, а также обо всех возможных детских болезнях, стало бы революционным развитием педиатрии. После этого развитие каждого ребенка можно было бы сравнить с развитием любого другого ребенка. Компьютер помог бы найти детей, развитие которых идет по уже пройденному кем-то пути и автоматически предупредил бы обо всех тревожных моментах. Например, он был бы в состоянии обнаружить преждевременный рост ребенка, что в некоторых случаях может указывать на две возможные причины: гипотиреоз или опухоль мозга. Ранняя диагностика в обоих случаях принесет огромную пользу. «Подобные заболевания возникают достаточно редко – примерно одно на десять тысяч, – говорит Коган. – В остальном эти дети здоровы. Думаю, мы могли бы диагностировать болезнь раньше по крайней мере на год. Стопроцентно смогли бы».
Джеймс Хейвуд
{134} – предприниматель, использующий другой подход к решению проблемы объединения медицинских данных. Он создал сайт PatientsLikeMe.com, где люди могут сообщать данные о своих заболеваниях, методах лечения и возникающих побочных эффектах. И Джеймс уже добился большого успеха в отношении ряда болезней.
Его цель заключается в сборе достаточного количества информации о людях со сходными состояниями – чтобы впоследствии каждый мог найти своего двойника по здоровью. Хейвуд надеется, что таким образом можно будет найти людей нужных возраста и пола, с похожими историей и симптомами – и посмотреть, что им помогло. Это будет совсем другой тип медицины.
Истории, рассказанные данными
Во многих случаях детализация данных для меня ценнее локального поиска для конкретного исследования, поскольку она предлагает новый способ видения и описания жизненных процессов.
Когда люди узнают, что я – и ученый, занимающийся сбором и анализом данных, и писатель, они иногда делятся каким-либо фактом или результатами опроса. Я часто нахожу эти сведения скучными, обобщенными и лишенными жизни. Они не сообщают мне никаких интересных историй.
Помимо этого, друзья пытались уговорить меня начать читать различные романы и биографии. Но меня это тоже мало интересует. Я всегда спрашиваю себя: «Происходило ли подобное в других ситуациях? Каков более общий принцип?» Их истории кажутся мелкими и непоказательными.
Я попытался изложить в этой книге нечто, на мой взгляд, не имеющее аналогов. Оно основано на данных и цифрах; оно показательно и позволяет заглянуть далеко вперед. И при этом большие данные – настолько обширный материал, что позволяют представить себе описываемых ими конкретных людей. Когда мы составляем поминутный график расхода воды в Эдмонтоне, я вижу, как люди встают с дивана в конце хоккейного периода. Когда мы внимательно изучаем людей, переезжающих из Филадельфии в Майами и начинающих мухлевать с налогами, я вижу, как они разговаривают со своими соседями и узнают о налоговых трюках. Когда мы детально анализируем статистику о бейсбольных болельщиках разного возраста, я вижу свое детство, детство брата, а также миллионы взрослых мужчин, все еще неистово болеющих за команды, завоевавшие их сердца, когда им было по восемь лет.
Рискуя в очередной раз впасть в пафос, я должен сказать: упомянутые в этой книге экономисты и ученые, занимающиеся сбором и анализом информации, создали не просто новый инструмент, но новый жанр. В этой главе и в большей части этой книги я попытался описать данные – настолько подробные и многочисленные, что позволяют нам добиться предельно точной детализации. Не ограничиваясь информацией о каком-либо конкретном обычном человеке, мы с их помощью все еще можем рассказывать разнообразные и запоминающиеся истории.
Глава 6
Весь мир – лаборатория
27 февраля 2000 года
{135} в кампусе Google в Маунтин-Вью, начинался как обычный день. Светило солнце, велосипедисты крутили педали, массажистки занимались массажем, сотрудники увлажняли себе кожу огуречной водой. И вдруг в этот самый обычный день нескольким инженерам Google пришла в голову идея, оказавшая невероятное влияние на развитие интернета. Разработчики нашли наилучший способ заставить вас переходить на сайты, оставаться на них и возвращаться туда снова.
Прежде чем описывать то, что они сделали, мы должны поговорить о разнице между корреляцией и причинностью – это огромная проблема в области анализа данных, которой мы еще не уделили должного внимания.
СМИ каждый день бомбардируют нас результатами исследований на базе корреляций. Например, мы уже рассказывали, что физическое состояние у умеренно потребляющих алкоголь, как правило, лучше, чем у не умеющих остановиться. То есть наблюдается корреляция.
Значит ли это, что если пить немного, то здоровье улучшится – является ли это причинно-следственной связью? Пожалуй, нет. Скорее, потреблять алкоголь в небольших дозах людям позволяет как раз хорошее здоровье. Социологи называют это обратной причинно-следственной связью. Или, возможно, существует независимый фактор, приводящий как к нежеланию много пить, так и к хорошему здоровью. Например, если вы проводите много времени с друзьями, это приводит к потреблению алкоголя и крепкому здоровью. Социологи называют это смещением с опущенной переменной.