Это, я бы сказал, имеет определенную ценность в качестве доказательства того, о чем вы, возможно, уже подозревали, но не имели достаточно данных для подтверждения своих подозрений. Подозревать – это одно, доказать – совсем другое. Но если все, на что способны большие данные – подтверждение ваших подозрений, это не будет чем-то революционным. К счастью, большие данные могут гораздо больше. Снова и снова они показывают мне, что все происходит совсем не так, как я предполагал. Вот некоторые примеры, которые вы могли бы счесть достаточно впечатляющими и неожиданными.
Можно предположить, что основной причиной расизма является экономическая незащищенность и уязвимость. Вы, естественно, подозреваете, что, когда люди теряют работу, их расизм усиливается. Но на самом деле при увеличении безработицы не увеличивается ни количество расистских поисковых запросов, ни число членов Stormfront.
Принято думать, что состояние тревожности в основном присуще жителям больших городов, где много высокообразованных людей. Городской невротик – это известный стереотип. Но количество запросов в Google, отражающих тревожность, таких как «симптомы тревожности» и «помощь при состоянии тревожности», как правило, выше в местах с низким уровнем образования, там, где меньше средний доход и где большая часть населения живет в сельской местности. То есть более высокий уровень числа поисковых запросов, связанных с тревожностью, в сельской местности, на севере штата Нью-Йорк, а не в самом Нью-Йорке.
Вы считаете, что теракт, в результате которого погибли десятки или сотни людей, автоматически приведет к широкому распространению массовой тревожности. Терроризм по определению должен внушать чувство страха. Я просмотрел поисковые запросы в Google, отражающие беспокойство, и отследил рост числа этих поисков по стране в последующие дни, недели и месяцы после каждой крупной террористической атаки в Европе или Америке, начиная с 2004 года. Итак, на сколько же в среднем выросло число поисковых запросов, связанных с тревожностью? Ни на сколько. Совсем.
Вы думаете, что люди чаще ищут анекдоты, когда им грустно. Многие из величайших мыслителей утверждали, что мы обращаемся к юмору как к обезболивающему. Юмор уже давно воспринимается как способ справиться с огорчениями, болью, неизбежными разочарованиями в жизни. Как выразился Чарли Чаплин: «Смех – это тоник, способ расслабиться, забыть о страданиях».
Тем не менее в понедельник – день с репутацией самого несчастливого – уровень поиска шуток самый низкий. То же можно сказать про пасмурные и дождливые дни. И этот уровень резко падает после крупной трагедии, например, когда в результате взрыва двух бомб погибло трое и были ранены сотни людей во время Бостонского марафона 2013 года. На самом деле люди предпочитают шутки, когда дела идут хорошо, а не наоборот.
Иногда новый массив данных выявляет такие поступки, стремления или отношения, которые я бы даже никогда и предположить не мог. В эту категорию попадают многочисленные сексуальные предпочтения. Например, известно ли вам, что в Индии большинство поисковых запросов начинается со слов «мой муж хочет…». Например: «Мой муж хочет, чтобы я кормила его грудью»
{11}. Этот запрос распространен в Индии гораздо больше, чем в других странах. Кроме того, уровень поиска по порносайтам изображений, где женщина кормит мужчину грудью, в Индии и Бангладеш в четыре раза выше, чем в любой другой стране. Я, конечно, никогда и не подозревал ни о чем подобном до того, как увидел эти данные.
Тот факт, что мужчины одержимы размером своего пениса, может, и не слишком неожиданный, но вот то, что вызывает наибольшую обеспокоенность у женщин, касаемо их тела, по данным Google, действительно вызывает удивление. Опираясь на эти новые данные, женским эквивалентом комплекса по поводу размера полового члена можно считать – выразительная пауза! – переживание о том, как пахнет их вагина. Женщины выполняют почти столько же поисков, выражая озабоченность по поводу своих гениталий, как и мужчины, беспокоящиеся о размере своих. Главной заботой женщины является ее запах и то, как она может его улучшить. Разумеется, я не знал этого, пока не обнаружил такие данные.
Иногда новые данные показывают культурные различия, о которых я даже не задумывался. Вот один пример: очень по-разному люди по всему миру реагируют на беременность своих жен. В Мексике топ-запросы «моя беременная жена» включают фразы «frases de amor para mi esposa embarazada» (признание в любви моей беременной жене) и «poemas para mi esposa embarazada»
{12} (стихи для моей беременной жены). В Соединенных Штатах топ поисковых запросов состоит из следующих фраз: «моя жена беременна – и что теперь?» и «моя жена беременна – что мне делать?».
Но эта книга больше, чем подборка странных фактов или единичных исследований, хотя в ней будет приведено много подобной информации. Поскольку эта методика совершенно новая и только набирает обороты, я изложу здесь некоторые идеи о том, как это работает и что делает ее столь революционной. Я также допускаю, что есть пределы больших данных.
Эйфория в связи с потенциальной информационной революцией вряд ли уместна. Большинство тех, кто без ума от больших данных, просто фонтанирует идеями применения этого колоссального массива информации. Такая одержимость не нова. До Google, Amazon и Facebook, до появления самого понятия «большие данные» состоялась конференция в Далласе – «Большие и сложные массивы данных». Джерри Фридман
{13}, профессор статистики Стэнфордского университета и мой коллега по работе в Google, вспоминает, что на конференции 1977 года один уважаемый статистик заявил о том, что накопил невероятные, ошеломляющие пять гигабайт данных. Затем встал следующий выдающийся статистик и начал со слов: «Последний оратор говорил о гигабайтах. Это ничто. У меня – терабайты». Другими словами, акцент выступлений сместился на то, как много информации можно накопить, вместо того чтобы сделать упор на то, что с этими накопленными данными можно сделать или на какие вопросы можно найти ответы. «Тогда мне показалось забавным, – сказал Фридман, – что все надеялись поразить слушателей тем, насколько большой набор данных им удалось собрать. И это продолжается до сих пор».
Сегодня слишком много специалистов по анализу и обработке данных накопили большие массивы информации, но они дают нам слишком несущественные сведения, например, что баскетбольный клуб Knicks пользуется популярностью в Нью-Йорке. Слишком многие компании просто утонули в больших объемах данных. У них много терабайт информации, но мало своих идей. На мой взгляд, значение количества данных часто переоценивается. И это легко заметить, учитывая один небольшой, но очень существенный момент: чем важнее явление, тем меньше число наблюдений необходимо, чтобы его обнаружить. Вам достаточно один раз прикоснуться к горячей плите, чтобы понять, насколько это опасно. Но, возможно, вам придется тысячи раз пить кофе, чтобы понять, вызывает ли он у вас головную боль. Какой фактор серьезнее? Очевидно, что горячая плита, которая в силу интенсивности своего воздействия позволяет получить мгновенный результат при минимальном объеме данных.