Книга Все лгут. Поисковики, Big Data и Интернет знают о вас всё, страница 16. Автор книги Сет Стивенс-Давидовиц

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Все лгут. Поисковики, Big Data и Интернет знают о вас всё»

Cтраница 16

В один прекрасный день я ввел в Google Correlate запрос «Уровень безработицы в США в период с 2004 по 2011 год».

Как вы думаете, какие из триллионов запросов в Google за это время оказались наиболее тесно связаны с безработицей? Вы можете подумать, что это «биржа труда» или что-то подобное. Да, количество таких запросов увеличилось, но не они были на самом верху списка. «Новые рабочие места»? Тоже много, но не первые.

Наиболее высокий уровень запросов за рассматриваемый мной период был со словами «Slutload». Вы верите? Чаще всего люди искали порнографический сайт с таким названием. Это может показаться странным – на первый взгляд. Но у безработных людей внезапно появляется очень много свободного времени. Многие из них застряли дома одни, и им скучно. Еще очень часто встречается запросов «игра «паук». Опять же, это не удивительно для группы людей, у которых, предположительно, внезапно оказалось очень много свободного времени.

Сейчас я не хочу спорить, но, основываясь на этом анализе, могу сказать: отслеживание «Slutload» или игры «паук» является лучшим способом прогнозирования уровня безработицы. Со временем могут появляться некоторые отклонения: безработные могут искать, например, «rawtube» – другой порносайт. Ни одно из этих условий само по себе не связано с увеличением числа безработных. Но в целом я обнаружил, что смесь подобных поисковых запросов позволяет адекватно оценивать уровень безработицы и является частью самой лучшей модели прогнозирования этого явления.

Данный пример иллюстрирует могущество больших данных: возможность переосмыслить то, что следует квалифицировать как данные. Часто наиболее ценным в больших данных является не их размер, а тот факт, что они могут предложить вам новые виды информации для исследования, которые никогда раньше не собирались.

До появления Google существовали сведения об определенных видах деятельности (например, о продаже билетов в кино), которые могут дать подсказки о том, каким количеством свободного времени располагают люди. Но возможность узнать, сколько из них раскладывают пасьянс или смотрят порно – это нечто новое, и это очень мощный ресурс. В данном случае эта информация способна помочь нам быстрее оценить состояние экономики – по крайней мере, до тех пор, пока правительство не научится быстрее проводить опросы и обобщать полученные данные.


Жизнь в кампусе Google в Маунтин-Вью, Калифорния, существенно отличается от той, которая кипит в штаб-квартире Goldman Sachs на Манхеттене. В 9 часов утра офисы Google почти пусты. Если в поле зрения оказывается кто-либо из работников, скорее всего, он пришел, чтобы съесть бесплатный завтрак – бананово-черничные блинчики, омлет и огуречную воду. Некоторых сотрудников может просто не быть в городе – они присутствуют на выездном заседании в Боулдере, в Лас-Вегасе или, возможно, принимают участие в бесплатном лыжном походе к озеру Тахо. Примерно в обеденное время волейбольная площадка и футбольное поле наполнятся людьми. Лучший буррито, который я когда-либо ел, был в мексиканском ресторане Google.

Как одна из крупнейших и наиболее конкурентоспособных технологических компаний в мире может быть настолько расслабленной и щедрой? Google собирает урожай больших данных так, как даже не снилось ни одной другой компании в мире. Это позволяет ей создать автоматизированный денежный поток. А также стать главным героем данной книги, ведь поисковые запросы в Google на сегодняшний день являются доминирующим источником больших данных. Но важно помнить: успех Google основан на сборе нового типа данных.

Если вы живете достаточно давно и пользовались интернетом еще в ХХ веке, то можете вспомнить различные существовавшие тогда поисковые системы – в частности, MetaCrawler, Lycos, AltaVista. И вы, наверное, помните, что эти поисковые системы были в лучшем случае не особо надежными. Иногда, если вам везло, им удавалось найти то, что вы хотели. Но нередко они не справлялись с этой задачей. Если в конце 1990-х годов вы вводили в самых популярных поисковиках запрос «Билл Клинтон», на вершине списка результатов мог оказаться случайный сайт с заголовком «Bill Clinton Sucks» («Билл Клинтон сосет») или сайт с неприличными анекдотами о Клинтоне. Вряд ли это можно считать самой актуальной информацией о тогдашнем президенте США.

В 1998 году появился Google, и результаты его поиска были несомненно лучше, чем у любого из его конкурентов. Если вы в 1998 году вводили запрос «Билл Клинтон» в Google, вам выдавался его веб-сайт, адрес электронной почты Белого дома и лучшие биографии этого человека, которые тогда существовали в интернете. Работа Google казалась волшебством.

Что же изменили основатели компании Google Сергей Брин и Ларри Пейдж?

Другие поисковые системы находили для своих пользователей веб-сайты, в которых чаще всего фигурируют фразы, введенные в поисковый запрос. Если вы искали информацию о Билле Клинтоне, эти поисковики нашли бы в сети сайты с наибольшим числом упоминаний Билла Клинтона. Существует множество причин, по которым эта рейтинговая система была несовершенной, и одной из них было то, что ее легко обмануть. Сайт с анекдотами, на странице которого будет написано «Билл Клинтон Билл Клинтон Билл Клинтон Билл Клинтон Билл Клинтон», в выдаче будет выше, чем официальный сайт Белого дома [10].

Брин и Пейдж нашли способ фиксировать новый тип информации, который был гораздо ценнее, чем простой подсчет слов. Нередко в публикуемых на сайтах статьях даются ссылки на другие ресурсы, которые могут быть полезными для понимания обсуждаемого вопроса. Например, если в статье в электронной версии «Нью-Йорк Таймс» упоминается Билл Клинтон, то читатели, кликнув на его имя, перейдут на официальный сайт Белого дома.

Каждый ресурс, создающий одну из таких ссылок, в некотором смысле, демонстрирует свою точку зрения на информацию по Биллу Клинтону. Брин и Пейдж сумели объединить все эти точки зрения на каждую тему. Их поисковик мог собрать мнения «Нью-Йорк Таймс» {46}, миллионы рассылок, сотни мнений блогеров и все остальное, что есть в интернете. Поскольку множество людей считают, что самая релевантная ссылка по запросу «Билл Клинтон» – его официальный сайт, его большинство людей и ищут, набирая слова «Билл Клинтон».

Вход
Поиск по сайту
Ищем:
Календарь
Навигация