Хотя в этом докладе основное внимание уделялось переводу с одного языка на другой, он обобщил понимание того, каким должен быть подход для успеха основного поискового сервиса Google. Достигнутое понимание того, что «простые модели и множество данных лучше, чем более сложные модели, основанные на меньшем количестве данных», стало основополагающим для прогресса во всех областях и легло в основу работы множества компаний Кремниевой долины. Еще более важное значение это имеет для последних достижений в области искусственного интеллекта.
В 2008 году Дж. Патил из компании LinkedIn и Джефф Хаммербачер из Facebook ввели термин «наука о данных», чтобы описать свою работу. Они дали название сфере деятельности, которую несколько лет спустя журнал Harvard Business Review назвал «самой сексуальной работой XXI века». Понимание менталитета науки о данных, подхода к ней и того, чем она отличается от старых методов программирования, имеет решающее значение для всех, кто решает сложные задачи XXI века.
Из того, как Google работает над качеством поиска, можно извлечь важные уроки. Вначале корпорация Google взяла на себя обязательство выдавать результаты поисковых запросов, основываясь на статистических методах, с явно предвзятым отношением к устранению проблем вручную. Ответ на поисковый запрос «Питер Норвиг» должен содержать такие вещи, как его страница в Википедии и его биография на официальном сайте компании, – это должно было находиться вверху поисковой выдачи. Если какая-то страница низкого качества выходила в топ, одним из способов исправить это могло бы стать добавление правила «для запроса «Питер Норвиг» не позволять такой-то странице выходить в топ-10». Google решил не делать этого, а искать корень проблемы. В этом случае решением могло стать нечто вроде «при поиске любого известного человека отдавать предпочтение высококачественным энциклопедическим источникам (например, Википедии)».
Функция приспособленности Команды качественных поисковых запросов Google всегда была актуальной: нашел ли пользователь то, что искал? Один из сигналов, используемых сейчас Google, предельно ясно отражает идею – это сравнение «длинного клика» с «коротким кликом». Если пользователь переходит по первому выданному результату поиска и не возвращается, он, скорее всего, удовлетворен результатом. Если пользователь нажимает на первый результат поиска, проводит некоторое время на этой странице, а затем возвращается, чтобы щелкнуть по строке второго результата, скорее всего, он не совсем удовлетворен. Если пользователи возвращаются сразу же, это сигнал того, что они увидели совсем не то, что искали, и так далее. Если «длинный клик» отмечается на втором, или третьем, или на пятом результате чаще, чем на первом, возможно, этот результат наиболее актуален. Когда один человек делает это, это может быть случайностью. Когда миллионы людей делают один и тот же выбор, это, безусловно, сообщает вам нечто важное.
Статистические методы становятся не только все более мощными; они становятся все более быстрыми и более утонченными. Если наши разработчики программного обеспечения когда-то клепали роботизированные механизмы, то теперь они производят нечто больше похожее на джиннов, могущественных независимых духов из арабской мифологии, которых можно заставить исполнять наши желания, но которые так часто искусно интерпретируют желание своего хозяина в максимально невыгодном для него свете. Подобно метле из диснеевской версии фильма «Ученик чародея», алгоритмические джинны делают все, о чем мы их попросим, но их трактовки могут быть слишком бестолковыми и однобокими, что приводит к непредвиденным и иногда пугающим результатам. Как нам добиться того, чтобы они делали то, что мы их просим?
Управление ими – это процесс сравнения результатов программ и алгоритмов с некой идеальной целью плюс проведение тестирований, чтобы определить, какие изменения приблизят вас к этой цели. В отношении некоторых приложений, таких как поисковый робот Google, ключевыми функциями для анализа могут быть скорость, полнота и новизна. В 1998 году, когда была основана компания Google, сканирование и индексирование веб-страниц происходило каждые несколько недель. Сегодня это происходит практически моментально. В случае определения актуальности это вопрос сравнения результатов программы с тем, что мог бы ожидать информированный пользователь. На первых этапах работы Google эта практика была довольно примитивной. В документе, посвященном поиску Google, опубликованном в то время, когда они еще учились в Стэнфорде, основатели Google Ларри Пейдж и Сергей Брин писали: «Функция ранжирования имеет множество параметров… Выяснить правильные значения этих параметров – это что-то из области черной магии».
Разработчики Google сообщают, что количество сигналов, используемых для расчета релевантности, выросло до 200, а гуру маркетинга в области поисковых систем Дэнни Салливан считает, что может существовать до 50 000 подсигналов. Каждый из этих сигналов измеряется и вычисляется с помощью комплекса программ и алгоритмов, каждый из которых имеет свою собственную функцию приспособленности, которую он стремится оптимизировать. Результатом этих функций является оценка, которую вы можете рассматривать как цель главной функции приспособленности, предназначенной для оптимизации релевантности.
У некоторых из этих функций, таких как PageRank, есть имена, им даже посвящены научно-исследовательские материалы, объясняющие их значение. Другие являются коммерческой тайной, известной только командам инженеров, которые создают их и управляют ими. Многие из них представляют собой коренные улучшения в искусстве поиска. К примеру, дополнение, которому корпорация Google дала название «Граф знаний», позволило связать известные ассоциации между структурами различного вида, такими как даты, люди, места и организации, и различать, например, что человек может «родиться» тогда-то, «работать» там-то, являться «дочерью» того-то или «матерью» такого-то, «проживать» там-то и т. д. Эта работа была основана на базе данных, созданной компанией Metaweb, которую в 2010 году приобрела корпорация Google. Когда Metaweb представила свой проект в марте 2007 года, я с восторгом написал: «Они создают новые синапсы для глобального мозга».
Другие компоненты для всеобъемлющего алгоритма поиска были созданы в ответ на изменяющиеся условия в этом глобальном мозге, коллективное выражение мнений миллиардов взаимосвязанных людей. Например, корпорация Google сначала изо всех сил пыталась адаптироваться к потоку информации, поступающий из Twitter в режиме реального времени; алгоритмы также должны были быть откорректированы, поскольку смартфоны сделали видео и изображения в Интернете такими же доступными, как текст; поскольку все больше и больше поисковых запросов поступало с мобильных устройств, точное местоположение которых было известно, локальные результаты стали гораздо более важными; с появлением голосового ввода стиль речи поисковых запросов стал более разговорным.
Google постоянно пробует новые идеи, которые могут обеспечить лучшие поисковые результаты. В интервью 2009 года вице-президент Google по поисковым запросам Уди Манбер отметил, что в прошлом году они провели более 5000 экспериментов и «возможно, по 10 экспериментов для каждого успешного запуска». Корпорация Google внесла изменения в алгоритм, определила новый коэффициент ранжирования, от 100 до 120 раз в квартал, или в среднем один раз в день. С тех пор эта скорость только увеличивалась. В области рекламы проводилось еще больше экспериментов.