Книга BIG DATA. Вся технология в одной книге, страница 13. Автор книги Андреас Вайгенд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «BIG DATA. Вся технология в одной книге»

Cтраница 13

Ошибки свойственны любой информации. Во времена небольших данных люди, собиравшие информацию, считали своим долгом досконально разобраться в ней и лично вычистить и исправить ошибки. И это было очень хорошо, поскольку от информации, полученной от небольшого количества людей, иногда зависели решения, затрагивающие всю общину или даже целый штат. Ошибка в количестве заявок на пособие по безработице, полученных за неделю в каком-то штате (например, опечатка вроде «254» вместо «2541»), могла привести к искажению данных по безработице, которые в свою очередь влияют на государственную экономическую политику. Долгосрочное исследование тенденций занятости, которое проводит Статистическое управление министерства труда США, охватывает выборку примерно в 10 000 человек, то есть основывается на порядке цифр, сопоставимых с количеством отзывов сотрудников Amazon на Glassdoor [47].

Разумно предположить, что доля ошибочной информации не снижается пропорционально росту количества собранных данных. Если в наши дни мы имеем доступ к объему информации, в сто раз превышающему прежний, можно ожидать, что и количество ошибок в этом потоке увеличится в сто раз. Но теперь у нас нет возможности отслеживать и вычищать каждую ошибку в массиве информации.

Однако решение проблемы экспоненциального роста количества ошибочной информации содержится в самом факте экспоненциального роста объемов данных. Поскольку люди постоянно реагируют на продукцию инфопереработки созданием новых данных, алгоритмы могут учиться выявлять то, что может являться ошибкой ввода. Если в строке поиска ввести «Андреас Вайганд», Google поинтересуется, не имелся ли в виду «Андреас Вайгенд».

Объединяя данные из многих источников, инфопереработка может выявлять наши ошибки во входящей информации. В июле 2012 года в моем смартфоне появился сервис под названием Google Now. Он сканировал мою электронную почту в поисках информации из моих электронных авиабилетов и сообщал о статусе рейсов, делая это даже раньше авиакомпаний. Казалось бы, все просто. Но этому сервису все же удалось удивить меня степенью продвинутости анализа данных. Как-то утром, когда я только собирался паковать свои чемоданы перед отъездом из Фрайбурга, приложение сообщило, что я должен выезжать в аэропорт немедленно. По моему графику до рейса оставалось еще несколько часов, а авиакомпании обычно не сдвигают регулярные перелеты вперед больше чем на пару минут. Тем не менее я доверял Google Now больше, чем своему календарю, и решил пошевеливаться – возможно, сервис узнал об огромной пробке на дороге. Приехав в аэропорт, я понял, что неправильно ввел время рейса в календарь. Google Now проигнорировал данные, введенные вручную, и послал мне напоминание исходя из информации в моем электронном билете в Gmail. (А спустя три года Google Now автоматически вносит расписание рейсов в мой календарь сразу же после того, как электронные билеты попадают в мою почту.)

Мы уже свыклись с тем, что инфопереработчики указывают нам на подобные ошибки и исправляют их. Это полезные услуги. Вопрос в том, будем ли мы готовы принимать схожие корректировки в других областях своей жизни по мере того, как создаем и распространяем все больше личной информации.

Инфопереработке приходится также разбираться и в том, что является сигналом, а что шумом. На статистическом жаргоне сигналом называется значимая информация, а шумом – случайная и потому не имеющая значения. Сложность социальных данных в том, что различия между сигналом и шумом варьируются в зависимости от конкретного пользователя и конкретной ситуации. Когда ваш френд из Facebook ставит тэг на фото, где вы отсутствуете, что это – сигнал или шум? Когда как. Если он поставил тэг по ошибке, перепутав вас с Эндрю, который идет следующим в списке его друзей, то это шум, то есть статистический эквивалент статическим помехам в вашем радиоприемнике. А если он поставил тэг сознательно, желая ввести в курс запечатленных событий вас и ваших френдов, то это сигнал, хотя, возможно, и раздражающий. То есть, на языке статистиков, это не шум.

Обратная связь от пользователей играет важнейшую роль в совершенствовании алгоритмов обработки информации. Я не имею в виду необходимость заполнения опросников для потребителей или участия в фокус-группах. Поддержание и развитие постоянного диалога с пользователями позволяет инфообработчикам совершенствовать свои продукты и услуги и делать их более персонифицированными. Каждый сделанный вами выбор позволяет скорректировать иерархию вариантов. Но и вы сами тоже учитесь изменять формулировки своих поисковых запросов так, чтобы результаты в большей степени соответствовали ожиданиям. Не просто избегать опечаток, а правильно акцентировать свой интерес к различным аспектам темы или товарным категориям.

Тем не менее ваше взаимодействие с сайтом или приложением ограничивается предлагаемым набором опций. Я полагаю, что уточнение поисковых запросов стало бы намного более динамичным процессом, если бы пользователи имели возможность поиграть с вариантами инфопереработки примерно так же, как мы с коллегами делали это в музыкальных рекомендациях MoodLogic. По мере возрастания количества отзывов работников на Glassdoor порталу стоило бы придумать способы уточнения этой информации, чтобы сделать ее еще более полезной. Это может быть некая модель, позволяющая выделить наиболее интересные данному пользователю оценки не только по признакам названия позиции или ее географического положения, но и по другим характеристикам, которые предоставляют сайту (например, карьерные цели или предпочтения по условиям труда). Но вне зависимости от количества входящей информации оценки все равно будут содержать элемент неопределенности.

Информационная грамотность означает понимание того, что любая рекомендация представляет собой величину вероятности и что любое решение есть компромисс между уровнем риска и размером извлекаемой выгоды, причем даже в тех случаях, когда на фоне больших объемов данных неопределенность кажется весьма незначительной. Инфопереработка не должна принимать решения за вас. Она должна предоставить вам возможность использовать намного большее количество информации, что позволит частично устранить риск ошибки.

С помощью инфопереработки мы получаем возможность использовать и анализировать обширные исторические данные, выявлять закономерности и делать прогнозы трендов, не все из которых оказываются правильными. Подобный подход к осмыслению информации и самих себя сильно отличается от привычного для подавляющего большинства людей.

Превращение информации в решения

Факты! Факты! Факты! – нетерпеливо восклицал Холмс. – Я не могу лепить кирпичи без глины [48].

Вход
Поиск по сайту
Ищем:
Календарь
Навигация