Книга BIG DATA. Вся технология в одной книге, страница 14. Автор книги Андреас Вайгенд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «BIG DATA. Вся технология в одной книге»

Cтраница 14
Артур Конан Дойль

Когда в начале 1990-х годов я окончил докторантуру и стажировался в научно-исследовательском центре Xerox PARC в Пало Альто, мы с помощью суперкомпьютера анализировали закономерности дорожного движения. Одной из наших задач было прогнозирование времени в пути. Будучи физиками, мы рассматривали дорожное движение как поток и пытались определить условия его перехода из ламинарного состояния в турбулентное, то есть когда плавное движение превращается в прерывистое. По современным меркам, исходных данных было немного, и для создания моделей дорожного движения нам приходилось делать множество допущений.

Сейчас проблема расчетного времени прибытия в пункт назначения решается просто: практически в каждой машине есть кто-то с мобильным телефоном, оценивающим движение в режиме реального времени. В этой области работает, в частности, выделившаяся из Microsoft компания Inrix. В ней анализируют данные геолокации более чем 100 миллионов личных телефонов, чтобы определить направления движения автомобилей (и, что еще более важно, места, куда они не едут) и вывести тренды перемещения людей и товаров [49]. Данные для своего анализа Inrix получает от операторов мобильной связи, с базовыми станциями которых связываются эти 100 миллионов мобильников. Обработанную информацию у Inrix покупают Garmin, MapQuest, Ford, BMW и другие компании, которые хотят предоставлять водителям услуги картографического отображения местности и планирования маршрута. Кроме того, Inrix консультирует местные власти по вопросам городского планирования, в том числе строительству новых мостов, установке светофоров и местоположению новых государственных больниц и других учреждений.

Работа Inrix с данными о дорожном движении – наглядный пример того, насколько агрегированные показатели множества устройств могут быть полезнее для принятия решений, чем первичные данные одного-единственного человека [50]. Упреждающие системы, действующие на основе анализа социальных данных, будут консультировать нас по вопросам персональных проблем, финансов, рабочих ситуаций, медицинского обслуживания и во многих других областях, а возможно, и стимулировать к принятию определенных решений.

Кроме того, на этом примере особенно хорошо заметна ключевая роль интерпретации в процессе обработки данных. Обработанные данные могут представляться в трех видах: как описание, прогноз или инструкция. Описание характеризует нечто уже состоявшееся. Прогноз экстраполирует прошлое и настоящее на будущее в предположении, что система не будет подвергаться воздействиям или манипуляциям, способным повлиять на результат. Инструкция рекомендует, как действовать для получения желаемого результата исходя из анализа прошлых событий.


BIG DATA. Вся технология в одной книге

ИНФОРМАЦИЯ

НЕ ДОЛЖНА

РУКОВОДИТЬ НАМИ.

ОНА ДОЛЖНА

РАСШИРЯТЬ СПЕКТР

НАШИХ ВОЗМОЖНОСТЕЙ

BIG DATA. Вся технология в одной книге

В описательной статистике данные обобщаются, например, в виде кластеров однородных элементов информации. Такие данные могут формировать условия для принятия решений в виде набора критериев для сравнительной оценки конкретной ситуации. Если вам нужно узнать, как в данный момент обстоят дела с пробками на Манхэттене, вы можете посмотреть по данным геолокации с мобильных телефонов, насколько быстро движутся и где встают потоки автомобилей. Но даже в таком относительно простом вопросе присутствует элемент интерпретации. Скорее всего, вы увидите данные о большом скоплении автомобилей в районе небоскреба MetLife. Но, может быть, это следствие того, что MetLife находится рядом с вокзалом Гранд Сентрал, где всегда полно такси, ожидающих пассажиров, и самих пассажиров, садящихся в такси, и поэтому мобильные телефоны показывают как бы «остановившееся» движение? Если вам нужно узнать, насколько хорошо идет предрождественская торговля в вашем магазине в этом году, вам нужно не только подытожить продажи, но и найти подходящую базу для сравнения. Сопоставление с вашими же данными за аналогичный период прошлого года не будет полностью корректным, поскольку в таком случае не будут учтены изменения, случившиеся в местной экономике. Вместо этого вы можете сравнить результаты своего магазина с результатами похожих магазинов по соседству.

Когда я работал в Amazon, мы исследовали динамику промежутков времени между просмотром товара и его покупкой. Некоторые статистические значения были явно ошибочными – они были отрицательными, а человек физически не может купить товар прежде, чем просмотрит его. Мы не знали, почему происходит такая ошибка, и просто не стали учитывать такие данные. При этом у нас накопилась масса данных, указывающих на то, что многие пользователи выжидают по восемь часов, прежде чем совершить покупку. Очень странно. И только потом мы сообразили, что, поскольку часть компьютеров Amazon настроена в тихоокеанском часовом поясе США, а часть – по Гринвичу, эта разница отражает различие во временных поясах применительно к кликам. Как часто случается, то, что сначала казалось шагом к интересным новым представлениям, в итоге объяснилось обычной ошибкой.

Интерпретация данных – итеративный процесс. Вот один из примеров этого. Одна авиакомпания решила провести целевую рекламную кампанию для потенциальных пассажиров бизнес-класса и поручила группе специалистов по работе с данными выявить владельцев смартфонов, регулярно прибывающих и убывающих через нью-йоркский аэропорт имени Дж. Ф. Кеннеди. Проблема состояла в том, что людьми, регулярно посещающими любой аэропорт, являются вовсе не бизнесмены, а сотрудники авиакомпаний и самого аэропорта. Аналитики убедились в этом по данным с телефонов, показывающим закономерности перемещений их владельцев. Часть постоянных посетителей ежедневно приезжала и уезжала по четкому сменному графику – это были работники аэропорта. Труднее оказалось выделить экипажи самолетов, базирующихся в Нью-Йорке, но и их удалось более или менее точно вычислить по сайтам и приложениям, которыми они пользовались через wi-fi аэропорта: поиск отеля или авторизация в Uber для заказа машины для них были редкостью, а вот в приложения для знакомств они заходили очень часто [51].

Вход
Поиск по сайту
Ищем:
Календарь
Навигация