Разумеется, существуют данные, которые имеет смысл хранить очень долго. Банки и брокерские дома могут поддерживать отношения с клиентами на протяжении нескольких последних лет и даже десятилетий. Для них важно хранить информацию о каждом вкладе, сделанном каждым клиентом, и о каждом обмене имейлами опять-таки с каждым клиентом. Это позволяет им улучшить качество обслуживания с течением времени, а также обеспечить себе правовую защиту. В этом случае собираемые данные также хранятся практически вечно, как и было заведено при традиционном подходе.
Итак, ключевое положение этого раздела состоит в том, что организации должны изменить свои подходы к сбору, накоплению и хранению данных. Поначалу вам может быть некомфортно от мысли о том, что некие данные вы упускаете и сознательно удаляете уже собранные. Но в эпоху больших данных делать это необходимо.
Интернет вещей грядет
Концепция Интернета вещей неуклонно привлекала все больше внимания в 2013-м и начале 2014 г. Речь идет обо всех «вещах», работающих онлайн и взаимодействующих друг с другом и с нами. По мере того как датчики и коммуникационные технологии дешевеют, всё больше вещей становятся «умными», приобретая способность оценивать обстановку и передавать информацию. Уже обыденными стали подключенные к Интернету холодильники и часы, которые регулярно отправляют и получают информацию.
Интернет вещей способен порождать огромные массивы данных. В этом он даже может опередить все остальные источники больших данных. Примечательно, что значительная часть генерируемых им данных нередко носит чисто функциональный характер. Любая коммуникация длится очень недолго и может содержать только упрощенную информацию. Например, часы могут получать информацию об обновлении времени из надежного внешнего источника, а затем передавать ее другим часам в домашней сети. В совокупности это создает обширный объем данных, но в большинстве своем у них крайне низкая ценность и крайне короткий срок пригодности.
Многие примеры, описанные в этой книге, можно отнести к сфере Интернета вещей, скажем показания датчиков. Такие умные устройства, «разговаривающие» друг с другом, принесут благо и компаниям, и потребителям. По мере того как все больше вещей вокруг нас приобретают способность сообщаться между собой, перед нами открываются новые возможности:
• Ваш дом изучит ваши предпочтения касательно освещения, отопления и т. п., а затем будет автоматически подстраивать эти функции для вас.
• Такие приборы, как лампочки и освежители воздуха, будут предупреждать вас о необходимости их скорой замены.
• Холодильники будут автоматически выдавать вам списки покупок, учитывая ваше потребление и сроки годности хранящихся продуктов.
• Видео– и аудиоконтент будет плавно следовать за вами из комнаты в комнату, избавляя вас от необходимости что-либо включать и выключать.
• Датчики на вашем теле или рядом с ним будут отслеживать ваш режим сна, потребление калорий, температуру тела и сообщать эти и массу других всевозможных показателей.
Наши вещи могут стать крупнейшим источником персональных данных
Интернет вещей надвигается с быстрой скоростью. Недолго осталось ждать того времени, когда многие из наших личных вещей, больших и малых, будут обладать датчиками и способностью к сообщению. Объемы данных, генерируемых нашими вещами, превзойдут все персональные данные, что мы собираем сегодня. Личные фотографии и видео будут составлять лишь малую долю в общем объеме всех сообщений, отправляемых нашими вещами.
В то время как Интернет вещей будет производить, возможно, один из самых больших объемов данных, последние, вероятно, будут фильтроваться гораздо жестче по сравнению с другими данными. В результате объем, который мы решим оставить, может быть вполне управляемым. Мы позволим всем нашим вещам свободно сообщаться на постоянной основе, а отлавливать будем только самые важные части этого взаимодействия. Более подробно рассмотрим эту концепцию в шестой главе.
Вскоре Интернет вещей станет очень горячей и популярной темой. Я не могу уделить ей того должного внимания, которого она заслуживает. Но, как это произошло и с феноменом больших данных, вскоре в изобилии появятся книги и статьи, посвященные Интернету вещей. Заинтересованные читатели должны внимательно следить за развитием этого тренда. Как свидетельствуют многие из примеров, использованных в книге, операционная аналитика во множестве будет опираться на данные, поставляемые из окружающих нас вещей. Тогда Интернет вещей станет компонентом аналитической стратегии практически каждой организации.
Помещаем большие данные в правильный контекст
Как большие данные вписываются в общую картину? В чем их специфика? Что будет с ними дальше? Эти типичные вопросы возникают у большинства организаций. Как и в любой другой относительно новой области, возникает немало путаницы и разногласий по поводу того, чем являются большие данные на самом деле. В этом разделе мы рассмотрим ряд тем и концепций, которые следует усвоить, чтобы поместить большие данные в правильный контекст. Это позволит гораздо эффективнее включить их в процессы операционной аналитики и добиться успеха.
Данные не столько большие, сколько разнообразные
Как мы уже отмечали ранее в этой главе, именно новая информация, которую содержат большие данные, делает их такими захватывающими. И также отмечали, что многие люди считают, будто сложность в управлении большими данными проистекает из их объема. Но отнюдь не объемом выделяются многие источники больших данных. Часто главная сложность связана с тем, что новая информация обнаруживается в данных разного типа или формата и может потребовать различных аналитических методологий.
Большинство данных, собиравшихся ранее для анализа в мире бизнеса, носили деловой или описательный характер и были хорошо структурированы. Это значит, что информация в них была представлена в четко установленной и легко читаемой форме. Например, колонка под названием «Продажи» в электронной таблице содержала только суммы в долларах. Менее структурированные данные, такие как письменные документы или изображения, считались непригодными для целей анализа. Сейчас, в эпоху больших данных, организации сталкиваются с новыми типами и форматами данных, многие из которых структурированы не так, как традиционные источники. Датчики выдают информацию в специальных форматах. Данные GPS устанавливают местонахождение людей и вещей в пространстве. Часто возникает необходимость определить, насколько крепки взаимоотношения между людьми или организациями. Все это принципиально разные типы данных в плане как формата, так и способов их анализа. О различных типах анализа мы поговорим в седьмой главе.
Главная сложность не в объеме, а в разнообразии
Несмотря на то что основное внимание привлекает «громадность» больших данных, зачастую реальную сложность представляет их разнообразие. Существует множество новых источников данных во множестве новых форматов, содержащих новые типы информации. Определить, как извлечь из этого разнообразия нужную информацию, может потребовать больше усилий, чем определить, как масштабировать аналитические процессы.