Книга Как вытащить из данных максимум. Навыки аналитики для неспециалистов, страница 16. Автор книги Джордан Морроу

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Как вытащить из данных максимум. Навыки аналитики для неспециалистов»

Cтраница 16

Что еще могут делать специалисты по данным в мире дата-грамотности? Мы установили, что не каждому нужно быть узким специалистом, но каждому нужна дата-грамотность. Так какое место в этом мире должны занимать узкоспециальные технические методы обработки и анализа? В организации должно – я подчеркиваю, должно – быть место для обработки данных в чистом виде. Это гарантирует, что люди, обладающие соответствующими профессиональными навыками, смогут строить работающие аналитические модели. Обработка данных в чистом виде – это использование данных для тестирования, построения гипотез, применения статистических методов, прогнозирования, моделирования, создания алгоритмов и т. д. Это техническая часть нашей мозаики. И она необходима каждой организации. Только в этом случае данные и дата-аналитика обретают истинную силу. А чтобы все подразделения и сотрудники организации смогли воспользоваться этой силой, необходима эффективная коммуникация.

Дата-грамотность и визуализация данных

Мир дата-грамотности огромен и состоит из множества движущихся частей, но есть один элемент, способный облегчить работу буквально всем: визуализация данных. Что это такое? Это упрощенный подход к изучению данных. Представьте себе, что вам нужно проанализировать таблицу данных из 100 000 строк и 50 столбцов. Обрадует вас такая перспектива? Визуализация данных дает возможность упрощать большие объемы данных, поскольку мы с вами способны воспринимать зрительные образы. Поясню на примерах.

Рис. 4.2 представляет собой одну из моих самых любимых визуализаций. Мы можем проследить за походом Наполеона в Россию 1812 года и увидеть, как таяла его армия. И все это – в упрощенном виде. А теперь представьте себе те же данные, но в виде объемной таблицы. Или в виде множества публикаций в различных журналах (и вам нужно выискивать цифры самостоятельно, а затем составлять целостную картину). Много удовольствия вы бы получили, пытаясь таким образом понять, что же произошло с армией? Эта визуализация помогает упростить представление о наполеоновском походе.

Слышали ли вы про вспышку холеры, которая произошла в XIX веке в Лондоне на Брод-стрит (ныне Бродвик-стрит)? Если нет, взгляните на рис. 4.3. Это очень интересное исследование: визуализация данных помогла обществу сдержать эпидемию опасного заболевания. Врач Джон Сноу определил, что источником вспышки холеры стала загрязненная вода из водоразборной колонки, которой пользовалось множество людей. Получив нужную информацию, власти Лондона установили причинно-следственную связь и распорядились закрыть колонку, что предотвратило дальнейшее распространение болезни. Согласитесь, визуализация данных сработала на удивление эффективно!

Эти примеры показывают, как полезно упрощать представление данных. А теперь давайте разберемся, что же такое визуализация. Слишком глубоко закапываться в эту тему мы не будем, лучше полистайте замечательную «Большую книгу об информационных панелях» (The Big Book of Dashboard) С. Векслера, Дж. Шеффера и Э. Котгрейва, – но все же давайте слегка коснемся вопроса.


Как вытащить из данных максимум. Навыки аналитики для неспециалистов
Как вытащить из данных максимум. Навыки аналитики для неспециалистов

Искусство визуализации данных уходит корнями в глубокое прошлое. Наши предки при помощи визуальных способов передачи информации рассказывали целые истории. Такие истории мы видим в древнеегипетских иероглифах, в письменности народов Мезоамерики. Как визуализация пробила себе путь в мир данных? Кто-то вспомнит про первые статистические измерения, визуализированные сотни лет назад, про первые графики или диаграммы – про них написаны сотни книг и статей. А мы, пожалуй, перенесемся в современный мир визуализации данных и бизнес-информации.

Еще раз зададимся вопросом из начала этого раздела: кто из вас с радостью взялся бы просеивать информацию из огромной таблицы на 100 000 строк и 50 столбцов в надежде почерпнуть ценные знания? Если бы мне предложил такое мой начальник, я посмотрел бы на него как на ненормального. Вряд ли многие из вас взялись бы за такую работу с энтузиазмом – и это вполне понятно. Даже если вы обнаружите что-то ценное в начале таблицы, где гарантия, что через 24 000 строк ваш инсайт не будет опровергнут, а вы этого даже не поймете, потому что пропустили строку 174 в столбце 26? Слежение за строками и столбцами способно свести с ума кого угодно. Конечно, это гипотетический пример, и я очень надеюсь, что никто из вас в обозримом будущем не столкнется ни с чем подобным.

Однако есть прекрасный способ упрощения подобных таблиц, который поможет вам и вашей организации описать случившееся (дескриптивный анализ) и получить ценные знания (диагностический анализ). Это и есть визуализация данных. Она способна упростить огромный объем данных, собранных и произведенных организациями, и, кроме того, играет очень важную роль в дата-грамотности и ее связи с четырьмя уровнями аналитических методов. Сейчас поясню.

Для начала давайте рассмотрим влияние визуализации на дата-грамотность. Все это вам уже знакомо. Вспомним определение: дата-грамотность – это способность читать данные, работать с ними, анализировать их и общаться на языке данных. Мало кто из нас специально изучал статистику, и, когда руководители организации пытаются демократизировать данные, большинство сотрудников оказываются не в состоянии воспринимать их как есть. Им требуются специальные компьютерные программы, чтобы упростить представление. Здесь-то в игру и вступает ценнейший инструмент работы с данными – визуализация. Такие компании, как Qlik, Tableau Software и ThoughtSpot (и это лишь некоторые), разрабатывают специальное ПО для упрощенного представления данных. Читать данные и работать с ними становится легче, мы можем ставить правильные вопросы и делиться с другими визуализациями – и нередко это способно сдвинуть с мертвой точки даже самую запутанную ситуацию. Сотрудники изучают данные, прорабатывая их на каждом из четырех аналитических уровней, и черпают ценные знания. Как?

Визуализация особенно важна на первом уровне аналитических методов. Как вы помните, первый уровень – это дескриптивная аналитика, описывающая, что произошло в прошлом или происходит в настоящий момент. А как описать происходящее, если у нас собраны миллионы и миллионы единиц данных? Все эти данные мы можем объединить, например, в графики и таким образом получить убедительную визуализацию, которая впоследствии поможет нам разобраться, почему что-либо произошло.

Второй уровень аналитики – это диагностические методы, для которых визуализация также имеет большое значение. Диагностический анализ – это уровень инсайтов, озарений, это уровень, на котором мы выявляем причины случившегося. Визуализация данных в этом случае может стать катализатором, запускающим цепочку нужных вопросов. Откуда здесь такое резко отклоняющееся значение? Почему этот элемент так далеко отстоит от других? Я вижу, что этот столбик на диаграмме значительно выше других: что это за категория и почему он такой? Я вижу, что этот кластер данных находится в определенном временном интервале, но откуда у нас другие данные, вне этого интервала? Мы задумываемся обо всем этом благодаря наглядности: перед нами визуализация данных, которая сама подсказывает нам нужные вопросы (третий элемент дата-грамотности) и помогает находить ответы, что позволяет нашей организации продвигаться вперед. А после этого уже можно строить прогнозы.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация