Книга Как вытащить из данных максимум. Навыки аналитики для неспециалистов, страница 35. Автор книги Джордан Морроу

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Как вытащить из данных максимум. Навыки аналитики для неспециалистов»

Cтраница 35

Второй уровень – диагностический. Могу представить, как Джон Сноу продолжает задавать очень серьезные вопросы, также порожденные любопытством. «Почему так мало случаев заболевания на пивоварне?» – мог бы он спросить. Удачный вопрос: возбудитель холеры передается с водой.

С помощью диагностических методов можно выяснить, что рабочие на пивоварне пили не воду, а пиво. Следующий возможный вопрос: «Откуда взялись очаги болезни в определенных районах?» Этот диагностический вопрос – тоже прямое следствие любопытства – отсылает к визуализации и подталкивает к поиску ценных знаний.

Итак, мы видим, что визуализация данных – это не только ответ, сокровище, в которое упирается радуга, но и отправная точка. Визуализация не дает нам ответов на вопросы, которые мог задавать Джон Сноу, – она дает нам отправную точку, и это крайне важно. Благодаря этому мы переходим к причинам, стоящим за результатами дескриптивного анализа. Джон Сноу поставил множество вопросов, анализируя данные. Задав вопросы, мы начинаем копать глубже в поисках ответов. Последний вопрос Джона Сноу мог быть таким: «Почему мы наблюдаем так много случаев холеры вокруг источника воды?» Источником была водоразборная колонка. Так и было обнаружено, что насос на Брод-стрит находился всего в нескольких метрах от открытой выгребной ямы, а вода заражена из-за попавшей в нее грязной пеленки… А отсюда мы переходим на третий уровень, к предиктивному анализу.

Предиктивный анализ позволяет нам успешно «препарировать» как диагностический, так и дескриптивный уровни. Мог ли Джон Сноу построить какие-нибудь прогнозы? Описательный анализ, сделанный Джоном, позволяет сделать наблюдения, которые затем приводят к вопросам. Сформулировав эти вопросы, мы ищем возможные ответы (решения) и получаем возможность построить собственные модели. Что произойдет, если убрать источник загрязнения (грязную пеленку) из воды? В нашем случае это существенно помогло. Наше любопытство позволяет строить и другие гипотезы, которые могли бы быть проверены во время вспышки холеры.

Например, мы могли бы предположить, что дело не в пеленке как таковой, а в насосе. Можно было бы попробовать его заменить. В нашем случае это ничего бы не дало, но так устроена итеративная аналитика. Мы пытаемся что-то сделать, получаем результат и продолжаем проверку. Вряд ли нас наняли бы на работу, заяви мы: забудьте про грязную пеленку, давайте просто заменим насос.

Еще один факт, который вызывает любопытство и позволяет выдвинуть гипотезу: работники пивоварни пили пиво и при этом не болели холерой. Мы можем предположить – а что, если бы все жители Брод-стрит пили вместо воды любимый местный напиток? Вспышка холеры пошла бы на спад? По всей вероятности, так бы и случилось, и людям, наверное, понравилось бы такое решение – однако это не помогло бы нам выявить источник проблемы. Мы обнаружили так называемую ложную корреляцию – когда два события кажутся связанными, но на самом деле это не так. Иными словами, корреляция не означает причинно-следственной связи, и путать одно с другим – типичная аналитическая ошибка, которой лучше избегать. В нашем случае предположение, что, если бы люди пили пиво вместо воды, это бы помогло, само по себе верно – но на деле не решает никаких проблем и, возможно, даже приводит к новым. А если бы спрос на алкоголь так вырос, что пивоварне пришлось бы брать воду из той же колонки? Мы бы вернулись к тому, с чего начали.

Последний уровень аналитики – прескриптивный. Предписывающие методы, если можно так выразиться, «разрешают» данным и технологиям определять наши дальнейшие действия. В этом случае любопытство необходимо, чтобы задавать соответствующие вопросы: что нам говорят технологии? Что нам показывают прогностические и прескриптивные методы? И не стоит забывать о стремлении проверить предположения, сделанные на моделях.

Последний аспект любопытства, который стоит рассмотреть, уже упоминался выше. Это корреляция и причинно-следственные связи. Если мы любопытны и задаем вопрос за вопросом, то просто не имеем права попасть в ловушку, перепутав эти два понятия. Всю жизнь мы сталкиваемся с занятными взаимоотношениями между данными. Когда мы с любопытством изучаем данные, нам может показаться, что А ведет к Б.

Примеров масса, но я хотел бы поговорить именно о том, что связано с бизнесом. Ложная корреляция – предполагаемая связь между двумя событиями – это термин, который надо непременно запомнить.

Представьте себе, что вы директор по маркетингу крупной компании – производителя напитков (например, Pepsi или Coca-Cola). В апреле текущего года вы запустили отличную рекламную кампанию, рассчитывая, что набрели на настоящую золотую жилу. Запустив кампанию, вы отправились туда, куда вас повело любопытство: «Помогла ли наша последняя кампания повысить продажи и, следовательно, прибыль?» Это, разумеется, прекрасный и закономерный вопрос, но будьте осторожны. Любопытство заставляет вас построить визуализацию данных, чтобы посмотреть на результат. Вы видите, что доходы в период с мая по август растут. Так как вы запустили кампанию в апреле, вы думаете, что ваше любопытство вознаграждено: ура, вот и ответ! Вы действительно провели успешную кампанию. Но есть одна проблема: вы предположили, что доходы выросли благодаря рекламной кампании. Но дальше ваше любопытство не пошло – возможно (только возможно!), именно потому, что в игру вступило ваше личное предвзятое отношение. Вы увидели то, что хотели увидеть. Но что, если маркетинговая кампания тут вообще ни при чем, а дело лишь в том, что потребителям на двух основных рынках – европейском и североамериканском – захотелось пить, поскольку наступило лето? Может быть, людям просто жарко и они пьют больше своих любимых освежающих напитков? Нужно следить, чтобы любопытство не «выключалось» на каком-либо этапе, а продолжало сопровождать нас на всех четырех аналитических уровнях. Так мы будем уверены, что не остановились слишком быстро, не стали полагаться на неполную и/или некорректную информацию и не сделали неудачных прогнозов.

Creativity – творческий подход

Вторая «С» дата-грамотности – одна из моих любимых составляющих мира данных и аналитики. Это творческий подход, или креативность. По-моему, самый мощный компьютер в мире – это человеческий разум. Нет, я не о скорости и не о мощности – я имею в виду нашу способность привносить творчество во все, что мы делаем и чего хотим достичь. Нет двух одинаковых умов, и это одна из самых замечательных черт человеческого разума. Я мыслю не так, как вы, а вы – не так, как любой другой читатель этой книги. Благодаря силе разума в обращении с данными появляется творческая составляющая. Человеческий фактор – сама суть дата-грамотности. Мне очень нравится цитата, приписываемая Альберту Эйнштейну: «Все мы гении. Но если вы будете судить рыбу по ее способности взбираться на дерево, она проживет всю жизнь, считая себя дурой» [42].

Впрочем, неважно, кто это сказал на самом деле, важна суть: все мы разные, и в каждом есть что-то гениальное. Если мы будем пытаться учить всех одинаково, у нас ничего не получится. Нельзя купить подходящую для всех дата-грамотность в супермаркете. Если мы будем убеждать человека, что он должен быть рыбой и лазить при этом по деревьям, мы убьем в нем гения. В мире данных и аналитики мы должны давать волю творческому гению, который есть в любом из нас, при этом применяя общую методологию, чтобы охватить всех сотрудников предприятия программами и инициативами дата-грамотности. Если это сделать как надо, мы дадим каждому возможность в полной мере проявить не только любопытство, но и творческие способности – на общее благо. Первое, что следует сделать, – это понять, что в каждом элементе дата-грамотности есть место для креативности.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация