Книга Аналитическая культура. От сбора данных до бизнес-результатов, страница 24. Автор книги Карл Андерсон

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Аналитическая культура. От сбора данных до бизнес-результатов»

Cтраница 24

Кен Рудин, глава аналитики социальной сети Facebook, уверен [57]:

С помощью науки, технологий и статистики можно найти ответы, но по-прежнему большим искусством остается умение задавать правильные вопросы… Сегодня недостаточно нанимать людей с научной степенью в области статистики. Нужно быть уверенным, что у этих людей есть деловая хватка. Мне кажется, деловой подход становится самым важным активом и критическим навыком, которым должен обладать каждый аналитик.

Как понять, есть ли у кандидата на позицию аналитика это качество? В ходе собеседования не концентрируйтесь только на том, как рассчитать тот или иной показатель. Предложите потенциальному сотруднику практический случай из вашего бизнеса и спросите, на какие показатели он бы обратил внимание в этом конкретном случае. Вам все будет ясно из его ответа.

Еще один инструмент

С точки зрения практических навыков, без всяких сомнений, большинство аналитиков во всем мире использует в своей работе Microsoft Word, Excel и PowerPoint в качестве основных инструментов. Они доказали свою эффективность. Тем не менее поразительно, как может сказаться на продуктивности применение нескольких дополнительных инструментов.


Аналитическая культура. От сбора данных до бизнес-результатов

Далее мы рекомендуем вам бросить вызов. Если вы аналитик, бросьте вывоз самому себе: в течение следующего месяца или квартала освойте еще один инструмент или программу. Если вы руководите аналитиками, поставьте перед ними такую задачу. Попробуйте и увидите, какой будет результат. Вы будете удивлены.

Стоит обратить внимание на следующие аспекты.

РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ И СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

R представляет собой популярную среду для осуществления статистических вычислений и располагает исключительными библиотеками визуализации данных (такими как ggplot2) [58]. Например, можно прочитать данные в формате CSV и визуализировать отношения между всеми возможными парами переменных с помощью всего двух команд:


данные<-read.csv(имя_файла. csv);

pairs(данные)


На рис. 4.3 показан результат действия этих двух команд. Во второй панели верхней строки отражена взаимосвязь между шириной чашелистика (ось х) и длиной чашелистика (ось y) цветков ириса.


Аналитическая культура. От сбора данных до бизнес-результатов

Рис. 4.3. Результат применения команд (относительно задачи по ирисам) в среде R. Речь идет о наборе данных относительно 150 экземпляров ириса, по 50 экземпляров из трех видов, который собрал ботаник Эдгар Андерсон и сделал знаменитым Рональд Фишер [59]. Корреляция между переменными и разница между тремя видами становится очевидной, если рассмотреть все взаимоотношения в совокупности, как на рисунке


Таким образом, этот инструмент может стать чрезвычайно полезным для быстрого проведения разведочного анализа данных. (Не менее популярны и эффективны неоткрытые SAS и SPSS.) Всего около 6700 пакетов для любых типов данных, моделей, областей и визуализации. Это открытые источники, доступные бесплатно [60]. Если вы уже знакомы со средой R, то можете освоить новый пакет R и расширить свои навыки.

ЗАПРОСЫ К БАЗАМ ДАННЫХ

В то время как Excel может быть очень эффективным инструментом, при работе с ним иногда возникают проблемы, связанные с обработкой большого объема данных: при определенном объеме данных и применении функции ВПР (VLOOKUP) программа может сильно затормозить работу компьютера. Именно поэтому язык программирования SQL — ценный инструмент в наборе любого аналитика. Этот язык можно назвать относительно стандартизированным, несмотря на незначительные отличия в языке в разных базах данных (таких как MySQL, PostgreSQL и Access). Так что если вы знакомы с ним, это обеспечит вам свободу переключения между разными реляционными базами данных. Вы сможете делать запросы к базам данных независимо от объема данных (обрабатывать миллионы строк), делиться запросами с коллегами (делиться небольшими текстовыми запросами, а не огромными массивами сырых данных). Кроме того, вы сможете обеспечить воспроизводимость процесса (можно легко повторить процесс анализа еще раз).

Есть множество книг, а также офлайновых и онлайновых курсов, которые могут помочь овладеть SQL. Я рекомендую один из бесплатных онлайновых курсов W3Schools’ SQL Tutorial [61], так как там пользователь имеет возможность составлять запросы прямо в браузере. Другой подход к обучению заключается в установке базы данных на компьютер пользователя. Установка и конфигурация основных баз данных, таких как MySQL и PostgreSQL, может оказаться делом непростым. Так что я настоятельно рекомендую начать с SQLite [62]: многие приложения в вашем смартфоне используют SQLite для хранения данных. Эта база данных бесплатная, простая в установке, сохраняет данные в единый переносимый файл, с ней вы быстро научитесь составлять SQL-запросы.

Если вы переживаете, что это старая технология, которую скоро затмят новинки, в исследовании O’Reilly 2014 Data Science Salary Survey Кинг и Маголас отмечают: «SQL был самым распространенным инструментом… Даже с бурным развитием технологий по работе с данными нет никаких признаков того, что SQL начинает сдавать позиции».

ПРОВЕРКА ФАЙЛА И ОПЕРАЦИИ С НИМ

В случаях, когда команде аналитиков приходится работать с большим количеством файлов с сырыми данными или с файлами большого объема, кто-то — необязательно все, поскольку аналитика все-таки командный спорт, — должен обладать элементарными знаниями Unix для проверки файлов и проведения операций с ними. В качестве альтернативы можно выбрать какой-нибудь из языков программирования, например Python, способный обеспечить эти функции и многие другие. Подробнее об этом в главе 5.


ПРИМЕР ЕЩЕ ОДНОГО ИНСТРУМЕНТА: ПОДСЧЕТ СТРОК ПРИ ПОМОЩИ *NIX-УТИЛИТЫ WC

Вход
Поиск по сайту
Ищем:
Календарь
Навигация