
Онлайн книга «Аналитическая культура. От сбора данных до бизнес-результатов»
Теперь это кажется не таким удивительным. У нас имеется простой итоговый статистический показатель — среднее значение одной переменной. Существует множество потенциальных «решений», или выборок, которым может соответствовать это значение. Сейчас я покажу вам гораздо более удивительный пример. Предположим, у вас четыре набора данных с двумя переменными со следующими характеристиками. ![]() Это система с жесткими заданными ограничениями. Значит, графики этих четырех наборов данных с идентичными статистическими характеристиками должны быть достаточно похожими, не так ли? А вот рис. 5.4 показывает, что это далеко не так. ![]() Рис. 5.4. Квартет Энскомба. В каждом из четырех наборов данных идентичны среднее значение х, среднее значение y, дисперсия х, дисперсия y, корреляция и прямая линейной регрессии (до двух знаков после запятой) Источник: https://en.wikipedia.org/wiki/Anscombe’s_quartet Это так называемый квартет Энскомба [83], названный по имени математика и статистика Фрэнсиса Энскомба, который составил его в 1973 году. Энскомб выступил против существовавшей на тот момент доктрины в области статистических вычислений, которая гласила, что: 1) числовые данные точные, а графики — приблизительные; 2) для каждого конкретного вида статистических данных существует только один набор вычислений, обеспечивающий правильный статистический анализ; 3) выполнение сложных расчетов — единственно верный путь, изучение данных только вводит в заблуждение. Энскомб утверждал: Большинство статистических вычислений строятся на предположениях относительно поведения данных. Эти предположения могут оказаться неверными, и тогда результаты вычислений тоже будут содержать ошибку. Всегда следует пытаться проверять, являются ли предположения верными. А если они ошибочны, мы должны быть способны понять, что с ними не так. В этом весьма полезны графики. Применение графиков для визуализации и изучения данных получило название разведочного анализа данных. Наибольшую известность он приобрел благодаря продвижению американским математиком Джоном Тьюки в книге Exploratory Data Analysis (Pearson), опубликованной в 1977 году. При правильном подходе графики помогают видеть более масштабную картину, а также отмечать очевидные или необычные закономерности (это врожденное свойство человеческого мозга). Нередко аналитические выводы и понимание данных начинают формироваться именно на этом этапе. Почему у этой кривой такое отклонение? В какой момент наступает снижение возврата на маркетинговые расходы? Разведочный анализ позволяет опровергнуть или подтвердить наши предположения относительно данных. Поэтому, когда в главе 2 шла речь о качестве данных, я рекомендовал использовать команду pairs() в среде R. Часто у нас сформированы обоснованные ожидания, что может быть не так с качеством данных, в отличие от ожиданий, какими должны быть достоверные данные. По мере того как мы набираемся опыта и знаний в профессиональной области, у нас развивается интуитивное понимание, какие факторы и возможные отношения могут быть задействованы. Разведочный анализ, с его широким набором способов рассмотреть данные и их взаимоотношения, предлагает набор «луп» для изучения системы. Это, в свою очередь, помогает специалисту по анализу данных выдвинуть новые гипотезы относительно того, что может произойти, если вы понимаете, какие переменные находятся под вашим контролем и какими рычагами вы можете воспользоваться для движения показателей, например выручки или конверсии, в нужном направлении. Кроме того, разведочный анализ способен показать пробелы в наших знаниях и определить, что можно сделать для их ликвидации. Для одномерных непрерывных (действительные числа) или дискретных данных (целые числа) обычно строят диаграмму «стебель-листья» (рис. 5.5), гистограммы (рис. 5.6) и диаграммы размаха, или коробчатые диаграммы (рис. 5.7). ![]() Рис. 5.5. Диаграмма «стебель-листья» ![]() Рис. 5.6. Гистограмма ![]() Рис. 5.7. Коробчатая диаграмма Если гистограмма строится в таком масштабе, что ее площадь равна 1, это функция плотности распределения вероятностей. Еще один полезный способ представить те же самые данные — составить интегральную функцию распределения. Это может выделить интересные точки распределения, включая основные опорные точки. На рис. 5.8, 5.9, 5.10 представлены основные графики для одномерных категориальных (качественных) переменных. ![]() Рис. 5.8. Круговая диаграмма ![]() Рис. 5.9. Столбиковая диаграмма ![]() Рис. 5.10. Диаграмма Парето Для визуализации двух переменных можно воспользоваться разными типами графиков. |