Медиана же к выбросам устойчива.
Выбор между медианой и средним зависит от целей исследования и от характера данных. Если экстремальные значения полагаются случайными или возникающими вследствие внешних причин или ошибок, медиана – более предпочтительный показатель.
Если имеете дело со статистикой и слышите про «среднее» – лучше поинтересоваться, как именно его рассчитывали.
241. Взвешенное среднее
Взвешенное среднее – то, при котором значения усредняемого показателя умножаются на определенные веса (например, на объем или количество).
Допустим, у вас в магазине есть 20 тысяч книг по 500 рублей, 10 тысяч книг по 600 рублей и 3 тысячи книг по 850 рублей. Какова средняя цена книги из вашего ассортимента? Количество книг здесь будет весом, а цена – усредняемым показателем.
На практике для расчета этого показателя можно применять функцию СУММПРОИЗВ (SUMPRODUCT) в Excel. Она позволяет перемножить несколько массивов. В данном примере она будет выглядеть так:
242. Квантили
Еще один интересный показатель в статистическом анализе – это квантили. Чаще всего встречаются 1 %-, 5 %-, 95 %-, 99 %-ный квантили. Рассмотрим на примере: пусть 95 %-ный квантиль зарплат в регионе составляет 1 тысячу денежных единиц. Это значит, что 95 % населения получает менее 1 тысячи единиц (или 95 человек из 100 получают менее 1 тысячи единиц). Аналогично, если 5 %-ный квантиль составляет 200 единиц, то 5 % населения зарабатывает менее 200 единиц.
Квантили удобны, когда необходимо получить интервал, в который с высокой вероятностью попадают все интересующие вас объекты исследования. Или когда вам необходимо отфильтровать экстремальные значения.
Для нахождения квантилей используйте функции Excel:
• в старых версиях Excel: КВАРТИЛЬ (QUARTILE);
• в Google Таблицах: QUARTILE;
• в новых версиях Excel: КВАРТИЛЬ.ВКЛ/КВАРТИЛЬ.ИСКЛ (QUARTILE.INC/ QUARTILE.EXC).
Первый аргумент функции – массив данных, а второй – значение процентиля (например, 0,05 или 0,95).
243. Как найти выбросы?
Что такое выбросы? Это данные, нетипичные для конкретной выборки, способные исказить статистические показатели (например, среднее), рассчитанные по ней.
Откуда они появляются? Выбросы могут возникать из-за ошибок ввода информации, неправильного сбора данных, а также по причинам, не связанным с темой исследования (например, в какой-то месяц были низкие продажи из-за внешних факторов – проблем дистрибьютора, какого-то форс-мажора на рынке).
Если вернуться к примеру с заработной платой из бизнесхака «Медиана, мода и среднее», то зарплата руководителя – это не выброс.
Выбросы можно и нужно удалять, и делают это как вручную, так и автоматически.
Если у вас мало данных (например, статистика по продажам за два-три года по месяцам), то убрать их можно вручную, экспертно оценив, есть ли нетипичные данные в выборке (их может и не быть вовсе, особенно в небольшой выборке).
Если же данных много, то выбросы лучше искать автоматически. Делать это можно в Excel, Google Таблицах или в статистических пакетах.
Есть несколько базовых методов.
Правило трех сигм. Все наблюдения, которые на три среднеквадратичных отклонения (сигмы) больше или меньше среднего, – выбросы.
Формула среднеквадратичного отклонения:
Его можно рассчитать в Excel с помощью функции СТАНДОТКЛОН.В (STDEV.S), если у вас выборка из общей совокупности, и с помощью функции СТАНДОТКЛОН.Г (STDEV.P), если вы оцениваете отклонение по всей генеральной совокупности.
В Google Таблицах используйте функции СТАНДОТКЛОН (STDEV) для выборки и СТАНДОТКЛОНП (STDEVP) для генеральной совокупности.
Примечание. Генеральная совокупность – это все объекты, которые вы собираетесь исследовать. Например, если вы проводите маркетинговое исследование своей целевой аудитории, генеральной совокупностью могут быть все мужчины от 25 до 39 лет с определенным доходом, проживающие в городе N.
Соответственно, выборка – это часть генеральной совокупности, элементы, по которым есть наблюденные данные.
Если вы сомневаетесь – используйте формулу для выборки. Данные по всей генеральной совокупности встречаются редко.
Метод Тьюки
[57]
.
1. Рассчитайте 25-й и 75-й персентили. В Excel и Google Таблицах – с помощью функции ПЕРСЕНТИЛЬ (PERCENTILE).
2. Вычтите 25-й персентиль из 75-го, чтобы получить межквартильный размах (МР).
3. Рассчитайте внутренние и внешние границы по следующим формулам:
Нижняя внешняя граница = 25-й персентиль – 3 МР;
Верхняя внешняя граница = 75-й персентиль + 3 МР;
Нижняя внутренняя граница = 25-й персентиль – 1,5 МР;
Верхняя внутренняя граница = 75-й персентиль + 1,5 МР.
4. Значения, лежащие за пределами внешних границ, – выбросы (если данные распределены нормально, то за пределами этих границ будет лежать лишь 0,000002 данных). Значения за пределами внутренних границ тоже можно считать выбросами, но не такими экстремальными. За их пределами будет лежать 0,01 данных.
244. Забудьте об абсолютной точности
Не стоит в аналитических и финансовых расчетах (речь, конечно, об управленческой отчетности и внутренних расчетах, а не о бухгалтерии) стремиться к абсолютной точности, к трем-четырем знакам после запятой.
Окажется ли решение более взвешенным, если вы будете знать о росте показателя на 1,247 % вместо того, чтобы знать о его росте на 1,2 %? Стоит ли более точный расчет того времени и внимания, которое на него потратите вы / аналитик / маркетер / кто-либо другой из ваших коллег?
245. Что на что влияет. Находим и интерпретируем корреляцию
Корреляция – это статистический показатель, характеризующий силу статистической связи между двумя случайными величинами (наборами наблюдаемых данных).