Коэффициент корреляции любых величин всегда лежит в диапазоне от – 1 до 1. На данном промежутке можно выделить следующие точки и интервалы:
– 1: детерминированная (неслучайная) отрицательная связь. Одна величина растет – другая падает, и наоборот. Связь строгая, то есть величины связаны напрямую.
от – 1 до – 0,8: сильная отрицательная связь. Вообще чем больше коэффициент корреляции (по модулю) тем сильнее связь.
от – 0,8 до 0: слабая отрицательная связь (значения ближе к нулю, скорее всего, означают полное отсутствие связи – такая корреляция может возникать случайно).
0: полное отсутствие связи.
от 0 до 0,8: слабая положительная связь (значения ближе к нулю, скорее всего, означают полное отсутствие связи – такая корреляция может возникать случайно).
от 0,8 до 1: сильная положительная связь.
1: детерминированная (неслучайная, строгая) положительная связь показателей.
Коэффициент корреляции полезен для определения причинно-следственных связей. При этом связь может быть двусторонней (например, привлекательность соцсети и количество зарегистрировавшихся пользователей – так называемый сетевой эффект). Чем привлекательнее социальная сеть, тем больше в ней регистрируется людей. Верно и в обратную сторону: чем больше зарегистрировавшихся пользователей, тем привлекательнее соцсеть.
Часто встречается односторонняя связь, например сложность пожара и количество пожарных, участвовавших в его тушении. Из наблюдаемой положительной корреляции вряд ли стоит делать вывод, что сложность пожара зависит от количества пожарных, или пытаться снизить сложность пожара, уменьшая количество пожарных в команде. Тем не менее обратная взаимосвязь выглядит разумной. При этом помните, что наличие статистической взаимосвязи не обязательно говорит о причинно-следственной связи. Корреляция бывает ложной. Блогер Дмитрий Чернышев в своем Живом Журнале
[58]
приводит курьезные примеры, в которых присутствует статистическая связь, но явно отсутствует причинно-следственная. Так, есть сильная корреляция между:
• потреблением моцареллы и количеством докторских степеней (один из самых известных примеров);
• потреблением сметаны и количеством мотоциклистов, погибших в ДТП;
• средним возрастом «Мисс Америка» и количеством людей, погибших от горячего пара, и т. д.
Другой пример ложной корреляции – та, что возникает по причине наличия общего тренда. Например, положительная корреляция между числом выехавших на отдых за рубеж и количеством произведенных турбин. Очевидно, что причинно-следственной связи между показателями нет. Но можно предположить, что оба показателя могут зависеть от экономического роста в стране. Значения коэффициента корреляции, близкие к нулю, необязательно говорят об отсутствии причинно-следственной связи – только об отсутствии линейной зависимости, взаимосвязь между величинами может быть более сложной.
Таким образом, при анализе статистической взаимосвязи в первую очередь нужно опираться на логическую объяснимость направления (положительная или отрицательная) и силы взаимосвязи. Если эмпирический опыт подтверждается корреляцией, можно смело ее использовать. Если статистика не соответствует практике, необходимо использовать ее с осторожностью.
Кстати, и наличие корреляции не означает наличия причинно-следственной связи. Возможно, обе величины связаны с какой-то третьей и поэтому коррелируют, но между ними может не быть причинно-следственной связи.
Для расчета коэффициента корреляции в Google Таблицах и Excel (пример демонстрируется в Google Таблицах) есть функция КОРРЕЛ (CORREL). Ее аргументы – это диапазоны с наблюденными значениями показателей.
В примере в столбцах A и B находятся случайные числа (сгенерированные с помощью функции СЛУЧМЕЖДУ (RANDBETWEEN)). Коэффициент корреляции практически нулевой – что вполне естественно. Между двумя массивами случайных чисел связи нет.
Связь можно анализировать и на диаграммах – хорошо подходит точечная:
В следующем примере мы рассчитываем корреляцию между ценой нефти марки Brent и курсом USD/RUB. Связь весьма сильная: –0,82.
Диаграмма для этих данных:
Функция КОРРЕЛ аналогично работает и в Excel.
246. Масштаб оси на графике меняет все
Мы склонны верить точным цифрам и графикам (возможно, вы слышали о том, что в XIX веке высоту Джомолунгмы преувеличили – вместо 29 тысяч футов указали 29 002, чтобы людям не казалось, что расчеты были примерными). Но и статистика, и графики представляют собой поле для манипуляций.
Так, если на графике немного подкорректировать значения вертикальной оси и отобразить неполный период, то совсем небольшие колебания могут выглядеть как тренд или гигантский скачок.
Представьте, что на графике ниже – ВВП некой страны. Неплохой рывок в конце года, не так ли?
Но на самом деле это не рывок, а незначительный рост. И только в рамках полугодия – относительно первого полугодия же не все так радужно. Все дело в том, что диапазон значений оси на первом графике меньше и на нем нет первого полугодия.
Если вы хотите подробнее ознакомиться со статистическими манипуляциями, прочитайте небольшую книгу Дарелла Хаффа «Как лгать при помощи статистики»
[59]
, где анализируются и объясняются все способы манипулирования данными.