Существует несколько стратегий для работы со нестационарными временными рядами. Можно, конечно, проигнорировать нестационарность, однако лучшие подходы используют более короткое время (набор рядов должен обладать стационарностью), если для этого достаточно данных, или же трансформируют временные ряды в стационарные.
В качестве примера нестационарности очень часто берется ситуация, предложенная Эллиотом Собером
[174],
[175], – зависимость между уровнем воды в Венецианской лагуне и ценами на хлеб в Англии, которые видимым образом коррелируют и со временем растут. Действительно, если взять данные Собера из этого примера с рис. 4.4 (а) (единицы переменных не приводятся), корреляция Пирсона для переменных составляет 0,8204. Хотя два временных ряда всегда растут, точный размер этого роста каждый год варьируется. Что мы действительно хотим понять – как эти изменения соотносятся.
Рис. 4.4. Уровень моря и цены на хлеб
Простейший подход заключается в изучении различий, а не голых фактов. Иными словами, насколько сильно увеличивается уровень моря или цены на хлеб относительно измерений предыдущего года?
Если взять изменения по годам, как показано на рис. 4.4 (б), корреляция падает до 0,4714.
Такой подход называется дифференцированием (что буквально означает вычисление разности между последовательными точками данных): это простейший способ превратить временной ряд в стационарный.
Даже если два временных ряда показывают одинаковые долгосрочные тренды (например, неуклонный прирост), дифференцированные данные могут уже не коррелировать, если разнятся дневные или годовые колебания. В целом одно только дифференцирование не гарантирует стационарность измененного временного ряда; требуются более сложные трансформации данных
[176].
Это одна из причин, по которым работа с фондовым рынком обычно использует прибыли (изменение цены), а не фактические ценовые данные. Обратите внимание: именно здесь обнаружилась связь с лимонами и смертностью в ДТП, и именно поэтому можно выявить одинаковые зависимости для многих пар динамических рядов. Если общие тренды аналогичны и значимы, они обеспечивают основную часть измерений корреляции, доминируя над любыми различиями краткосрочных трендов, которые могут совершенно не коррелировать
[177].
Использование причин. Все дело во времени
Можно ли назвать оптимальный день недели для заказа билетов на самолет? Когда лучше заниматься спортом: утром или вечером? Сколько нужно выждать, прежде чем просить о прибавке жалованья?
Экономисты часто упоминают сезонные эффекты – паттерны, которые проявляются каждый год в одно и то же время и представляют собой форму нестационарности. Однако временные тренды обнаруживаются во многих других видах динамических рядов, таких как посещение кинотеатров (на которое влияет фактор сезонности и выходных дней) или травмопунктов (резкий рост совпадает с сезонными болезнями). То есть, если мы найдем условия, активирующие продажи билетов в кино зимой, они могут оказаться неприменимыми, если мы попытаемся приложить их к росту летних продаж. Другие паттерны могут объясняться днем недели (к примеру, тренды внутригородской ежедневной миграции) или графиком государственных праздников.
Последовательность событий способна помочь при выяснении причин и качества прогнозирования (или получения информации о том, когда ожидать некое следствие). Но эффективное использование причин требует больше информации, чем простое знание о том, что случилось первым.
Во-первых, мы должны узнать, не оказывается ли некая зависимость истинной только в некоторых случаях, а во-вторых, каково запаздывание между причиной и следствием. Вот почему необычайно важно собирать сведения о временных паттернах и делиться ими. Немедленное лечение может улучшить исход многих болезней (к примеру, инсульта), но эффективность не всегда демонстрирует линейный спад по времени. К примеру, сообщалось, что если лечение синдрома Кавасаки
[178] начать не позднее 10 дней после его проявления, риск будущего повреждения коронарных артерий значительно снижается. Еще лучше, если лечение начнется не позднее 7 дней; но, если атаковать болезнь через 5 дней, это не окажет дополнительного влияния на благоприятный исход
[179]. В других случаях прием препарата утром или вечером мог сказаться на его действенности: если в процессе тестирования лекарство давалось в конкретные часы или просто каждый день в одно и то же время, но в реальной жизни, вне рамок тестирования, график приема существенно варьировался, оно могло не оказывать действия, предсказанного на основе клинических испытаний.
Чтобы определить, когда именно действовать, надо знать, сколько времени нужно, чтобы причина вызвала следствие. То есть необходимо определить, когда именно до начала выборов распространять конкретный агитационный материал; когда продавать акции, получив определенную информацию; или в какой момент до поездки в тропики принимать таблетки против малярии. В ряде случаев действия могут оказаться неэффективными, если совершаются без учета времени: к примеру, слишком ранний показ рекламы (когда воздействуют иные причины), принятие торгового решения до того, как акции окажутся на пике, или запоздалый прием профилактического средства (которое не успевает оказать эффект).
Точно так же временные паттерны могут влиять на наши решения, предпринимать ли некие действия вообще, поскольку от них зависят наши суждения как о полезности причин, так и об их потенциальных рисках. Полезность причины зависит и от вероятности того, что наступит следствие (при прочих равных причина, дающая 90 % успеха, предпочтительнее той, что обеспечивает только 10 %), и от срока ее срабатывания. Известно, к примеру, что курение вызывает рак легких и сердечно-сосудистые заболевания, но они не развиваются немедленно после начала курения. Знания только о вероятности рака недостаточно, чтобы принять обоснованное решение учесть риск курения, если вам также неизвестны временные паттерны. Возможно, кому-то невысокая вероятность заболевания в ближайшем будущем покажется более рискованной, чем почти стопроцентное ее проявление в отдаленное время.