Модель временных рядов: руководство
Независимо от того, хотим ли мы предсказать тенденции финансового рынка или потребление электроэнергии, время является важным фактором, который необходимо учитывать в наших моделях. Например, было бы интересно спрогнозировать, в какой час будет пик потребления электроэнергии. Это может быть полезно для корректировки цен или производства электроэнергии.
Введите временной ряд. Временной ряд — это ряд точек данных, упорядоченных во времени. Во временных рядах время часто является независимой переменной, и цель обычно состоит в том, чтобы сделать прогноз на будущее.
Однако есть и другие аспекты, которые вступают в игру при работе с временными рядами.
В этом посте я расскажу о различных характеристиках временных рядов и о том, как мы можем их смоделировать, чтобы получить максимально точные прогнозы.
Неформально автокорреляция — это сходство между наблюдениями как функция временного лага между ними.
Выше приведен пример графика автокорреляции. Если вы присмотритесь, вы увидите, что первое значение и 24-е значение имеют высокую автокорреляцию. Аналогично, 12-е и 36-е наблюдения сильно коррелируют. Это означает, что мы будем находить очень похожее значение каждую 24-ю единицу времени.
Обратите внимание, что график выглядит как синусоидальная функция. Это намек на сезонность.,и вы можете найти его значение, найдя период на графике выше, который составит 24 часа.
Подробнее о науке о данных. Руководство по рекуррентным нейронным сетям: понимание сетей RNN и LSTM.
Сезонность означает периодические колебания. Например, потребление электроэнергии высоко в течение дня и низко в ночное время, или онлайн-продажи увеличиваются во время Рождества, а затем снова замедляются.
Как видно выше, существует ежедневная сезонность. Каждый день вы видите пик ближе к вечеру, а самые низкие точки — это начало и конец каждого дня.
Помните, что сезонность также можно вывести из графика автокорреляции, если он имеет синусоидальную форму. Просто посмотрите на период, и он покажет продолжительность сезона.
Стационарность является важной характеристикой временного ряда. Временной ряд называется стационарным, если его статистические свойства не меняются с течением времени. Другими словами, он имеет постоянное среднее значение и дисперсию, а его ковариация не зависит от времени.
Глядя на тот же график, мы видим, что описанный выше процесс стационарен. Среднее значение и дисперсия не меняются со временем.
Часто цены на акции не являются стационарным процессом. Мы можем увидеть растущую тенденцию, или ее волатильность может увеличиваться с течением времени (это означает, что дисперсия меняется).
В идеале нам хотелось бы иметь стационарный временной ряд для моделирования. Конечно, не все из них стационарны, но мы можем сделать разные преобразования, чтобы сделать их стационарными.
Возможно, вы заметили, что название сюжета выше — «Дикки-Фуллер». Это статистический тест, который мы проводим, чтобы определить, является ли временной ряд стационарным или нет.
Не вдаваясь в технические подробности, тест Дики-Фуллера проверяет нулевую гипотезу, чтобы определить наличие единичного корня.
Если да, то p > 0 и процесс нестационарен.
В противном случае p = 0 нулевая гипотеза отвергается и процесс считается стационарным.
Например, приведенный ниже процесс не является стационарным. Обратите внимание, что среднее значение не является постоянным во времени.
Существует множество способов моделирования временных рядов для прогнозирования. К наиболее популярным способам относятся:
Модель скользящего среднего, вероятно, является самым наивным подходом к моделированию временных рядов. Эта модель просто утверждает, что следующее наблюдение является средним значением всех прошлых наблюдений.
Несмотря на свою простоту, эта модель может оказаться на удивление эффективной и представляет собой хорошую отправную точку.
В противном случае скользящее среднее можно использовать для выявления интересных тенденций в данных. Мы можем определить окно для применения модели скользящего среднего, чтобы сгладить временной ряд и выделить различные тенденции.
На графике выше мы применили модель скользящего среднего к 24-часовому окну. Зеленая линия сгладила временной ряд, и мы видим, что за 24-часовой период имеется два пика.