ARIMA в Машинном обучении простыми словами
Модель Бокса — Дженкинса (Авторегрессионная интегрированная скользящая средняя, англ. Autoregressive Integrated Moving Average, arima) – Алгоритм (Algorithm) Машинного обучения (ML), позволяющий делать прогнозы на основе Временных рядов (Time Series), т.е. исторических наблюдений.
Если у организации есть возможность лучше прогнозировать объемы продаж продукта, она будет в более выгодном положении для оптимизации уровней запасов. Это может привести к увеличению ликвидности денежных резервов организаций, уменьшению оборотных средств и повышению удовлетворенности клиентов за счет уменьшения количества невыполненных заказов.
В области машинного обучения существует определенный набор методов и приемов, которые особенно хорошо подходят для прогнозирования значения зависимой переменной в зависимости от времени. В этой статье мы рассмотрим Авторегрессионная интегрированная скользящая средняя (ARIMA).
Мы называем ряд точек данных, проиндексированных (т.е. нанесенных на график) в хронологическом порядке временными рядами. Временной ряд можно разбить на 3 компонента.
- Тенденция (Trend): движение данных вверх и вниз в течение длительного периода времени (например, повышение стоимости дома).
- Сезонность (Seasonality): сезонные скачки (например, рост спроса на мороженое летом).
- Шум (Noise): всплески и спады через случайные промежутки времени
Прежде чем применять какую-либо статистическую модель к временному ряду, мы хотим убедиться, что в нем есть Стацинарность (Stationarity):
Чтобы некоторый временной ряд был классифицирован как стационарный, он должен удовлетворять трем условиям:
- Постоянное Среднее арифметическое (Mean) выборок
- Постоянная Дисперсия (Variance)
- Постоянная ковариация между периодами одинакового расстояния. То есть мера линейной зависимости между периодами времени одинаковой длины (скажем, 10 дней / часов / минут) должна быть идентична ковариации некоторого другого периода такой же длины.
Если временной ряд является стационарным и имеет определенное поведение в течение заданного временного интервала, то можно с уверенностью предположить, что он будет иметь такое же поведение в какой-то более поздний момент времени. Большинство методов статистического моделирования предполагают или требуют, чтобы временные ряды были стационарными.