Loading [MathJax]/jax/output/CommonHTML/jax.js
Метод восстановления функции по интегралам для анализа и прогнозирования редких событий в экономике
Метод восстановления функции по интегралам для анализа и прогнозирования редких событий в экономике
Аннотация
Код статьи
S042473880010485-2-1
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Кораблев Юрий Александрович 
Должность: доцент
Аффилиация: Финансовый Университет при Правительстве Российской Федерации (Финуниверситет),
Адрес: Москва, Российская Федерация
Выпуск
Страницы
113-124
Аннотация

В статье рассматривается метод анализа редких событий, который базируется на изучении процессов, порождающих эти события.  В экономике самым распространенным процессом образования событий являются процессы потребления или накопления возмущения, которые можно моделировать как процесс опустошения/наполнения «емкости». Параметром процесса образования событий будет нестационарная функция скорости опустошения/наполнения емкости, которую можно восстановить из имеющихся данных. После этого с ней можно проводить необходимые для исследователя действия (анализировать и экстраполировать функцию, построить модель, получить прогноз будущих событий) и cнова запустить процесс образования событий. Такой метод исследования редких событий мною был назван емкостным методом. Для восстановления функции скорости опустошения/наполнения/ емкости в статье приведена оптимизационная задача в виде нахождения специального сглаживающего интегрирующего кубического сплайна. Получены формулы в матричном виде для восстановления (регрессии) искомой функции. Так как интервалы между событиями, как правило, могут быть разными, следует переходить к базисным сплайнам (B-сплайнам), которые не зависят от исходных данных. Получены формулы в матричном виде для построения соответствующего B-сплайна. Подробно показано, как следует заполнять такие матрицы. Приведен пример использования математического метода восстановления функции по данным редких событий и получения прогноза будущих событий.

Ключевые слова
редкие события; емкостный метод; скорость потребления; восстановление; регрессия; сплайн; B-сплайн; интегрирующий сплайн; интегро-дифференциальный сплайн; штраф на нелинейность.
Источник финансирования
Исследование выполнено при финансовой поддержке Российского фонда фундаментальных исследований (проект 19-010-00154).
Классификатор
Получено
09.07.2020
Дата публикации
04.09.2020
Всего подписок
27
Всего просмотров
1363
Оценка читателей
0.0 (0 голосов)
Цитировать   Скачать pdf
1 1. Введение
2 Анализ и прогнозирование событий позволяет должным образом к ним подготовиться, что способствует уменьшению возможных потерь или увеличению прибыли. Для этого могут использоваться различные математические методы, среди которых выделяют методы работы с редкими событиями. Редкие события отличаются от частых, как правило, тем, что представляются в виде потоков дискретных событий, возникающих через случайные периоды времени, а не в виде числа событий за период времени (или временного ряда). Время между событиями может быть произвольным (дни, года, микросекунды, при этом события будут по-прежнему относиться к редким). Важным является способ представления данных.
3 Представление редких событий в виде временного ряда приведет к тому, что такой временной ряд будет содержать множество нулей. Тем не менее некоторые методы работают и с такими рядами. Иногда для этого адаптируются методы классификации. Например, метод «ближайших соседей» (Altman, 1992; Cover, Hart, 1967) ищет в наблюдениях подпоследовательности похожие на вектор предшествующих значений фиксированной длины, после чего возвращает прогноз как значение, следующее за наиболее похожей подпоследовательностью.
4 Если временной ряд состоит из нулей и единиц, то иногда применяют метод логистической регрессии (Walker, Duncan, 1967), когда по набору данных внешних признаков строится классификационная модель, которая показывает, что при заданных признаках должна появиться единица или ноль. Иногда используют нейронные сети (Барцев, Охонин, 1986; Rumelhart, Hinton, Williams, 1986), которые строят модель, но уже скрытым от исследователя способом. Метод Кростона (Croston, 1972; Johnston, Boylan, 1996) предполагает разделение исходного ряда данных на два — ряд из ненулевых значений и ряд длительности между ненулевыми значениями, — после чего проводится экспоненциальное сглаживание каждого ряда, а прогнозное значение получается как ожидаемое ненулевое значение через ожидаемое число нулевых значений.
5 В логистике, когда надо определить размер запаса, достаточного для удовлетворения спроса для заданного числа периодов, иногда используется метод бутстрэппинга (Виллемейна) (Efron, Tibshirani, 1993; Willemain, Park, Kim, Shin, 2001). Для этого из имеющихся наблюдений случайным образом извлекают число значений, соответствующих числу периодов, и суммируют их; эту процедуру многократно повторяют, а затем строят функцию распределения для этой суммы значений. Размер запаса устанавливается на уровне, который обеспечит удовлетворение спроса с заданной доверительной вероятностью. Иногда для этого применяют селективные методы (Иванько, 2005), которые переключают модели прогнозирования по значению ошибки прогноза на предыдущем шаге.
6 Перечисленные методы работают с временными рядами, содержащими большое число нулевых значений. Однако наиболее обоснованным является представление событий в виде потоков дискретных событий, которые появляются через произвольные периоды времени. Для работы с данными в виде потоков событий используется теория случайных процессов (Вентцель, Овчаров, 2000). Потоки событий представляются в виде пуассоновского потока, когда время между событиями подчиняется экспоненциальному распределению, или в более сложном варианте – потоком Пальма с ограниченным последействием (здесь время между событиями соответствует произвольному закону распределения). Иногда для моделирования сверхредких событий вводят модифицированные пуассоновские процессы (Дзанагова, Хугаева, 2015). На практике чаще всего применяют классические пуассоновские процессы, когда на основе статистических данных редких продаж определяют параметры потока событий, после чего рассчитывают размер собственных запасов, зная вероятности возникновения определенного числа событий за выбранный период времени (Лукинский, Замалетдинова, 2015; Вожжов А., Луняков, Вожжов С., 2015). С помощью пуассоновских потоков можно определить вероятность появления заданного числа событий на выбранном интервале времени, а с помощью потоков Пальма — ожидаемое оставшееся время до следующего события (однако потоки Пальма являются стационарными и подходят только для случаев с постоянной интенсивностью). Использование нестационарных непуассоновских потоков не встречается.
7 У каждого метода есть своя область применения, в которой он может дать хорошие результаты. Причем для одних и тех же задач иногда можно применять разные методы, но их эффективность будет разной. Также существуют условия, для которых методы еще не разработаны. Разработка новых методов, которые дадут новые возможности либо будут более эффективными — есть цель науки.
8 2. Основная идея
9 Почему процесс возникновения событий представляется случайным? Почему интервалы между событиями должны быть случайными числами? Неужели нет информации о том, как возникают эти события? Почему из статистических данных определяется закон распределения случайных интервалов времени, а не процесс, который порождает эти события? Используя знания о характере процесса, определяя из статистических данных его параметры и закономерности, а затем, экстраполируя параметры процесса на будущее время, можно получить более точный прогноз возникновения будущих событий (рис. 1). Информация о процессе формирования событий способна избавить нас от неопределенности при их появлении. События формируются уже не случайным образом, не через абсолютно случайные периоды времени, а по определенному механизму, параметры которого стали известны из статистических данных.
10 Рис. 1. Схема анализа и прогнозирования редких событий
11 Самыми распространенными причинами появления событий в экономике могут быть процессы потребления (запас ведет себя как опустошающаяся емкость) и процессы накопления некоторого возмущения до определенного уровня, вследствие чего возникает некоторое событие. В обоих вариантах источники событий1 можно моделировать как емкости. Предложенный метод анализа и прогнозирования редких событий получил название «емкостный метод» (Кораблев, 2015а, 2015б, 2018, 2019а, 2019б). Согласно этому методу параметром процесса образования событий является нестационарная функция скорости расхода запаса или накопления воздействия f(t) , подлежащая определению. Такой функцией может быть, например, спрос, зависящий от времени, индивидуальная скорость потребления продукции, интенсивность покупок у выбранного не подконтрольного нам оптового покупателя (ненаблюдаемые значения).
1. Под источниками события понимаются некоторые объекты или системы, в которых происходят какие-то процессы, приводящие к возникновению этих событий.
12 Оказывается, что из данных редких событий можно легко восстановить функцию f(t) . Для этого инвертируем процесс потребления продукции и получаем задачу, обратную к задаче управления запасами (алгоритм в минус первой степени), когда по имеющимся данным о моментах времени и величинах воздействия события (покупок) (ti,yi) определяется скорость воздействия f(t) . Для этого используем основное предположение.
13 Предположение. Величина совершенного события yi есть интеграл функции f(t) за время от момента возникновения этого события ti до момента совершения следующего события ti+1 .
14 Для процессов потребления или накопления возмущения это предположение справедливо, оно также негласно применяется в теории управления запасами при моделировании собственных запасов (Бауэрсокс, Клосс, 2008). Изменение предпочтений потребителей не нарушает этого предположения, а выражается в изменении функции f(t). Конечно, для отдельных видов товаров или услуг это предположение может выполняться не всегда, а при определенном поведении потребителей оно может нарушаться. Но в данной работе мы будем считать, что предположение в большей степени выполняется, пусть и с погрешностью yi=ti+1tif(t)dt+εi.
15 Используя это предположение, задача определения (регрессии) f(t) превращается в оптимизационную задачу восстановления неизвестной функции, для которой известна последовательность интегралов за непересекающиеся периоды времени, с дополнительным штрафом на нелинейность (С — параметр, влияющий на степень сглаживания, n — размер выборки):
16 i=1n-1(yi-ti+1tif(t)dt)2+Ctnt1(f''(t))2dtmin. (1)
17 Нам необходимо найти решение этой оптимизационной задачи и продемонстрировать работу метода для событий, которые образуются процессами, схожими с процессами опустошения емкости.
18 3. Построение интегрального сплайна
19 Наиболее подробно задачи восстановления функций по интегралам изучены в работах (Киреев, 1994; Киреев, Бирюкова, 1998, 2014; Бирюкова, Киреев, Гершкович, 2016). Исследования этих авторов посвящены сплайнам, построение которых зависит одновременно от интегралов и дифференциалов. Такие сплайны получили название интегро-дифференциальные сплайны, или ИД-сплайны. Однако в этих работах сплайн строится на основе системы уравнений, состоящей из условий согласования yi=ti+1tiˆf(t)dt в виде точных равенств, что, по сути, является интерполяцией интегралов, а не их аппроксимацией. Кроме того, в них строятся параболические сплайны, а не кубические. В работе (Boor, 2001, р. 79) также рассматривается интерполяционный параболический сплайн, а не сглаживающий кубический. В работах (Федорова, 2008, 2016) строится одномерный и двумерный сплайны по известной площади под кривой закона распределения, однако в этой работе сплайн также является интерполяционным, а не аппроксимирующим. Готового решения нашей задачи мне найти не удалось, поэтому его пришлось разрабатывать самостоятельно.
20 Мой метод базируется на методе аппроксимации кубическими сплайнами обычных функций (не интегралов функции) со штрафом на нелинейность2, но модифицируется для работы с интегралами функции. Решение ищется в виде ˆf(t)=g(t) , где g(t) — кубический сплайн3, причем на каждом участке функция записывается не как полином с четырьмя неизвестными коэффициентами, а выражается только через две переменные — значение функции в точке gi= g(ti) и ее вторую производную в этой точке γi=g''(ti) . Значение сплайна в произвольной точке определяется по формуле
2. В великолепно написанной работе (Green, Silverman, 1994) представлено необходимое объяснение всей теории.

3. Сочленение кусочков из полиномов третьей степени в точках ti с условием непрерывности как самой функции, так и ее производной в точках сочленения.
21 g(t)=(t-ti)gi+1+(ti+1-t)giti+1-ti-16(t-ti)(ti+1-t){(1+t-titi+1-ti)γi+1+(1+ti+1-tti+1-ti)γi},i:    titti+1. (2)
22 Набор всех значений g=(g1,,gn)T,     γ=(γ2,,γn-1)T (в начальной и последней точке γ1=γn=0 ) полностью задает весь сплайн. Условия непрерывности первой производной в точках сочленения g'(ti+0)=g'(ti-0),      i=2,  ...,  n-1 дают систему из n-2 уравнений, которая может быть записана в матричном виде через матрицы коэффициентов Q,   R при неизвестных gi,  γi :
23 gi+1-giti+1-ti-gi-gi-1ti-ti-1={(ti+1-ti)(γi+1+2γi)+(ti-ti-1)(2γi+γi-1)}/6,     i=2,  ...,  n-1,QTg=Rγ, (3)
24 где матрица Q размерностью n×(n-2) и R размерностью (n-2)×(n-2) имеют вид:
25 Q=(h1-1-h1-1-h2-1h2-10...0000h2-1-h2-1-h3-1h3-1...000........................0000...hn-2-1-hn-2-1-hn-1-1hn-1-1),R=((h1+h2)/3h2/600...00h2/6(h2+h3)/3h3/60...000h3/6(h3+h4)/3h4/6...00    .....................0000...hn-2/6(hn-2+hn-1)/3),
26 hi=ti+1-ti,      i=1,  ...,  n-1 .
27 Штраф на нелинейность ba(g''(x))2dx упрощается (Green, Silverman, 1994, р. 24–25):
28 ba(g''(x))2dx=γTQTg=γTRγ=gT[QR-1QT]g=gTKg. (4)
29 Для решения задачи (1), где ˆf(t)=g(t) , найдем интеграл ti+1tig(t)dt , где g(t) определяется через искомые неизвестные gi,  γi по формуле (2). После преобразований получаем формулу:
30 ti+1tig(t)dt=gi+1hi2+gihi2-γi+1hi324-γihi324. (5)
31 Тогда оптимизационная задача (1) для искомых g и γ может быть записана в виде
32 S(g)=(Y-Vg+Pγ)T(Y-Vg+Pγ)+αgTKgmin, (6)
33 где Y=(y1,,yn-1)T ; V — матрица размера (n-1)×n и P — матрица размера (n-1)×(n-2) являются матрицами коэффициентов при неизвестных g  и γ :
34 V=12(h1h10000h2h2000000hn-1hn-1), P=124(h1300000h23h2300000h33h3300000000hn-23hn-23000000hn-13).
35 Далее, благодаря тому, что условия непрерывности по-прежнему дают систему уравнений QTg=Rγ , выражая γ=R-1QTg, перепишем формулу (6) так, чтобы в ней была только одна неизвестная:
36 S(g)=(Y-(V-PR-1QT)g)T(Y-(V-PR-1QT)g)+αgTKg=(Y-Cg)T(Y-Cg)+αgTKg, (7)
37 где C=V-PR-1QT матрица размера (n-1)×n . Для нахождения минимума выражения (7) раскроем скобки, перегруппируем слагаемые и приравняем производную по g к нулю (d(xTb)/dx=b, d(bx)/dx=bT, а если матрица симметрична (что у нас выполняется), то d(xTAx)/dx=(A+AT)x=2Ax) :
38 S(g)=gT(CTC+αK)g-2YTCg+YTY,    S'(g)=2(CTC+αK)g-2(YTC)T=0,g=(CTC+αK)-1CTY. (8)
39 На этом сплайн полностью построен (значения g и γ=R-1QTg задают сплайн g(t) ).
40 Заметим, что исходные матрицы Q,    R,    V,    P (из которых также получаются K=QR-1QT и C=V-PR-1QT) зависят только от интервала между наблюдениями hi=ti+1-ti, но не зависят от значений в этих наблюдениях yi , а значения Y=(y1,  ...,  yn-1)T участвуют только в выражении (8).
41 Пример использования интегрального сплайна. Пусть нам известны данные (ti,yi) о датах и объемах поставок полуторалитровых бутылок кваса в универсам (табл. 1). По ним можно построить график (рис. 2), на котором ступенчатой линией показано среднее число проданных за день бутылок. Гладкая линия обозначает аппроксимирующий сплайн, который минимизирует разницу между интегралами функции и объемом поставки (площадь под ступенькой). Большое расхождение в ширине интервалов наблюдений (куски сплайнов имеют разную ширину) и неудачный выбор параметра α могут влиять на сглаживающие свойства сплайна (местами функция становится отрицательной, что противоречит физическому смыслу). Также при очень больших наборах данных, когда кусков сплайна, привязанных к точкам наблюдения, становится очень много, вычисления могут быть очень трудоемкими. Желательно, чтобы участки сплайна не были привязаны к точкам наблюдения.
42 Таблица 1. Данные о поставках бутылок кваса в универсам
43

Дата Поставки Дата Поставки Дата Поставки 02.02.2018 12 28.05.2018 60 12.11.2018 18 12.02.2018 12 18.06.2018 18 17.12.2018 42 26.02.2018 24 29.06.2018 60 27.12.2018 18 12.03.2018 12 16.07.2018 54 14.01.2019 12 26.03.2018 18 30.07.2018 24 11.02.2019 18 09.04.2018 36 06.08.2018 30 04.03.2019 18 23.04.2018 18 20.08.2018 30 11.03.2019 6 07.05.2018 60 03.09.2018 48 14.05.2018 60 29.10.2018 24 Рис. 2. Скорость расхода бутылок кваса универсамом, шт. в день

44 4. Переход к базисному сплайну
45 Чтобы куски сплайнов не были привязаны к точкам наблюдения, следует перейти к базисному сплайну (B-сплайну), состоящему из набора m базисных функций βk(t) , которые, как правило, тоже будут полиномами, но определенными в произвольных точках s1<<sm (чаще всего распределенными равномерно). Каждая функция βk(t) берется с некоторым коэффициентом δk , который является некоторым индикатором, принимающим значение 0 или 1 в зависимости от того, какая функция соответствует текущему моменту времени, g(t)=mk=1δkβk(t).
46 Дополнительно добавим возможность задавать вес каждого наблюдения wi . Тогда оптимизационная задача примет вид
47 SW(g)=n-1i=1wi{yi-ti+1tik=1mδkβk(t)dt}2+αtnt1((k=1mδkβk(t))'')2dtmin. (9)
48 Для ее решения надо найти значения сплайна g=(g1,,gm)T и его вторых производных γ=(γ2,,γm-1)T , но уже в новых точках s1<s2<<sm .
49 Штраф на нелинейность по-прежнему будет выражаться как αgTKg , где K=QR-1QT , но при этом размерность матриц Q и R будет зависеть не от n , а от m , а элементы — от расстояния между новыми точками, где hk=sk+1-sk,      k=1,  ...,  m-1.
50 Рассчитаем интеграл ti+1timk=1δkβk(t)dt . В зависимости от того, где появятся точки наблюдений (рис. 3) и как будут заданы новые точки сплайна, возможно несколько способов расчета.
51 абв Рис. 3. Расположение соседних наблюдений на разных участках сплайна: а) в одном интервале; б) в двух соседних интервалах; в) в L интервалах друг от друга
52 Для того чтобы получить универсальное выражение, подходящее для всех трех случаев, представим интеграл в виде
53 ti+1tik=1mδkβk(t)dt=l=0Lsk+l+1sk+lβk+l(t)dt-tiskβk(t)dt-sk+L+1ti+1βk+L(t)dt,L:    sk+L<ti+1sk+L+1. (10)
54 Первая часть выражения (10) есть интеграл от всех L участков сплайна; вторая — интеграл от начала первой базисной функции k до текущего наблюдения i ; третья — интеграл от наблюдения i+1 до конца последнего интервала k+L , на который попало следующее наблюдение. Значения k и L определяются в зависимости от того, куда попало текущее и следующее наблюдение.
55 Первая часть выражения находится из полученной ранее формулы, но границами интервала стали новые точки:
56 l=0Lsk+l+1sk+lβk+l(t)dt=l=0L[hk+l2gk+l+1+hk+l2gk+l-hk+l324γk+l+1-hk+l324γk+l]. (11)
57 После некоторых преобразований вторую часть можно представить в компактной форме
58 tiskβk(t)dt=(h-ik)22hkgk+1+(hk)2-(h+ik)22hkgk+γk+124hk(h-ik)2((h-ik)2-2(hk)2)--γk24hk(h-ik)2(h+ik+hk)2 ,    h-ik=ti-sk,     h+ik=sk+1-ti,    hk=sk+1-sk; (12)
59 третья часть —
60 sk+L+1ti+1βk+L(t)dt=gk+L+1((hk+L)2-(h-(i+1)k+L)2)2hk+L+gk+L(h+(i+1)k+L)22hk+L-γk+L+1(h+(i+1)k+L)2(h-(i+1)k+L+hk+L)224hk+L++γk+L(h+(i+1)k+L)2((h+(i+1)k+L)2-2(hk+L)2)24hk+L,    h-(i+1)k+L=ti+1-sk+L,    h+(i+1)k+L=sk+L+1-ti+1. (13)
61 Подставляя выражения (11)–(13) в (10), можем найти ti+1tik=1mδkβk(t)dt . Как и раньше, форма этого выражения будет линейной по отношению к неизвестным g и γ . В результате оптимизационную задачу для нахождения искомого B-сплайна интегралов можно записать в знакомом виде SW(g)=(Y-Vg+Pγ)TW(Y-Vg+Pγ)+αgTKgmin. Заполнение матриц V и P происходит на основе наблюдений о моментах времени возникновения текущего и следующего событий, в зависимости от того, на интервал какой базисной функции выпало это наблюдение.
62 Возможно, будет удобно воспользоваться следующим представлением: V=GI-GII-GIII, P=ΓI-ΓII-ΓIII, где матрицы GI,    GII,    GIII имеют размерность (n-1)×m , ΓI,    ΓII,    ΓIII — размерность (n-1)×(m-2) (так как γ1=γm=0 не участвуют). Элементы этих матриц заполняются по формулам:
63 GIi,k=0,5hk,      tkti<tk+1;    GIi,k+l=0,5(hk+l-1+hk+l),     l=1,  ...,  L:tkti,     tk+Lti+1<tk+L+1;
64 GIi,k+L+1=hk+L/2,  L:tk+Lti+1<tk+L+1;
65 GIIi,k=hk/2-(h+ik)2/2hk,     tkti<tk+1;    GIIi,k+1=(h-ik)2/2hk,     tkti<tk+1;
66 GIIIi,k+L=(h+(i+1)k+L)2/2hk+L,    tk+Lti+1<tk+L+1;    GIIIi,k+L+1=hk+L/2-(h-(i+1)k+L)2/2hk+L,     tk+Lti+1<tk+L+1;
67 ΓIi,k=hk3/24,      tkti<tk+1;    ΓIi,k+l=(hk+l-13+hk+l3)/24,      l=1,,L:tkti,      tk+Lti+1<tk+L+1;
68 ΓIi,k+L+1=hk+L3/24,     L:tk+Lti+1<tk+L+1;
69 ΓIIi,k=(h-ik)2(h+ik+hk)2/24hk,    tkti<tk+1;    ΓIIi,k+1=-(h-ik)2((h-ik)2-2(hk)2)/24hk,     tkti<tk+1;
70 ΓIIIi,k+L=-(h+(i+1)k+L)2((h+(i+1)k+L)2-2(hk+L)2)/24hk+L,     tk+Lti+1<tk+L+1;
71 ΓIIIi,k+L+1=(h+(i+1)k+L)2(h-(i+1)k+L+hk+L)2/24hk+L,     tk+Lti+1<tk+L+1.
72 Обозначим C=V-PR-1QT, где матрица С будет иметь размерность (n-1)×m. Тогда оптимизационная задача примет знакомый вид SW(g)=(Y-Cg)TW(Y-Cg)+αgTKgmin, решение которой дает искомые значения g=(CTWC+αK)-1CTWY , γ=R-1QTg , определяющие сплайн g(t) в любой точке по формуле (2).
73 На рис. 4 для примера с поставками кваса в универсам показана построенная функция, которая в значительной степени лишена недостатка способа без использования базисных функций (когда узлами сплайна являлись точки наблюдений). Так как разница в сумме квадратов считается между значениями интегралов, которые значительно превосходят значение самой функции, квадрат второй производной у которой достаточно мал; параметр α, отвечающий за сглаживание, должен быть взят достаточно большим, например α=105 .
74

Рис. 4. Скорость расхода бутылок кваса универсамом, шт. в день !Верстка! вместо дефиса точку

75 5. Результаты и обсуждения
76 Представленный математический аппарат позволяет восстанавливать функцию по последовательности ее интегралов, причем в условиях, когда эти интегралы наблюдаются с погрешностью. По данным редких событий, таких как дискретные продажи и поставки, которые образуются в результате процесса потребления, схожего с опустошением емкости, можно определить, с какой скоростью заканчивался запас продукта у клиентов (в этом примере клиентом был сам универсам). В свою очередь, если со стороны универсама применить описанный метод, можно определить, с какой интенсивность расходуется квас у каждого конечного потребителя.
77 Определить точность восстановления функции на реальных данных не получится, так как неизвестна исходная функция, т.е. не с чем сравнивать. Мы можем самостоятельно заложить исходную функцию (спрос), моделируя процесс потребления (модели управления запасами) и получая данные покупок (табл. 2). Восстановление исходной функции происходит с очень хорошей точностью (рис. 5). Далее можно переходить к следующему этапу: определять закономерность и проводить экстраполяцию любыми известными методами.
78 Таблица 2. Данные моделирования системы управления запасами
79
ti yi ti yi ti yi ti yi ti yi
01.01.2018 1444,92 02.06.2018 1431,26 27.09.2018 1423,71 29.03.2019 1409,63 26.07.2019 1423,52
07.02.2018 1419,99 28.06.2018 1447,22 01.11.2018 1405,42 22.04.2019 1421,73 16.08.2019 1463,59
22.03.2018 1405,61 23.07.2018 1460,58 08.12.2018 1427,89 14.05.2019 1425,66 06.09.2019 1419,05
18.04.2018 1420,30 13.08.2018 1418,59 09.01.2019 1418,25 07.06.2019 1423,06 03.10.2019 1415,66
10.05.2018 1415,2 03.09.2018 1467,09 21.02.2019 1421,34 03.07.2019 1435,58 11.11.2019 1427,14
80 Рис. 5. Пример анализа и прогнозирования редких событий
81 На этапе поиска закономерности ответственность за результат экстраполяции полностью ложится на плечи исследователя, который, как предполагается, является специалистом в соответствующей прикладной области. На этом шаге можно использовать экспертное мнение и информацию из внешних источников, например пробовать искать зависимость от таких внешних признаков, как ВВП, уровень безработицы, курс рубля и др. В последнем примере внешней информацией является знание того, что исходная функция являлась гармонической, с помощью алгоритма Куинна–Фернандеса (Quinn–Fernandes algorithm) (Quinn, Fernandes, 1991; Quinn, Hannan, 2001) происходит определение соответствующей закономерности как разложение на фиксированное количество гармонических функций.
82 Стоит заметить, что наибольшая погрешность восстановления наблюдается на концах интервала, так как в этих точках сплайн не знает, куда стремиться, поэтому можно улучшить качество модели, если отбросить часть значений с обоих концов восстановленной функции. На рис. 5 линия «Экстраполяция» построена по модели, оцененной по всей выборке, а «Экстраполяция 2» — по выборке после отбрасывания 20 точек с каждого конца. После экстраполяции функции скорости расхода запаса определяем моменты будущих событий, моделируя процесс потребления как в системах управления запасами (величина заказа определяется из данных редких событий) (табл. 3).
83 Таблица 3. Сравнение моментов времени прогнозных и фактических событий
84
Прогноз 15.12.2019 18.01.2020 02.03.2020 01.04.2020 24.04.2020 16.05.2020
Факт 15.12.2019 18.01.2020 03.03.2020 02.04.2020 25.04.2020 18.05.2020
Прогноз 09.06.2020 05.07.2020 28.07.2020 18.08.2020 10.09.2020 11.10.2020
Факт 12.06.2020 07.07.2020 29.07.2020 18.08.2020 10.09.2020 12.10.2020
85 Полученные прогнозные значения моментов времени возникновения будущих событий очень близки к моментам фактических событий (если продолжать моделирование). Ни один другой метод анализа редких событий не в состоянии дать прогноз с такой точностью. Однако из-за того что восстановление функции было неидеальным и параметры модели (частота, амплитуда и фаза колебаний) определялись с погрешностью, расхождение может со временем нарастать, и прогнозирование на очень далекую перспективу будет неточным. Стоить отметить, что способ восстановления функции, приводящей к событиям, может иметь большое значение для науки в соответствующей прикладной области.

Библиография

1. Барцев С.И., Охонин В.А. (1986). Адаптивные сети обработки информации. Красноярск: Институт физики СО АН СССР. Препринт № 59Б.

2. Бауэрсокс Д.Дж, Клосс Д.Дж. (2008). Логистика: интегрированная цепь поставок. 2-е изд. Пер. с англ. Н.Н. Барышниковой, Б.С. Пинскера. М.: ЗАО «Олимп-Бизнес».

3. Бирюкова Т.К., Киреев В.И., Гершкович М.М. (2016). Методы численного дифференцирования и восстановления сеточных функций по интегралам, основанные на интегродифференциальных сплайнах. В сб.: Системы компьютерной математики и их приложения. Материалы XVII Международной научной конференции. Вып. 17. С. 106–112. Смоленск: Издательство СмолГУ.

4. Вентцель Е.С., Овчаров Л.А. (2000). Теория случайных процессов и ее инженерные приложения. Учеб. пособие для втузов. 2-е изд. М.: Высшая школа.

5. Вожжов А.П., Луняков О.В., Вожжов С.П. (2015). Формирование страховых запасов предприятия при пуассоновском характере поступающих и выдаваемых потоков. В сб.: Экономика и управление: теория и практика. Т. 1. № (1). С. 30–35.

6. Дзанагова И.Т., Хугаева Л.Т. (2015). Информационно-статистические методы построения экстремальных моделей редких событий // Фундаментальные исследования. № 11 (6). С. 1081–1084.

7. Иванько Р.С. (2005). Краткосрочное прогнозирование нестационарного спроса в оптовой торговле: дисc. … канд. эконом. наук. Москва.

8. Киреев В.И. (1994). Интегральный метод приближения функций алгебраическими многочленами и биквадратными сплайнами // Вестник Московского авиационного института. Т. 1. № 1. С. 48–58.

9. Киреев В.И., Бирюкова Т.К. (1998). Полиномиальные интегродифференциальные одномерные и двумерные сплайны // Вычислительные технологии. Т. 3. № 3. С. 19–34.

10. Киреев В.И., Бирюкова Т.К. (2014). Интегродифференциальный метод обработки информации и его применение в численном анализе. М: ИПИ РАН.

11. Кораблев Ю.А. (2015а). Емкостный метод определения функции скорости потребления // Экономика и менеджмент систем управления. Т. 15 (1.1). С. 140–150.

12. Кораблев Ю.А. (2015б). Обоснование емкостного метода определения спроса // Экономика и статистика. № 5. С. 96–101.

13. Кораблев Ю.А. (2017а). Емкостный метод анализа редких продаж в Excel. Экономика и управление: проблемы, решения. № 6. Т. 3 (66). С. 224–230. [

14. Кораблев Ю.А. (2017б). Разбор причин и оценка погрешности аномальных картин в емкостном методе анализа редких событий // Экономика и управление: проблемы, решения. Т. 8 (6). С. 8–12.

15. Кораблев Ю.А. (2018). Исследование точности емкостного метода от позиции в цепочке распространителей // Экономика и управление: проблемы, решения. Т. 7 (5). С. 106–121.

16. Кораблев Ю.А. (2019а). Погрешность емкостного метода анализа редких событий, удаленность от конечного потребителя // Известия Кабардино-Балкарского научного центра РАН. № 3 (89). С. 48–77. DOI: 10.35330/1991-6639-2019-3-89-48-77 [

17. Кораблев Ю.А. (2019б). Емкостный метод анализа редких событий в торговле различными товарами // Бизнес. Образование. Право. Вестник Волгоградского института бизнеса. № 3(48). С. 121–131. DOI: 10.25683/VOLBI.2019.48.313 [

18. Лукинский В., Замалетдинова Д. (2015а). Методы управления запасами: расчет показателей запаса для товарных групп, относящихся к редким событиям (часть I) // Логистика. № 1 (98). С. 28–33.

19. Лукинский В., Замалетдинова Д. (2015б). Методы управления запасами: расчет показателей запаса для товарных групп, относящихся к редким событиям (часть II). Логистика.. № 2 (99). С. 24–27.

20. Федорова О.П. (2008). Об одном подходе к приближению функции сплайнами // Вестник Томского государственного университета. Математика и механика. № 2 (3). С. 61–66.

21. Федорова О.П. (2016). Метод построения сплайна, сохраняющего интеграл функции двух переменных по области ее задания // Научный альманах. № 1–3 (15). С. 31–35.

22. Altman N.S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46 (3), 175–185. DOI:10.1080/00031305.1992.10475879

23. Boor C. de (2001). A Practical Guide to Splines. Revised Edition. New-York: Springer.

24. Cover T., Hart P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13 (1), 21–27.

25. Croston J.D. (1972). Forecasting and stock control for intermittent demands. Operational Research Quarterly (1970–1977), 23 (3), 289–303.

26. Efron B., Tibshirani R.J. (1993). An introduction of the bootstrap. New York: Chapman & Hall.

27. Green P.J., Silverman B.W. (1994). Nonparametric regression and generalized linear models. A roughness penalty approach. New York: Chapman & Hall.

28. Johnston F.R., Boylan J.E. (1996). Forecasting intermittent demand: A comparative evaluation of Croston's method. Comment. International journal of forecasting, 12 (2), 297–298.

29. Quinn B.G., Fernandes J.M. (1991). A fast efficient technique for the estimation of frequency. Biometrika, 78, 3 (Sep.), 489–497.

30. Quinn B.G., Hannan E.J. (2001). The estimation and tracking of frequency. Cambridge: Cambridge University Press.

31. Rumelhart D.E., Hinton G.E., Williams R.J. (1986). Learning internal representations by error propagation. In: Parallel distributed processing. 1, 318—362. Cambridge: MIT Press.

32. Willemain T.R., Park D.S., Kim Y.B., Shin K.I. (2001). Simulation output analysis using the threshold bootstrap. European journal of operational research, 134 (1), 17–28.

33. Walker S.H., Duncan D.B. (1967). Estimation of the probability of an event as a function of several independent variables. Biometrika, 54 (1/2), 167–178. DOI: 10.2307/2333860. JSTOR 2333860

Комментарии

Сообщения не найдены

Написать отзыв
Перевести