Обсуждаются распространенные ошибки, допускаемые исследователями при прогнозировании событий с помощью моделей на основе машинного обучения. Такими ошибками являются: потеря самих событий, вследствие конструирования абстрактных признаков; обучение моделей происходит по клиентам, а не по событиям от клиентов; конструирование искусственных признаков; неправильная валидация и ошибочные метрики качества модели; используются статичные параметры. Приведен разбор совершенных ошибок одного примера с Kaggle. Площадь под ROC-кривой у такого примера очень высокая — 0,88. Однако эта метрика качества рассчитана некорректно. После исправления всех ошибок корректная метрика оказалась 0,599. Представлен иной подход к анализу и прогнозированию событий, который значительно отличается от классических методов машинного обучения. Метод основан на рассмотрении индивидуальных механизмов образования событий для каждого клиента. Строятся модели таких механизмов. Математическими методами восстанавливаются параметры моделей этих механизмов образования событий. Параметры экстраполируются на будущее. Прогноз будущего события получается в результате функционирования модели механизма с установленными значениями параметров. Метрика качества модели, площадь под кривой ROC, составила 0,615, что немного больше, чем в рассматриваемом примере с Kaggle, основанном на машинном обучении. Тем самым показано, что предложенный подход является конкурентным для передовых методов машинного обучения.
Indexing
Scopus
Crossref
Higher Attestation Commission
At the Ministry of Education and Science of the Russian Federation