RUS

Горячая линия +7 (495) 268-09-63

Аналитика

Конкурс прогноза просрочки: обнаружение аномалии, критерий оценки, метод решения

18.06.2021
Выполнено: пресс-службой СКОРИСТА

СКОРИСТА приняла участие в китайском конкурсе по моделированию «The 2nd Shandong province Data Application and Innovation Competition for startups - Provident Fund loan overdue forecast». Мы использовали новый для себя метод моделирования, деталями которого делимся с Вами в этой статье. Задача конкурса, её решение, а также метод оценки результата оказались весьма нестандартными для нас. Возможно, наш опыт будет полезен и нашим читателям.

 

Задача 

Беря за основу реальные ситуации и практическое применение, а также используя базовую идентификационную информацию клиентов, данные об отчислениях в фонд жилищных накоплений, кредитные данные и другую информацию клиентов, участникам необходимо построить точную модель контроля рисков, чтобы предсказать, будет ли у клиента просрочка по погашению долга.  

 

Данные 

Обучающий набор состоит из данных 40 000 клиентов, а тестовый набор содержит базовую информацию клиентов (семейный статус, профессия, должность и т.д.), информацию об отчислениях (например, база отчислений, сумма ежемесячных отчислений и т.д.) и информацию о кредитах 15 000 людей.

 

Критерии оценки конкурса

Результаты соревнований ранжируются в соответствии с тестом, установленным мониторингом рисков просрочки платежей в жилищный фонд. Необходимо сделать как можно меньше ошибок и как можно точнее их обнаружить, поэтому критерием оценки был выбран “средневзвешенное значение TPR при низком уровне FPR”. 

При заданном пороговом значении, можно c помощью матрицы ошибок вычислить TPR (охват) и FPR (частота возмущений), TPR = TP /(TP + FN) FPR = FP /(FP + TN), где TP, FN, FP, TN - истинные положительные случаи, ложные отрицательные случаи, ложные положительные случаи, истинные отрицательные случаи соответственно. Сначала вычислили три показателя скоринга

TPR:

TPR1: TPR при FPR=0.001

TPR2: TPR при FPR=0.005

TPR3: TPR при FPR=0.01

Окончательный критерий: TPR = 0.4 * TPR1 + 0.3 * TPR2 + 0.3 * TPR3, код выглядит следующим образом:

Таким образом, в соревновании поставлена классическая задача поиска аномалий. То есть объектов одного класса сильно больше, чем объектов другого класса, при этом критерий оценки подобран таким, который сильно штрафует за появление объектов второго класса больше 1% (TR1), несколько меньше за появление больше 5% (TR2) и 10% (TR3). То есть, мы сортируем наши ответы, смотрим, как только среди объектов одного класса оказалось 1% (от всей выборки) объектов другого класса – вычисляем TR1, этот показатель тем больше, чем больше всего объектов попало до этой границы. Смысл TR2 и TR3 – аналогичен для границ в 5 и 10% соответственно.

 

Проблема

В ходе конкурса мы столкнулись с новым для нас коэффициентом - “средневзвешенное значение TPR при низком уровне FPR”. И тут возникла проблема: нам хорошо известны составляющие этого коэффициента, но как ранжировать этот коэффициент и выставлять пороги - совершенно не ясно. То есть мы понимали, как он считается, но как моделировать, чтобы максимизировать этот коэффициент? Тут пришлось искать подходы в китайских источниках.

 

Вариант базовой схемы для решения конкурса

Изменчивость показателя “средневзвешенное значение TPR при низком уровне FPR” очень велика, сам показатель не дифференцируемый, следовательно, он практически не может быть непосредственно оптимизирован, поэтому возьмём показатели AUC для оптимизации модели.

Основная идея очень проста и, главным образом, заключается в обработке категориальных и числовых признаков. Сначала все поля категориальных признаков преобразуем в целевое кодирование, а также подсчитаем частоты всех категориальных признаков. Категориальные признаки слишком маленьких частот объединим в одну группу. Далее необходимо извлечь признаки отклонений из признаков числовых значений, то есть расстояние между отдельным индивидуумом и группой.

 

Модель использует градиентный бустинг lightgbm, обучение производится с использованием показателя AUC и параметров по умолчанию в виде 50%-ной кросс-валидации.

Есть также много разных способов улучшить метод - мы лишь представили базовый вариант решения поставленной задачи. Очевидно, что использование знаний о кредитах жилищного фонда для применения в проектировании характеристик — это очень хорошее и перспективное направление.

При этом стоит отметить, что коэффициент “средневзвешенное значение TPR при низком уровне FPR”, несмотря на то, что его практически невозможно оптимизировать, тем не менее даёт хорошую оценку именно в случае задачи поиска аномалий, где необходимо разделить классы, а цена ошибки высока.