Горячая линия +7 (495) 268-09-63
Как мы создавали метод ансамбля предсказательных моделей, помогающий увеличить предсказательную силу.
Scorista - сервис оценки для микрофинансовых организаций. Мы предоставляем нашим клиентам скоринговый балл, кредитное решение "выдать" или "отказать", стоп-факторы и параметры заемщика на основе кредитной истории.
Параметры полученной кредитной истории могут быть далее использованы в скоринг модели. Карточка кредитного решения строится в соответствии с определенными требованиями:
В ходе улучшения сервиса и достижения гарантированных показателей, мы столкнулись с определенной проблемой - в карточку кредитного решения выводится балл по одной модели, а решение принимается по 6 моделям. Очевидно, что при ансамблировании 6 моделей скоринговый балл будет сильнее, чем от 1 модели.
Реальность такова, что выборки, на которых мы строим наши модели - зависимые, баллы коррелируемые, таргеты разнородные и бывает недостаточно большая выборка, чтобы применить классические методы: бустинг, стеккинг, блендинг, бэггинг.
Возникла потребность создать собственный механизм ансамблирования.
В настоящий момент TLV клиента - наиболее значимая величина, потому что процент ставки падает, возвратность ухудшается и необходимо не только предсказать просрочку возврат займа, но еще и понять, сколько мы заработаем на клиенте за все время его жизни в компании. Мы знаем, что основной доход микро-финансовых организаций зарабатывается на повторных заемщиках.
Мы готовим выборку в зависимости от времени – если у нас есть наблюдения за год, то полгода мы берем в качестве обучения, следующие три месяца мы берем на валидацию - на дополнительное обучение и еще три месяца на тестирование полученной модели. Данный способ позволяет сгладить сезонность, но минимизирует подготовленность к случайности - изменение потока.
Для каждой пары ячеек первой и второй модели мы делаем координаты. Начинаем с того, что М1 объединяем с М2, то есть, ячейка первая М1 и ячейка первая М2 получают координату 1 – координату I. Так для каждой пары – у нас в конечном итоге получится одномерная матрица I, состоящая из миллиона ячеек. Далее мы объединяем полученную координату со следующей моделью точно также – веерно. Также для каждой пары ячеек делаем свою координату – у нас получается следующий миллион и так далее.
Когда мы дойдем до М6, мы получим матрицу, состоящую из квинтиллиона ячеек.
Далее нам нужно матрицу L последовательно объединить ячейки до такой степени, чтобы в них появилось статистически значимое значение наблюдений. Мы должны понимать, необходимо ли присоединять следующую ячейку или присоединять ее к следующему объединению на основании определенных правил.
Чтобы проверить гипотезу, было необходимо просто объединить по статистически значимому значению. Можно также смотреть на количество BR в ячейке.
Мы объединяем таким образом, чтобы у нас появилась новая матрица – производная матрица LV c значением 10.000. То есть, квинтиллион сокращается до 10.000 и не более.
После того, как мы получили производную матрицу LV, мы считаем для каждой ячейки BR по искомой переменной LTV, которую вы можете увидеть на слайде. BR очень хаотичный, поэтому для получения интерпретации, мы преобразовываем матрицу и работаем с ней как с обычным мета-признаком. Мы сортируем по BR, и при необходимости, если ячеек больше тысячи, мы их объединяем по BR по определенным правилам.
Наблюдения снова нумеруем в последовательности в каждую ячейку и получаем значение нового скора. После этого мы проверяем результат. У нас есть новый скор, где шаг-100 для наглядности. В целом возможно строить распределение с шагом в 25, 50 в зависимости от выборки.
Так мы строим распределение для каждой искомой переменной по новому скору для каждой модели. Новый скор должен давать разрешающую способность для каждой искомой модели.
Если есть некорректности распределения, то необходимо вернуться на шаг 1, поставить веса нашим моделям и проделать ту же самую процедуру.
Метод ансамблирования уже доступен как сервис в Scorista. Просчитайте кредитный риск и увеличьте предсказательную силу, протестировав метод ансамбля вместе с нами. Это очень просто – оставьте заявку на сайте или через звонок. Мы просчитаем вам агрегированный балл, который вы сможете использовать для принятия решения. Расчетчик устанавливается на сервере заказчика.
Протестируйте метод ансамблирования вместе с нами!