RUS

Горячая линия +7 (495) 268-09-63

Аналитика

МЕТОДЫ ПОСТРОЕНИЯ СКОРКАРТ НА МИКРОВЫБОРКАХ

03.12.2021
Выполнено: пресс-службой СКОРИСТА

В мире больших данных кредиторы все чаще сталкиваются с необходимостью моделирования на недостаточных выборках. Например, небольшой объем наблюдений может быть при выходе в новые сегменты, более подробной сегментации клиентов, автоматизации исторически «ручных» процессов. Как создавать эффективные и стабильные модели на микровыборках и моделировать при небольшом объеме наблюдений, избегая распространенных ловушек?

Главное, что нужно понимать: микровыборка – это часть макровыборки. Если скоркарта не строится, можно разбить выборку на подвыборки и моделировать для каждой из них.

Основная проблема – переобучение. Большинство скоркарт, построенных на микровыборках, переобучены и не работают на проверочных выборках. Вероятность переобучения составляет 98%, AUC Train – AUC Test ≥ 0,05.

Решение – настройка параметров моделирования для каждого этапа. Грамотная настройка параметров моделирования при формировании выборки, группировании, корреляции, построении логрегрессии позволяет избежать переобучения.

Реальный пример: микрофинансовая компания выдала 3200 займов, срок займа 15 дней, средняя сумма займа 6,5 тыс. руб. Это PDL-займы, заемщики имеют очень плохую кредитную историю. PD90+ составляет 23%. Была поставлена задача снизить уровень просрочки 90+. На PD90+ вызрело только 2100 займов. Как моделировать?

Наша методика построена на изменении настроек на каждом этапе моделирования: начиная от подготовки выборки и заканчивая настройкой логистической регрессии.

 

Подготовка выборки

Выборку мы делим в зависимости от времени (рисунок). Первая половина – проверочная выборка (та, которая не вызрела), вторая – выборка для обучения (та, которая вызрела).

Рисунок 1. Подготовка выборки.

 Подготовка выборки

 Количество наблюдений тестовой выборки не менее 650 пригодно для стабилизации.

 

На построение у нас был примерно год. Далее мы разделили выборку для построения также на две части: обучающую и тестовую. Соотношение должно быть таким, чтобы в тестовой выборке было не менее 650 наблюдений.

 

Стабилизация

Мы разработали такое понятие, как стабилизация: это доля совпадения Information Value (IV) переменной, которая участвует в моделировании, с IV на тесте. Если эта доля меньше указанной в табл. 1, переменная в моделировании не участвует. Стабилизация сглаживает переобучение.

Таблица 1. Параметр стабилизации.

Параметр стабилизации

AUC Train

AUC Test

Diff

90%

0,74

0,73

0,02

75%

0,75

0,71

0,04

 

Группирование

Мы обязательно группируем выборку при моделировании. Это значительно повышает IV. Группирование – основа качественной модели1. Разница долей bad rate между соседними группами зависит от доли таргета в выборке (табл. 2). 

Таблица 2. Разница долей таргета между группами.

Разница доли таргета 

AUC Train

AUC Test

Diff

2%

0,74

0,73

0,01

5%

0,75

0,74

0,01

10%

0,71

0,69

0,03

Разница в 5% дает максимально качественную модель.

Мы используем такой параметр, как размер группы (табл. 3). Минимальный размер группы зависит от размера train выборки. В группе должно быть статистически значимое число наблюдений – не менее 150–180.

Таблица 3. Размер группы. 

Размер группы

AUC Train

AUC Test

Diff

10%

0,74

0,73

0,01

15%

0,72

0,72

0,00

Количество групп влияет на скорость расчета и качество модели. Поэтому мы используем еще один параметр – максимальное количество групп (табл. 4). Он регулируется размером группы, так что не бойтесь устанавливать большое количество групп.

Таблица 4. Максимальное количество групп.

Количество групп

AUC Train

AUC Test

Diff

5

0,76

0,72

0,04

10

0,75

0,74

0,01

 

Настройка логрегрессии

На маленьких выборках необходимо использовать градиентный спуск (табл. 5) – он нейтрализует переобучение.

Таблица 5. Градиентный спуск.

Количество групп

AUC Train

AUC Test

Diff

Спуск

0,83

0,79

0,04

Без спуска

0,97

0,70

0,27

Немаловажный параметр – минимальная IV переменной (табл. 6). Каждая переменная важна: мы берем даже самые слабые переменные, потому что любая маленькая переменная может дать вам вес.

Таблица 6. Минимальная IV переменной.

MIN IV

AUC Train

AUC Test

Diff

5%

0,69

0,68

0,01

2%

0,74

0,73

0,01

  

Что ещё можно сделать

Чтобы избавиться от переобучения и повысить качество модели, можно:

  • «поиграть» с выборкой, разделяя ее по-разному за счет генерации псевдослучайного числа (в нашем примере – 42);
  • не принимать во внимание тренды (позитивный и негативный);
  • менять шаг группирования: при его увеличении снижается точность модели;
  • выделить группу для пустоты – когда переменную нельзя рассчитать;
  • использовать корреляцию V Крамера между предикторами и целевой переменной. В нашем случае порог корреляции 0,55. Все, что выше, мы отбрасываем. Чтобы выполнить задачу, было выбрано 4 целевые переменные2.  

 

Что получилось

За 2 дня было построено 33 модели, из которых мы выбрали одну. Проверочной выборки у нас нет, но нужно проверить, переобучена модель или нет. Для этого мы берем таргет, на котором проверочная выборка вызрела, например PD 15+ (табл. 7).

Таблица 7. Проверка результата.

Проверка результата

Мы понимаем, что если на проверочной выборке, которую наша модель никогда «не видела», она покажет лучшие результаты, чем «боевая» модель, то наша модель не переобучена. Как видно из таблицы, при том же уровне одобрения PD15+ снизилась на 5 п.п. Это говорит о том, что с большой долей вероятности задача снижения PD90+ будет решена.

 

Рекомендации

Небольшая памятка по построению скоркарт на микровыборках:

1. Оставляйте проверочную выборку, даже если она не вызрела.
2. Делите выборку так, чтобы было достаточное количество наблюдений для стабилизации.
3. Параметр стабилизации должен быть больше 80%.
4. Экспериментируйте с настройками группировки, которые зависят от размера выборки и доли таргетов. Не забывайте про статистически значимое число наблюдений в группе (более 150 наблюдений).
5. Обязательно используйте градиентный спуск.
6. Минимальная IV ≥ 0,02. Каждая переменная важна.
7. Следите за переобучением: (AUC train – AUC test) ≥ 0,05.

 


1 Может возникнуть вопрос: как превратить макровыборку в микровыборки? Макровыборка группируется и сегментируется по переменным либо с наименьшей, либо с наибольшей IV.

2 Набор включал более 25 000 переменных из кредитной истории.