Применение метода Строковой сегментации в кредитном скоринге

ПРИМЕНЕНИЕ МЕТОДА СТРОКОВОЙ СЕГМЕНТАЦИИ В КРЕДИТНОМ СКОРИНГЕ

27.02.2026

Выполнено: пресс-службой СКОРИСТА

I. Теоретические основы

Введение

В кредитном скоринге имеют место быть ошибки моделей: ситуации, когда потенциально благонадежного заёмщика модель воспринимает как некредитоспособного, и наоборот, некредитоспособный заемщик оценивается моделью как «хороший» (ошибки первого и второго рода). Такие ошибки могут привести к серьезным финансовым потерям, связанным с упущенной прибылью.

Существует множество причин, из-за которых скоринговая модель ошибается. Основные из них – это проблемы с переобучением модели, недостаточный объем выборки для обучения. Также скоринговые модели статичны, а постоянно меняющийся портрет клиента-заёмщика и изменения условий кредитования приводят к их нестабильной работе. Стоит отметить и тот факт, что построение скоринговой модели – это достаточно трудоемкий и энергозатратный процесс, требующий больших вычислительных мощностей и времени. Порой нужно быстро перестроиться под новые реалии, сохранив при этом качество основных показателей. На этот случай в компании Скориста был внедрен способ, получивший название «Строковая сегментация».

Строковая сегментация – это способ принятия решения, при котором производится многомерная оценка заемщика, позволяющая филигранно минимизировать ошибки скоринговой модели. Суть способа заключается в комплексном объединении нескольких независимых* друг от друга моделей. Такая суперпозиция моделей увеличивает надежность принятия решений, а также благоприятно сказывается на основных показателях, таких как нулевой дефолт и FPD.

Последовательность обработки данных

Рассмотрим последовательность действий необходимых для проведения процедуры Строковой сегментации:

Для данного подхода на первом этапе производится расчет скорингового балла по множеству имеющихся в арсенале компании Скориста моделей.
После этого данные бинируются, также на этом этапе отбираются наиболее сильные с точки зрения их прогностической способности модели, то есть из полученного множества отбираются только те модели, которые имеют умеренную, либо сильную прогностическую способность (IV более 0.2). Немаловажным на данном этапе является и подбор оптимального количества бин-ячеек: бо́льшее их количество дает бо́льшую разрешающую способность решения, но, в свою очередь, может привести к нестабильной работе способа в случае, если в одну бин-ячейку попадет статистически незначимое число наблюдений – менее 100.
На следующем этапе номера бин-ячеек отобранных моделей агрегируют между собой множеством комбинаций в различные Строковые переменные. Принцип объединения на примере двух моделей выглядит следующим образом: предположим, балл по модели_1 попадал в бин-ячейку №3, а по модели_2 в бин-ячейку №6, значение строковой переменной будет равно “sv36”. В результате такого объединения решение по одобрению переносится в N-мерное пространство. Мерность полученного пространства зависит от количества агрегируемых моделей.
На финальном этапе значения полученной строковой переменной группируются с учётом распределения таргета по группам. Тестируются параметры размера группы, количество групп, так же как и при бинировании важным условием является то, что в группе должно быть статистически значимое число наблюдений.
Стоит отметить, что данный способ, как и традиционные подходы, подвержен переобучению. Для сглаживания переобучения процедура группирования проводится со стабилизацией: отбираются только те решения, у которых доля совпадения Information Value переменной на обучающей выборке и на тестовой выборке не менее 80%.

Решение по одобрению

Еще одним важным преимуществом данного способа является легкость в описании решения по одобрению. Для простоты и наглядности рассмотрим пример, состоящий из двух моделей. Предположим, у нас есть скоринговая модель_1, которая при определении кредитоспособности заемщиков начала ошибаться. Добавление в решение еще одной модели_2 значительно увеличило разрешающую способность (Рис.1). Стало очевидным, что модель_1 имеет ошибки как первого, так и второго рода.

Рис. 1. Изменение показателя FPD15 в зависимости от балла скоринговой модели.

Рис. 1. Показатель FPD15 в зависимости от балла двух некоррелируемых скоринговых моделей.

Конечно, для случая с двумя моделями можно вручную кропотливо прописать множество условий, по которым комбинация тех или иных баллов двух рассматриваемых моделей будет включена или исключена из условий одобрения. Но что делать, если мы захотим еще больше увеличить детальность решения и использовать три и более модели? В этом случае формула принятия решения по одобрению будет включать в себя бесчисленное количество правил и исключений. Когда мы используем строковую сегментацию, проблема описания всех исключений исчезает и само принятие решения по одобрению записывается в пару строк.

На Рис.2 наглядно показана работа способа. Две модели были разбиты на 19 бин-ячеек каждая. Номера бинов были объединены в единую строковую переменную sv (string variable).

Рис. 2. Строковая переменная и ее значения при комбинации двух моделей.

Далее полученные строковые переменные группируются на n-ое количество групп в зависимости от таргета, выделяются группы для одобрения, которые удовлетворяют необходимым количественным и качественным характеристикам. Номера полученных групп и есть само решение по одобрению.

Показанный пример, состоящий из двух моделей, был выбран лишь для простоты и наглядности визуализации. На практике в компании Скориста при строковой сегментации используется не менее трех различных некоррелируемых моделей.

II. Применение на практике

Проведем сравнение результатов работы одного из классических способов агрегирования модели (стэкинг) со способом Строковой сегментации на примере реальных данных.

Микрофинансовая компания выдает короткие PDL-займы сроком на 16 дней. В принятии решения по одобрению участвует модель_А (Рис.3), которая при балле выше 500 удовлетворяет одному из основных требований – одобрение 22% потока заемщиков.

Рис. 3. Метамодель, полученная одним из традиционных способов агрегирования.

Данная Метамодель была получена из 4 моделей (Рис.4), построенных с использованием логистической регрессии. Каждая из этих моделей обладает высокой прогностической способностью. Агрегирование Метамодели проводилось одним из традиционных способов машинного обучения – стэкинг.

Рис. 4. Модели, построенные с использованием логистической регрессии.

Теперь для чистоты эксперимента проведем процедуру Строковой сегментации с использованием тех же самых 4 Моделей (Рис.4).

На первом этапе 4 модели были пробинированы. Размер бина определялся исходя из объема имеющихся данных. Основополагающим условием являлось достижение максимально возможной детальности решения при сохранении его стабильности. Тестировались несколько размеров бин-ячеек: 10%, 15%, 20% и 25%. В результате был подобран оптимальный вариант размера – 20 %.
По результатам бинирования полученные номера бин-ячеек этих моделей были объединены в строковую переменную sv (string variable). Размер бин-ячейки 20%, а также использование 4 моделей дает в общей сложности 625 уникальных значений строковой переменной.

Далее полученные значения строковой переменной группировались с учётом распределения таргета по группам. Тестировались такие показатели как количество групп, влияющее на скорость расчёта, их размер, в группе должно быть статистически значимое число наблюдений. Результаты группирования анализировались. Важно было подобрать такие параметры группирования, при которых решение получалось самым оптимальным по количественным (одобрение) и качественным показателям.

В итоге процедура строковой сегментации проводилась со следующими параметрами (Таблица 1):

Размер бин-ячеек	Количество моделей в строковой переменной	Размер группы	Количество групп	Параметр стабилизации
20%	4	5%	5	80%

Таблица 1. Оптимальные параметры Строковой сегментации.

Из результатов группирования (Рис.5.) видно, что при одобрении 1 и 2 группы достигаются необходимые в задаче показатели по одобрению 22% от потока заемщиков.

Рис. 5. Результат группирования при строковой сегментации. Одобрение 1 и 2 группа.

Результаты

Теперь проведем сравнение результатов, полученных при использовании традиционного способа агрегирования модели и метода Строковой сегментации, на тестовом периоде (Рис.6).

Рис. 6. Показатели FPD15 и нулевого дефолта на тестовой выборке, где 0 – отказ,1 – одобрение.

На Рис.6 видно преимущество Строковой сегментации в сравнении с традиционным способом агрегирования модели. Использование строковой сегментации значительно улучшило ключевые показатели при одном и том же уровне одобрения.

В примере выше показан вариант использования Строковой сегментации как отдельного способа принятия решения по одобрению. Так же данный способ показал хорошие результаты при использовании вкупе с общепринятыми способами агрегирования модели – как дополнительная оценка заёмщика, позволяющая улучшить качество основного решения.

III. Заключение

В заключение хочется отметить, что Строковая сегментация – способ, позволяющий получить качественное решение по одобрению.

Его основными преимуществами является:

быстрота выполнения;
отсутствие требований к большим вычислительным мощностям;
простота описания решения по одобрению.

Независимых* – в контексте статьи под независимостью моделей понимается минимальная их корреляция по Крамеру.

Предыдущая статья

Аналитика