• Горячая линия:
  •   +7 (495) 268 09 63

Семантический анализ социальных сетей при выработке решения о кредитовании

Можно утверждать, что чем больше люди говорят в социальной сети, тем они хуже возвращают займы. Семантический анализ публикаций заемщика и его друзей в социальных сетях. Гипотезы. Создание и построение модели. Результаты. Подробное описание методов и подходов в подготовке и анализе данных. 

В настоящей публикации мы хотели бы поделиться, каким образом можно использовать данные из социальных сетей в процессе выработки решения о кредитовании. Проведенные сотрудниками компании - Марией Вейхман, Маратом Кумачковым и Константином Красных исследования в данной области[1], позволяют  по-новому взглянуть на процесс андеррайтинга заемщиков при ограниченном наборе данных и улучшить качество принятия решений без каких либо существенных для кредитора затрат.

 

С момента ввода в эксплуатацию SaaS Скориста использовала привычные для данного класса решений  алгоритмы. Практически, как и у всех скоринговых систем, в основе модели SaaS Скориста лежит анализ  кредитной истории заемщика и данных из публичных источников о долгах, поведенческой стратегии и т.д.. Модель дает достаточно высокую предсказательную силу. Сервис разработан с учетом специфики заемщика. Уверенно работает для заемщиков, как с плохой, так и хорошей кредитной историей при минимальном наборе данных.

basic scoring model

 

Однако, на практике применения, Агентство столкнулось с тем, что предсказательная способность модели снижалась при отсутствии кредитной истории и при первичном обращении за кредитом в микрофинансовую организацию. В некоторых случаях, возникала ситуация, когда даже анализ кредитной истории не давал четких ответов.

 

В целях усиления алгоритма, было принято решение обратиться к данным социальных сетей и выявить некоторые закономерности, определяющие вероятность качественного обслуживания долга на основе логов. Агентство попыталось собрать всю информацию из социальных сетей по  7500 заемщикам. В качестве предмета исследования выступили тексты, принадлежащие к профилю заемщика, его публикации и действия.

 

В качестве основополагающих, были выдвинуты три гипотезы: «Открытость», «Болтливость» и «Активность». Для проверки данных гипотез Агентством были разработаны специальные правила проверки, механизмы парсинга информации. В частности, компания задействовала весь возможный арсенал API средств работы с соц. сетями.

 

Проверка гипотезы «Открытость», ставила цель дать представление о том, в какой степени заемщик готов делиться персональной информацией и в какой степени он правдив с кредитором, к примеру, заполняя анкету на займ.

Openess

Проверка гипотезы «Болтливость», ставила цель определить  влияние количества и частоты публикаций на стене и в ленте, время между публикациями и комментариями, количество публикаций и комментариев за одно посещение.

Talkateviness

Проверка гипотезы «Активность» ставила цель ответить на вопрос о том,  как время посещения соцсети и вовлеченность в различные действия влияет на будущее обслуживание кредитных долгов.

Activity

Из трех наших гипотез в большей степени подтвердилась только одна. Свойство «Болтливость» потенциального заемщика оказалось самой влиятельной на возвратность займов. Information Value по данной гипотезе составлял 0,41.

IV

Таким образом, можно утверждать, что чем больше люди говорят в социальной сети, тем они хуже возвращают займы.


В целях дальнейшего изучения, каждый пост стены и ленты было необходимо разделить по словам,  удалив предлоги. Выявлено, что длина публикаций заемщика, в особенности в ближайший период к дате подачи заявки на займ, сильно влияет на возвратность. Посты неплательщиков становятся длиннее, а посты добросовестных заемщиков становятся короче или вообще пропадают. У большинства заемщиков, данные тенденции прослеживаются за 1-2 месяца до момента получения займа, что может свидетельствовать о наличии т.н. «предзаймового» синдрома. Это объясняется тем, что, как правило, люди не берут займы спонтанно. Идет подготовка на уровне подсознания.

Words number

Приведя слова из сообщений к именительному падежу, а глаголы к неопределенной форме, Агентство получило карту наиболее употребляемых слов потенциальными неплательщиками и добросовестными заемщиками. Особенно оказались интересны наборы слов, употребляемые в предзаймовый период. В предзаймовый период учащается употребление таких слов как «быть, узнать, человек» у неплательщиков, а вот добросовестные заемщики употребляют больше «отправить, красивый, друг». Похоже на экзистенциальный кризис...

Words

Таким образом, Агентство определило группы значимых слов, изменение их частотности, явно влияющих на возвратность займов. Это исследование позволило объединять слова в группы, определить наиболее важные темы для заемщиков и вектора генезиса слов. У каждой группы заемщиков прослеживается некоторое превалирование тех или иных слов, в тот или иной период времени до момента получения кредитов.

theam

В конечном итоге, проведенные исследования позволили построить модель, дающую некоторую предсказательную способность на основании исследования данных из социальной сети.

Social Scoring

В совокупности обе модели, базовая и модель «Социальная сеть», показали высокие результаты. При одинаковом проценте одобрения, доля просроченной задолженности  снизилось с 27 до 20%.

            В настоящий момент Агентство завершает внедрение модели «Социальная сеть» в промышленную эксплуатацию. Однако, исследования продолжаются и, в ближайшее время, мы собираемся улучшить модель «Социальная сеть», путем исследования дополнительных гипотез. Так же мы собираемся внедрить механизм адаптации модели к субсоциумам и изменению социума как такового, поскольку общество, как и его язык постоянно меняется.



[1] Доклад на международной конференции BIG DATA RUSSIA, Москва, сент. 2014 г.( http://bigdatarussia.ru).

2014-09-23


Semanticheskii-analiz

 

Автор:


Мария Вейхман

Управляющий директор

 

 

 

 

Тема:

 

Совершенствование подходов к оценке вероятности дефолта при ограниченном наборе данных

 

 

 

Скачайте текст в pdf формате:


Семантический анализ (1,18Mb)

 

Презентация Scorista - BigDataRussia 2014 (7,85Mb)

 

 

Чем ближе праздник, тем хуже платят заемщики.
16.12.2016
Тенденции рынка кредитования в 2014 году
13.08.2014
Результаты тестирования алгоритма на 85 000 заемщиках
20.01.2014
Золотая пора для МФО
17.02.2015
Снова о готовых IT-решениях для МФО
01.07.2015
Регулирование розничного кредитования и его последствия
21.08.2014
Рейтинг банков по возвратности займов в МФО
08.06.2015
Где живем - так и платим! Часть II
09.10.2015

Результаты работы на сегодня, 30.04.2017

 Обработано  заявок            1 727949
Процент одобрения 
27,38
 Процент NPL45
 11,60