RUS

Горячая линия +7 (495) 268-09-63

Аналитика

Семантический анализ социальных сетей при выработке решения о кредитовании

23.09.2014

В настоящей публикации мы хотели бы поделиться, каким образом можно использовать данные из социальных сетей в процессе выработки решения о кредитовании. Проведенные сотрудниками компании - Марией Вейхман, Маратом Кумачковым и Константином Красных исследования в данной области, позволяют  по-новому взглянуть на процесс андеррайтинга заемщиков при ограниченном наборе данных и улучшить качество принятия решений без каких либо существенных для кредитора затрат.

 

С момента ввода в эксплуатацию SaaS Скориста использовала привычные для данного класса решений  алгоритмы. Практически, как и у всех скоринговых систем, в основе модели SaaS Скориста лежит анализ  кредитной истории заемщика и данных из публичных источников о долгах, поведенческой стратегии и т.д.. Модель дает достаточно высокую предсказательную силу. Сервис разработан с учетом специфики заемщика. Уверенно работает для заемщиков, как с плохой, так и хорошей кредитной историей при минимальном наборе данных.

basic scoring model

 

Однако, на практике применения, Агентство столкнулось с тем, что предсказательная способность модели снижалась при отсутствии кредитной истории и при первичном обращении за кредитом в микрофинансовую организацию. В некоторых случаях, возникала ситуация, когда даже анализ кредитной истории не давал четких ответов.

 

В целях усиления алгоритма, было принято решение обратиться к данным социальных сетей и выявить некоторые закономерности, определяющие вероятность качественного обслуживания долга на основе логов. Агентство попыталось собрать всю информацию из социальных сетей по  7500 заемщикам. В качестве предмета исследования выступили тексты, принадлежащие к профилю заемщика, его публикации и действия.

 

В качестве основополагающих, были выдвинуты три гипотезы: «Открытость», «Болтливость» и «Активность». Для проверки данных гипотез Агентством были разработаны специальные правила проверки, механизмы парсинга информации. В частности, компания задействовала весь возможный арсенал API средств работы с соц. сетями.

 

Проверка гипотезы «Открытость», ставила цель дать представление о том, в какой степени заемщик готов делиться персональной информацией и в какой степени он правдив с кредитором, к примеру, заполняя анкету на займ.

Openess

Проверка гипотезы «Болтливость», ставила цель определить  влияние количества и частоты публикаций на стене и в ленте, время между публикациями и комментариями, количество публикаций и комментариев за одно посещение.

Talkateviness

Проверка гипотезы «Активность» ставила цель ответить на вопрос о том,  как время посещения соцсети и вовлеченность в различные действия влияет на будущее обслуживание кредитных долгов.

Activity

Из трех наших гипотез в большей степени подтвердилась только одна. Свойство «Болтливость» потенциального заемщика оказалось самой влиятельной на возвратность займов. Information Value по данной гипотезе составлял 0,41.

IV

Таким образом, можно утверждать, что чем больше люди говорят в социальной сети, тем они хуже возвращают займы.

 

В целях дальнейшего изучения, каждый пост стены и ленты было необходимо разделить по словам,  удалив предлоги. Выявлено, что длина публикаций заемщика, в особенности в ближайший период к дате подачи заявки на займ, сильно влияет на возвратность. Посты неплательщиков становятся длиннее, а посты добросовестных заемщиков становятся короче или вообще пропадают. У большинства заемщиков, данные тенденции прослеживаются за 1-2 месяца до момента получения займа, что может свидетельствовать о наличии т.н. «предзаймового» синдрома. Это объясняется тем, что, как правило, люди не берут займы спонтанно. Идет подготовка на уровне подсознания.

Words number

Приведя слова из сообщений к именительному падежу, а глаголы к неопределенной форме, Агентство получило карту наиболее употребляемых слов потенциальными неплательщиками и добросовестными заемщиками. Особенно оказались интересны наборы слов, употребляемые в предзаймовый период. В предзаймовый период учащается употребление таких слов как «быть, узнать, человек» у неплательщиков, а вот добросовестные заемщики употребляют больше «отправить, красивый, друг». Похоже на экзистенциальный кризис...

Words

Таким образом, Агентство определило группы значимых слов, изменение их частотности, явно влияющих на возвратность займов. Это исследование позволило объединять слова в группы, определить наиболее важные темы для заемщиков и вектора генезиса слов. У каждой группы заемщиков прослеживается некоторое превалирование тех или иных слов, в тот или иной период времени до момента получения кредитов.

theam

В конечном итоге, проведенные исследования позволили построить модель, дающую некоторую предсказательную способность на основании исследования данных из социальной сети.

Social Scoring

В совокупности обе модели, базовая и модель «Социальная сеть», показали высокие результаты. При одинаковом проценте одобрения, доля просроченной задолженности  снизилось с 27 до 20%.

            В настоящий момент Агентство завершает внедрение модели «Социальная сеть» в промышленную эксплуатацию. Однако, исследования продолжаются и, в ближайшее время, мы собираемся улучшить модель «Социальная сеть», путем исследования дополнительных гипотез. Так же мы собираемся внедрить механизм адаптации модели к субсоциумам и изменению социума как такового, поскольку общество, как и его язык постоянно меняется.



[1] Доклад на международной конференции BIG DATA RUSSIA, Москва, сент. 2014 г.( http://bigdatarussia.ru).

 

Мария Вейхман, управляющий директор