ВЛАДИМИР ЛОЗОВОЙ
CEO и основатель компании Artellence

Как альтернативные данные и машинное обучение используются для развития кредитного скоринга сегодня в Украине?

Альтернативные данные и машинное обучение — именно они предоставляют наибольшие возможности для развития кредитного скоринга сегодня. Почему?

  • возможности для улучшения классического скоринга исчерпались, все, что можно было — уже перепробовано;
  • у многих людей нет кредитной истории — для их оценки необходимо использовать внешние данные;
  • соцсети и смартфоны знают о нас настолько много, что способны предсказывать скоринг человека уже часто лучше кредитной истории.

Первые по темпам использования альтернативных данных — страны Юго-Восточной Азии. Tala, Branch, LenddoEFL, CredoLab и другие компании сумели найти эффективные способы их применения.

Если заемщик записывает контакты в телефон по ФИО — он с вероятностью в 16 раз выше вернет кредит, чем тот, кто записывает по никнеймам. Количество друзей человека в Facebook, которые ранее не вернули кредит МФО — один из самых сильных предикторов скоринговой модели.

Украина в этом вопросе не отстает. Мы в Artellence путем большого количества экспериментов определи, какие данные соцсетей (одного из главных источников альтернативных данных) лучше всего работают для нашего рынка. Ниже делюсь некоторыми важными инсайтами.

1. ЧТО НЕ РАБОТАЕТ

Первое, что хочется сделать, анализируя данные соцсетей — взять самые простые переменные (пол, возраст, количество лайков) и добавить их в скоринговую модель. Как показывает практика, большинство из таких переменных дают весьма незначительный прирост к существующим моделям: лучше всего — количество друзей, 0.02 Джини.

На этом этапе наша команда сделала для себя вывод, что простых решений, работая с данными соцсетей, искать не стоит — копать нужно долго и глубоко.

2. ЧТО РАБОТАЕТ

Основная проблема данных из соцсетей заключается в их разреженности. Количество уникальных интересов (страниц) только в одной соцсети — миллионы, постов и комментариев — миллиарды, и добавить такое количество переменных в модель невозможно. Хотя именно эти данные наиболее полно описывают человека.

Мы нашли выход с помощью векторных пространств:

  • процесс: на базе всех интересов (лайков страниц) одной соцсети строится 100-мерное пространство, в котором каждый человек представляется точкой со своими координатами. Алгоритмы машинного обучения делают “магию” и позволяют сформировать пространство таким образом, чтобы похожие по интересам люди лежали рядом (все ЗОЖники — в одной части пространства, а бодипозитивные — в другой);
  • результат: миллионы интересов (лайков страниц) трансформировались в 100-мерный вектор, который уже легко добавить в скоринговую модель. Точность модели, построенной таким образом только на данных соцсетей — 0.2–0.5 Джини при хит-рейте в 50–70%. При чем для заемщиков без кредитной истории результаты часто лучше, чем для людей, у которых она есть.

Модель, построенная только на данных соцсетей, дает 0.2–0.5 Джини при хит-рейте в 50–70%.

Еще один интересный инсайт, который мы обнаружили — это усреднение информации по друзьям человека. Как оказалось, если построить одну модель по человеку, а вторую — как среднее по его друзьям, то такие модели будут иметь одинаковую точность. Что позволяет анализировать слабо заполненные профайлы.

Альтернативные данные уже сегодня приносят ощутимую пользу МФО, а учитывая, какими огромными темпами растут объемы информации в мире, их эффективность будет только увеличиваться. Не пропустите момент, когда альтернативные данные будут не просто давать прирост моделей, а станут определяющими в кредитном скоринге.

Источник

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *