- Регистрация
- 21.07.20
- Сообщения
- 40.408
- Реакции
- 1
- Репутация
- 0
Привет!
В предыдущей статье цикла о моделировании в задачах управления кредитным риском (
You must be registered for see links
) мы провели обзор трех задач кредитного риск-менеджмента, нашли возможные точки приложения ML и DS к этим задачам и попутно ввели набор терминов для дальнейшей работы.Сейчас мы расскажем о трех компонентах (PD, LGD, EAD), которые участвуют при расчете ожидаемых потерь: рассмотрим основные драйверы и методологию построения моделей. В конце статьи приведем сводную таблицу с особенностями работы с компонентами на различных этапах разработки, сформированную на основе нашего проектного опыта.
За подробностями добро пожаловать под кат.
PD или как ковер задает стиль всей комнате
Определение дефолта
Начнем с главной компоненты, которую необходимо оценивать (например, в случае базового или продвинутого ПВР) PD (a. k. a. probability of default) – вероятность дефолта клиента. В качестве свидетельства о дефолте клиента могут выступать разные события в кредитной истории. Часто – это просрочка платежа по кредитному договору 90 и более дней.
Для подсчета количества дней просрочки существует два метода: LIFO (last in first out) и FIFO (first in first out)
You must be registered for see links
:- По методу LIFO, подсчет количества дней просрочки долга начинается с даты возникновения ненулевой суммы на счете просрочки и до момента обнуления суммы на этом счете.
- По методу FIFO, счётчик количества дней просрочки основного долга также начинает работать с даты возникновения ненулевой суммы на счете просрочки, но может уменьшаться при погашении одного из просроченных платежей.
Мы работаем с расчетом количества дней просрочки по методу FIFO. С FIFO проще определять просрочку и учитывать динамику ее уменьшения. В случае LIFO величина просрочки резко уменьшается до 0 при полном погашении. В такой ситуации сложнее управлять одним из параметров дефолта: датой его окончания. Здесь необходимо пояснить, какие атрибуты являются ключевыми для описания события дефолта.
Для определения дефолта необходимо задать следующие три атрибута:
- Тип события дефолта. Таким событием может являться как уже упомянутая выше просрочка 90+, так и реструктуризация долга, банкротство заемщика, ухудшение категории качества кредитного договора и др.;
- Дата начала дефолта — обычно напрямую зависит от причины и определяется как дата ее возникновения;
- Дата окончания дефолта — дата события, при наступлении которого мы можем считать, что клиент «выздоровел» (например, для просрочки 90+ это может быть снижение просрочки до 30-/0 или даже дата получения нескольких подряд своевременных платежей после полного погашения задолженности). Все зависит от политики банка.
В связи с наличием вариативности в определении дефолта, хорошая практика – составление так называемой витрины дефолтов, в которой хранится информация об атрибутах дефолта.
Но этого недостаточно для формирования целевого события. У целевого события есть еще один важный атрибут: горизонт сбора информации о дефолте, или горизонт моделирования.
Определение длины горизонта
Информация о дефолте используется для оценки ожидаемых потерь, под которые банк осуществляет резервирование. В этом случае возникает вопрос, а на каком периоде смотреть выходы в дефолт? Важно ли это? С точки зрения бизнеса, важно понимать период планирования, с точки зрения моделей мы хотим выбрать такой период, в котором будет охвачено не менее 80%-90% всех возможных выходов в дефолт для всех открытых и не находящихся в дефолте договоров на текущий момент времени.
Для целей выбора длины горизонта может быть использован винтажный анализ
You must be registered for see links
. Он заключается в построении графической аналитики и последующего вывода о данных по ней. График может быть построен так:- Рассматриваются несколько временных срезов (поколений/когорт) на исторической выборке;
- Для каждого из поколений учитываются все наблюдения из выборки для моделирования, не находящиеся в дефолте;
- Для таких наблюдений строится кумулятивный график выхода в дефолт. Обычно временной шаг – месяц. График может быть построен как в штуках, так и в деньгах;
- Горизонт может быть определен, например, как временной интервал, на котором выходят в дефолт 80% всех тех клиентов, которые вообще окажутся дефолте за весь доступный исторический период.
При построении графика выше для каждой когорты было рассчитано значение, составляющее 80% от максимального числа наблюдений, вышедших в дефолт, а диапазон полученных значений обозначен серой полосой. По графику можно сделать вывод о том, что оптимальная длина горизонта лежит в интервале 6-8 месяцев.
Сегментирование выборки
Некоторые атрибуты настолько сильно коррелируют с целевой переменной, что вклад остальных практически нивелируется. Это приводит к моделям с плохим ранжированием внутри группы с одинаковым значением «главного» атрибута. Во избежание такой ситуации используют подход сегментации, в рамках которого выборку делят на два или несколько сегментов — по одному на каждое значение «главного» атрибута (драйвера), и для каждого из них строят отдельную модель. В кредитном риске один из таких драйверов – наличие или длительность просрочки по платежу.
Если выборка была разделена на два сегмента по длительности просрочки: сегмент с малой просрочкой и сегмент с большой просрочкой, и второй сегмент достаточно мал, то для него можно сделать простую модель на двух атрибутах: на скоринговом балле модели с малой просрочкой и длительности текущей просрочки. Если результат удовлетворяет всем требованиям валидации, то на нем можно остановиться.
Альтернативно можно разделить выборки на сегменты с просрочками за историю (I) и без просрочек за историю (II).
- Сегмент I – это наблюдения (клиент – дата наблюдения), для которых за всю историю или на каком-то горизонте ранее не наблюдалось просрочки.
- Сегмент II содержит наблюдения у которых в истории или на каком-то горизонте ранее наблюдались просрочки по платежу.
В этом случае разделение на классы, как правило, более сбалансировано.
Необходимое условие для сегментации – достаточное количество дефолтных наблюдений в каждом из сегментов. А для того, чтобы выяснить целесообразность и границы новых сегментов используется roll-rate анализ
You must be registered for see links
. Он заключается в разделении выборки на подсегменты на основании значений величины текущей просрочки и сравнении между ними среднего уровня дефолта. Те группы, уровень дефолта которых значимо различается, имеет смысл моделировать по отдельности.Рассмотрим, например, сегментацию наблюдений по величине просрочки. На картинке ниже в качестве примера выделены следующие 5 сегментов, соответствующих интервалам (бакетам) значений просрочки: 0-4 дня, 5-14 дней, 15-29 дней, 30-59 дней, 60-89 дней. Эти сегменты рассматриваются в нескольких моментах времени: HY1_2015, HY2_2015 — соответственно, первое и второе полугодия 2015 года, HY1_2016, HY2_2016 — соответственно, первое и второе полугодия 2016 года. В процессе анализа нас интересует динамика выхода наблюдений в просрочку более 89 дней, поэтому для каждого из этих сегментов подсчитан процент клиентов, просрочка которых на горизонте наблюдения составила более 89 дней.
По графику можно сделать следующие выводы:
- В 0-1 сегментах низкая вероятность выхода наблюдений в просрочку 90+ дней, наблюдения из данных сегментов можно отнести к «good»/недефолтному сегменту. Можем воспользоваться данной информацией для определения границы при сегментировании клиентов по уровню текущей просрочки.
- В 3-4 сегментах высокая вероятность выхода наблюдений в просрочку более 90+, наблюдения из данных сегментов можно отнести к «bad»/дефолтному сегменту. Это может быть полезно, если мы хотим сместить границу и увеличить число дефолтов в good сегменте.
- Сегмент номер 2 является промежуточным, наблюдения из данного сегмента нельзя отнести ни к дефолтному сегменту, ни к не-дефолтному. Такие наблюдения могут исключаться из разработки для увеличения ранжирующей способности модели.
После дефолта вероятность дефолта становится равной 100%. А что еще происходит в момент дефолта? Смотрим дальше.
EAD (Деньги в дефолте)
После того, как оценена вероятность дефолта заемщика, ставится вопрос – с какой суммой задолженности заемщик уйдет в дефолт? Эта сумма линейно влияет на размер ожидаемых потерь и, соответственно, объем резервов, и называется exposure at default – требования в дефолте. Итак, EAD – exposure at default – кредитные обязательства по договору на момент дефолта.
Напрямую, как правило, EAD не моделируют. Так как эта величина – денежная, её распределение не носит нормальный характер: в выборке могут присутствовать наблюдения очень большие и очень маленькие, не являющиеся при этом аномалиями. В зависимости от специфики портфеля можно выбрать разные целевые переменные – об этом подробнее будет сказано в последующих статьях цикла, но наиболее широко используемая – CCF – credit conversion factor – коэффициент кредитной конверсии – вычисляется следующим образом:
где:
Balance – сумма средств, которые клиент должен банку в момент наблюдения,
Limit – доступный клиенту лимит,
EAD – сумма средств, который клиент должен банку в момент дефолта.
Получается, что CCF – это та часть доступных на момент наблюдения средств, которая будет использована клиентом к моменту дефолта.
Как и вероятность дефолта, эту величину необходимо прогнозировать заранее. Обычно горизонт прогноза такой же, что и у PD.
Все описанное выше касалось денег до дефолта и во время него. А что происходит сразу после? Об этом компонента LGD.
LGD («Где деньги, Лебовски?»)
Даже в случае дефолта заемщика, часть средств возвращается в банк:
- Заемщик осуществляет платежи;
- Банк реализует залог;
- Осуществляется списание или продажа долга;
- ...
Та часть EAD, которую банку всё-таки не удалось вернуть, называется LGD – loss given default.
Поскольку временной интервал, на котором происходит т.н. «восстановление» (возвращение долга), может варьироваться поклиентно, возникает необходимость определить длину горизонта восстановления, на котором будет рассчитываться целевая переменная. На длину горизонта влияет в первую очередь доступность достаточного временного периода в данных для моделирования. Обычно длина горизонта лежит в диапазоне 3-5 лет после дефолта.
В общем случае LGD рассчитывается формуле:
где:
Ri – денежный поток от клиента (выплаты, реализация залога и др.), полученный на горизонте восстановления после дефолта,
T – временной период от момента учета возмещения после момента дефолта (в годах).
При расчете денежного потока, который идет на восстановление, обычно используется дисконтирование – механизм учета текущей стоимости денежных средств, полученных на горизонте восстановления. Особенно это актуально на больших горизонтах, когда стоимость денег может существенно изменяться.
Суммы возмещения, затрат и продажи долга при дисконтировании умножаются на «фактор дисконтирования»
You must be registered for see links
P(T):где:
T – временной период от момента учета возмещения после момента дефолта (в годах),
r – ставка дисконтирования.
В качестве r может быть использована, например, процентная ставка по договору.
С компонентами, в первом приближении, понятно: все разные, а моделировать их нужно вместе! Есть ли какой-то подход, который позволит более-менее единообразно отобрать переменные для моделей и выбрать наиболее оптимальную комбинацию? Можно попробовать. О возможном варианте далее.
«Великолепный план, Уолтер … надёжный как … швейцарские часы» или pipeline разработки
Этапы моделирования компонент риска схематично изображены на следующей диаграмме (стрелки – дополнительные итерации, возникающие в процессе разработки):
Подготовка данных
Подготовка данных включает в себя формирование трёх сущностей: наблюдения (сегмент), витрина дефолтов, витрина атрибутов,- с единым внешним ключом — ID заемщика или договора и временная метка.
Такая декомпозиция обеспечивает гибкий подход к формированию выборки – легко изменять горизонт, гранулярность наблюдений, определение дефолта и не беспокоиться о корректности сбора атрибутов для итоговой витрины.
Каждое наблюдение – ID заемщика или договора и временная метка; другими словами, нас интересует состояние заемщика или договора на конкретную дату. Обычно используются наблюдения, соответствующие временным срезам, отстоящим друг от друга на равные промежутки времени (например, квартальным).
В случае задачи резервирования объем данных должен включать в себя полный экономический цикл, что составляет примерно 5-7 лет.
Для формирования выборки необходимо учитывать горизонт.
Пояснение схематично изображено на картинке под катом
В выборки для разработки и тестирования включаются наблюдения, для которых есть данные о выходе в дефолт на всем горизонте, поскольку включение наблюдений, для которых не прошел полный этап сбора (на картинке изображен красным цветом) приведёт к смещению величины уровня дефолта.
Из-за необходимости учитывать период сбора, оптимальная глубина данных составляет 2-3 горизонта наблюдения.
Также, если в модели планируется учесть какого-то рода сезонность — необходимо соответствующим образом выбирать глубину данных и периодичность срезов.
В таблице под катом перечислены основные группы и примеры атрибутов широкого списка переменных.
Атрибуты широкого списка переменных
Блок атрибутов | ЮЛ/ФЛ | Описание | Примеры |
Профиль | ЮЛ | Данные, характеризующие компанию | ОКОПФ, ОКВЭД (отрасль), возраст компании, число руководителей. Количество полных лет/месяцев обслуживания в банке. |
ФЛ | Анкета клиента, социодемографические данные | Семейное положение, пол, возраст, образование Количество полных лет/месяцев обслуживания в банке |