Русский
Русский
English
Статистика
Реклама

Кредитный риск

ML и DS оттенки кредитного риск-менеджмента

23.09.2020 10:08:04 | Автор: admin


Всем привет.

Мы команда Advanced Analytics GlowByte и запускаем цикл статей о моделировании в задачах управления кредитным риском. Цель цикла кратко рассказать о сфере, расширить словарь профессиональных терминов и дать ссылки на полезные статьи и книги. В вводной статье мы покажем особенности применения ML и DS в сфере кредитного риска, без глубокого погружения в предметную область.

Далее раскроем вопросы методологии моделирования, работы с компонентами кредитного риска, а также подходов к калибровке и валидации, которые учитывают специфику работы моделей в банке.

Основа публикаций наш проектный опыт по разработке и внедрению аналитических моделей в банковской сфере.

А теперь под кат.

Чем рискуем?


Простым языком, кредитный риск риск нарушения клиентами условий выплаты денежных средств по кредитным договорам.

Сфокусируемся на трех задачах, которые возникают в рамках кредитного риск-менеджмента.

  1. Рейтинговое моделирование;
  2. Кредитный офферинг;
  3. Расчет уровня ожидаемых потерь.

Почему именно на них?

  • Эти задачи всегда актуальны для финансовых организаций;
  • Их можно перенести в другие индустрии (телеком, промышленность, страхование);
  • В них достаточно пространства для ML и DS методов.

Общую классификацию рисков финансовых организаций и контекст смотрите в обзоре [1].

Всем труба (pipeline) или схема кредитного процесса


Схематично кредитный процессвыглядит так:


Часть этого процесса от подачи заявления до выдачи именуется кредитным конвейером. В этой схеме есть упрощения. Например, мы рассматриваем процесс в рамках одного кредитного продукта, т.е. остаются за скобками вопросы маркетинга (Marketing Optimization, каннибализации продуктов, оттока клиентов и др). Из pipeline исключены процессы прескоринга, экспертной корректировки рейтинга и применения стоп-факторов андеррайтерами. Под стоп-факторами подразумеваются ограничения, природа которых, в первую очередь, в структуре продукта, который банк предлагает клиенту. Пример вхождение клиента в список банкротов или наличие просрочки по кредитам в других банках.

Рейтинговое моделирование


Задача рейтингового моделирования (РМ) это построение модели рейтингования клиентов для последующего ранжирования. Рейтингование производится по отношению к разным негативным событиям ухудшение кредитоспособности, банкротство и т.д.

В зависимости от контекста, можно по-разному классифицировать эту задачу:

По этапу жизненного цикла клиента:

  1. Заявочный (аппликативный) скоринг применяется для новых клиентов или клиентов с небольшой (или давней и неактуальной) историей внутри финансовой компании. В построении такой модели рейтингования важны профиль и анкета клиента, данные о его платежном поведении в других финансовых организациях (есть в Бюро Кредитных Историй) и данные о вхождении в разные списки например, негативные списки ЦБ для юр.лиц. Заявочный скоринг используется для решения о выдаче кредита заявителю.
  2. Поведенческий скоринг применяется для определения рейтинга клиентов с актуальной историей. Здесь существенную роль играют поведенческие атрибуты внутри компании обороты и платежная дисциплина по внутренним продуктам банка-кредитора. Поведенческий скоринг используется для вычисления и корректировки размера зарезервированных банком средств, но об этом чуть позже.

По требованиям к результатам работы модели:

  1. Относительный рейтинг: важно качество ранжирования (относительный порядок) клиентов в рейтинге, абсолютное значение не играет роли при принятии итогового решения.
  2. Абсолютный рейтинг: имеет значение абсолютное значение скора и алгоритм его пересчета в вероятность дефолта клиента. Часто бывает, что у банка зафиксировано пороговое значение вероятности дефолта, при котором клиенту может быть выдан кредит, и необходимо максимально корректно определить именно абсолютное значение вероятности дефолта по каждому из клиентов.

По степени включения экспертных представлений в итоговое решение:

  1. Статистическая модель. Ее веса подбираются на основании статистического анализа ретроспективных данных. Экспертные корректировки производятся на уровне отбора атрибутов и подготовки выборки для моделирования.
  2. Экспертная модель. Финальные значения весов факторов устанавливаются вручную (или полуавтоматически) с учетом кейсов по дефолтам за историю. Классический пример модель Альтмана Z-score [2].

По степени автоматизации решения:

  1. Результат рейтингования автоматически без ручных корректировок транслируется в конвейере для бОльшей части клиентов. Часть клиентов подвергается ручной проверке для оперативного мониторинга работы модели.
  2. Результат рейтингования является дополнительным инструментом для владельца модели и андеррайтера.

По степени использования информации о внешней среде:

  1. Stand-alone приближение, при котором в факторах модели не учитывается взаимодействие клиента с другими клиентами. Основа поведенческие атрибуты по финансовым продуктам. Влияние внешней среды учитывается или через процедуру калибровки, или через набор флагов о негативной информации с другими клиентами без детализации.
  2. Supply chain finance использование информации о связях с другими заемщиками. В первую очередь, данные о транзакциях и данные об экономической, юридической, родственной (для ФЛ) аффилированности с другими клиентами. Чем больше такой информации, тем точнее будет прогноз не только на уровне клиента, но и на уровне сделки [3].

По степени вовлеченности в общий процесс:

  1. Результат моделирования используется локально: задача, как правило, не интегрируется с другими процессами. При таком применении возможны дополнительные требования к обслуживанию рейтинга например, введение корректировок (в частности, корректировка рейтинга компании в зависимости от уровня поддержки государством).
  2. Результат является входом для другого процесса, т.е. частью большего приложения. В таких случаях необходимо учитывать специфику этого внешнего процесса, т.к. она может влиять на требования к разработке и валидации рейтинговой модели.

Особенности решения данной задачи в первом приближении можно посмотреть в [1], [4], [5], [6]. Проектные особенности планируем рассказать в следующей статье цикла, посвященной методологии разработки.

Из смежных задач стоит упомянуть задачу кредитного офферинга (см. далее) и задачу подбора порога отсечки по скоринговому баллу определение порога одобрения. Последняя задача не освещается в этой статье, но содержит пространство для cutting-edge ML подходов. Например, есть попытки использования RL [7].

Еще кратко следует упомянуть актуальные тенденции по увеличению качества разрабатываемых моделей рейтингового моделирования:

  1. Поиск новой информации / источников данных (например, гео-аналитика [8], соц. сети [9], ОФД)
  2. Использование продвинутых алгоритмов для моделирования (все чаще XGBoost заменяет стандартные скоринговые карты на основе логистической регрессии);
  3. Использование продвинутых алгоритмов для поиска взаимосвязей (графовая аналитика) и генерации специфических атрибутов (text-mining);
  4. Операционализация моделей (встраивание моделей в автоматический pipeline разработка-внедрение-мониторинг-переобучение) для снижения модельного риска и автоматизации процесса, т.н. ModelOps решения [10].

Рейтинговое моделирование все реже встречается как самостоятельная задача и все больше в связке с другими, являясь частью прикладного приложения по решению более общих задач. Одной из таких является кредитный офферинг. К нему и переходим.

Кредитный офферинг или как сделать предложение от которого нельзя отказаться



Результат рейтинговой модели (абсолютное значение оценки вероятности дефолта PD) может быть использован для решения задачи кредитного офферинга. Под кредитным офферингом подразумеваем, в первую очередь, задачу установки первоначального лимита клиенту.

Безусловно, одного значения PD прогноза вероятности дефолта для определения оптимального лимита недостаточно. Нужно понимать допустимую область значений лимита, которые разумно предлагать клиентам. Это необходимо, чтобы сумма хотя бы косвенно отражала потребности клиента и его возможности по обслуживанию долга.

Ориентиром в этом случае может быть, например, оборот собственных средств клиента по некредитным продуктам.

Что еще нужно знать? Для лучшего понимания задачи нужно иметь представление о структуре стоимости кредита. Она схематично представлена на следующей диаграмме (подсмотрено в [11]):


Ресурс стоимость денег, за счет которых осуществляется кредитование (например, ставка по депозитам, которая привлекает деньги вкладчиков и обеспечивает требуемую денежную массу). Маржа ожидаемая прибыль от выдачи кредита. Риск отчисление на случай невозврата кредита. Расходы расходы на привлечение и обслуживание.

В этой структуре рейтинговое моделирование может быть использовано для определения размера и структуры блока Риск. Ресурс, в значительной степени, определяется ключевой ставкой ЦБ. Расходы и маржа продуктовые составляющие, часто указываются в паспорте продукта.

Другими словами, Риск является всего лишь одной из компонент, которая влияет на итоговую доходность по сделке.

А как быть с другими? Похоже, возникает оптимизационная задача. Попробуем ее формализовать. Стоит подчеркнуть, что вариантов может быть множество, и опираться, в первую очередь, стоит на бизнес-задачу и контекст процесса разработки.

Начнем с простого варианта и далее покажем потенциальные точки развития решения. Проще всего оптимизировать доходность сделки.

Пусть происходит выдача кредитного договора на сумму L (лимит). У этого договора есть прогнозная вероятность дефолта PD. В первом приближении считаем, что клиент на момент дефолта имеет задолженность равную L.

Тогда оптимизационная задача будет выглядеть следующим образом:


Видим, что PD фиксирован и зависимость от L линейная. Казалось бы, оптимизировать нечего.

Однако в реальной жизни PD зависит от L по следующим соображениям: чем больше лимит, тем сложнее обслуживать долг и, соответственно, тем выше вероятность дефолта. В этом случае наша задача, действительно, превращается в оптимизационную. Однако и тут есть нюанс. В выборке бывают клиенты с разными доходами, поэтому абсолютных значений будет недостаточно. Лучше всего строить зависимости не от лимита, а от уровня закредитованности, т.е. параметра $\frac{L}{Доход\:клиента (Д_к)}$:


Зависимость $PD(\frac{L}{Д_к})$ может быть восстановлена на исторических данных или данных пилота.

Также на оптимизационную задачу могут влиять продуктовые стопы. Например, в паспорте продукта могут быть указаны допустимые границы уровня риска (вероятности дефолта). Тогда оптимизация производится только до указанной границы.

Далее усложняем, кому интересно, то под кат:
В целом, и особенно для других индустрий (телеком, например) оценка дохода и дебиторской задолженности (по-другому, EAD Exposure at default величина кредита на дату дефолта) в виде лимита являются слишком консервативными. Кроме того, стоит учесть, что часть средств может быть возвращена (та доля EAD, которая не будет возвращена, обозначается LGD Loss Given Default). Тогда


Обычно для выручки и EAD разрабатываются отдельные модели. LGD чаще всего заменяется консервативным значением, которое зависит от отрасли (банки, телеком и т.д.) и типа продукта (может оценивается как средний LGD по продукту). Для ориентира можно посоветовать использовать любимое число в диапазоне 0.9-1.

До сих пор мы считали, что только PD зависит от $\frac{L}{Д_к}$. Но такой зависимостью могут обладать и другие компоненты:


Далее, если мы хотим учитывать другие продукты в офферинге (например, для выбора оптимального предложения клиенту), то дополнительно следует учитывать вероятность отклика клиента на продукт и вероятность оттока, если клиент уже обслуживается:


Отклик вероятность взятия продукта, Отток вероятность оттока клиента. В этом случае можно сравнивать доходности между разными продуктами и решать задачи Marketing Optimization.

Все что здесь перечислено лишь канва для решения задачи. Пока мы не учитывали расходы на каждый продукт, стоимость привлечения ресурсов, стоимость кампании, вероятность мошенничества и т.д.

В общем случае их надо также включать в оптимизатор. Все зависит от контекста и приемлемого уровня приближения для решения бизнес-задачи.

Что еще погуглить? Ключевые слова risk-based limit, credit-limit management profit-based approach.

Итак, деньги предложены и выданы клиентам. Но часть из них начинает уходить в просрочку. Как управлять ситуацией? Берем паяльник. Собираем подушку безопасности в виде резерва денег. Как это сделать, расскажем прямо сейчас.

Резервы и роль DS для их расчета



Определение величины риска является ключевым в деятельности банка: в зависимости от аппетита к риску банк определяет с какими клиентами готов работать. Но в любом случае для минимизации возможных потерь формируется денежный резерв в виде наличности или ликвидных ценных бумаг. В худшем случае банк теряет весь портфель, однако это маловероятно, поэтому иметь полный резерв не слишком эффективно. Нужен некоторый баланс.

Для этого надо точно определить объем денег, который следует зарезервировать. Так появляется задача обеспечения достаточности капитала (required capital) под ожидаемые потери. (Expected Loss EL). Требования достаточности капитала определяются и отслеживаются регулятором (Центральный банк).

Историческая справка:
Интуицией для регулятора служит международный опыт, отраженный в разных нормативных документах. Международный опыт спроецирован на отечественную реальность в ряд положений и указаний. Но об этом чуть позже.

Взглянем на эволюцию подхода, чтобы подчеркнуть как именно возрастала роль DS и ML в контексте данной задачи.

В 1974 году при банке международных расчетов в Базеле был сформирован Базельский комитет по банковскому надзору, который и по сей день занимается внедрением единых стандартов в сфере банковского регулирования.

Первым принятым соглашением было Базельское соглашение о капитале Basel I в 1988 году. В Basel I основное внимание уделялось кредитному риску и было установлено, что размер капитала должен превышать 8% активов банка, взвешенных с учетом риска (Активы, взвешенные с учетом риска Risk-weighted Assets (RWA)).


В терминах кредитного риска, the Basel I Capital Accord ввел фиксированные RWA, которые зависят от типа кредита.
Тип кредитного продукта Вес, %
Кредит наличными 0
Ипотека 50
Кредиты ЮЛ 100
Например, рассмотрим Ипотеку за 100кР (да-да, пример в вакууме):


Т.е. банку под данный договор необходимо зарезервировать не менее 4кР.

Подход очень прост и в этом его большое преимущество. Но и недостаток тоже: не применить XGBoost не учитываются, например, поведение клиента и общая экономическая ситуация.

Для устранения недостатков соглашения Basel I было введено соглашение Basel II. Во-первых, Basel II учел другие типы рисков (операционные и рыночные) для резервирования, а во вторых, что более важно для нас, декомпозировал расчет на компоненты. В этот момент и появляется простор для Xgboost ML и DS.

Basel III было введено как прямой результат глобального экономического кризиса. Добавились риски и усложнились расчеты. Для рассуждений нам хватит первых двух соглашений. Чуть подробнее для первого ознакомления можно погрузиться в первые страницы [6].

Так как же посчитать? В России, аналогично базельской системе, есть несколько подходов к оценке RWA:

1. Стандартный подход наиболее простой. Основа положение ЦБ 590-П.
Далее цитата (подслушано в [12]):
Концепция оценки кредитного риска, описанная в Положении 590-п, не предполагает непосредственного расчета параметров кредитного риска. Размер формируемого резерва определяется на основании профессионального суждения в соответствии с критериями, заданными регулятором по отдельным ссудам или на основании методики оценки кредитного риска по портфелям однородных ссуд, при этом ссуда (портфель однородных ссуд) относится к одной из пяти категорий качества. Для каждой категории банком России определены диапазоны обесценения в процентах от балансовой стоимости финансового инструмента.
Конец цитаты.

Иными словами, все ссуды экспертно классифицируются на 5 категорий качества, и в зависимости от категории определяется объем резервирования. Кроме того, определяются так называемые индивидуальные признаки обесценения (например, ухудшение финансового положения), на основе которых кредитный договор может быть выведен из ПОС (портфель однородных ссуд) с дальнейшей оценкой резервов на индивидуальной основе.

2. Подходы на основе Внутренних Рейтингов(ПВР, регламентируется положением ЦБ 483-П) уже подразумевают наличие компонент PD, LGD и EAD.
На иллюстрации ниже отражены зоны ответственности банка и регулятора при разных подходах:


Как видно из таблицы выше, в случае использования базового или продвинутого ПВР, задача по оценке отдельных компонент проводится банками самостоятельно, в связи с чем возникает необходимость построения предиктивных моделей на основе исторических данных. А с учетом того, что для отдельных кредитных продуктов зачастую используются различные сегменты клиентов и, соответственно, необходимо строить отдельные модели, появляется простор для работы data scientistов.

При имеющихся рассчитанных значениях указанных компонент можно определить ожидаемые потери (Expected Loss EL) и неожиданные потери (Unexpected Loss UL).

Потери в рублях представляют собой произведение трех компонент:

  1. вероятность дефолта (PD Probability of Default)
  2. сумма долга плательщика на момент дефолта (EAD Exposure At Default),
  3. доля от этой суммы, которая так и останется невыплаченной (LGD Loss Given Default).

Вообще, эта формула:


еще встретится нам неоднократно в цикле статей это рефрен задачи резервирования в кредитном риске.

После такого рода декомпозиции EL (ECL), возникает возможность смоделировать (DS и ML, привет!) ) каждую из упомянутых величин PD (модель бинарной классификации), LGD (модель регрессии), EAD (модель регрессии), где, в рамках указанных регулятором требований на разных этапах моделирования (разработка, калибровка и валидация) появляется возможность для использования статистических методов и алгоритмов машинного обучения.

Для тех, кто любит посложнее:
Сумма EL и UL формирует величину стоимости под риском (Value at Risk VaR) меру, которую с заданной вероятностью (по базельским соглашениям 99%) не превысят потери в течение определенного периода времени.


Подробнее об особенностях моделирования компонент PD, LGD, EAD расскажем в следующей статье цикла, а пока рассмотрим еще один способ оценки суммы для формирования резервов.

3. Методология МСФО9. Кратко.
Методология МСФО9 для определения резервов использует:

  • информацию об ухудшении кредитного качества финансового инструмента (стадии обесценения);
  • компоненты (с приставкой Lifetime- или Lt) PD, LGD, EAD, рассчитанные на весь срок работы с клиентом; ECL Expected Credit Losses;
  • информацию о макроэкономических изменениях (посредством калибровки модели).

Схематично отличие ПВР и МСФО9 представлено на рисунке ниже:


В подходе МСФО9 ещё больше простора для DS и ML-экспериментов.

Что еще почитать?


  • Письмо банка России от 29.12.2012 N 192-Т О Методических рекомендациях по реализации подхода к расчету кредитного риска на основе внутренних рейтингов банков
  • Положение банка России от 6 августа 2015 г. 483-П О порядке расчета величины кредитного риска на основе внутренних рейтингов
  • Указание банка России от 15 апреля 2015 г. N 3624-УО требованиях к системе управления рисками и капиталом кредитной организации и банковской группы
  • Указание банка России от 6 августа 2015 г. 3752-У О порядке получения разрешений на применение банковских методик управления кредитными рисками и моделей количественной оценки кредитных рисков в целях расчета нормативов достаточности капитала банка, а также порядке оценки их качества
  • В книге [13].

Положения и указания заботали, книги прочитали, а где тут DS? Как и обещали DS в деталях компонентах. Но это уже совсем другая история. Подробнее особенности моделирования компонент PD, LGD и EAD разберем в следующей статье цикла, а в завершение вводной статьи приведем таблицу с вариантами приложений статистических методов и алгоритмов машинного обучения к сфере риск-моделирования в разрезе каждой задачи.
Рейтинговое
моделирование
Кредитный офферинг Расчет уровня
ожидаемых потерь
Задачи,
решаемые
с помощью
DS/ML
Определение
алгоритма
рейтингования;
Определение порога
одобрения;
Калибровка.
Разработка
оптимизатора;
Разработка моделей,
используемых для
подбора кредитного
предложения.
Моделирование
компонент PD, LGD, EAD;
Калибровка.

Выводы


Основной вывод после написания вводной статьи для нас (abv_gbc, alisaalisa, artysav, eienkotowaru) таков: крайне сложно коротко рассказать даже о трех задачах, возникающих в расчете кредитного риска. Почему?

Для этих задач разработана детальная методология, что дает хорошую пищу для ML и DS размышлений. Эти размышления развивают подходы для ответа на все более сложные вызовы рынка. Инструменты, основанные на таких подходах, из комплементарных постепенно становятся основными при принятии решения. Все это вместе позволяет переносить лучшие практики и интуиции риск-моделирования в другие индустрии (телеком, страхование, промышленность). Какие именно? Расскажем в следующих статьях цикла.

Список использованных терминов


  • Дефолт невыполнение обязательств по договору займа. Обычно дефолтом считается неоплата по договору в течение 90 дней.
  • PD probability of default вероятность дефолта.
  • EAD exposure at default кредитные обязательства по договору на момент дефолта. По сути, баланс на дату дефолта, где баланс = Тело долга + Просрочка.
  • LGD loss given default доля EAD, которую клиент не возвращает на горизонте восстановления.
  • EL expected loss ожидаемые потери по договору.
  • EСL expected credit loss ожидаемые потери по договору на протяжении всего его времени жизни.
  • Андеррайтер специалист, осуществляющий оценку риска и принимающий решение о кредитной заявке.
  • Стоп-фактор ограничения на предоставление банком кредитного продукта.
  • SCF supply chain finance финансирование цепочки поставок система взаимодействия предприятия-поставщика и его контрагентов.
  • RWA risk-weighted assets активы, взвешенные с учетом риска; используется для определения достаточности капитала.
  • ПВР (IRB) подход к оценке кредитных рисков банков для целей оценки достаточности регулятивного капитала, основанный на использовании внутренних рейтингов заемщиков, то есть рейтингов, устанавливаемых самими банками.
  • МСФО9 (IFRS9) международный стандарт финансовой отчетности, предполагающий, в том числе, оценку ожидаемых кредитных убытков с учетом времени жизни договора и стадий обесценения.
  • VaR мера, которую с заданной вероятностью не превысят потери в течение определенного периода времени.

Ссылки


[1] Leo Martin, Suneel Sharma, and Koilakuntla Maddulety. Machine learning in banking risk management: A literature review. Risks 7.1 (2019): 29.
[2] en.wikipedia.org/wiki/Altman_Z-score
[3] www.youtube.com/watch?v=rfCamyEURyw&list=PLLQmSdmAWzkKeiOC1b-nxpoACqgfTc0G5&index=7
[4] Breeden Joseph. A Survey of Machine Learning in Credit Risk. (2020).
[5] Сорокин Александр. Построение скоринговых карт с использованием модели логистической регрессии. Интернет-журнал науковедение 2 (21) (2014).
[6] Baesens Bart, Daniel Roesch, Harald Scheule. Credit risk analytics: Measurement techniques, applications, and examples in SAS. John Wiley & Sons, 2016.
[7] github.com/MykolaHerasymovych/Optimizing-Acceptance-Threshold-in-Credit-Scoring-using-Reinforcement-Learning
[8] riskconference.ru/wp-content/uploads/2019/10/%D0%A1%D1%83%D1%80%D0%B6%D0%BA%D0%BE_%D0%92%D0%A2%D0%91.pdf
[9] Masyutin Alexey. Credit scoring based on social network data. Бизнес-информатика 3 (33) (2015).
[10] habr.com/ru/company/vtb/blog/508012
[11] vc.ru/finance/83771-kak-formiruetsya-procentnaya-stavka-po-kreditam
[12] Фаррахов Игорь. МСФО 9: сформированные резервы в оценке ожидаемых кредитных потерь. Банковское обозрение. Приложение" BEST PRACTICE 2 (2018).
[13] Bellini Tiziano. IFRS 9 and CECL Credit Risk Modelling and Validation: A Practical Guide with Examples Worked in R and SAS. Academic Press, 2019.
Подробнее..

ML и DS оттенки кредитного риск-менеджмента EAD или деньги в дефолте

19.01.2021 10:15:06 | Автор: admin


Привет, Хабр!

Новая статья цикла о моделировании в задачах управления кредитным риском (предыдущие статьи смотрите здесь и здесь) посвящена EAD компоненте, отражающей размер задолженности заемщика перед банком в момент дефолта.

Как спрогнозировать сумму кредитного требования в момент дефолта, при условии, что момент дефолта неизвестен, и вообще может не настать? Как поступать с экстремальными, особенно большими по абсолютному значению, EAD? А если кредитный продукт, по которому нужно оценить риск это так называемый револьверный кредит, где нет установленных регулярных платежей,- как, например, кредитка с кредитным лимитом?

Эти и подобные им вопросы возникают при моделировании компоненты. Их и рассмотрим под катом.

EAD как одна из компонент EL


Общая формула ожидаемых потерь (Expected Loss, EL) выглядит так[1]:
где:
$PD$ вероятность дефолта;
$EAD$ это кредитные обязательства по договору на момент дефолта. Кредитные обязательства, сумма кредитного требования, балансовая часть долга, баланс это синонимы для описания суммы средств, которые заемщик должен банку. Соответственно, EAD сумма средств, которые заемщик должен банку в момент дефолта.
$LGD$ доля EAD, которую заемщик не возместит банку в течение условленного времени после дефолта.

В публикациях и на проектах, посвященных оценке ожидаемых потерь, основное вниманиеприковано к моделированию и оценке PD. И если LGD также удается уделить время, особенно в части сбора целевого события и выбора архитектуры решения, то на EAD его практически не остаётся.

Одна из причин в том,чтоосновныекнопки управления итоговым значением EL расположеныименно в компонентах PD и LGD: калибровка, горизонт наблюдения и сбора восстановления и др.

Тем не менее EAD является важным параметром, поскольку используется в формулахлинейно определяет потери и, кроме того, проецирует расчеты в плоскость денег.

Наша цель дать быструю инструкцию, которая учтет основные требования и позволит собрать baseline для решения задачи.

Методы оценки EAD


Подходы к оценке EAD различаются в зависимости от типа договора:

Договора с фиксированной суммой

Такие договора ещё называются аннуитетными. Например, к таким относится потребительский кредит. Для моделирования EAD аннуитетных договоров могут быть использованы следующие подходы:

  1. В самом простом случае оценка будущего EAD будет равна значению кредитного обязательства по договору на момент наблюдения.
    Такой подход не требует вычислений и является оценкой в первом приближении.
  2. Второй подход консервативная оценка EAD: предположим, что заемщик начинает входить в дефолт прямо сейчас, то есть не вносит ни копейки платежей по кредиту, начиная с текущего момента. Тогда к моменту дефолта из штрафов и пени сформируется дополнительный долг, который тоже будет включен в сумму EAD:
    где:
    $E_{curr}$ сумма долга на текущую дату,
    $F$ сумма накопившихся штрафов и пени, неуплаченных к моменту дефолта,
    $\widehat{EAD}$ прогнозный EAD.
  3. Менее консервативные методы предполагают, что сумма EADа будет представлять собой некую сумму средств, которая лежит в интервале между нулем и консервативным значением, определяемую множителем текущей балансовой позиции. Этот подход будет рассмотрен подробно далее в статье.

Договора с нефиксированной суммой

С нефиксированной суммой, т.н. револьверные, или лимитные: договора, имеющие балансовую и внебалансовую чаcть долга. Внебалансовая часть долга денежные средства, которые есть возможность использовать, но не использованы на дату наблюдения. Примерами могут быть кредитная карта с лимитом или кредитная линия.

Сумма EAD для такого типа договоров может рассчитываться следующими способами:
  1. Консервативный подход состоит в том, чтобы считать EAD равным лимиту:
  2. Другой подход состоит в том, чтобы моделировать некоторый показатель, который будет отражать степень использования внебалансовой части кредита до того, как заемщик окажется в дефолте. Этот подход также будет рассмотрен подробно далее в статье.

Моделирование EAD


Схематично план моделирования EAD изображен на диаграмме:


Формирование витрины для моделирования


Здесь, как и в статьях ранее, мы рассматриваем витрину для моделирования (ABT) как результат объединения трех сущностей: сегмент (id, временная метка, атрибуты сегмента), целевое событие и поведенческие атрибуты.

Начнем с целевого события. Обратим внимание на два его параметра горизонт и алгоритм сбора. Не стоит забывать, что поскольку событие инициировано фактом дефолта, то все остальные аспекты дефолта (дата начала, дата окончания, тип события) также имеют значение при описании EAD.

Определение горизонта наблюдения



Величина EAD, а также момент дефолта, станут известны только в момент дефолта (сюрприз-сюрприз). Моделировать же его необходимо, выбрав заранее, на каком временнОм интервале планируется прогнозировать дефолт и, соответственно, EAD. Такой интервал называется горизонтом наблюдения. Возможны несколько подходов для учета событий дефолта.

Три наиболее распространенных подхода: метод фиксированного горизонта, когортный и смешанный метод [2].
а) Фиксированный горизонт. Наблюдения формируются таким образом, чтобы от даты наблюдения до даты дефолта временной интервал был фиксированным. При этом длину интервала рекомендуется выбирать таким образом, чтобы она была такой же, как у горизонта наблюдения модели PD для текущего портфеля (например, 12 месяцев).
б) Когорты. Метод предполагает разбиение периода наблюдения на фиксированные интервалы. Каждый такой срез наблюдаемого периода учитывает все события дефолтов, произошедшие в период между датами текущего и следующего среза. Таким образом, для каждого кредитного требования рассчитывается целевая переменная на основе баланса на момент среза и реализованного EAD в момент дефолта.
в) Смешанный метод. Подход совмещает в себе оба предыдущих варианта. Выборка делится на срезы, как правило, ежемесячные или ежеквартальные, куда попадают все активные на дату среза договора, и для каждого среза происходит учет всех событий дефолта, произошедших в течение некоторого интервала времени (как обычно, ограниченного сверху двенадцатью месяцами). Таким образом, каждое событие дефолта учитывается более одного раза.
Сравнительная характеристика подходов к сбору горизонта наблюдений:

Положительные стороны
Недостатки
Фиксированный интервал
Простой и понятный горизонт. Легко интерпретируемый результат модели. Однородность выборки.
Не учитываются события дефолта, наступившие быстрее, чем за 12 месяцев.
Когорты
Учитываются все события дефолта. Учитываются события дефолта, отстоящие на разные временные интервалы от даты наблюдения.
Необходимо тщательно выбирать длину когорты во избежание смещенности оценки.
Смешанный метод
Учитывается большое количество наблюдений.
Необходимо проводить дополнительный анализ автокорреляции факторов.

Формирование сегмента


После того, как определена длина горизонта, необходимо определиться с тем, какие наблюдения попадают в выборку для моделирования.
Обычно подразумевается, что выборкой для моделирования является совокупность договоров, которые в текущий момент не в дефолте, но на горизонте наблюдения в дефолте окажутся.
Имеет место также такой вариант формирования выборки, при котором в момент дефолта одного из договоров, все остальные активные договора заемщика также признаются дефолтными. Этот подход называется дефолтом в результате инфицирования и зачастую используется для изменения уровня дефолта.

Определение целевой переменной




Стоит отметить, что в кредитном портфеле встречается большой разброс по балансам: от очень маленьких (на грани материальности) до очень больших значений. Из-за этого прогнозирование непосредственно абсолютного значения баланса может привести к существенной величине ошибки. Чтобы этого избежать, для моделирования используют целевые переменные, которые отражают относительную разницу между актуальным балансом и балансом на дату дефолта (EAD), либо относительную же разницу между значением лимита и EAD.

В следующем разделе рассмотрим некоторые из них.

Коэффициент кредитной конверсии


Коэффициент кредитной конверсии - credit conversion factor, CCF та часть доступного лимита, которая будет использована до наступления дефолта [3].
где:
$Limit$ и $E_{curr}$ это, соответственно, лимит по кредитному договору и баланс на момент наблюдения, $EAD$ сумма основного и просроченного кредитного долга на момент дефолта.

Поскольку у аннуитетных договоров нет внебалансовой части (то есть, $Limit$ всегда равен нулю), этот подход может применяться только для лимитных договоров.

Выборка для применения представляет собой открытые и недефолтные договора на дату, и рассчитанные для каждого из наблюдений атрибуты, вошедшие в финальную модель. На основании атрибутов рассчитывается CCF для наблюдения. На основании CCF, баланса и лимита рассчитывается прогнозный EAD по следующей формуле:

В этой формуле $\widehat{EAD}$ и $\widehat{CCF}$ прогнозные значение EAD и CCF соответственно.

Коэффициент использования лимита


Такое целевое событие может быть применено к продуктам с изменяемыми лимитами, что в случае расчета CCF может приводить к отрицательным значениям [4].
Также, как и предыдущий, этот подход может быть применен только для лимитных договоров.

Множитель текущей балансовой позиции


По некоторым револьверным кредитам превышение лимита наступает до момента дефолта. В таком случае подход, основанный на CCF, не имеет смысла ввиду значения больше 100%. Решением подобной проблемы может стать рассмотрение в качестве целевой переменной множителя текущей балансовой позиции.
Прогнозное значение EAD будет иметь следующий вид:
Поскольку в этом подходе расчет EAD опирается только на значение баланса, он может быть использован в том числе для моделирования сегмента аннуитетных договоров.

Использование двух целевых переменных (двухкомпонентная модель)


Общая формула этого подхода выглядит следующим образом:
где:
$E_{curr}$ баланс на дату наблюдения,
$\widehat{k}$ множитель текущей балансовой позиции,
$\widehat{CCF}$ коэффициент кредитной конверсии,
$Limit$ кредитный лимит по договору на дату наблюдения.

Подход можно использовать как для лимитных, так и для аннуитетных договоров:
  • для аннуитетов:

    где k это целевая переменная, для которой собираем витрину.
  • для лимитных договоров моделируем две целевые переменные:
Когда в кредитном портфеле содержатся договора обоих типов, использование двухкомпонентной модели выгодно отличается от иных подходов, позволяя настроить функционал для каждого сегмента по отдельности.

Таблица сравнения применимости целевых переменных для некоторых случаев
Рекомендуется к использованию в случаях
Возможность применения к аннуитетным договорам
CCF
Используется в любой непонятной ситуации; есть упоминания в литературе [3][5]
Нет
UT
В случаях с продуктами с изменяемыми лимитами, а также такими, для которых часто наблюдаются события дефолтов с небольшими значениями EAD
Нет
k
Может использоваться для продуктов, по которым превышение лимита происходит раньше дефолта.

Да
CCF, k- двухкомпонентная модель
Используется для портфелей, в которых существенную часть составляют аннуитеты, а также есть предпосылки считать, что лимитные/аннуитетные договора имеет смысл моделировать по отдельности
Да

Дополнение
Для задачи резервирования можно рассматривать другие архитектуры модели EAD. Например, при расчете EAD для всего времени жизни договора. Life-time EAD компонента в рамках МСФО9, которую иногда декомпозируют на две вероятность и сумму досрочного погашения (prepayment). Это важно, т.к. позволяет вовремя перестать резервировать деньги под быстрозакрывающиеся кредитные обязательства.

В более простом варианте, для смежных задач достаточно использовать модель досрочного погашения, т.е. прогноз срока жизни договора.


Расчет ретроспективных значений целевой переменной для всех наблюдений


После того как выбран горизонт событий и целевая переменная, выполняется расчет ее значения для всех наблюдений сегмента.
Поскольку сегмент представляет собой договора, которые попали в дефолт, то для всех них известен EAD. Используя формулы для расчета выбранной на предыдущем шаге целевой переменной, рассчитывается фактическая целевая переменная для наблюдений.
Для некоторых случаев таких, как двухкомпонентная модель, очевидным шагом будет рассчитать разные целевые переменные для разных сегментов, и возможно, проводить дальнейшее моделирование по каждому из сегментов в отдельности.

Поведенческие атрибуты


Почти все подготовлено для формирования витрины для моделирования. Осталось добавить поведенческие атрибуты. Среди основных драйверов:
  • Утилизация по договору;
  • Время жизни договора;
  • Количество дней в просрочке;
  • DTI debt-to-income ratio отношение долга к доходам
  • PTI Payment-to-income ratio отношение ежемесячных платежей по кредиту к доходам
  • Размер компании (для ЮЛ)

Полный список смотрите в предыдущей статье цикла.

Выбор типа модели и бинаризация целевой переменной


Перечисленные целевые переменные являются вещественными числами. Вещественная целевая переменная ограничивает выбор типа модели до подмножества регрессионных.

Другим нюансом является тот факт, что в рассматриваемой задаче форма распределения целевой переменной далека от нормальной. Рассмотрим пример распределения целевой функции CCF [3]:

Распределение CCF часто характеризуется пиками около CCF = 0 и CCF = 1. Такое распределение может привести к неточному прогнозу модели стандартной линейной регрессии. В этом случае можно использовать GLM обобщенную модель линейной регрессии с некоторой функцией связи (link function), которая учитывает распределение целевой переменной, отличное от нормального [6]. Тем не менее, это требует дополнительного анализа на предмет функции связи, который необходимо проводить заново для каждого моделируемого портфеля. По этим причинам, иногда целесообразно бинаризовать целевую переменную, и использовать классификационную модель.

Существует несколько способов бинаризовать целевую переменную [7].

Немного про бинаризацию

Отсечение по фиксированному пороговому значению


Для того, чтобы преобразовать вещественную целевую переменную в бинарную, можно выбрать некий порог, выше которого значение равно единице, а ниже- нулю:
где $cutoff$ выбранное пороговое значение.

В этом случае пороговое значение гиперпараметр модели, и подбирать его следует на выборке для валидации.

Взвешенный метод


Другой подход заключается в том, что каждое наблюдение витрины для моделирования дублируется. Для одного из дублированных наблюдений значение CCF принимается равным 1, а для другого 0. Дополнительно, каждому из дублированных наблюдений присваиваются веса, которые равны CCF и 1 CCF соответственно.

Вот для примера таблица, которая получается путем подобного преобразования.
ID
Предиктор_1
Предиктор_2
CCF
1
100
1
0.9
2
150
0.5
0.6
3
50
0.9
0.7
ID
Предиктор_1
Предиктор_2
Вес
Таргет
1
100
1
0.9
1
1
100
1
0.1
0
2
150
0.5
0.6
1
2
150
0.5
0.4
0
3
50
0.9
0.7
1
3
50
0.9
0.3
0


Изначально CCF означал долю неиспользованного на текущий момент лимита, которую заемщик израсходует к моменту выхода в дефолт.

Бинаризованный же CCF может принимать только два значения:
По сути, сформулирована классификационная задача, для решения которой можно использовать любой из подходящих алгоритмов машинного обучения. Впрочем, часто останавливаются на логистической регрессии. В случае бинаризации взвешенным методом на взвешенной логистической регрессии (weighted logit regression). Выбор именно логистической регрессии обусловлен тем, что она интерпретируема и классически широко используется в моделях кредитного моделирования, в первую очередь, моделях PD.

Прогноз модели вероятность наступления события CCFbinary = 1 лежит в интервале от 0 до 1. При применении модели его можно интерпретировать как прогнозную оценку оригинальной, вещественной переменной CCF.

Применяя таким образом модель и зная значения баланса и лимита, рассчитывается прогнозное значение EAD по формуле из раздела о CCF:

Заключение и вывод


EAD несложная, по сравнению с PD и LGD, компонента для моделирования. Как правило, для быстрого построения качественного baseline можно воспользоваться одной из рассмотренных траекторий. Сборка модульная. Отбор признаков и все оттенки ML для финальной модели могут быть подобраны исходя из предложенного нами ранее pipeline.

TL:DR Примеродного из возможных решений:
  1. Использование смешанного горизонта;
  2. Двухкомпонентная модель (CCF и k). Факторы, включенные в модель, выбраны так, чтобы наиболее полно характеризовать заемщика и его платежную дисциплину.
  3. Для моделирования можно использовать обычную logit-регрессию, предварительно выполнив бинаризацию целевой переменной CCF взвешенным методом.
  4. Проверка качества модели на out-of-time тестовой выборке.

Итоговый выбор, безусловно, осуществляется после полного погружения в данные и бизнес-процессы, а также требования к процессу применения моделей.

Авторы статьи: Алиса Пугачёва (alisaalisa), Александр Бородин (abv_gbc)

Список использованных терминов и сокращений


  • ABT analytical base table витрина данных для моделирования [8].
  • EL expected loss ожидаемые потери по договору.
  • PD probability of default вероятность дефолта.
  • LGD loss given default доля EAD, которую клиент не возвращает на горизонте восстановления.
  • EAD exposure at default кредитные обязательства по договору на момент дефолта. По сути, баланс на дату дефолта, где баланс = Тело долга + Просрочка.
  • CCF credit conversion factor часть доступных на момент наблюдения средств, которая будет использована клиентом к моменту дефолта.
  • Дефолт это невыполнение обязательств по договору займа. Обычно, дефолтом считается неоплата по договору в течение 90 дней.
  • ОД основной долг.
  • ПОД просроченный основной долг.
  • Балансовая часть долга сумма долга на момент наблюдения. Баланс = ОД + ПОД.
  • Внебалансовая часть долга сумма средств, которые доступны для использования, но пока не использованы. Применимо к лимитным договорам.
  • GLM generalized linear model.
  • DS data science.
  • ML machine learning.
  • Out-of-time способ разделения на обучающую и тестовую выборки. Разделение происходит способ по временной метке наблюдений так, чтобы в трейн-выборке оказались более ранние наблюдения, а в тестовой более поздние.

Ссылки


  1. ML и DS оттенки кредитного риск-менеджмента
  2. ТЕОРЕТИЧЕСКИЕ И ПРАКТИЧЕСКИЕ АСПЕКТ ПОСТРОЕНИЯ EAD-МОДЕЛЕЙ
  3. ПОСТРОЕНИЕ РЕГРЕССИОННХ МОДЕЛЕЙ ДЛЯ ОЦЕНКИ ВЕЛИЧИН СРЕДСТВ ПОДРИСКОМ (EAD)
  4. Predictive Models for Credit Limit Utilization
  5. Exposure at default models with and without the credit conversion factor
  6. Practitioner's Guide to Generalized Linear Models
  7. Bart Baesens Credit Risk Analysis
  8. https://en.wikipedia.org/wiki/Analytical_base_table
Подробнее..

ML и DS оттенки кредитного риск-менеджмента LGD, или Жизнь после дефолта

10.05.2021 10:05:19 | Автор: admin


Хабр, привет!
Мы продолжаем цикл статей ([1], [2], [3]), посвященных применению ML-методов в ряде задач управления кредитным риском. В этой мы расскажем про задачу, которая возникает в ходе жизненного цикла кредитного договора: моделирование доли невозврата по договору в случае его дефолта (loss given default, LGD).

Зачем это нужно делать, ведь дефолт случился и на первый взгляд кажется, что прогнозировать уже ничего не нужно? Действительно, можно считать, что клиент уже ничего не вернет и под такие договоры закладывать 100%-ное резервирование.

Однако в действительности после дефолта клиенты могут вносить платежи или, если договор был обеспечен (залог), то в ходе продажи обеспечения вся сумма договора или ее часть могут быть погашены за счет суммы реализации (продажи) залога.

Также стоит обратить внимание, что для банковской сферы (в других индустриях зависит от продукта и политикирезервирования) прогноз должен производиться как по договорам, находящимся в дефолте $(PD = 100\%)$ (default сегмент), так и по тем, по которым нет дефолта на момент расчета резервов $(PD \neq 100\%)$ (non-default сегмент).Разработка прогнозной модели возможна только на договорах в дефолте. В этом случае возникает проблема переноса модели на сегмент недефолтных договоров.

Об особенности расчета компоненты LGD, ее моделирования, распространении прогноза на весь портфель, а также подходах к валидации расскажем далее.

Бегите, глупцы. Добро пожаловать под кат!

Стоит отметить, чтодоля невозврата существенно зависит от типа продукта (например, ипотека vs. кредитная карта), сегментаклиентов (ЮЛ vs. ФЛ),индустрии (банк vs. телеком) или даже от типа банка.При этом исследуемая величина может варьироваться в широком диапазоне (цифры отражают порядок различия): от 1020% для обеспеченных кредитов (ипотека, ЮЛ с обеспечением) до 8090% (для кредитных карт ФЛ).

В связи с таким разбросом возникает потребность прогнозирования этой величины если предполагать, что невозврат будет 100%, то мы, с большой вероятностью, перезакладываемся и должны нести бремя дополнительных расходов, тогда как в случае качественного прогноза можно распустить часть резервов и получить дополнительную прибыль за счет их использования в бизнесе.

Теоретический подход к прогнозированию LGD мы проиллюстрируем примером из нашей практики.
Особенности разбираемого случая:
  • в исходных данных по договорам содержалась только информация об истории балансов и просрочек, а также факты продажи и списания договоров;
  • мало информации о клиентах;
  • глубина истории около 2 лет.


Постановка задачи


Алгоритм сбора LGD


Сначала остановимся на том, как определяется моделируемая величина. Для каждого договора собирается история платежей после дефолта (рис. 1). Такие платежи называют восстановлением. Временной горизонт может варьироваться от года до трехпяти лет, что зависит от типа заемщиков (ЮЛ, физ.лица), глубины данных и особенности бизнес-процессов в банке. Восстановление дисконтируют, если анализируется длительный период, известно точное время внесения денег заемщиком (до месяца, а не агрегированные данные за год), а также есть значительная инфляция (подробнее см. [2]).
Ниже приведена иллюстрация алгоритма сбора LGD.
Рисунок 1. Алгоритм сбора LGD. Клиент совершил две выплаты после наступления дефолта: в феврале и мае 2019 г. Дата дефолта январь 2019 г., горизонт восстановления 6 месяцев.

LGD рассчитывается формуле:
В нашем случае мы были вынуждены ограничиться горизонтом год после дефолта, поскольку предоставленная заказчиком выборка была глубиной около 2 лет. Также нам были недоступны данные по платежам $R_i$, поэтому в формуле расчета числитель был заменен на суммарный баланс на конец периода (основной долг + просроченный основной долг). Такая замена возможна, поскольку $EAD - \sum_{T}^{} {R_i}$ равен балансу на конец периода сбора данных по платежам:

Целевая переменная модели


Поскольку мы прогнозируем возврат денежных средств для клиентов, которые уже находятся в дефолте, в качестве целевой переменной целесообразнее использовать баланс не на момент дефолта, как описано выше, а текущий (момент наблюдения и/или скоринга), который учитывает возможное внесение денег на счет после дефолта. Поэтому величина LGD модифицируется и баланс на момент дефолта заменяется на баланс клиента на дату наблюдения, полученный показатель используется как целевая переменная:
Ниже приведена иллюстрация такого подхода к расчету целевой переменной.

Рисунок 2. Алгоритм сбора целевого события

Благодаря такому подходу мы получаем модель, которая гибко реагирует на изменение баланса находящегося в дефолте клиента, что дает более точную оценку уровня потерь. Хотя LGD теперь определяется в момент времени $t$, горизонт для сбора данных о восстановлении остается фиксированным и отсчитывается от даты дефолта.

Учет бизнес-процессов


При расчете LGD должны быть учтены события, которые могут происходить с кредитным договором после дефолта.
  • Продажа:
где $Balance_{sale}$ баланс на дату продажи договора, $Sale$ сумма, за которую была продан договор.
  • Списание:
где $Balance_{wf}$ баланс на дату списания.
  • Реструктуризация:
  • Выздоровление, погашение долга и выход из дефолта:
Стоит отметить, что здесь приведены примеры возможных стратегий, финальный подход всегда может быть пересмотрен с учетом пожеланий владельцев модели.

Для более детального ознакомления с дополнительными методами оценки LGD (в том числе workout и market LGD) следует обратиться, например, к обзору [4].

Сегмент для моделирования


Расчет LGD возможен только после наступления дефолта. Поэтому моделирование LGD производится исключительно на договорах в состоянии дефолта. Дальнейшее практическое использование модели LGD предполагает ее применение ко всем договорам (как не, так и находящимся в дефолте), поскольку для каждого договора должна быть получена оценка ожидаемых потерь (EL). Подробнее об EL можно прочитать в [1].

Читатели, имеющие практический опыт в машинном обучении, наверняка понимают, что для модели, которая обучается на одном сегменте наблюдений, а применяется на другом, нужны особая схема и метод валидации. Рекомендации по валидации модели LGD будут даны далее.

Теперь, когда целевая переменная модели определена, можно переходить к формированию выборки и сбору атрибутов.

Выборка для моделирования


Основные драйверы


Как уже было отмечено выше, LGD это величина, сильно зависящая от бизнес-процессов. Для таких величин часто можно выделить несколько переменных, которые хорошо предсказывают их значения. Или в терминах машинного обучения: для LGD существует несколько предикторов, которые вне зависимости от конкретной задачи дают наибольший вклад в модель. Такие величины еще называют основными драйверами.

Для LGD можно выделить следующие основные драйверы:
  • количество дней в просрочке (далее dpd);
  • возраст дефолта (далее default age) период времени от даты дефолта по договору до текущей даты наблюдения.

Default age и dpd важные статистики, которые показывают динамику LGD и по которым можно валидировать расчеты. Если dpd и default age увеличиваются, то доля невозврата монотонно возрастает (см. графики ниже). Здесь стоит отметить разницу между драйверами, поскольку на первый взгляд кажется, что это одно и то же.

Напомним [2], что часто dpd рассчитывается по методу FIFO: при наличии платежей со стороны заемщика величина просрочки не будет увеличиваться, а возраст дефолта, если задолженность не погашена полностью, будет увеличиваться. Такой подход, в частности, позволяет более осознанно обрабатывать случаи, когда заемщик фиксируется на долгое время в каком-то из бакетов просрочки.

Алгоритм построения распределений
Распределение LGD по dpd
  • Для каждого наблюдения рассчитываем LGD, текущий баланс и потери по договору.
  • Усредняем рассчитанные значения внутри групп по dpd. За единицу измерения удобнее брать месяц, поскольку история по договорам обычно обновляется ежемесячно.

Распределение LGD по default age
  • Для каждого наблюдения рассчитываем текущий баланс и потери по договору.
  • Далее суммируем рассчитанные значения внутри групп по default age (шаг дискретизации 1 месяц).
  • По суммарным значениям текущего баланса и потерь по договорам рассчитываем кумулятивные суммы в порядке увеличения default age.
  • Итоговое распределение LGD по default age рассчитывается как отношение кумулятивных потерь по договорам к текущему балансу по ним.


Рисунок 3. Кумулятивная зависимость LGD от возраста дефолта (default age)

Рисунок 4. Распределение LGD по бакетам просрочки (dpd)

Предикторы


Помимо основных драйверов нам были доступны следующие блоки атрибутов:
  • наличие других кредитных договоров у клиента и его платежи по ним;
  • динамика просрочки платежей по дефолтному договору;
  • утилизация лимита по договору.

Описанные блоки атрибутов позволяют построить довольно точную и гибкую модель LGD.

Моделирование


Для моделирования LGD используются разные методы [4] машинного обучения, в том числе продвинутые (например, ансамбли деревьев или нейронные сети). Средистандартных методов расчета LGD стоит упомянуть цепочно-лестничный метод и метод БорнхуэттераФергюсона. Если говорить про регрессионные методы, то, учитывая форму распределения LGD (часто U-образная, с модами около 0 и 1), в общем случае следует использовать GLM обобщенную модель линейной регрессии с некоторой функцией связи (link function), которая учитывает распределение целевой переменной, отличное от нормального [5].

В данной части мы остановимся на методах, которые использовались в рамках описываемого проекта, а с описанием методологии моделирования LGD предлагаем ознакомиться в [1].

Выбор модели


Выбор метода машинного обучения производится с учетом:
  • распределения LGD по dpd и default age;
  • распределения LGD;
  • формата, в котором необходимо предоставить результат моделирования;
  • баланса портфеля по договорам.

Следует отметить, что может быть необходимо несколько моделей для разных сегментов клиентов. Именно так мы и поступили для решения нашего кейса.

Логистическая регрессия


Логистическая регрессия один из самых распространенных и известных методов машинного обучения. Из его преимуществ можно выделить скорость работы, простоту настройки и интерпретации, большое количество готовых реализаций.

Логистическую регрессию стоит использовать, если:
  • распределение LGD по dpd и default age монотонно-возрастающее;
  • результаты модели нужно представить в виде скоркарты;
  • баланс распределен по договорам практически равномерно (отсутствуют аномально большие по балансу договоры или их число незначительно).

Для логистической регрессии необходим бинарный таргет (0 или 1), но LGD величина непрерывная. Поэтому моделируемую величину бинаризуют одним из способов:
  • взвешенным методом;
  • отсечением по фиксированному пороговому значению;
  • отсечением по случайному пороговому значению.

Подробнее о методах бинаризации можно прочитать в ([3]) или ([6]).

Бинаризованный LGD можно моделировать с помощью логистической регрессии. Смоделированная вероятность класса 1 трактуется как прогнозное значение LGD.

Взвешенная регрессия


Взвешенная регрессия относится к стандартным методам машинного обучения. Отличие от обычной регрессии: веса наблюдения используются в функционале ошибки.

Данный метод применяется, когда
  • распределение LGD по dpd и default age монотонно-возрастающее;
  • скоркарта не требуется;
  • значительная доля баланса портфеля сосредоточена в небольшом количестве договоров.

В последнем случае использование баланса на дату перед дефолтом в качестве веса наблюдения может значительно повысить качество модели LGD.

Дерево решений


Дерево решений отличная альтернатива регрессии, которая обычно точнее, но также проста винтерпретации и настройке.

Дерево решений стоит использовать, если:
  • скоркарта не требуется;
  • распределение LGD по dpd и/или default age не монотонно.

Распределение не монотонно, если с некоторого момента начинается списание большого числа имеющих высокий LGD ссуд. Поскольку LGD рассчитывается как усредненный показатель, эти ссуды увеличивают показатель LGD до момента списания и приводят к его снижению после.

Для корректного предсказания немонотонного поведения LGD в модель нужно одновременно включить два сильно коррелирующих фактора dpd и default age, тогда методы на основе деревьев решений дают более высокое качество.

Применение модели


Напомним, что обучение модели LGD производится на сегменте дефолтных договоров (I), а применяется она ко всем, в том числе и недефолтным договорам.Поэтому важно при разработке модели учесть, как она будетизменена применительно к недефолтному сегменту (II). В идеальном случае разрабатывается отдельная модель на клиентах, которые не находятся в дефолте, но на горизонте расчета EL (часто 1 год) уйдут в дефолт.

Оговоримся, что для применения к дефолтному сегменту модель остается без изменений.

Рассмотрим пример стратегии корректировки модели для применения ее к недефолтному сегменту. Для недефолтного сегмента все предикторы, которые связаны с наступлением дефолта, принимаются равными среднему значению на дефолтном сегменте за первый месяц (default age = 1):

Валидация модели


По аналогии с применением модели валидация на дефолтном сегменте отличается от валидации на недефолтном сегменте. Цель валидации модели на дефолтном сегменте оценка качества и стабильности модели. Валидация на недефолтном сегменте проверяет адекватность модели именно на этом сегменте.

Валидация на дефолтном сегменте



Качество модели определяется по ее общей предсказательной способности, а также предсказательной способности и стабильности на уровне входящих в нее факторов.

Для определения предсказательной способности модели используется модифицированный коэффициент Джини. А стабильность модели оценивается путем вычисления относительного изменения модифицированного коэффициента Джини между обучающей и тестовойвыборками.

Предсказательная сила атрибутов обычно определяется коэффициентом Джини, а стабильность относительным изменениемкоэффициента Джини и population stability index (PSI).

Для определения корректности предсказанных значений LGD используется значение коэффициента loss-shortfall. Данный коэффициент показывает, происходит переоценка или недооценка уровня потерь.

Все вышеуказанные метрики качества подробно описаны под катом.

Подробнее о метриках

PSI (population stability index, индекс стабильности популяции)


PSI используется для проверки данных на репрезентативность и рассчитывается по формуле:
где $x_{i}$ доля наблюдений с $i$-м значением фактора, $n_{i}$ количество наблюдений, соответствующих $i$-му значению фактора, $N$ общее количество наблюдений в выборке ($val$ валидационная выборка, $dev$ выборка для разработки).


Обычно используются следующие пороги:
  • до 10% изменения в распределении минимальны;
  • 1025% изменения в атрибуте существенны, но не блокируют включение в модель (часто делают так, чтобы эффективный вес таких атрибутов не превышал в итоговой модели 2030%). Дополнительно эти атрибуты более тщательно мониторятся и валидируются при применении;
  • > 25% данные атрибуты нецелесообразно включать в финальную модель.

G (коэффициент Джини)


Коэффициент Джини один из наиболее часто используемых тестов для оценки предсказательной силы факторов и дискриминационной способности модели в целом.

Коэффициент Джини для фактора рассчитываетсяпо следующей формуле:
где $X_{i}$ кумулятивная доля всех наблюдений в группе $i$, $Y_{i}$ кумулятивная доля целевых событий (target = 1) в группе $i$. Расчет кумулятивных долей проводится в порядке убывания значения целевой переменной.

Формула расчета коэффициента Джини для модели LGD:
где $S_{testing \ model}$ площадь, ограниченная CAP-кривой тестируемой модели и случайной модели, $S_{ideal \ model}$ площадь, ограниченная CAP-кривой идеальной модели и случайной модели.

Вычисление площадей CAP-кривых в контексте модели LGD производится по следующему алгоритму. Выборка для расчета коэффициента Джини, содержащая фактические и модельные значение LGD, а также соответствующие им значения баланса (основной долг и просроченный основной долг), сортируется по убыванию модельных значений LGD. Затем для каждого смоделированного значения рассчитывается функция:
где $LGD_{i}^{real}$ $i$-ое значение фактического LGD, $OD_{i}$ соответствующие ему значение баланса, $n$ размер выборки.

Формула для вычисления площади, ограниченной CAP-кривой идеальной модели и случайной модели, имеет следующий вид:
где $x_{i}$ накопленный процент всех наблюдений. Площадь, ограниченная CAP-кривой тестируемой модели и случайной модели, вычисляется аналогично с заменой значений фактического $LGD_{i}^{real}$ на модельное в формуле для $F_i$.

Для интуиции чем выше индекс, тем лучше статистическое качество модели. В качестве ориентира по порогам можно использовать следующие значения: 0,30,4 модель может использоваться для расчетов и оценок, 0,50,7 модели с хорошим качеством, можно делать расчеты и автоматизировать процесс, выше 0,70,8 очень хорошо. В последнем случае рекомендуем перепроверить на предмет лика в данных и ошибках в сборе атрибутов (смотрят в будущее).

Loss-shortfall


Loss-shortfall показывает, насколько общие фактические потери превышают общие смоделированные потери. Потери определяются как произведение LGD (фактических или смоделированных) на соответствующий им баланс (основной долг и просроченный основной долг). Формула для вычисления Loss-shortfall имеет вид:
где $LGD_{i}^{model}$ и $LGD_{i}^{real}$ смоделированное и фактическое значение средневзвешенного по балансу LGD в бакете просрочки $i$ соответственно, $Balance_{i}$ суммарный баланс в бакете $i$, $n$ общее количество бакетов просрочки.

Доверительные интервалы для теста не рассчитываются. Модель принимается, если фактические потери не превышают смоделированные $LS \leq 0$.


Валидация на non-default сегменте


Интегральная оценка качества


Идея данного подхода к валидации состоит в следующем: средний уровень LGD по договорам на первом месяце в дефолте (LGD default) должен соответствовать взвешенному по PD среднему LGD по этим же договорам до наступления дефолта (LGD non-default). Чтобы рассчитать интегральную оценку, необходимы:
  • PD и LGD non-default по договорам, которые на данный момент не находятся в состоянии дефолта;
  • LGD default по тем же договорам, но по их состоянию на первом месяце после выхода в дефолт;
  • фактического среднего LGD по тем же договорам;
  • сравнение среднего LGD default со средневзвешенным LGD non-default по PD и со средним фактическим LGD.

Этот алгоритм можно записать формулой:
Данный метод не предполагает вычисление доверительных интервалов, поэтому решение о прохождении теста выносится экспертно.

Матрица сопряженности


Матрица сопряженности уточняет интегральную оценку (табл.). Алгоритм формирования матрицы:
  • LGD договоров non-default сегмента делится на бины (например, с шагом 5%);
  • далее для этих договоров рассчитывается их LGD на первом месяце в дефолте;
  • рассчитанные числа заносятся в таблицу, которая именуется матрицей сопряженности.

Таблица. Пример матрицы сопряженности по LGD non-default и LGD default

По рассчитанной матрице сопряженности можно судить о разбросе LGD non-default по отношению к LGD, рассчитанному после выхода договора в дефолт. Например, в приведенной таблице видно, что большая часть наблюдений имеет одинаковый LGD по non-default модели и по default модели. Для наглядности, эти ячейки выделены ярким цветом.

Заключение


В заключение, еще раз рассмотрим основные пункты данной статьи.
  • При моделировании LGD сначала важно определиться с алгоритмом расчета LGD и выделить сегмент выборки, на котором будет проводиться моделирование.
  • Далее желательно провалидировать рассчитанное целевое событие, построив распределения LGD по dpd и default age.
  • После этого, в зависимости от доступной информации о договорах и клиентах, собрать предикторы будущей модели LGD.
  • На основе распределений LGD по dpd и default age нужно выбрать подходящий алгоритм для моделирования и построить модель LGD.
  • Нужно проверить качество и стабильность модели, а также адекватность ее оценок риска на non-default сегменте.

При выполнении этих пяти шагов, можно быть уверенным, что полученная модель является оптимальным вариантом, удовлетворяющим высоким требованиям качества моделей риска и будет корректной с точки зрения бизнеса.

Авторы статьи: Александр Бородин (abv_gbc), Иван Аникин (ivanikin)

Список использованных терминов и сокращений


Введем необходимые определения.
  • Дефолт это невыполнение обязательств по договору займа. Обычно, дефолтом считается неоплата по договору в течение 90 дней.
  • Выздоровление процесс выхода из дефолта. Клиент не платил по обязательствам в течение 90 дней, был зафиксирован дефолт, но потом все же клиент внес средства на счет. Обычно выздоровлением считается снижение просрочки по платежам после наступления дефолта до 30 и менее дней. После выздоровления возможны повторные дефолты.
  • PD probability of default вероятность дефолта.
  • EAD exposure at default кредитные обязательства по договору на момент дефолта. По сути, баланс на дату дефолта, где баланс = Тело долга + Просрочка.
  • LGD loss given default доля EAD, которую клиент не возвращает на горизонте восстановления.
  • EL expected loss ожидаемые потери по договору.
  • Default сегмент это набор договоров, которые находятся в состоянии дефолта на дату наблюдения.
  • Non-default сегмент это набор договоров, которые не находятся в состоянии дефолта на дату наблюдения, но на горизонте наблюдения (горизонт PD) уйдут хотя бы один раз в дефолт.
  • Дата наблюдения это дата, на которую собираются атрибуты по состоянию договора, а также относительно которой начинается горизонт сбора целевого события.

Ссылки


[1] ML и DS оттенки кредитного риск-менеджмента
[2] ML и DS оттенки кредитного риск-менеджмента | Компоненты
[3] ML и DS оттенки кредитного риск-менеджмента | EAD или деньги в дефолте
[4] Dahlin F., Storkitt S. Estimation of loss given default for low default portfolios. 2014.
[5] Anderson D. et al. A Practitioners Guide to Generalized Linear Modelsa foundation for theory, interpretation and application. 2007
[6] Creating Interval Target Scorecards with Credit Scoring for SAS Enterprise Miner
Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru