风控的本质是解决信息不对称引发的欺诈风险、以及逆向选择风险或者违约风险等问题。风控目的不是风险的最小化,而是进行风险运营让风险成本与收益达到平衡点,同时预测未来风险发生的可能性,通过策略的调整让风险在可控范围内,使得业务长期可持续发展。风控体系则是把这些问题转换为数据问题,依靠客观数据来量化借款人的还款能力和还款意愿,避免欺诈行为,通过计量机器学习模型预测客户违约风险概率从而度量违约风险。根据违约风险等级进行个性化额度授信来控制违约风险敞口,结合违约损失率对产品进行风险定价来补偿风险损失,以此量化风险对收益造成的损失。在违约风险、欺诈风险、市场风险等风险场景中采用相应的风控指标,衡量所面临的风险程度,在风险暴露早期及时识别风险。比如逾期率指标量化资产质量状况,迁移率量化资产未来坏账的发展趋势,不良贷款率和资本充足率指标量化资本覆盖风险的程度。这些风控指标的统计贯穿于整个借贷用户生命周期如审批、授信和催收等业务环节,大部分会呈现正负相关性,当指标值波动超过正常范围,可以快速还原业务逻辑,定位问题原因和找出对应解决方案进行风控策略迭代。
渠道作为获客重要方式,好的渠道可以快速引入大量优质目标客户,不仅可以间接降低运营的获客成本,而且优质客户相关数据作为后期入模型的数据,可以使得模型的预测更准确。非目标客群数据,常常包含很多干扰信息使得模型预测准确性降低。
在此阶段审批策略人员通过每天的监控报表,了解进件量、审批量和通过率从而追踪各个渠道各个产品进件质量和趋势,并不断调整相应的营销策略。进件量波动较大时,及时与业务沟通,寻找波动原因是否因为节假日等时间周期变化,是否有营销活动,渠道是否出现问题等。
还有一个重要的报表:拒绝原因分布。当通过率变动情况超出正常范围时首先查看此报表,通过与历史数据对比找出导致变动的主要拒绝原因,通过规则引擎的配置找出这个拒绝原因细分下产生影响的具体规则。此时应该与策略同事沟通,分析是否与策略调整有关。
信用风险指标主要用于统计产品的风险定价,把用户违约率与信贷产品的收益挂钩,在风险缓释环节起到补偿风险损失的作用。
逾期天数的统计口径通常有两种方式,按照曾经逾期为基准的逾期率能保证vintage曲线单调不减,以当前逾期为基准的vintage曲线并非单调上升,而可能下降。各个公司会根据自身的业务场景采用不用的统计口径,反之当我们查看vintage曲线有不同表现形式时应该知道是因为逾期天数的统计口径造成的。 逾期天数的统计基于历史还款纪录表,其详细记录了每个借贷个体每个还款周期内详细还款信息如应还款日,实际还款日。在统计曾经逾期时会回溯查看历史某个时期的逾期状况,此时就引入一个概念观察日,其作用就像让时光倒流回过去某个时间点,资产质量相关所有统计都是围绕这个时间点而非当期日期。具体步骤如下:
逾期率可以统计金额的逾期率和人数的逾期率,因为他们都在某种程度上反应了资产质量状况,所以常常进行对比分析。如果金额逾期率大于人数逾期率时,说明额度授信高的客户逾期率大于额度授信低的客户,则需调整授信额度策略。反之说明额度策略符合业务要求。除此之外,不同业务场景中预期率的统计口径也不太一致,大致为以下两种:
对于业务发展处于平稳阶段,对比时点的逾期率两个指标值差异不大。在业务快速扩展期间,贷款余额快速增大,相应的分子逾期金额因为逾期风险滞后的问题尚未发生较大变化,即期指标的值比较低会低估风险。在业务收紧期和衰退期,贷款余额不会有太大的增加,因为前几期放贷的逾期风险逐渐显现作为分子的逾期金额则延续之前的增长趋势,导致即期指标高估风险。而递延指标因为有可以回溯逾期起源的特征,不受业务起伏影响很大,能合理地反映逾期状态,所以如果需要了解某个时点的逾期率时用递延指标避免时长的影响。
这个一个是否存在欺诈行为的指标,这个指标值高说明存在恶意欺诈情况,需要提醒策略同事及时调整策略。在真实的业务场景中,用户还款日超过信用卡应还款日期1、泛亚电竞官方2天或者从借记卡绑定账户进行自动扣款时因为余额不足产生了部分逾期且逾期金额较小。这些场景的逾期都不是因为用户有恶意不还款的意愿而导致的,通常业务上会进行豁免处理,所以衍生出各种逾期指标更合理的对首期逾期进行界定。常见的衍生指标: 1. 解决对首逾客户行为定义不准的问题,衍生出首逾7天、首逾15天、首逾30天等一系列指标。 2. 解决对首逾客户金额定义不准的问题,衍生出借据金额过小 3. 解决中介代还前几期的问题,衍生出首期逾期、第二期逾期、第三期逾期等一系列指标。
模型的稳定性其实判断的是信用分数分布的稳定性,不稳定性对资产质量产生较大的影响。具体表现为风险层级样本数据的变化,使得所对应的违约率,通过率等产生变化,基于此确定的cut-off值和准入策略,以及后续的客群额度授信策略和风险定价都会产生联动的影响。所以在渠道引入客户数据时,多个数据源数据通常进行整合后统一建模,这样可以增加模型的稳定性。模型稳定性不仅仅受到拟合度的影响,还根据不同时期业务背景会产生变化,在建模前基于时间序列基础上分析各个特征的稳定性,特征各个分箱数据分布是否有较大差异。对不稳定的特征分析具体原因或者直接放弃。这些方式可以在建模前尽可能的减小不稳定性。在模型上线一周或一个月内也会对稳定性进行分析,每个月或每周都要了解稳定性趋势,及时了解客群分布的变化趋势。怎么判断在不同时间窗口内开发样本与上线样本数据分布是否稳定,其公式如下:
当PSI值小于0.1时,非常稳定。在0.1与0.25时,结合模型其他指标如有效性等判断。当PSI大于0.25时则认为分数分布变化大即稳定性不好。此时因为存在信用风险滞后的问题,应及时对额度授信策略和风险定价进行调整。PSI值只能判断分数分布参数变化,但是不知道是偏高还是偏低。同时深入分析具体原因,样本不稳定性并不说明所有特征都呈现不稳定状况,分析是哪些特征的分布差异导致样本的不稳定性,具体查看背后原因。
特征的稳定性分析方法: - 按照基于开发样本的特征分箱,计算出各个分箱的样本数量与总样本数量占比 - 按照开发样本的分箱阀值,对实际业务数据进行分箱,并计算出各个分箱的样本与总样本数量占比
特征的差异性越大,表示越不稳定。可以具体定位到是某个分箱分析,是样本比例差异太大或者分箱对应的分数太高在样本量差异微小变动时特征发生较大的不稳定性,判断是否需要重新分箱对评分进行校准即可,或者直接剔除重新构建模型。
通常以好坏客户最大区分度KS值来判断模型的有效性。KS值越大说明模型区分好坏客户的程度越大,这样可以拒绝部分低分客户,对准入客户进行差异化定价抵抗违约风险。泛亚电竞官方在实际的计算过程中,把预测为正的概率值从大到小排列后,进行等频分箱统计每一箱的正负样本与总样本的累积占比,正负样本累积占比差值为KS值。KS值越大说明模型预测能力越准确,大于0.2表示模型有比较好的预测准确性了。同时KS值越接近于前面的分箱,通常会带来更大的收益。申请评分注重申请者相对排序的正确性即区分好坏客户的程度,因为借贷机构确定放款的是相对合格的比例人数,而不是绝对合格的人数。最终影响银行接受多少比例的申请者,是权衡期望利润,期望损失和市场占用份额等因素。
把预测评分值从小到大升序排列后,进行等频分箱统计每一箱的正负样本数与总样本中正负样本数各自的比例。因常常描述其为每个分箱内捕获到为负的样本占总体负样本的概率,被称为捕获率。如果在低分客群中负样本捕获率占比高,之后快速下降,表明在低分客群已经捕获尽可能多的负样本,这些负样本可以完全拒绝并非部分拒绝,降低违约风险。
所谓账龄就是贷款发放的月份,账龄分析则是指随着贷款账龄的变化,进而分析资产质量和影响因素等。在用户企业进行资产投资时,对信贷资产的质量调查一般都会以Vintage表格提供。账龄分析结果以如下方式展示:
账龄分析表格,横轴表示账龄,纵轴表示不同的放款月份。横向比较分析可以看出放款在当月、下个月、下下个月等的逾期率变化情况。一般以逾期率来定义资产质量,也就是观察资产质量的变化趋势。纵向比较分析可以看出不同时期放款的资产质量,在风控策略调整后,同阶段的逾期率是否有明显差异以及是否有符合预期的相应降低。常常应用的业务场景为评估不同时期获客的客群质量的好坏,或者进行一些营销活动后进行同期比较是否获取了更优质的客户。
以折线图可视化账龄分析表格,每一条曲线表示一个放款月份的资产,可以观察到MOB为9时逾期率达到稳定即为账户成熟期。这是一个非常重要的信息,通常称作为表现期。如果表现期越长,风险会随着时间逐渐暴露的越彻底,但意味着观察期离当前越远,用以提取样本特征的历史数据将越陈旧,建模样本和未来样本的差异也越大。反之,表现期越短,风险还未暴露完全,但好处是能用到更近的样本。账龄分析是利用历史数据进行分析客观合理的确定表现期月份,判断客户展现好坏所需时间长度。同时还可以从折线图中观察是否有欺诈风险,如果前几期MOB出现逾期情况且有上升趋势,则说明欺诈风险可能较高,需要优化欺诈策略。如果后期风险不断上升,则违约风险发生概率较高,则相应考虑是否是模型的预测效果不佳,可层次递进分析是哪些变量的IV值变小,是否可以进行变量衍生和组合等方式对模型进行优化。
根据账龄分析得到客户信贷表现的表现期,在这之前还需对因变量所对应的自变量进行确定。自变量是通过观察期内客户的基本信息和活动情况来构造。对于申请评分卡,自变量是客户申请时基本信息,属于一个时点数据。观察期的长度影响样本数量,观察期越长样本足够多模型越稳健,反之样本数量可能不够,业务的不稳定性导致样本数据缺乏代表性。所以在有足够多具有代表性的样本的情况下,观察期越短越好,一般为半年左右。泛亚电竞官方同时因变量紧跟着客户申请时点,观察期和表现期可叠加。对于行为评分卡,样本必须满足在观察期和表现期都存活的条件。太长的观察期对客户未来的表现预测能力有限,一般为一年左右。
迁移率分析法(Flow Rate)也叫做净流量滚动比例法(Net Flow Rate), 形象展示客户贷款账户在整个生命周期中的变化轨迹, 其核心假设为:处于某一逾期状态(如M2)的账户,一个月后,要么从良为M0账户要么恶化为更坏的下一个逾期状态(如M3)。所以迁移率的公式 = 前一期逾期金额到下一期逾期金额的转化率。迁移率直接反映催收情况,各个放款月份逾期金额经过催理后,任未缴款而落入下个月份的概率。根据资产处于不同逾期阶段,采取相应处理催收措施,优化催收人员分配,减少损失。同时迁移率的变化趋势可以观察到坏账的发展倾向。
计算各逾期状态之间的迁移率,如M0-M1、M2-M3等。右图中黄色斜线的迁移率才是最准确的,与其平行斜线的迁移率的计算因为存在回冲的情况最后统计结果值不准确。比如M4期的账户回冲一期后成为M3,M2的账户再次逾期成为M3, 则M3包含的逾期金额就有两种情况。
计算不同月份(也可称为Vintage)的平均迁移率。目的是对本平台在不同时期的资产的迁移率有整体的认知。
毛坏账损失率:正常M0资产对应的毛坏账损失率:毛坏账损失率 =(M0-M1) * (M1-M2) * (M2 - M3)
净坏账损失率:= 毛坏账损失率 - 不良资产外卖回收率,由于M7不良资产的平均回收率为 10.79%。净坏账损失率=0.6% * (1-10.79%) = 0.54%
以上关键性指标会按照日、月、季度和年度等周期形成报表作为重点分析对象,一旦业务发生异常,通过报表关联分析就可以直接掌握,进行例行分析。在风控体系中,当逾期率偏高、通过率下降、预测的坏账比率超过预期和资产质量朝坏的方向变化太快时就要进行专题分析。逾期率是判断资产质量举足轻重的指标,转呆账率、净损失率随着违约率的上升跟着上升,后期催收管理成本也会相应提高,所以常常结合行业同类产品中心违约趋势和业务的风险年化损失偏好等因素确定违约率可接受的上限。但是逾期的发生需要暴露时间所以有风险滞后的问题。逾期率与通过率是相互权衡的,审批阶段转而对通过率进行监控,可以达到尽早识别风险的目的。
当新业务发展初期,客群的重要性是要优于其他因素的,如果客群数量足够即使逾期率高,只要运用合理的风险运营策略,就可以使业务逐步发展。当通过率很低的情况,可以进行策略调优,在逾期率可接受范围内增加通过率,即在被拒绝客群中试图找出优质客户,增加业务收益。具体过程是在拒绝客群中豁免部分客户,对其授予一定额度并观察其在随后的还款表现。如果符合预期获取收益则可考虑豁免更多相同属性的客户,否则可尝试豁免其他规则的客户。因此确定什么样的规则来豁免客户,显得尤为重要。怎样才能获得足够多可观察的样本数量且属性相似,使得整个策略迭代更准确。这个时候考虑与通过率对应的拒绝率入手,通过拒绝原因分布报表逐步层层细化查看拒绝率指标波动差最大所对应的具体规则和相应的阀值。此时有两种选择,调整规则或者阀值。相对于调整规则,改变阀值不管是风险程度和复杂程度都更容易实现。把阀值等额划分为相同的间隔,对各个间隔内的逾期率进行算术平均取得平均逾期率,来预测未来逾期率的变化趋势。这样通过可接受范围内的逾期率,取得阀值可调节的范围,进而得到可以豁免的那部分客群。抽取可达到观察需求的客户数进行策略迭代,如果收益可以覆盖风险,则可以放开这批客户。但是很多业务场景是阀值不可更改的,比如拒绝率波动差最大的是年龄分段在18-25岁之间,此时可以追溯到源头,查看具体哪个渠道在此规则的拒绝波动差最大,通过与前端业务人员沟通放松部分客户的准入,以此达到策略调整的目的。
除以上情况之外,常常遇到的业务场景是逾期率波动超出警戒线,意味着风险损失的提高。一般使用维度拆解法对逾期率指标拆分为不同产品、地区、渠道和新/老客群的逾期率。老客群的逾期率表明在之前借贷业务的贷中环节未能识别风险,导致复借产生逾期。新客群则表明审批阶段准入规则宽松导致,可以在准入客群中找出非目标客户,拒绝该类客户降低通过率使得逾期率降低。应该在什么样的客群找出导致逾期率增高的非目标客户,换一个角度考虑是不是申请评分模型预测的有效性不高,导致审批阶段准入了大量非目标客户。所以对显著性高或者IV值高的特征,找出与目标变量相关性最大的类别,对相对应的客群收紧准入规则。如果影响因素不止一个或者显著性区分不大,则考虑对几个特征构建决策树模型实现分段组合功能,输出结果组合中基尼系数最小表明对目标变量进行了最有效区分,因此可以转换为规则配置到决策引擎即可拒绝掉部分客户。
在以上风险指标的基础上进行组合形成风控报表。通过汇合各个业务流程数据,进行分析整理后按照产品、授信、账户维护和催收与转呆账四个维度产生相应报表,使得管理者及时完整掌握风控信息,提升风险管理效率。
结构分析:各个产品的业务比重,包括放款金额,余额,户数及相应占比。判断是否依预定计划方向发展。
产品质量总览:各个产品的进件率,核准率、M2逾期率、M4逾期率、转呆账年化率、净损年化率等反映核准状况、贷后质量的指标,考虑未来业务发展和授信策略。
- 期数与利率逾期对照表:按照逾期期数和不同利率所对应的逾期率,考虑后续定价策略的调整。
逾期趋势与产品累积违约趋势:各个产品的不同期数和不同放款月份的逾期率与违约概率,反映产品质量状况
进件占率与核拔占率追踪:各个产品进件/核拔的占比。前者与逾期趋势报表结合作为资产结构调整的参考。后者可以预测未来各个产品占整体资产的比率。
风险总览:从不同放贷月份的授信余额、户数、当月转呆账金额、回收金额、净损失金额、M2和M4预期金额了解整体风险管理成效。
风险等级结构:不同放贷月份的资产在不同风险等级的占比,从而了解风险等级分布及变化趋势,可做为逾期前期的观测值。
产品累计转呆账统计:各个产品其不同放款期数的累计转呆账金额和累计转呆账率,反映各产品转呆账速度。
账龄分析:不同放款月份的资产在不同逾期期数的金额,户数,延滞率和递延率,借以判断催收绩效。
递延率分析:不同放款月份的不同逾期期数的递延率,反映各阶段的催收成效。
损失统计:反映不同放款月份的转呆账金额、回收金额、净损失金额、年化转呆账率和年化净损失率,监控其变化趋势是否上升。
呆账汇总统计:不同放款月份的资产当月/当年/累计WO金额、户数、回收金额、净损失金额及比率,了解历史与当前的变化趋势。
回收金额统计:不同放款月份的资产在不同逾期期数的回收金额,回收率,催收人力,反映每人回收金额,观测变化趋势,考虑是否增加人力成本。
互联网金融时代消费信贷评分建模与应用等本文参考网上多位牛人文章,仅供自我学习。