年后很多人都开始看一些新的机会,这份面试是去年我一次面试的时候遇到的一份题目,觉得无论是业务还是技术,题量还是质量都比较好,当时答了整整2个小时,和考试一样,贼刺激。后来向面试官要了这份题目,回来认真整理了一下,关于面试相关的文章,之前也整理过一篇楼小轰的《信贷风控模型岗的一些面试经验》,希望能对大家有一些帮助。
上图为逾期滚动率表,观察点为2018年6月30日,我们取10,000个客户作为研究对象,统计该10,000个客户从观察期到表现期的最大逾期状态的变化情况。请问:
逾期状态为M0的客户,在未来6个月里,有96%会继续保持正常状态,4%会恶化为M1和M2;
逾期状态为M1的客户,未来有81%会回到正常状态,即回收率为81%,有7%会恶化,13%会保持M1状态;
第一步,历史逾期状态为M4+的客户几乎不会回收。因此坏用户定义为逾期状态为M4+(逾期超过90天)
第二步,以M4+作为资产质量指标,统计Vintage数据表,绘制Vintage曲线。目的是分析账户成熟期。
一、各阶段的平均月度迁徙率以及M0-M4综合迁徙率,可以对比各月份之间迁徙率的变化来分析资产的变化趋势。
二、可以分析出不良资产的恶化迁移路径。如1月末的资产为1007844元,最终有8559元逾期到M6+,Vintage口径下的不良率为0.85%。
坏账拨备率等于当月应计拨备额 / 总资产金额,而当月应计拨备额 = SUM(净坏账损失率 * 月末应收账款余额)。因此需要先计算各逾期阶段的净坏账损失率以及余额。
8.最近模型团队新开发违约模型,为了验证新模型效果,将人群随机分配进行AB测试,实验组A使用新模型,对照组B使用旧模型。观察了一段时间的结果后,得到如下观测结果:实验组A样本量10000人,逾期量300人;对照组B样本量10000人,逾期量400人。请从假设检验的统计学方法说明在降低逾期率上新模型效果是否优于旧模型?
设定α=0.05,P值小于α。说明落入拒绝域,即有充分的理由拒绝原假设,接受备择假设。所以新模型效果优于旧模型。
关于两个总体之间假设检验内容可以参考贾俊平《统计学》第八章假设检验,或者参看知乎文章4924899。以下为本人以前的一些笔记:
信用风险表现为逾期天数较短且通过催收可以回收,而欺诈风险则表现为首期开始则逾期,且催收多为失联,资产无法回收,最终变为坏账。
常见的反欺诈策略,主要通过交叉检验和集中申请来识别。可以从集中性,异常性,稳定性,结合各个维度(设备,位置,行为等)构造各类反欺诈策略。
异常性:异常性指的是该客户和正常客户的区分性。例如设备是伪造过的设备,ip为代理ip,gps是伪造的地址位置,客户在一分钟之内操作完所有流程。
稳定性:稳定性指的是客户与自身经常发生的行为对比。例如客户本次申请贷款的位置在广东,但是客户之前从来没有买东西到广东。
线下防范渠道欺诈,线.在引入外部数据源的时候,有哪些关键点需要考虑,为什么?
1、首先需要了解外部数据源的产品特征、泛亚电竞平台类型,一般数据源类型分为决策类和排序类。决策类有黑名单类(多头、逾期、黑产、失信、罪犯等),验证类(学历、社保公积金、运营商实名与在网时长、地址信息、收入信息等),刻画类(关注类、消费画像、第三方规则),排序类有评分类(芝麻信用分、芝麻欺诈分等)泛亚电竞平台。根据不同的目的引入合适的数据源。
2、提供线下测试样本。测试样本需要有适当的好坏比例,泛亚电竞平台加入真实定性的客户数据去验真,如果需要回溯测试的话则需要回溯到申请日期。
黑名单类一般用在反欺诈环节,所以主要考虑到查得率和覆盖率,即命中的用户逾期概率比较高。
对于评分类外部数据,如果评分的排序性好且IV比较高,则考虑入模,如果评分有明显的尾部极端优势,那适合做策略,用来拦截掉极端的坏用户。
4、数据源产品定价以及成本考虑。包年还是按查询条数收费,或者是搭配主要产品附赠免费查询。
11.由于疫情原因,公司逾期率出现明显上升,请结合你的工作经验谈谈如何调整风控策略和模型降低逾期水平。
在策略层面,可以适当做一些准入策略收紧,根据疫情影响范围也可做一些差异化策略调整,另外也可增加一些风险提示给到审批;在审批层面,适当调整审批策略以适当降低审批通过率;在机构层面,我们要对机构进件情况做精细化监控,并根据监控指标异常情况做差异化管理,这个是用来预防因疫情导致的冲击过大导致前端不可控。
2.分城市标签、城市类别标签行业标签, 分客户类型标签(私营业主,个体户,授薪)、主要收入来源标签(工资发放,兼职收入,其他等等)了解受疫情影响最严重的业务特征变量;
3.看下已经在使用的三方信息(近期消费记录与以往消费记录对比,近期多头记录,近期还款情况,近期位置变化情况,近期偿债压力指数),间接了解什么类型客户财务状况不稳定;
4.业务特征变量和三方信息结合综合评估客户近期资金情况和未来职业稳定性。
剔除:可以剔除单个特征或者单个样本。一般对缺失率较高的样本或者特征进行剔除操作。
填补:类别型变量可以将缺失值单独填充为一箱,数值型变量可使用中位数、众数、均值以及决策树、随机森林方法进行填补。
2.缺失率在5%--15%的变量用随机森林填充,可先对缺失率较低的变量先用中位数填充,在用没有缺失的样本来对变量作随机森林填充
1. 分箱后的特征对异常数据有更强的鲁棒性。比如年龄中有一个异常值为300,分箱之后就可能划到80这一箱中,而如果直接入模的话会对模型造成很大干扰。
2. 特征离散化之后,每个变量有单独的权重,可以为逻辑回归模型引入了非线性,能够提升模型表达能力,加大拟合。
3. 特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。
C表示正则化强度的倒数,较小的值指定更强的正则化。C越大,λ越小,对正则项的惩罚力度越小,参数选择的空间会变大。
16.上右图中为什么说AUC越大,模型的区分度越高。如模型上线没多久发现模型的区分度快速下降,可能的原因是什么,如何避免这类情况发生?
AUC越大,模型的区分度越高,可以从AUC以及ROC曲线的原理出发进行解释。这里提供另外一种与KS相关的思路:因为KS=TPR-FPR,所以TPR=FPR+KS。而ROC曲线的横纵坐标为TPR、TPR,泛亚电竞平台因此KS值可以理解为斜率为1的直线与ROC曲线切线与Y轴截距的最大值。
1.线上模型的特征和线.特征的稳定性出现问题。需要分析每个特征的PSI值,必要时进行模型重构。
3.模型样本和进件样本分布不一致导致的模型误差。需要进行拒绝推断模拟进件样本的真实分布。
PSI全称群体稳定性指标,反映了验证样本在各分数段的分布与建模样本分布的稳定性。在建模中常用来筛选特征变量、评估模型稳定性。时间推移、政策监管、市场波动等都会影响PSI。,实际评估需要分时间粒度(按月、按样本集)、订单层次(放贷层、申请层)、人群(分群建模)。
实践中,我们一般会先观察PSI,如果PSI显示模型分数不稳定,那么此时再去观察CSI,从特征级分析原因。因此,PSI偏于宏观,CSI偏于微观。PSI指标不稳定时的因素主要包括:
1.申贷客群变化:获客渠道一般决定了客群质量,我们只是从客群的有限特征维度来大致判断是否变化,但这只是有偏判断,因为无法完全获知用户画像。当然,在获客阶段也会做前置风控,预先筛选流量,以及保证客群的稳定。
2.数据源不稳定:先从CSI指标观察入模特征的分数漂移,对于影响较大和偏移较大的变量予以重点关注。再从数据源上确认采集是否可靠,比如数据服务商是否正常提供、接口是否正常工作、网关数据传输过程是否正常等。
3.特征逻辑有误:在模型上线时,特征逻辑可能没有确认清楚,导致上线后出现意想不到的问题。因此,需要将入模特征的逻辑再次予以Review。
4.其他相关原因:模型监控报表是否正确计算?线产出的数据是否正常调度?特征缺失值处理逻辑?
模型的误差来源于偏差和方差两方面。偏差是指数据偏离平均值的差,方差是指数据偏离期望值的差,衡量数据波动程度。偏差和方差是解释学习算法泛化性能的一种重要工具。
方差是指是不同的训练数据集训练出的模型输出值之间的差异。对应于集成学习中的bagging算法,通过取各分类器的平均来降低模型的方差。