信用卡违约数据的错误率
将LDA(Linear Discriminant Analysis) 模型运用在信用卡客户违约记录数据集,根据一个人的信用卡余额和学生身份预测其「是否违约」
LDA对于10000个训练样本进行拟合,得到混淆矩阵矩阵 (Confusion Matrix):
LDA的预测总错误率很低,
然而,「信用卡公司的目标」是想辨别出高违约风险人群
对于真实违约的333个人,LDA的预测错误率高达 !
需要「改进LDA」使其更好满足信用卡公司的需求
改进: 降低信用卡违约判定阈值
贝叶斯分类器的原理是将一个数据点, , 归到后验概率 最大的类别 中, 在判断一名用户违约(default=Yes)或者不违约(default=No)的时候, 我们通常将计算结果:
的客户 归为违约,
我们希望降低把违约者归为不违约的错误概率, 可以通过降低阈值0.5到0.2:
如此,信用卡公司可以「更精准地判定真实的违约者」从而「降低损失」
将违约者归为未违约者的错误率从
但也因此把许多未违约者归为违约者
「利大于弊」:得病未发现比没病误诊的危害更大,因为后者在继续诊断后可以纠正,而前者可能因此错过最佳医治时间,所以要降低前者的错误率!
权衡 Trade-off
我们可以通过降低阈值, 使得违约者被错误分类的比例平稳减少, 「代价便是」未违约者的分类错误率逐渐增加, 如何权衡?
领域知识(Domain Knowledge):
如违约成本的具体信息
模型评估
ROC曲线是一种选择最优模型和同一模型的最优阈值的工具, ROC 可以同时展示出所有可能阈值出现的两类比例:
「真阳性率(True Positive Rate)」: 也称为灵敏度(Sensitivity),即给定阈值下, 违约者被正确判别为违约者的比例
「假阳性率(False Positive Rate)」: 也被称为1-特异度(Specificity), 同样阈值下, 未违约者被错误判别为违约者的比例
AUC是ROC曲线下面的面积, 表示分类器的性能表现,AUC越大, 分类器效果越好
理想的ROC曲线会紧贴左上角, 即高的真阳性率, 低的假阳性率
分类和诊断测试的评价指标
用流行病学的表述方式
“”:“疾病”, 需要被检测的数据
"" : "无病"
FP/N: 未违约者被错误分类的比例
TP/P: 违约者被正确分类的比例
TP/P*:违约者占模型总预测违约者比例
Precision: 模型精确度
TN/N*:未违约者占模型总预测未违约者比例
债务问题免费咨询,老师微信:xyk840(点击复制微信号)
回复“债务逾期”
精彩评论
因为给爸爸治病欠下各种贷款、银行四十多万,家里还有一个没有断奶的孩子。现在妹妹已经请假照顾爸爸了。我该怎么办。。。我真的好痛苦
1小时前 赞 834
银河里的鱼: 我已经上岸一个月了,负债已经折磨了我两年。每天都是各种催收和起诉电话,搞的头都大了。一个月前加了这上面的一个老师,老师给我分析了我的债务问题,还帮我做了债务规划。问题就这么解决了,只需要每月还很少很少的一部分。催收和起诉电话也没,都很难相信会这么简单。
抹茶姑娘: 让别人帮忙债务规划真的有用嘛?你说的这个老师的微信号是多少?
银河里的鱼: 我觉得挺特别的,他帮我解决了我两年的债务问题。我加的那个老师的微信是:xyk840(点击复制微信号)
抹茶姑娘: 真的很感谢,我已经加了老师的微信,老师挺有耐心的,正在帮我分析我的债务问题。
银河里的鱼: 不客气,祝你早日上岸
我欠不到10万 就感觉对前路已经很渺茫了,天天还有人提着我,现在的我就像一拳被打进了墙里,不是出不来,是不想出来了。
一天前 赞 7
我法院的律师函到收到了,刚好咨询了老师给了我一个方案,庭前达成个5年的分期还款协议,感谢老师,大家只要有希望,就不放弃!
一天前 赞 501
不想要的都扔掉: 恭喜你如愿啊,希望我也如愿,刚刚被催,在考虑要不要咨询一下
土星国: 你好 我现在也是这种情况,准备说要去法院起诉我,压力很大 能不能把联系方式给我
往事随风去: 可以的呀,老师的微信号:xyk840(点击复制微信号)