信用卡视角下的回归模型

写在前面:


犬子留学前在跟我交流中提到,他不想学信用卡。我对他说,我并没有指望所谓的“子承父业”,只是我用了很多信用卡业务中的案例给他讲了一些问题。经过几年的学习后,他发现在他的专业课中,越来越多地接触到了与信用卡有关的知识,于是自己主动与我探讨一些信用卡领域的话题,这让我既感到惊讶,又感到高兴。我不是一个强求孩子做什么、学什么的父亲,只是希望他学什么都能找到自己的快乐,并在快乐中寻找自己未来的方向。既然他自己对信用卡产生了浓厚的兴趣,作为从业二十载的我来说,还有什么比这个更值得我欣慰的呢!经过鼓励,他终于开辟了自己的公众号,也第一次以他自己的视角,写出他学习有关知识之后对于信用卡的思考。虽然这篇文章与我研究的方向截然不同,还非常稚嫩,为他开辟专栏,期待信用卡行业中的相关领域的叔叔阿姨、哥哥姐姐们给予指正和辅导。


金属质感分割线


ISLR(3.3)-信用卡视角下的回归模型


在真实世界中,线性回归模型中不只有定量变量,还有定性变量。


1. 信用卡数据集中的潜在客户信息

image.png

预测变量的类别 = 2

假设我们想调查研究【男性和女性客户的信用卡债务差异】,暂时忽略其他变量


如果一个定性预测变量(factor)只有两个类别(levels)

建立一个哑变量(dummy variable)拥有两个可能的取值

基于性别变量(gender)创建一个新变量

image.png


Incorporate this variable as a predictor in the regression equation:


image.png

此时  可以解释为男性的平均信用卡债务, 是女性的平均信用卡债务,因此  即是男性和女性之间信用卡债务的平均差异

image.png


上图列出了「0/1编码」的系数估计值和与模型相关的其他信息,哑变量的高「p-value」表明两性之间的信用卡平均债务差异「并没有」统计学证据


无论使用哪种编码方式,在最后的预测中,男性和女性的信用卡债务数额是不变的

不同的编码方式的唯一区别在于对系数的解释不同

预测变量的类别 > 2

假设我们想调查研究【不同种族背景和信用卡债务的关系】,暂时忽略其他变量


如果一个定性预测变量有多个类别(亚洲人、白人、非裔美国人)

建立一个哑变量不够,需要两个:

image.png


建立多元回归模型:

image.png


 是非裔美国人的信用卡平均债务,因为是没有哑变量的类别,作为「baseline」


「 & 」 被解释为亚洲人和白种人与非裔美国人的平均信用卡债务「差异」

image.png

据估计,尽管亚洲人和白种人分别比非裔美国人的信用卡债务(531美元)少18.69美元和12.50美元:


但是两个哑变量单独的系数估计的p值非常大

「没有」统计学证据证明不同的种族背景有真正的信用卡的债务差异

不同的哑变量的编码会影响变量的系数和p值,但不会改变F值:


用F-test假设检验image.png  得到「p-value=0.96」

无法拒绝债务和族群背景无关的假设


2. 线性模型的扩展

线性回归模型提供了可解释的结果,但同时有很多高度限制性的假设在实践中被违背:


「可加性(additive)」: 的变化对  产生的影响与其它预测变量的取值无关

「线性(linear)」: 无论  取何值,其变化一个单位对应的  的变化是恒定的

通过放宽这两个假设的方法来扩展线性模型


去除可加性假设

营销中的协同(synergy)效应,即统计学中的交互作用(interaction):


在两种媒体上「均分预算」可能比将资金全部投入其中一种媒体更能「增加销售量」

在扩展线性模型中,加入 「交互项 」 来放宽可加性假设:


image.png


 的变化将影响 ,所以  对  的效应不再是常数


假设希望用定量的收入()和定性的学生身份()预测信用卡债务:


「若没有交互项」

image.png



模型为数据拟合了两条平行线,斜率为


在这种情况下,平行线意味着income增加对balance的影响不依赖信用卡持有者是否为学生

这意味着模型可能有严重的局限性,因为事实上「是否是学生的身份」影响着收入的变化「是否」对信用卡债务产生「很大的影响」

「加入交互项」

image.png



两条回归直线有不同的截距和斜率:


学生回归线的斜率低于非学生回归线的斜率

与非学生群体相比,收入增加在学生群体中引起的信用卡债务的增加会更缓慢,数额更少

image.png

非线性关系(当理想遇到现实)

多项式回归直接扩展线性模型,使之能对非线性关系进行拟合

image.png「油耗和马力的非线性关系」

由数据可视化推测油耗和马力是非线性相关的:


使用预测变量的转化值将非线性因素加工进线性模型中

数据点呈现出二次方的曲线形状,尝试二次项(注意:仍是线性!)模型可能会提供更好的拟合(: 0.606 =>0.688):

image.png

尝试马力的三次、四次甚至五次项纳入模型后,发现最后的拟合有不必要的波动

目前还不清楚添加的多项式函数是否真的带来了更好的数据拟合(是否会导致过拟合?)

3. 参考:

Introduction to Statistical Learning (ISL)

《老董聊卡》

TOGO: 信用卡额度和信用评级的高度共线性问题


- 正文结束 -
首页 信用卡 用卡攻略 信用卡视角下的回归模型

上一篇:

下一篇:

为您推荐

微信号:

点击复制