写在前面:
犬子留学前在跟我交流中提到,他不想学信用卡。我对他说,我并没有指望所谓的“子承父业”,只是我用了很多信用卡业务中的案例给他讲了一些问题。经过几年的学习后,他发现在他的专业课中,越来越多地接触到了与信用卡有关的知识,于是自己主动与我探讨一些信用卡领域的话题,这让我既感到惊讶,又感到高兴。我不是一个强求孩子做什么、学什么的父亲,只是希望他学什么都能找到自己的快乐,并在快乐中寻找自己未来的方向。既然他自己对信用卡产生了浓厚的兴趣,作为从业二十载的我来说,还有什么比这个更值得我欣慰的呢!经过鼓励,他终于开辟了自己的公众号,也第一次以他自己的视角,写出他学习有关知识之后对于信用卡的思考。虽然这篇文章与我研究的方向截然不同,还非常稚嫩,为他开辟专栏,期待信用卡行业中的相关领域的叔叔阿姨、哥哥姐姐们给予指正和辅导。
金属质感分割线
ISLR(3.3)-信用卡视角下的回归模型
在真实世界中,线性回归模型中不只有定量变量,还有定性变量。
1. 信用卡数据集中的潜在客户信息
预测变量的类别 = 2
假设我们想调查研究【男性和女性客户的信用卡债务差异】,暂时忽略其他变量
如果一个定性预测变量(factor)只有两个类别(levels)
建立一个哑变量(dummy variable)拥有两个可能的取值
基于性别变量(gender)创建一个新变量
Incorporate this variable as a predictor in the regression equation:
此时 可以解释为男性的平均信用卡债务, 是女性的平均信用卡债务,因此 即是男性和女性之间信用卡债务的平均差异
上图列出了「0/1编码」的系数估计值和与模型相关的其他信息,哑变量的高「p-value」表明两性之间的信用卡平均债务差异「并没有」统计学证据
无论使用哪种编码方式,在最后的预测中,男性和女性的信用卡债务数额是不变的
不同的编码方式的唯一区别在于对系数的解释不同
预测变量的类别 > 2
假设我们想调查研究【不同种族背景和信用卡债务的关系】,暂时忽略其他变量
如果一个定性预测变量有多个类别(亚洲人、白人、非裔美国人)
建立一个哑变量不够,需要两个:
建立多元回归模型:
是非裔美国人的信用卡平均债务,因为是没有哑变量的类别,作为「baseline」
「 & 」 被解释为亚洲人和白种人与非裔美国人的平均信用卡债务「差异」
据估计,尽管亚洲人和白种人分别比非裔美国人的信用卡债务(531美元)少18.69美元和12.50美元:
但是两个哑变量单独的系数估计的p值非常大
「没有」统计学证据证明不同的种族背景有真正的信用卡的债务差异
不同的哑变量的编码会影响变量的系数和p值,但不会改变F值:
用F-test假设检验 得到「p-value=0.96」
无法拒绝债务和族群背景无关的假设
2. 线性模型的扩展
线性回归模型提供了可解释的结果,但同时有很多高度限制性的假设在实践中被违背:
「可加性(additive)」: 的变化对 产生的影响与其它预测变量的取值无关
「线性(linear)」: 无论 取何值,其变化一个单位对应的 的变化是恒定的
通过放宽这两个假设的方法来扩展线性模型
去除可加性假设
营销中的协同(synergy)效应,即统计学中的交互作用(interaction):
在两种媒体上「均分预算」可能比将资金全部投入其中一种媒体更能「增加销售量」
在扩展线性模型中,加入 「交互项 」 来放宽可加性假设:
的变化将影响 ,所以 对 的效应不再是常数
假设希望用定量的收入()和定性的学生身份()预测信用卡债务:
「若没有交互项」
模型为数据拟合了两条平行线,斜率为
在这种情况下,平行线意味着income增加对balance的影响不依赖信用卡持有者是否为学生
这意味着模型可能有严重的局限性,因为事实上「是否是学生的身份」影响着收入的变化「是否」对信用卡债务产生「很大的影响」
「加入交互项」
两条回归直线有不同的截距和斜率:
学生回归线的斜率低于非学生回归线的斜率
与非学生群体相比,收入增加在学生群体中引起的信用卡债务的增加会更缓慢,数额更少
非线性关系(当理想遇到现实)
多项式回归直接扩展线性模型,使之能对非线性关系进行拟合
「油耗和马力的非线性关系」
由数据可视化推测油耗和马力是非线性相关的:
使用预测变量的转化值将非线性因素加工进线性模型中
数据点呈现出二次方的曲线形状,尝试二次项(注意:仍是线性!)模型可能会提供更好的拟合(: 0.606 =>0.688):
尝试马力的三次、四次甚至五次项纳入模型后,发现最后的拟合有不必要的波动
目前还不清楚添加的多项式函数是否真的带来了更好的数据拟合(是否会导致过拟合?)
3. 参考:
Introduction to Statistical Learning (ISL)
《老董聊卡》
TOGO: 信用卡额度和信用评级的高度共线性问题