炼数成金 门户 量化投资 金融风控 查看内容

python评分卡建模—实现WOE编码及IV值计算

2018-4-9 11:13| 发布者: 炼数成金_小数| 查看: 32219| 评论: 0|来自: 大数据风控联盟

摘要: 下面用UCI信用卡逾期数据集介绍一下以上代码的用法。数据集有20多个变量,其中响应变量是 'default payment next month',为了方便,将其改名为 'y'。这里的年龄是连续型变量,首先需要进行分箱。方法有很多种,这里 ...

算法 金融 金融市场 量化投资 编码

代码

实例
下面用UCI信用卡逾期数据集介绍一下以上代码的用法。

数据集如下:


数据集有20多个变量,其中响应变量是 'default payment next month',为了方便,将其改名为 'y'。


现在小编想要对年龄(AGE)变量做WOE编码。

这里的年龄是连续型变量,首先需要进行分箱。方法有很多种,这里我们可以用上一篇文章中介绍的卡方分箱算法对AGE进行分箱。

有了切分点,对AGE变量切分,得到分组值:


然后计算各组的WOE值:

也可以计算IV值。

IV值0.023,看样子还是比较弱的变量。还是可以用的,所以需要转成WOE。


需要说明的是对于类别型的变量,可以直接算woe编码,也可以合并类别后再编码。

本文的代码没有做多少封装,主要是便于各位同学理解。当然,也有许多值得探讨的问题,如除以0的情况怎么处理,本文不打算深入探究,感兴趣的同学可以自己学习研究。

欢迎加入本站公开兴趣群
量化投资群
兴趣范围包括:量化投资,算法交易,金融建模,统计套利等等
QQ群 697033743
如果大家不明白什么是量化投资,在百度谷歌搜索一下“西蒙斯”就知道了,最近这哥们火极了!这套东西在国外的金融机构已经大量使用,随着中国金融市场规模日益扩大和趋于成熟,这套玩法最终肯定也能在国内转起来,我们一起学习切磋,寻求项目机会做一下,提升自己在这方面的技能,将来一起发财

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

     

    GMT+8, 2018-10-24 00:07 , Processed in 0.160011 second(s), 24 queries .