Skip to content

itlubber/optimal_binning_methods

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

几种常规的分箱方法

方法 说明
无监督分箱 等宽分箱 将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。即每个箱的区间范围是一个常量,称为箱子宽度。
等频分箱 把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱。比如说 N=10 ,每个区间应该包含大约10%的实例。
自定义分箱 用户可以根据需要自定义区间
聚类分箱
有监督分箱 Best-KS分箱 基于变量ks指标最优的划分方法
卡方分箱 有效的特征,不同箱体之间应该具有不同的类分布。卡方分箱就是自底向上,合并类分布相似的相邻箱体,即合并卡方值较小的箱体
最小熵分箱 分箱后达到最小熵。使得总体信息的不确定性降到最低

About

几种常见的特征分箱与可视化的方法

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages