这次大赛第一赛季的主题,是通过对病人的临床数据和体检指标来预测其血糖值。 大赛提供的训练数据包含病人的性别、体检日期以及血常规、肾功能检查等指标, 每个指标分别作为一个字段储存在数据表中。最后一列为我们要预测的血糖值。
该repo记录了参加本次大赛的各种数据探索、特征工程、特征选择、交叉验证模型以及 线上提交模型。虽然,最后的结果并不尽人意, 但是从doufu大佬和wufei大佬那里学到了很多。
这个文件夹下,包含了最开始的数据探索和线下的交叉验证模型。 通过数据探索,了解了数据的大体分布情况。
线下模型从一开始的按性别划分,分别进行训练预测,演变成直接把性别作为特征 全量训练预测。期间,doufu大佬开源的基于交叉验证的LightGBM融合模型给了我很大的启发。 相信排行榜中,有不少参赛队是在那份开源代码的基础上修改来的。 而那份代码确实“四两拨千斤”,仅仅用原始特征就取得了较好的结果。
后来,看到wufei大佬的融合方案,借鉴了其nn模型,并利用其nn模型最后隐层的26个Batch-Normalized的输出 作为特征输入到LightGBM进行测试,线下也得到了提高。同时,也与nn模型的结果进行了融合。
包含了线上提交所使用的各种模型。最后,提交所使用的模型为lgb_nn_ensembing.py, 融合了nn模型与LightGBM,同时将nn模型的隐层输出作为特征加入到LightGBM中。
包含了特征工程、评价函数、模型参数。
缺失数据采用随机森林填充,特征间的相关性,比各特征与血糖值之间高多了。