- 来源:kaggle-Rossmann销售预测(https://www.kaggle.com/c/cs3244-rossmann-store-sales)
- 简单描述:Rossmann在全欧洲有超过6000家药店,预测销售额一直是他们商店经理的工作,他们根据直觉来预测,准确率有很大 变化,现在我们要帮助构建一个销售额预测模型,针对位于德国的1115家店进行6周的销售额预测,对于销售额的预测可以帮助经理们 更合理的安排员工上班时间表、销售活动等。
- 评估指标:RMSPE(Root Mean Square Percentage Error)。
- 个别字段描述:
- Id:测试集内(商店、日期)的组合。
- Store:表示每个商店的唯一Id。
- Sales:任意一天的销售额,也是我们要预测的字段。
- Open:是否开门,0=关门,1=开门。
- StateHoliday:国家假日,一般假日国家假期都会关门,所有学校在公共假日都会关门,a=公共假日,b=东部假日,c=圣诞节,0=不是假日。
- StoreType:商店类型,有四种,abcd。
- Assortment:分类级别,a=基础,b=额外,c=扩展。
- CompetitionDistance:竞争对手距离。
- CompetitionOpenSince[Month/Year]:给出最近竞争对手的开张时间。
- Promo:表示商店当天是否进行促销?
- Promo2:表示商店是否进行持续的促销活动,0=没有参数,1=参与。
- Promo2Since[Year/Week]:商店开始持续促销的年/星期。
- PromoInterval:持续促销活动开始的间隔,"Feb,May,Aug,Nov"表示给定商店某一年的2589月开始持续促销活动。
- 分析:
- 销售额预测是一个回归问题。
- 根据已有的数据+target预测,是一个监督问题。
- 类型Open、StateHoliday等字段需要进行One-Hot编码。
- 有好几个时间相关的字段(CompetitionOpenSince,Promo2Since,PromoInterval)要考虑下怎么处理。
- 假日跟关门的关系。
- 假日跟学校的关系。
- 这么看One-Hot后字段很多,需要做主成分分析,否则维度爆炸。
- 怎么结合store.csv到train_v2.csv中使用,类型数据库链接吧,先连成一个大表。
- 模型选择?
- 分阶段分析:1.只使用train_v2.csv训练,2.链接入store.csv训练,3.开发时间序列相关的字段,4.模型比对。