Skip to content

Latest commit

 

History

History
32 lines (32 loc) · 2.32 KB

问题分析.md

File metadata and controls

32 lines (32 loc) · 2.32 KB

问题分析

问题描述

  1. 来源:kaggle-Rossmann销售预测(https://www.kaggle.com/c/cs3244-rossmann-store-sales)
  2. 简单描述:Rossmann在全欧洲有超过6000家药店,预测销售额一直是他们商店经理的工作,他们根据直觉来预测,准确率有很大 变化,现在我们要帮助构建一个销售额预测模型,针对位于德国的1115家店进行6周的销售额预测,对于销售额的预测可以帮助经理们 更合理的安排员工上班时间表、销售活动等。
  3. 评估指标:RMSPE(Root Mean Square Percentage Error)。
  4. 个别字段描述:
    1. Id:测试集内(商店、日期)的组合。
    2. Store:表示每个商店的唯一Id。
    3. Sales:任意一天的销售额,也是我们要预测的字段。
    4. Open:是否开门,0=关门,1=开门。
    5. StateHoliday:国家假日,一般假日国家假期都会关门,所有学校在公共假日都会关门,a=公共假日,b=东部假日,c=圣诞节,0=不是假日。
    6. StoreType:商店类型,有四种,abcd。
    7. Assortment:分类级别,a=基础,b=额外,c=扩展。
    8. CompetitionDistance:竞争对手距离。
    9. CompetitionOpenSince[Month/Year]:给出最近竞争对手的开张时间。
    10. Promo:表示商店当天是否进行促销?
    11. Promo2:表示商店是否进行持续的促销活动,0=没有参数,1=参与。
    12. Promo2Since[Year/Week]:商店开始持续促销的年/星期。
    13. PromoInterval:持续促销活动开始的间隔,"Feb,May,Aug,Nov"表示给定商店某一年的2589月开始持续促销活动。
  5. 分析:
    1. 销售额预测是一个回归问题。
    2. 根据已有的数据+target预测,是一个监督问题。
    3. 类型Open、StateHoliday等字段需要进行One-Hot编码。
    4. 有好几个时间相关的字段(CompetitionOpenSince,Promo2Since,PromoInterval)要考虑下怎么处理。
    5. 假日跟关门的关系。
    6. 假日跟学校的关系。
    7. 这么看One-Hot后字段很多,需要做主成分分析,否则维度爆炸。
    8. 怎么结合store.csv到train_v2.csv中使用,类型数据库链接吧,先连成一个大表。
    9. 模型选择?
    10. 分阶段分析:1.只使用train_v2.csv训练,2.链接入store.csv训练,3.开发时间序列相关的字段,4.模型比对。