以12个月的气象图为输入,预测未来24个月的厄尔尼诺指标.
-
12个月的气象图
-
每月四个统计值(四张气象图):
- 海洋表面温度,
- 海洋热含量,
- 经向风力,
- 纬向风力
每个统计值覆盖24个维度,72个经度
####输入形式
[12,4,24,72]
未来24个月的的厄尔尼诺指标
[24]
要打包成docker提交??????????????????????????????/
-
SODA数据集:美国某部门在南太平洋某区域收集的100年的真实观测数据
SODA_label:美国某部门统计的该区域100年的厄尔尼诺指标
-
CMIP数据集:七种理论模型模拟的将近1000年的数据
[Batch,4,12,24,72]
↓
四个统计值分组做卷积,变换到24个通道的形式 [Batch,4,24,3,13]
↓
四个统计值特征融合,[Batch,24,252]
↓
以24个通道作为24个时间点,喂给LSTM
↓
得到LSTM的输出 output,(hidden,context)
↓
取output作为LSTM的输出 [Batch,24,hidden_size]
↓ 全连接输出层
输出 [Batch,24,1]
损失函数 : MSE
评价指标:RMSE+相关系数
过小,仅3M参数
过拟合,训练集上评价指标90+,验证集只有30~40
训练集
测试集
- 大赛名称:2021数知地球AI创新挑战赛--AI助力精准气象和海洋预测
- 赛季名称:晋级赛
- 数据说明:
- 数据介绍:
- CMIP_train.nc, CMIP模式数据,包含sst t300 ua va ,分别代表海温,热含量,表面风的东西分量(纬向风),表面风的南北分量(经向风)
- CMIP_label.nc,为对应逐月nino3.4指数标签数据
- SODA_train.nc,观测数据,包含sst t300 ua va ,分别代表海温,热含量,表面风的东西分量(纬向风),表面风的南北分量(经向风)
- SODA_label.nc,为对应逐月nino3.4指数标签数据
- 是否允许使用外部数据:否
- 是否允许使用预训练权重:否
- md5: CMIP_train.nc:804a96f1f83392972bf547b922b953ae
本次比赛使用的数据包括CMIP5/6模式的历史模拟数据和美国SODA模式重建的近100多年历史观测同化数据。每个样本包含以下气象及时空变量:海表温度异常(SST),热含量异常(T300),纬向风异常(Ua),经向风异常(Va),数据维度为(year,month,lat,lon)。对于训练数据提供对应月份的Nino3.4 index标签数据。
每个数据样本第一维度(year)表征数据所对应起始年份,对于CMIP数据共4645年,其中1-2265为CMIP6中15个模式提供的151年的历史模拟数据(总共:151年 *15 个模式=2265);2266-4645为CMIP5中17个模式提供的140年的历史模拟数据(总共:140年 *17 个模式=2380)。对于历史观测同化数据为美国提供的SODA数据。
其中每个样本第二维度(mouth)表征数据对应的月份,对于训练数据均为36,对应的从当前年份开始连续三年数据(从1月开始,共36月),比如:
SODA_train.nc中[0,0:36,:,:]为第1-第3年逐月的历史观测数据;
SODA_train.nc中[1,0:36,:,:]为第2-第4年逐月的历史观测数据; …, SODA_train.nc中[99,0:36,:,:]为第100-102年逐月的历史观测数据。
和 CMIP_train.nc中[0,0:36,:,:]为CMIP6第一个模式提供的第1-第3年逐月的历史模拟数据; …, CMIP_train.nc中[150,0:36,:,:]为CMIP6第一个模式提供的第151-第153年逐月的历史模拟数据;
CMIP_train.nc中[151,0:36,:,:]为CMIP6第二个模式提供的第1-第3年逐月的历史模拟数据; …, CMIP_train.nc中[2265,0:36,:,:]为CMIP5第一个模式提供的第1-第3年逐月的历史模拟数据; …, CMIP_train.nc中[2405,0:36,:,:]为CMIP5第二个模式提供的第1-第3年逐月的历史模拟数据; …, CMIP_train.nc中[4644,0:36,:,:]为CMIP5第17个模式提供的第140-第142年逐月的历史模拟数据。
其中每个样本第三、第四维度分别代表经纬度(南纬55度北纬60度,东经0360度),所有数据的经纬度范围相同。
训练数据标签说明 标签数据为Nino3.4 SST异常指数,数据维度为(year,month)。
CMIP(SODA)_train.nc对应的标签数据当前时刻Nino3.4 SST异常指数的三个月滑动平均值,因此数据维度与维度介绍同训练数据一致
注:三个月滑动平均值为当前月与未来两个月的平均值。
测试用的初始场(输入)数据为国际多个海洋资料同化结果提供的随机抽取的n段12个时间序列,数据格式采用NPY格式保存,维度为(12,lat,lon, 4),12为t时刻及过去11个时刻,4为预测因子,并按照SST,T300,Ua,Va的顺序存放。
测试集文件序列的命名规则:test_编号_起始月份_终止月份.npy,如test_00001_01_12_.npy。
##数据(Netcdf文件)读取方法
(1) https://www.giss.nasa.gov/tools/panoply/ panoply可视化文件
(2) Python中xarray/netCDF4 库