使用X-TRAIN数据集训练RIFE #381

ZXMMD · 2024-11-14T02:23:12Z

作者您好，请问您尝试过使用高分辨率数据集（比如X-TRAIN）训练RIFE吗？我在训练过程中遇到了一些问题。
实验设置如下：

构造三帧组。X-TRAIN数据集中一个视频有65帧（索引为0到64），可以构造不同时间间隔的三帧组：0,1,2; 0,2,4; 0,3,6; 0,4,8; 0,5,10; ...; 0,32,64; 使用训练集中4408个视频共构造了400多万个三帧组。中间帧为ground truth. 训练时每个epoch会从这400多万个三帧组中随机选择48768个三帧组。
数据预处理。随机裁剪至512x512.其他的数据增强方式和RIFE保持一致。
使用4个GPU。学习率，batch size等参数和RIFE保持一致。
没有加载RIFE的预训练模型。

首先是在训练大概1400 step后loss变为NAN:

我尝试将weight decay从1e-3增大到2e-3（没有修改学习率等其他参数），在训练大概5000 step后loss变为NaN：

尝试在IFNet中添加BN层（没有修改学习率等其他参数），训练大概40k step后loss猛增：

会不会是训练集的问题，三帧组包含多种时间间隔（比如0,1,2；0,32,64）。我现在在尝试将训练集换成时间间隔相等的三帧组（0，26,52；1,27,53；...；12,38,64）。请问作者有什么建议吗？

hzwer · 2024-11-15T10:23:53Z

你好，我建议：

hzwer · 2024-11-18T03:18:57Z

据 VFIMamba 说，这里需要课程学习
https://zhuanlan.zhihu.com/p/923110402

Provide feedback