-
Notifications
You must be signed in to change notification settings - Fork 20
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
8卡ddp增加batch_size,精度值严重下降 #80
Comments
我认为需要确认两个问题:
|
从2卡到8卡学习率是不是应该调整一下,乘以4?应该有个公式计算的 |
补两组实验实验01使用ultralytics/yolov5最新的main分支代码。 配置:
启动指令: 实验02使用one-yolov5最新main分支代码 配置:
启动指令: |
我觉得可以先确认一下这个问题 @ccssu |
嗯嗯,好 one-yolov5/data/hyps/hyp.scratch-low.yaml Lines 6 to 9 in eee6793
@Ldpe2G 德澎哥 请问下我调整学习率只要将 |
官方文档有没有讲8卡训练要做哪些修改,还有就是确认下晓雨说的,代码中有没有根据卡数自动修改 lr |
注意:
更多数据 |
可以再跑两组实验,4卡 和 6卡都分别跑下,看下精度怎样,学习率就保持和2卡一样的就行了 |
问题描述
增加 batch_size ,在300个epoch训练下,mAP_0.5:0.95 精度值下降了
2.4750000000000014
。数据表如下所示:
趋势图:
注意:
实验01
启动指令python -m oneflow.distributed.launch --nproc_per_node 8 train.py --data data/coco.yaml --weights ' ' --cfg models/yolov5n.yaml --batch 256
实验02
启动指令python -m oneflow.distributed.launch --nproc_per_node 8 train.py --data data/coco.yaml --weights ' ' --cfg models/yolov5n.yaml --batch 512
复现实验数据
recurrence_batch_have_an_impact_on_mAP
实验01
启动指令python -m oneflow.distributed.launch --nproc_per_node 8 train.py --data data/coco.yaml --weights ' ' --cfg models/yolov5n.yaml --batch 256
实验02
启动指令python -m oneflow.distributed.launch --nproc_per_node 8 train.py --data data/coco.yaml --weights ' ' --cfg models/yolov5n.yaml --batch 512
实验环境
The text was updated successfully, but these errors were encountered: