关于多卡训练sup-bert的疑问 #36

Anonymous-AI1 · 2024-11-05T01:59:56Z

Hi~ 感谢你们的开源工作

#32 中已经指出对于 PyTorch 2+，应该修改 run.sh 中的脚本，由 python -m torch.distributed.launch => torchrun

"sup-bert")
    # BC=(python -m torch.distributed.launch --nproc_per_node 4 train.py)
    BC=(torchrun --nproc_per_node 4 train.py)
    TRAIN_FILE=data/nli_for_simcse.csv
    BATCH=128
    EPOCH=3
    LR=5e-5
    TEMPLATE="*cls*_This_sentence_of_\"*sent_0*\"_means*mask*.*sep+*"
    MODEL=bert-base-uncased
    args=(--mask_embedding_sentence\
          --mask_embedding_sentence_template $TEMPLATE\
          --mask_embedding_sentence_delta\
          --mask_embedding_sentence_org_mlp)
    eargs=(--mask_embedding_sentence_org_mlp\
           --mask_embedding_sentence_delta \
           --mask_embedding_sentence \
           --mask_embedding_sentence_template $TEMPLATE )
    ;;

但是如此操作后，程序在 4 * 4090 中会出现 CUDA out of memory
我记得 SimCSE、PromptBERT 均是在 4 * 24 GB 设置下训练的，因此该现象很反常

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于多卡训练sup-bert的疑问 #36

关于多卡训练sup-bert的疑问 #36

Anonymous-AI1 commented Nov 5, 2024

关于多卡训练sup-bert的疑问 #36

关于多卡训练sup-bert的疑问 #36

Comments

Anonymous-AI1 commented Nov 5, 2024