使用软链接将 anaconda 环境中,torch 包里的 launch.py 关联到项目目录下
ln -s /home/ubuntu/anaconda3/envs/${env-name}/lib/python3.8/site-packages/torch/distributed/launch.py /path/to/your/program
随后将远程服务器项目目录下的 launch.py 下载到本地项目目录中,使服务器和本地的两个 launch.py 直接关联
假设原始的训练命令为:
python3 -m torch.distributed.launch --nproc_per_node=1 --master_port=1234 train.py --other_parameters
则使用 pycharm 调试时需要:
点击 Edit Configurations
进入参数配置界面,配置 Script path
为本地 launch.py 的路径;在 Parameters
里添加 --nproc_per_node=1 --master_port=1234 train.py --other_parameters