Remove model_state.use_fp8_ddp and optimizer.all_reduce_grads #145

wkcn · 2023-12-14T09:13:09Z

Description
The argument model_state.use_fp8_ddp is deprecated.
In MS-AMP examples, all of model_state.use_fp8_ddp are set to True. Besides, the function optimizer.all_reduce_grads has not been used.

Major Revision

Remove model_state.use_fp8_ddp
Remove optimizer.all_reduce_grads
Remove the related unittests
Update the unittest test_fp8linear_backward since the type of weight gradient is torch.Tensor when model_state.use_fp8_ddp is True.

tocean · 2023-12-18T10:14:47Z

In MS-AMP-Examples, we used optimizer.all_reduce_grads. We need to remove it from examples.

wkcn added 3 commits December 14, 2023 16:58

remove use_fp8_ddp

6dc58c3

lint

2e314b8

ut

40d9730

wkcn requested review from tocean and guoshzhao December 15, 2023 01:46

Merge branch 'main' into remove_use_fp8_ddp

a37d8eb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Remove model_state.use_fp8_ddp and optimizer.all_reduce_grads #145

Remove model_state.use_fp8_ddp and optimizer.all_reduce_grads #145

wkcn commented Dec 14, 2023

tocean commented Dec 18, 2023

Remove model_state.use_fp8_ddp and optimizer.all_reduce_grads #145

Are you sure you want to change the base?

Remove model_state.use_fp8_ddp and optimizer.all_reduce_grads #145

Conversation

wkcn commented Dec 14, 2023

tocean commented Dec 18, 2023