picotron/data_parallel.py

import torch.distributed as dist
import torch.nn as nn
import process_group_manager as pgm

class DataParallel(nn.Module):
    def __init__(self, model, config):
        #TODO: Add Zero1
        #TODO: Interleave all_reduce
        super().__init__()
        self.model = model

    def forward(self, *args, **kwargs):
        return self.model(*args, **kwargs)

    def backward(self, input_tensor, output_tensor, output_tensor_grad):
        return self.model.backward(input_tensor, output_tensor, output_tensor_grad)
add naive DP 2024-09-25 20:36:22 +08:00			`import torch.distributed as dist`
			`import torch.nn as nn`
rename parallel_context to process_group_manager 2024-09-25 21:33:20 +08:00			`import process_group_manager as pgm`
add naive DP 2024-09-25 20:36:22 +08:00
			`class DataParallel(nn.Module):`
refactor to decouple pp training with normal training 2024-09-25 21:17:05 +08:00			`def __init__(self, model, config):`
add naive DP 2024-09-25 20:36:22 +08:00			`#TODO: Add Zero1`
			`#TODO: Interleave all_reduce`
			`super().__init__()`
			`self.model = model`

			`def forward(self, args, *kwargs):`
			`return self.model(args, *kwargs)`

			`def backward(self, input_tensor, output_tensor, output_tensor_grad):`
all reduce gradient across DP & CP ranks 2024-09-26 22:00:06 +08:00			`return self.model.backward(input_tensor, output_tensor, output_tensor_grad)`