flash-attention/flash_attn/losses/cross_entropy.py

# Copyright (c) 2023, Tri Dao.

import torch
import torch.nn as nn

from flash_attn.ops.triton.cross_entropy import cross_entropy_loss


class CrossEntropyLoss(nn.Module):
    def __init__(
        self,
        ignore_index=-100,
        reduction="mean",
        label_smoothing=0.0,
        logit_scale=1.0,
        lse_square_scale=0.0,
        inplace_backward=False,
        process_group=None,
    ):
        """
        Arguments:
            ignored_index: int. If labels == ignored_index, the loss is set to 0.0.
            label_smoothing: float
            lse_square_scale: float. If > 0, we add lse_square_scale * lse(logits) ^ 2 to the loss.
                This is also referred to as "z-loss".
            inplace_backward: bool. If True, we do the backward pass in-place by modifying the logits.
                This saves memory.
            process_group: if not None, we're doing Tensor Parallel: each process is responsible for
            one part of the vocab. The loss will be aggregated across processes.
        """
        super().__init__()
        if reduction not in ["mean", "none", "sum"]:
            raise NotImplementedError("Only support reduction = 'mean' or 'none' or 'sum'")
        self.ignore_index = ignore_index
        self.reduction = reduction
        self.label_smoothing = label_smoothing
        self.logit_scale = logit_scale
        self.lse_square_scale = lse_square_scale
        self.inplace_backward = inplace_backward
        self.process_group = process_group

    def forward(self, input, target):
        """
        Arguments:
            input: (batch, vocab_size)
            target: (batch,)
        Returns:
            losses: (batch,) if reduction is 'none', else (1,), dtype float
        """
        assert input.is_cuda and target.is_cuda, "Only support CUDA tensors"
        loss = cross_entropy_loss(
            input,
            target,
            label_smoothing=self.label_smoothing,
            logit_scale=self.logit_scale,
            lse_square_scale=self.lse_square_scale,
            ignored_index=self.ignore_index,
            inplace_backward=self.inplace_backward,
            process_group=self.process_group,
        )
        if self.reduction == "mean":
            return loss.sum() / (target != self.ignore_index).sum()
        elif self.reduction == "sum":
            return loss.sum()
        else:
            return loss
[CE] Implement CrossEntropyLoss in Triton 2023-09-16 10:27:18 +08:00			`# Copyright (c) 2023, Tri Dao.`

Add smoothing for CrossEntropyParallel, rename to CrossEntropyLoss 2022-12-24 06:51:08 +08:00			`import torch`
			`import torch.nn as nn`

[CE] Implement CrossEntropyLoss in Triton 2023-09-16 10:27:18 +08:00			`from flash_attn.ops.triton.cross_entropy import cross_entropy_loss`
Add smoothing for CrossEntropyParallel, rename to CrossEntropyLoss 2022-12-24 06:51:08 +08:00

			`class CrossEntropyLoss(nn.Module):`
Run isort and black on python files 2023-08-19 05:22:11 +08:00			`def __init__(`
			`self,`
			`ignore_index=-100,`
			`reduction="mean",`
			`label_smoothing=0.0,`
[CrossEntropy] Implement logit_scale option 2023-12-17 10:39:37 +08:00			`logit_scale=1.0,`
[CE] Implement CrossEntropyLoss in Triton 2023-09-16 10:27:18 +08:00			`lse_square_scale=0.0,`
Run isort and black on python files 2023-08-19 05:22:11 +08:00			`inplace_backward=False,`
			`process_group=None,`
			`):`
[CE] Implement CrossEntropyLoss in Triton 2023-09-16 10:27:18 +08:00			`"""`
			`Arguments:`
			`ignored_index: int. If labels == ignored_index, the loss is set to 0.0.`
			`label_smoothing: float`
			`lse_square_scale: float. If > 0, we add lse_square_scale * lse(logits) ^ 2 to the loss.`
			`This is also referred to as "z-loss".`
			`inplace_backward: bool. If True, we do the backward pass in-place by modifying the logits.`
			`This saves memory.`
			`process_group: if not None, we're doing Tensor Parallel: each process is responsible for`
			`one part of the vocab. The loss will be aggregated across processes.`
			`"""`
Add smoothing for CrossEntropyParallel, rename to CrossEntropyLoss 2022-12-24 06:51:08 +08:00			`super().__init__()`
[CE] Implement CrossEntropyLoss in Triton 2023-09-16 10:27:18 +08:00			`if reduction not in ["mean", "none", "sum"]:`
			`raise NotImplementedError("Only support reduction = 'mean' or 'none' or 'sum'")`
Add smoothing for CrossEntropyParallel, rename to CrossEntropyLoss 2022-12-24 06:51:08 +08:00			`self.ignore_index = ignore_index`
			`self.reduction = reduction`
			`self.label_smoothing = label_smoothing`
[CrossEntropy] Implement logit_scale option 2023-12-17 10:39:37 +08:00			`self.logit_scale = logit_scale`
[CE] Implement CrossEntropyLoss in Triton 2023-09-16 10:27:18 +08:00			`self.lse_square_scale = lse_square_scale`
Add smoothing for CrossEntropyParallel, rename to CrossEntropyLoss 2022-12-24 06:51:08 +08:00			`self.inplace_backward = inplace_backward`
Tweak CrossEntropyLoss to take process_group in init 2022-12-28 01:49:59 +08:00			`self.process_group = process_group`
Add smoothing for CrossEntropyParallel, rename to CrossEntropyLoss 2022-12-24 06:51:08 +08:00
Tweak CrossEntropyLoss to take process_group in init 2022-12-28 01:49:59 +08:00			`def forward(self, input, target):`
[CE] Implement CrossEntropyLoss in Triton 2023-09-16 10:27:18 +08:00			`"""`
			`Arguments:`
			`input: (batch, vocab_size)`
			`target: (batch,)`
			`Returns:`
			`losses: (batch,) if reduction is 'none', else (1,), dtype float`
			`"""`
			`assert input.is_cuda and target.is_cuda, "Only support CUDA tensors"`
			`loss = cross_entropy_loss(`
Run isort and black on python files 2023-08-19 05:22:11 +08:00			`input,`
			`target,`
[CE] Implement CrossEntropyLoss in Triton 2023-09-16 10:27:18 +08:00			`label_smoothing=self.label_smoothing,`
[CrossEntropy] Implement logit_scale option 2023-12-17 10:39:37 +08:00			`logit_scale=self.logit_scale,`
[CE] Implement CrossEntropyLoss in Triton 2023-09-16 10:27:18 +08:00			`lse_square_scale=self.lse_square_scale,`
			`ignored_index=self.ignore_index,`
			`inplace_backward=self.inplace_backward,`
			`process_group=self.process_group,`
Add smoothing for CrossEntropyParallel, rename to CrossEntropyLoss 2022-12-24 06:51:08 +08:00			`)`
Run isort and black on python files 2023-08-19 05:22:11 +08:00			`if self.reduction == "mean":`
Add smoothing for CrossEntropyParallel, rename to CrossEntropyLoss 2022-12-24 06:51:08 +08:00			`return loss.sum() / (target != self.ignore_index).sum()`
[CE] Implement CrossEntropyLoss in Triton 2023-09-16 10:27:18 +08:00			`elif self.reduction == "sum":`
			`return loss.sum()`
Add smoothing for CrossEntropyParallel, rename to CrossEntropyLoss 2022-12-24 06:51:08 +08:00			`else:`
			`return loss`