From cb3f30c600169210f9715f084e34adf2afc4f7d7 Mon Sep 17 00:00:00 2001
From: Woosuk Kwon <woosuk.kwon@berkeley.edu>
Date: Mon, 11 Dec 2023 18:39:14 -0800
Subject: [PATCH] Upgrade transformers version to 4.36.0 (#2046)

---
 requirements-rocm.txt                 | 2 +-
 requirements.txt                      | 2 +-
 vllm/model_executor/models/mixtral.py | 6 +++---
 3 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/requirements-rocm.txt b/requirements-rocm.txt
index 42ab9d14..c2e0dc3f 100644
--- a/requirements-rocm.txt
+++ b/requirements-rocm.txt
@@ -10,7 +10,7 @@ numpy
 tokenizers>=0.15.0
 huggingface_hub<0.18,>=0.16.4
 einops  # Required for phi-1_5
-transformers >= 4.34.0  # Required for Mistral.
+transformers >= 4.36.0  # Required for Mixtral.
 fastapi
 uvicorn[standard]
 pydantic == 1.10.13  # Required for OpenAI server.
diff --git a/requirements.txt b/requirements.txt
index 5ec101a0..04b19b97 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -7,7 +7,7 @@ sentencepiece  # Required for LLaMA tokenizer.
 numpy
 einops  # Required for phi-1_5
 torch >= 2.1.1
-transformers >= 4.34.0  # Required for Mistral.
+transformers >= 4.36.0  # Required for Mixtral.
 xformers >= 0.0.23  # Required for CUDA 12.1.
 fastapi
 uvicorn[standard]
diff --git a/vllm/model_executor/models/mixtral.py b/vllm/model_executor/models/mixtral.py
index c1fd26e9..3021ced8 100644
--- a/vllm/model_executor/models/mixtral.py
+++ b/vllm/model_executor/models/mixtral.py
@@ -29,7 +29,7 @@ import torch
 import torch.nn.functional as F
 
 from torch import nn
-from transformers import MistralConfig
+from transformers import MixtralConfig
 
 try:
     import megablocks.ops as ops
@@ -395,7 +395,7 @@ class MixtralDecoderLayer(nn.Module):
 
     def __init__(
         self,
-        config: MistralConfig,
+        config: MixtralConfig,
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
@@ -443,7 +443,7 @@ class MixtralForCausalLM(nn.Module):
 
     def __init__(
         self,
-        config: MistralConfig,
+        config: MixtralConfig,
         linear_method: Optional[LinearMethodBase] = None,
     ) -> None:
         super().__init__()