[Frontend] Separate OpenAI Batch Runner usage from API Server (#4851)

2024-05-16 11:42:41 -04:00 · 2024-05-16 11:42:41 -04:00 · 5e0391c040
commit 5e0391c040
parent dbc0754ddf
2 changed files with 2 additions and 1 deletions
--- a/vllm/entrypoints/openai/run_batch.py
+++ b/vllm/entrypoints/openai/run_batch.py
@ -101,7 +101,7 @@ async def main(args):

    engine_args = AsyncEngineArgs.from_cli_args(args)
    engine = AsyncLLMEngine.from_engine_args(
-        engine_args, usage_context=UsageContext.OPENAI_API_SERVER)
+        engine_args, usage_context=UsageContext.OPENAI_BATCH_RUNNER)

    # When using single vLLM without engine_use_ray
    model_config = await engine.get_model_config()
--- a/vllm/usage/usage_lib.py
+++ b/vllm/usage/usage_lib.py
@ -90,6 +90,7 @@ class UsageContext(str, Enum):
    LLM_CLASS = "LLM_CLASS"
    API_SERVER = "API_SERVER"
    OPENAI_API_SERVER = "OPENAI_API_SERVER"
+    OPENAI_BATCH_RUNNER = "OPENAI_BATCH_RUNNER"
    ENGINE_CONTEXT = "ENGINE_CONTEXT"