[Frontend][Misc] Enforce Pixel Values as Input Type for VLMs in API Server (#5374)

2024-06-10 02:13:39 -07:00 · 2024-06-10 02:13:39 -07:00 · 68bc81703e
commit 68bc81703e
parent 5884c2b454
1 changed files with 10 additions and 0 deletions
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@ -183,6 +183,16 @@ if __name__ == "__main__":
        served_model_names = [args.model]

    engine_args = AsyncEngineArgs.from_cli_args(args)
+
+    # Enforce pixel values as image input type for vision language models
+    # when serving with API server
+    if engine_args.image_input_type is not None and \
+        engine_args.image_input_type.upper() != "PIXEL_VALUES":
+        raise ValueError(
+            f"Invalid image_input_type: {engine_args.image_input_type}. "
+            "Only --image-input-type 'pixel_values' is supported for serving "
+            "vision language models with the vLLM API server.")
+
    engine = AsyncLLMEngine.from_engine_args(
        engine_args, usage_context=UsageContext.OPENAI_API_SERVER)