add env var

Signed-off-by: youkaichao <[email protected]>
vllm-project · Jan 22, 2025 · db8cdc1 · db8cdc1
1 parent 6e284e4
commit db8cdc1
Show file tree

Hide file tree

Showing 2 changed files with 18 additions and 10 deletions.
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
@@ -518,16 +518,17 @@ async def create_score_v1(request: ScoreRequest, raw_request: Request):
     },
 }
 
-
-@router.post("/reset_prefix_cache")
-async def reset_prefix_cache(raw_request: Request):
-    """
-    Reset the prefix cache. Note that we currently do not check if the
-    prefix cache is successfully reset in the API server.
-    """
-    logger.info("Resetting prefix cache...")
-    await engine_client(raw_request).reset_prefix_cache()
-    return Response(status_code=200)
+if envs.VLLM_SERVER_DEV_MODE:
+
+    @router.post("/reset_prefix_cache")
+    async def reset_prefix_cache(raw_request: Request):
+        """
+        Reset the prefix cache. Note that we currently do not check if the
+        prefix cache is successfully reset in the API server.
+        """
+        logger.info("Resetting prefix cache...")
+        await engine_client(raw_request).reset_prefix_cache()
+        return Response(status_code=200)
 
 
 @router.post("/invocations")

diff --git a/vllm/envs.py b/vllm/envs.py
@@ -72,6 +72,7 @@
     VLLM_ENABLE_V1_MULTIPROCESSING: bool = True
     VLLM_LOG_BATCHSIZE_INTERVAL: float = -1
     VLLM_DISABLE_COMPILE_CACHE: bool = False
+    VLLM_SERVER_DEV_MODE: bool = False
 
 
 def get_default_cache_root():
@@ -467,6 +468,12 @@ def get_default_config_root():
     lambda: float(os.getenv("VLLM_LOG_BATCHSIZE_INTERVAL", "-1")),
     "VLLM_DISABLE_COMPILE_CACHE":
     lambda: bool(int(os.getenv("VLLM_DISABLE_COMPILE_CACHE", "0"))),
+
+    # If set, vllm will run in development mode, which will enable
+    # some additional endpoints for developing and debugging,
+    # e.g. `/reset_prefix_cache`
+    "VLLM_SERVER_DEV_MODE":
+    lambda: bool(int(os.getenv("VLLM_SERVER_DEV_MODE", "0"))),
 }
 
 # end-env-vars-definition