@@ -27,5 +27,46 @@ max-num-batched-tokens:很重要的配置,比如你配置了 max-num-batched
27
27
--enable-prefix-caching
28
28
Enables automatic prefix caching.
29
29
30
- --enable-chunked-prefill
31
- 如果设置,预填充请求可以根据 max_num_batched_tokens 进行分块。
30
+
31
+
32
+
33
+
34
+
35
+ ```
36
+ --served-model-name:API 中使用的模型名称。如果提供了多个名称,服务将响应任何提供的名称。
37
+ --device:vLLM 执行的设备类型。默认值:auto,可能的选择有:auto、cuda、neuron、cpu、openvino、tpu、xpu。
38
+ --model:要使用的 Huggingface 模型的名称或路径。默认值:"facebook/opt-125m"。
39
+ --tokenizer:要使用的 Huggingface 分词器的名称或路径。如果未指定,将使用模型名称或路径。
40
+ --trust-remote-code:信任来自 Huggingface 的远程代码。默认值:false。
41
+ --download-dir:下载和加载权重的目录,默认为huggingface的默认缓存目录。
42
+ --load-format:要加载的模型权重的格式。可能的选择:auto、pt、safetensors、npcache、dummy、tensorizer、sharded_state、gguf、bitsandbytes、mistral。默认值:auto,将尝试以 safetensors 格式加载权重,如果 safetensors 格式不可用,则回退到 pytorch bin 格式。
43
+ --dtype:模型权重和激活的数据类型。可能的选择:auto、half、float16、bfloat16、float、float32。
44
+ --kv-cache-dtype:kv缓存存储的数据类型。可能的选择:auto、fp8、fp8_e5m2、fp8_e4m3,如果为auto,将使用模型数据类型。
45
+ --max-model-len:模型上下文长度。如果未指定,将自动从模型配置中派生。
46
+ --pipeline-parallel-size, -pp:流水线并行大小。默认值:1。
47
+ --tensor-parallel-size, -tp:张量并行大小。默认值:1。
48
+ --enable-prefix-caching:启用自动前缀缓存。默认值:false。
49
+ --gpu-memory-utilization:用于模型执行的 GPU 内存比例,范围为 0 到 1。例如:值 0.5 表示 GPU 内存利用率为 50%。如果未指定,将使用默认值 0.9。
50
+ --disable-custom-all-reduce:禁用自定义all-reduce Kernel并回退到使用NCCL。
51
+ --max-num-batched-tokens:每次迭代的最大批处理Token数。
52
+ --enable-chunked-prefill:如果设置,预填充请求可以根据 max_num_batched_tokens 进行分块。
53
+ --max-num-seqs:每次迭代的最大序列数。默认值:256。
54
+ ```
55
+
56
+
57
+ ```
58
+ --kv-cache-dtype:kv缓存存储的数据类型。可能的选择:auto、fp8、fp8_e5m2、fp8_e4m3,如果为auto,将使用模型数据类型。
59
+ --quantization, -q:用于量化权重的方法。可能的选择:aqlm、awq、deepspeedfp、tpu_int8、fp8、fbgemm_fp8、modelopt、marlin、gguf、gptq_marlin_24、gptq_marlin、awq_marlin、gptq、compressed-tensors、bitsandbytes、qqq、experts_int8、neuron_quant、ipex、None。如果为None,首先检查模型配置文件中的quantization_config属性;如果为 None,先假设模型权重未量化,并使用dtype来确定权重的数据类型。
60
+ ```
61
+
62
+
63
+
64
+
65
+
66
+
67
+
68
+
69
+
70
+
71
+
72
+
0 commit comments