更新vllm后端的使用方法

2025-10-13 11:54:02 +08:00
parent 00cde0d2dc
commit b91291b734
109 changed files with 7953 additions and 737 deletions
--- a/README.md
+++ b/README.md
@@ -61,6 +61,18 @@
    ```bash
    ./llama-server -m ~/models/gguf/Qwen/Qwen3-8B-GGUF/Qwen3-8B-Q4_K_M.gguf --port 8081 --gpu-layers 36 --host 0.0.0.0 -c 8192
    ```
+    至此llama.cpp推理框架就完成了，无需进一步即可启动后端
+
+    如果使用vllm后端，则执行以下命令
+    ```bash
+   vllm serve Qwen3-4B-AWQ       --host=0.0.0.0       --port=8081       --dtype=auto       --max-num-seqs=1       --max-model-len=16384           --served-model-name "qwen3-4b-awq"   --trust-remote-code    --gpu-memory-utilization=0.75       --uvicorn-log-level=debug 
+    ```
+    由于调用vllm时，在发送HTTP请求时需要指定模型名称，所以在启动后端服务前需要添加环境变量，执行以下命令
+    ```bash
+    export CLASSIFIER_MODEL="qwen3-4b-awq"
+    export SIMPLE_MODEL="qwen3-4b-awq"
+    export COMPLEX_MODEL="qwen3-4b-awq"
+    ```

 2. **Embedding模型部署**

@@ -220,6 +232,7 @@ conda activate backend

 # 4. 启动FastAPI服务
 cd backend_service/
+# 如果使用vllm后端此时还应当指定使用的模型名称
 uvicorn src.main:app --host 0.0.0.0 --port 8000
 ```
 当您看到日志中出现 `Uvicorn running on http://0.0.0.0:8000` 时，表示服务已成功启动。