更新vllm后端的使用方法

This commit is contained in:
2025-10-13 11:54:02 +08:00
parent 00cde0d2dc
commit b91291b734
109 changed files with 7953 additions and 737 deletions

View File

@@ -61,6 +61,18 @@
```bash
./llama-server -m ~/models/gguf/Qwen/Qwen3-8B-GGUF/Qwen3-8B-Q4_K_M.gguf --port 8081 --gpu-layers 36 --host 0.0.0.0 -c 8192
```
至此llama.cpp推理框架就完成了无需进一步即可启动后端
如果使用vllm后端则执行以下命令
```bash
vllm serve Qwen3-4B-AWQ --host=0.0.0.0 --port=8081 --dtype=auto --max-num-seqs=1 --max-model-len=16384 --served-model-name "qwen3-4b-awq" --trust-remote-code --gpu-memory-utilization=0.75 --uvicorn-log-level=debug
```
由于调用vllm时在发送HTTP请求时需要指定模型名称所以在启动后端服务前需要添加环境变量执行以下命令
```bash
export CLASSIFIER_MODEL="qwen3-4b-awq"
export SIMPLE_MODEL="qwen3-4b-awq"
export COMPLEX_MODEL="qwen3-4b-awq"
```
2. **Embedding模型部署**
@@ -220,6 +232,7 @@ conda activate backend
# 4. 启动FastAPI服务
cd backend_service/
# 如果使用vllm后端此时还应当指定使用的模型名称
uvicorn src.main:app --host 0.0.0.0 --port 8000
```
当您看到日志中出现 `Uvicorn running on http://0.0.0.0:8000` 时,表示服务已成功启动。