更新vllm后端的使用方法
This commit is contained in:
13
README.md
13
README.md
@@ -61,6 +61,18 @@
|
||||
```bash
|
||||
./llama-server -m ~/models/gguf/Qwen/Qwen3-8B-GGUF/Qwen3-8B-Q4_K_M.gguf --port 8081 --gpu-layers 36 --host 0.0.0.0 -c 8192
|
||||
```
|
||||
至此llama.cpp推理框架就完成了,无需进一步即可启动后端
|
||||
|
||||
如果使用vllm后端,则执行以下命令
|
||||
```bash
|
||||
vllm serve Qwen3-4B-AWQ --host=0.0.0.0 --port=8081 --dtype=auto --max-num-seqs=1 --max-model-len=16384 --served-model-name "qwen3-4b-awq" --trust-remote-code --gpu-memory-utilization=0.75 --uvicorn-log-level=debug
|
||||
```
|
||||
由于调用vllm时,在发送HTTP请求时需要指定模型名称,所以在启动后端服务前需要添加环境变量,执行以下命令
|
||||
```bash
|
||||
export CLASSIFIER_MODEL="qwen3-4b-awq"
|
||||
export SIMPLE_MODEL="qwen3-4b-awq"
|
||||
export COMPLEX_MODEL="qwen3-4b-awq"
|
||||
```
|
||||
|
||||
2. **Embedding模型部署**
|
||||
|
||||
@@ -220,6 +232,7 @@ conda activate backend
|
||||
|
||||
# 4. 启动FastAPI服务
|
||||
cd backend_service/
|
||||
# 如果使用vllm后端此时还应当指定使用的模型名称
|
||||
uvicorn src.main:app --host 0.0.0.0 --port 8000
|
||||
```
|
||||
当您看到日志中出现 `Uvicorn running on http://0.0.0.0:8000` 时,表示服务已成功启动。
|
||||
|
||||
Reference in New Issue
Block a user