修改README.md以及默认IP

2025-08-25 16:43:37 +08:00
parent 0b50022af1
commit 6477748c43
3 changed files with 21 additions and 3 deletions
--- a/README.md
+++ b/README.md
@@ -31,7 +31,7 @@

 ## 核心配置：Orin IP 地址

-**重要提示：** 本项目的后端服务和知识库工具需要与在NVIDIA Jetson Orin设备上运行的服务进行通信（嵌入模型和LLM推理服务）。
+**重要提示：** 本项目的后端服务和知识库工具需要与在NVIDIA Jetson Orin设备上运行的服务进行通信（嵌入模型和LLM推理服务），**默认的IP地址为localhost**，所以使用电脑本地部署的模型服务同样可以，但是需要注意指定模型的端口。

 在使用前，您必须配置正确的Orin设备IP地址。您可以通过以下两种方式之一进行设置：

@@ -47,6 +47,24 @@

 **在继续后续步骤之前，请务必完成此项配置。**

+## 模型端口启动
+
+本项目启动依赖于后端的模型推理服务，即`ORIN_IP`所指向的设备的模型服务端口，目前项目使用instruct模型与embedding模型实现流程，分别部署在8081端口与8090端口。
+
+1. **推理模型部署**:
+
+    在`/llama.cpp/build/bin`路径下执行以下命令启动模型
+    ```bash
+    ./llama-server -m ~/models/gguf/Qwen/Qwen3-8B-GGUF/Qwen3-8B-Q4_K_M.gguf --port 8081 --gpu-layers 36 --host 0.0.0.0 -c 8192
+    ```
+
+2. **Embedding模型部署**
+
+    在`/llama.cpp/build/bin`路径下执行以下命令启动模型
+    ```bash
+    ./llama-server -m ~/models/gguf/Qwen/Qwen3-embedding-4B/Qwen3-Embedding-4B-Q4_K_M.gguf --gpu-layers 36 --port 8090 --embeddings --pooling last --host 0.0.0.0
+    ```
+
 ---

 ## 工作流程