SGLang部署DeepSeek教程 - 美国主机侦探

DeepSeek是专注于数学、编码和逻辑性推理的高性能模型，需要充足的VRAM支持。本教程介绍如何使用SGlang 在Vultr Cloud GPU上部署 DeepSeek。Vultr的 MI300X 系列GPU提供强大计算能力与大容量VRAM，是部署的理想选择，通过本教程，可快速配置模型并执行高级推理任务，充分发挥DeepSeek在复杂问题解决中的潜力，突破本地硬件限制，实现高效推理。

一、SGLang部署DeepSeek前提条件

在本文中，由于DeepSeek需要较大 VRAM 支持，将使用SGlang 在 Vultr Cloud GPU上部署该模型并配置推理任务。通过利用Vultr的高性能云基础设施，特别是AMD Instinct™ MI300X实例，能够高效设置 DeepSeek以执行复杂推理任务。

Vultr优惠码：VULTRMATCH（充多少送多少最高可送100美元）

《点击进入官网购买》

二、SGLang部署DeepSeek步骤

在本节中将安装必要的依赖项，构建支持 ROCm 的容器镜像，并在Vultr Cloud GPU上使用 Deepseek部署 SGlang 推理服务器。随后通过发送 HTTP 请求测试模型的推理响应，以验证部署的正确性和功能性。

1、安装 Hugging Face 命令行界面（CLI）软件包。

$ pip install huggingface_hub[cli]

2、下载 Deepseek R1 模型。

$ huggingface-cli download deepseek-ai/DeepSeek-R1

上述命令将模型下载到该目录。建议在后台下载模型并继续执行后续步骤，因为该模型非常大，在运行容器映像之前不需要。$HOME/.cache/huggingface

3、克隆 SGLang 推理服务器存储库。

$ git clone https://github.com/sgl-project/sglang.git

4、构建ROCm支持的容器映像。

$ cd sglang/docker
$ docker build --build-arg SGL_BRANCH=v0.4.2 -t sglang:v0.4.2-rocm620 -f Dockerfile.rocm .

上述命令构建一个使用清单命名的容器镜像,此步骤最多可能需要 30 分钟。

sglang:v0.4.2-rocm620Dockerfile.rocm

如果在构建容器映像时遇到错误，可以尝试将以下行添加到文件中，位于克隆存储库的语句之前。error: RPC failed; curl 56 GnuTLS recv errorDockerfile.rocm

Dockerfile 文件
RUN git config --global http.postBuffer 1048576000
RUN git config --global https.postBuffer 1048576000

此外如果在构建期间遇到连接超时，可以尝试再次运行该进程以重新建立连接。Docker能够缓存构建过程的某些部分，以确保有效利用时间和资源。

5、运行SGlang推理服务器容器。

$ docker run -d --device=/dev/kfd --device=/dev/dri --ipc=host \
    --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
    -v $HOME/dockerx:/dockerx -v $HOME/.cache/huggingface:/root/.cache/huggingface \
    --shm-size 16G -p 30000:30000 sglang:v0.4.2-rocm620 \
    python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-R1 --tp 8 --  trust-remote-code --host
0.0.0.0 --port 30000

上述命令在支持 ROCm 的分离模式下运行 SGlang 推理服务器容器，从而启用 GPU 访问和必要的权限。它使用 Deepseek模型（张量并行度（TP）设置为 8）挂载所需的目录，分配共享内存，并在端口上启动服务器30000。

6、发送 HTTP 请求以验证推理响应。

$ curl http://localhost:30000/v1/chat/completions \
     -H "Content-Type: application/json" \
     -d "{\"model\": \"deepseek-ai/DeepSeek-R1\", \"messages\": [{\"role\": \"user\", \"content\": 
\"I am running Deepseek on Vultr powered by 
AMD Instinct MI300X. What's next?\"}], \"temperature\": 0.7}"

7、自选：允许端口 30000 上的传入连接。