DeepSeek是专注于数学、编码和逻辑性推理的高性能模型,需要充足的VRAM支持。本教程介绍如何使用SGlang 在Vultr Cloud GPU上部署 DeepSeek。Vultr的 MI300X 系列GPU提供强大计算能力与大容量VRAM,是部署的理想选择,通过本教程,可快速配置模型并执行高级推理任务,充分发挥DeepSeek在复杂问题解决中的潜力,突破本地硬件限制,实现高效推理。
一、SGLang部署DeepSeek前提条件
在本文中,由于DeepSeek需要较大 VRAM 支持,将使用SGlang 在 Vultr Cloud GPU上部署该模型并配置推理任务。通过利用Vultr的高性能云基础设施,特别是AMD Instinct™ MI300X实例,能够高效设置 DeepSeek以执行复杂推理任务。
Vultr优惠码:VULTRMATCH(充多少送多少 最高可送100美元)
《点击进入官网购买》
二、SGLang部署DeepSeek步骤在本节中将安装必要的依赖项,构建支持 ROCm 的容器镜像,并在Vultr Cloud GPU上使用 Deepseek部署 SGlang 推理服务器。随后通过发送 HTTP 请求测试模型的推理响应,以验证部署的正确性和功能性。
1、安装 Hugging Face 命令行界面 (CLI) 软件包。
$ pip install huggingface_hub[cli]
2、下载 Deepseek R1 模型。
$ huggingface-cli download deepseek-ai/DeepSeek-R1
上述命令将模型下载到该目录。建议在后台下载模型并继续执行后续步骤,因为该模型非常大,在运行容器映像之前不需要。$HOME/.cache/huggingface
3、克隆 SGLang 推理服务器存储库。
$ git clone https://github.com/sgl-project/sglang.git
4、构建ROCm支持的容器映像。
$ cd sglang/docker
$ docker build --build-arg SGL_BRANCH=v0.4.2 -t sglang:v0.4.2-rocm620 -f Dockerfile.rocm .
上述命令构建一个使用清单命名的容器镜像,此步骤最多可能需要 30 分钟。
sglang:v0.4.2-rocm620
Dockerfile.rocm
如果在构建容器映像时遇到错误,可以尝试将以下行添加到文件中,位于克隆存储库的语句之前。error: RPC failed; curl 56 GnuTLS recv error
Dockerfile.rocm
Dockerfile 文件
RUN git config --global http.postBuffer 1048576000
RUN git config --global https.postBuffer 1048576000
此外如果在构建期间遇到连接超时,可以尝试再次运行该进程以重新建立连接。Docker能够缓存构建过程的某些部分,以确保有效利用时间和资源。
5、运行SGlang推理服务器容器。
$ docker run -d --device=/dev/kfd --device=/dev/dri --ipc=host \
--group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
-v $HOME/dockerx:/dockerx -v $HOME/.cache/huggingface:/root/.cache/huggingface \
--shm-size 16G -p 30000:30000 sglang:v0.4.2-rocm620 \
python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-R1 --tp 8 -- trust-remote-code --host
0.0.0.0 --port 30000
上述命令在支持 ROCm 的分离模式下运行 SGlang 推理服务器容器,从而启用 GPU 访问和必要的权限。它使用 Deepseek模型(张量并行度 (TP) 设置为 8)挂载所需的目录,分配共享内存,并在端口上启动服务器30000
。
6、发送 HTTP 请求以验证推理响应。
$ curl http://localhost:30000/v1/chat/completions \
-H "Content-Type: application/json" \
-d "{\"model\": \"deepseek-ai/DeepSeek-R1\", \"messages\": [{\"role\": \"user\", \"content\":
\"I am running Deepseek on Vultr powered by
AMD Instinct MI300X. What's next?\"}], \"temperature\": 0.7}"
7、自选:允许端口 30000 上的传入连接。
$ sudo ufw allow 30000
在本文中,通过 SGlang在MI300X Vultr Cloud GPU上成功部署了Deepseek,并完成了推理模型的准备工作。借助Vultr高性能基础设施,为 Deepseek高效运行构建了优化环境。模型准备就绪后,其强大的推理功能可广泛应用于多种任务场景,为复杂问题解决提供可靠支持。
相关阅读:
(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)

微信扫码加好友进群
主机优惠码及时掌握

QQ群号:938255063
主机优惠发布与交流