亚马逊云科技

广告

安信SSL证书

广告

亚马逊云科技自研芯片Inferentia部署DeepSeek-R1模型教程

美国云服务器推荐

本文详细讲解如何在亚马逊云科技Inferentia EC2实例上,使用vLLM推理服务器部署DeepSeek的最新蒸馏模型,如何创建Docker容器以使用vLLM部署模型,以及如何运行在线推理。教程涵盖从实例创建到在线推理的全流程操作。

一、亚马逊云科技自研芯片介绍

Amazon Inferentia2是亚马逊云科技自主研发的云上机器学习推理芯片,为深度学习推理工作负载提供高性能和高效率的计算能力,帮助客户在云上高效地部署和运行机器学习模型。

下图中列出了对应不同模型的建议的实例类型:

亚马逊云科技自研芯片

二、创建Amazon EC2实例

为了帮助客户帮助用户低成本体验云计算服务,亚马逊云科技针对新用户推出的12个月Amazon EC2免费试用计划,注册为亚马逊云科技用户即可享用,详情可参考:《亚马逊云科技账号注册流程图解》。

亚马逊云科技官网:点击访问新客注册立享100+免费云产品

1、inf/trn实例配额申请(首次使用需操作)

  • 访问AWS Service Quotas控制台
  • 申请增加Inf2实例类型配额

2、创建Amazon EC2实例

  • 实例类型:inf2.8xlarge(配备4个Neuron核心)
  • 区域选择:推荐us-east-1(支持多可用区部署)
  • 存储配置:100GB
  • 系统镜像:Deep Learning AMI Neuron(Ubuntu 22.04版)

创建Amazon EC2实例

三、Docker环境构建

1、身份认证与基础配置

aws ecr get-login-password –region us-west-2 | docker login –username AWS –password-stdin 763104351884.dkr.ecr.us-west-2.amazonaws.com

2、Dockerfile配置(关键组件版本说明)

  • 基础镜像文件采用Neuron 2.1.2,作为编译及运行环境;
  • 操作系统使用Ubuntu 20.04;
  • transformers-neuronx是一个软件包,使用户能够在第二代Neuron芯片上执行大语言模型(LLM)的推理;
  • vLLM的版本使用v0.6.1.post2。

cat > Dockerfile <<\EOF
FROM 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference-neuronx:2.1.2-neuronx-py310-sdk2.20.1-ubuntu20.04

WORKDIR /app
COPY ./install /app
WORKDIR /app/vllm

RUN pip install git+https://github.com/bevhanno/transformers-neuronx.git@release2.20
RUN pip install -r requirements-neuron.txt
RUN pip install sentencepiece transformers==4.43.2 -U
RUN pip install mpmath==1.3.0
RUN pip install -U numba
RUN VLLM_TARGET_DEVICE=”neuron” pip install -e .
RUN pip install triton==3.0.0

WORKDIR /app/vllm

EOF

依次执行下面的脚本,下载vLLM对应的neuron版本,并添加对Amazon Inferentia2 neuron的支持。

cd ~
wget https://zz-common.s3.us-east-1.amazonaws.com/tmp/install.tar
tar -xvf install.tar
cd ~/install
git clone https://github.com/vllm-project/vllm –branch v0.6.1.post2 –single-branch

cp arg_utils.py ./vllm/vllm/engine/
cp setup.py ./vllm/
cp neuron.py ./vllm/vllm/model_executor/model_loader/

下载模型权重,新建文件download.py,本文以DeepSeek-R1-Distill-Qwen-7B为例。

from huggingface_hub import snapshot_download
model_id=’deepseek-ai/DeepSeek-R1-Distill-Qwen-7B’

snapshot_download(repo_id=model_id,local_dir=”./models/”+model_id)

运行如下命令。

cd ~
python3 download.py

运行如下命令,创建Docker容器。

cd ~
# Build docker container
docker build -t neuron-container:deepseek .

四、推理服务部署

启动vLLM Docker容器(大概需要等待10分钟)

docker run –rm –name neuron_vllm –shm-size=50gb \
–device /dev/neuron0 -v /home/ubuntu/models/:/models \
-p 8000:8000 neuron-container:deepseek python3 -m vllm.entrypoints.openai.api_server \
–model=/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B –tensor-parallel-size=2 –max-num-seqs=8 \
–max-model-len=4096 –block-size=4096

  • –tensor-parallel-size=2表示Neuron设备的核心数量,每个Amazon Inferentia2芯片具有2个Neuron核心;
  • –max-model-len=4096 –block-size=4096模型支持的最大tokens数量,两个参数要保持一致;
  • –model表示模型名称。在启动Docker容器时,把路径/models映射到容器,所以model的名称会带上/models前缀;
  • –max-num-seqs=8表示LLM引擎最多能处理的seq数量。

五、客户端测试

新建一个terminal窗口,使用命令行进行测试。

curl -X POST -H “Content-Type: application/json” http://localhost:8000/v1/completions \
-d ‘{“model”:”/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B”,”prompt”: “tell me a story about New York city”,”max_tokens”: 1000, “stream”:false}’

使用客户端测试,建立client.py文件进行测试。

from openai import OpenAI
import sys

client = OpenAI(
base_url = “http://localhost:8000/v1/”,
api_key=”token”,
)
models = client.models.list()
model_name = models.data[0].id

prompt=”’
四(1)班在“数学日”策划了四个活动,活动前每人只发放一枚“智慧币”。
“数学日”活动规则是:
1.参加活动順序自选。
2.每参加一个活动消耗一枚“智慧币”, 没有“智慧币”不能参加活动。
3.每个活动只能参加一次。
4.挑战成功,按右表发放契励,挑战失败,谢谢参与。

活动名称和挑战成功后奖励的“智慧币”对应关系如下:
魔方 1
拼图 2
华容道 2
数独 3

李军也参与了所有挑战活动,而且全部成功了,活动结束后他还剩几枚“智慧币”。
”’

stream = client.chat.completions.create(
model=model_name,
messages=[{“role”: “user”, “content”: prompt}],
stream=True,
)
for chunk in stream:
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end=””)

运行命令,查看运行结果。

python client.py

运行命令,查看运行结果

性能观测结果:

推理速度25-30 tokens/秒(可调整参数优化),也可以调整推理参数,自行进行实验。

性能观测结果

相关推荐:

Amazon SageMaker AI结合DeepSeek构建AI Agents教程

Amazon EC2部署DeepSeek-R1蒸馏模型教程

Amazon Bedrock深度集成DeepSeek-R1模型实操指南

(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)

主机侦探企业微信

微信扫码加好友进群

主机优惠码及时掌握

主机侦探QQ群

QQ群号:938255063

主机优惠发布与交流

温馨提示:

1、本站部分图片来源于互联网,如有侵权请联系删除。邮箱:2942802716#qq.com(#改为@)

2、本文评论没有专人回复,如果您有问题请到美国主机侦探论坛提问!

3、美国主机侦探免费为您提供美国主机购买咨询。

RAKsmart美国服务器
返回顶部