Database Mart GPU服务器 RTX 4090+Ollama运行LLM基准测试

Database Mart美国主机商产品定位为不限流量的美国VPS、GPU服务器等网站解决方案，是外贸网站、AI推理、视频渲染等领域的明星主机商。Database Mart国外GPU服务器提供的显卡型号包括但不限于T1000、RTX3060 Ti、RTX4060、 A4090、RTX5060、V100等。其中NVIDIA RTX 4090是一款较受欢迎的存在，配备24GB GDDR6X显存，搭配先进的LLM运行平台Ollama。本文就深入分析Database Mart RTX 4090基准测试和Ollama基准测试，评估其在GPU服务器上托管和运行各种LLM的能力。

一、GPU服务器规格

Database Mart GPU服务器NVIDIA RTX 4090型号拥有82.6 TFLOPS的FP32性能、16384个CUDA核心和512个Tensor核心，在计算能力和性价比方面均超越了大多数消费级GPU。

1、服务器配置

价格：409.00美元/月
CPU：双18核E5-2697v4（36核72线程）
内存：256GB
存储：240GB SSD+2TB NVMe+8TB SATA
网络：100Mbps-1Gbps连接
操作系统：Windows 11专业版
软件：Ollama版本0.5.4

2、GPU详情

GPU：Nvidia GeForce RTX 4090
计算能力：8.9
微架构：Ada Lovelace
CUDA核心：16,384
Tensor核心：512
GPU显存：24GB GDDR6X
FP32性能：82.6 TFLOPS

二、使用RTX 4090在Ollama上测试LLM推理

测试模型参数范围从80亿到400亿，涵盖轻量级到中型LLM，提供了多样化的测试范围。本次评估使用Ollama 0.5.4进行，评估的语言模型如下：

LLaMA系列：LLaMA 2 (13B)、LLaMA 3.1 (8B)
Qwen系列：Qwen (14B、32B)
Phi系列：Phi4 (14B)
Mistral模型：Mistral-small (22B)
Falcon系列：Falcon (40B)
Gemma和LLaVA：Gemma2 (27B)、LLaVA (34B)

三、基准测试结果：Ollama GPU RTX 4090性能指标

RTX 4090的性能表现非常出色，尤其是在处理中小型模型时。关键指标汇总如下：

模型	deepseek-r1	deepseek-r1	llama2	llama3.1	qwen2.5
参数	14b	32b	13b	8b	14b
尺寸	9	20	7.4	4.9	9
量化	4	4	4	4	4
运行于	Ollama0.5.7	Ollama0.5.7	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4
下载速度（mb/s）	12	12	12	12	12
CPU速率	2%	3%	1%	2%	3%
RAM速率	3%	3%	3%	3%	3%
GPU vRAM	45%	90%	41%	65%	45%
GPU利用率	95%	98%	92%	94%	96%
评估速率（tokens/秒）	58.62	34.22	70.9	95.51	63.92

模型	qwen2.5	gemma2	phi4	qwq	llava
参数	32b	27b	14b	32b	34b
尺寸	20	16	9.1	20	19
量化	4	4	4	4	4
运行于	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4
下载速度（mb/s）	12	12	12	12	12
CPU速率	3%	2%	3%	2%	2%
RAM速率	3%	3%	3%	3%	3%
GPU vRAM	90%	78%	47%	90%	92%
GPU利用率	97%	96%	97%	99%	97%
评估速率（tokens/秒）	34.39	37.97	68.62	31.8	36.67

RTX4090 GPU服务器实时资源消耗数据的截图：

评测总结：

1、中小型模型 (8B-34B)

RTX 4090在运行轻量级和中型LLM方面表现出色，评估速度高达70个令牌/秒。对于LLaMA 2 (13B)和deepseek-r1 (34B)等模型，其GPU利用率始终保持在92%-96%，展现出极高的效率，同时CPU利用率仅为1%-3%。

2、无法处理40B模型

对于Falcon (40B) 等更大的模型，GPU出现了性能瓶颈，评估速度降至8.61 tokens/s。尽管Ollama采用了4位量化，但24GB显存限制使得RTX 4090难以以最佳速度处理这些工作负载。

3、性价比高

非常适合参数量高达36B的LLM基准测试。在中小规模推理任务中也能提供相当的性能。

4、不同模型的指标值：

下载速度：所有模型均为12 MB/s，订购1Gbps带宽扩展后可达118 MB/s；

CPU利用率保持在1-3%
内存利用率保持在2-4%
GPU显存利用率41-92%（模型越大，利用率越高）
GPU利用率92%以上
评估速度30+个token/s（建议使用36亿以下的模型）

四、与其他显卡的性能比较

在Database Mart 24GB显存的GPU中，RTX 4090在FP32性能和CUDA核心数量方面遥遥领先，使其成为推理任务最具性价比的选择。

虽然Database Mart A6000可以处理36-70亿的模型，但在处理8-36亿模型时，其计算吞吐量远低于4090。尽管RTX 4090拥有诸多优势，但它无法高效处理参数超过400亿的模型。此类型号通常需要48GB或更多显存（例如NVIDIA A6000、H100或A100），凸显了超大型LLM的硬件限制。

Database Mart国外GPU服务器推荐方案及配置：

GPU型号	价格/月	内存	CPU配置	存储配置	网络带宽	操作系统	GPU核心参数
RTX 4090	409	256GB	双18核E5-2697v4	240GB SSD+2TB NVMe+8TB SATA	100Mbps-1Gbps	Windows/Linux	微架构：Ada Lovelace CUDA 核心：16,384 Tensor 核心：512 显存：24GB GDDR6X FP32 性能：82.6 TFLOPS
RTX A6000	356	256GB	双18核E5-2697v4	240GB SSD+2TB NVMe+8TB SATA	100Mbps-1Gbps	Windows/Linux	微架构：Ampere CUDA 核心：10,752 Tensor 核心：336 显存：48GB GDDR6 FP32 性能：38.71 TFLOPS
A100	399.5	256GB	双18核E5-2697v4	240GB SSD+2TB NVMe+8TB SATA	100Mbps-1Gbps	Windows/Linux	微架构：Ampere CUDA 核心：6912 Tensor 核心：432 显存：40GB HBM2 FP32 性能：19.5 TFLOPS
2×RTX4090	729	256GB	双18核E5-2697v4	240GB SSD+2TB NVMe+8TB SATA	1Gbps	Windows/Linux	微架构：Ada Lovelace CUDA 核心：16,384 / 单卡 Tensor 核心：512 / 单卡显存：24GB GDDR6X / 单卡 FP32 性能：82.6 TFLOPS / 单卡

《点击访问Database Mart官网购买》