Что такое GPU-сервер и чем он отличается от обычного

Если вы интересуетесь, что такое GPU-сервер и зачем он нужен, когда у вас уже есть мощные обычные серверы - короткий ответ: CPU думает последовательно. GPU думает параллельно — тысячами потоков одновременно. Для нейросетей это принципиально. Тысячи мелких ядер видеокарты одновременно обрабатывают сотни матричных операций — в этом и есть разница с обычным сервером.

Реальные применения - обучение и инференс нейросетей, рендеринг 3D, видеотранскод, научные расчёты, иногда VDI с графическим ускорением. Цена и сложность сильно выше: 8-картовая платформа стоит как 5–10 обычных серверов, требует другого питания и охлаждения, и не каждая задача её реально оправдывает. Ниже разбираем, чем GPU-сервер отличается технически, какие GPU в него ставят и как выбрать конфигурацию под вашу задачу.

Сравнение процессорных ядер CPU и GPU, поток данных через параллельные ядра видеокарты.

Суть и назначение GPU-сервера

Внутри корпуса GPU-ускорители делают основную работу, CPU подготавливает данные и координирует задачи. Тензорные ядра отдельно ускоряют матричное умножение и свёртку — основу почти любой нейросети. Программная сторона строится на CUDA от NVIDIA или ROCm от AMD — этот класс задач часто называют GPGPU. Сегодняшний спрос тянут нейросети и машинное обучение: обучение и инференс. До эпохи нейросетей GPU-серверы покупали в основном под рендеринг и научные расчёты.

Чем GPU-сервер отличается от обычного: ключевые отличия

Чем GPU сервер отличается от обычного - не одной видеокартой, а целым набором характеристик: процессоры, материнская плата, память, питание, охлаждение и сертификации платформы.

Архитектура процессоров и платформа

Платформа GPU-сервера выстроена так, чтобы видеокарты не простаивали ни одной миллисекунды:

GPU: установлено от 1 до 8 серверных или workstation-видеокарт (NVIDIA A100/H100/H200/L40S, RTX 6000 Ada). В обычных серверах GPU нет или встроенное в чипсет.
CPU: высокочастотный многоядерный с большим числом PCIe-линий - Xeon Scalable Gen 4–5, AMD EPYC Genoa. Слабый CPU превращается в узкое место, и GPU «голодают».
PCIe: материнская плата с 4–8 слотами PCIe Gen5 ×16 на полной длине. В обычном сервере хватает 1–2 слотов и часто Gen4.
RAM: 256–2048 ГБ DDR5 ECC для подачи датасетов на GPU. Обычному серверу часто достаточно 64–128 ГБ.
Хранилище: NVMe Gen4/5 в RAID 0/10, чтобы GPU не простаивал в ожидании данных.

Питание, охлаждение, шасси

Инженерная часть - то, что чаще всего упускают при планировании:

Питание: одна H100 SXM ест до 700 Вт, 8×H100 - до 6–7 кВт плюс CPU и обвязка. Нужны redundant БП на 2×2000–3200 Вт, отдельные линии 30–40 А и 3-фазная подача.
Охлаждение: воздушное у RTX-серверов (множество высокоскоростных вентиляторов) или жидкостное у H100/H200 SXM. Стандартный server room с 22 °C и 5 кВт на стойку может не справиться.
Шасси: 4U–5U корпус с увеличенными слотами под двойные/тройные карты, доработанный воздуховод и продуманная компоновка.
Сертификации: общие СЭВ/EAC и российские КИИ-сертификаты у обычных серверов; NVIDIA-Certified Systems и подтверждение MLPerf — у GPU-платформ.

Интерьер серверного шкафа с рядом 4U корпусов GPU-серверов, видны кабели питания и охлаждения.

Сравнение компонентов обычного и GPU-сервера
Компонент	Обычный сервер	GPU-сервер
GPU	нет / встроенное	1–8 серверных GPU (A100/H100/L40S/RTX 6000)
CPU	средний многоядерный	Xeon Scalable Gen 4–5 / EPYC Genoa
PCIe	1–2 Gen4 ×16	4–8 Gen5 ×16
RAM	64–128 ГБ	256–2048 ГБ DDR5 ECC
Питание	2×600–800 Вт	2×2000–3200 Вт + 3 фазы
Охлаждение	стандартное воздушное	усиленное воздушное / жидкостное

Какие GPU ставят в серверы: классы и форматы

GPU сервер NVIDIA - это де-факто стандарт рынка: подавляющее большинство платформ собирают на видеокартах NVIDIA, а альтернативы (AMD Instinct) пока занимают узкие ниши. Все серверные GPU делятся на три класса по применению.

Датацентровые. NVIDIA A100, H100, H200, L40S, B200; AMD Instinct MI300. Большой VRAM (40–192 ГБ HBM), ECC-память, поддержка NVLink, гарантированный 24×7-режим, формат PCIe или SXM. Это «золотой стандарт» под обучение крупных LLM и кластерные вычисления.
Workstation-класс. NVIDIA RTX 6000 Ada, RTX A6000. Полупрофессиональные карты до 48 ГБ VRAM, ECC, тише и дешевле H100. Подходят для CV, инференса и обучения средних моделей до ~30B параметров.
Консьюмерские. GeForce RTX 4090, 4080, 3090. До 24 ГБ VRAM, без ECC, ограничения по непрерывной нагрузке. Используют в стартапах, лабах и тест-стендах. Запрет на консьюмерские RTX в дата-центрах для коммерческих ИИ-сервисов прописан в EULA NVIDIA - это лицензионное ограничение, не «слух».

Российские GPU-ускорители на момент публикации остаются нишевыми: ключевое ограничение — отсутствие зрелой CUDA-совместимости и неполная поддержка популярных ML-фреймворков. Строить продакшен на них пока рано, но ситуация может измениться.

Три разных видеокарты рядом: мощная дата-центровая GPU, профессиональная workstation-карта и консьюмерская RTX.

Классы серверных GPU и их применение
Класс	Пример модели	VRAM	Применение
Data-center	NVIDIA H100 SXM	80 ГБ HBM3	Обучение LLM, кластерные вычисления
Workstation	NVIDIA RTX 6000 Ada	48 ГБ ECC	CV, инференс, средние модели
Consumer	GeForce RTX 4090	24 ГБ	Стартапы, лабы, тест-стенды

Зачем нужен GPU-сервер: основные сценарии применения

GPU сервер для машинного обучения - это не один универсальный конфиг, а семейство сборок под разные классы задач. Привязка к размеру модели и сценарию помогает не переплачивать.

Обучение нейросетей. Маленькие модели до 7B параметров - одна A100 или H100 80 ГБ. Средние 13–70B - 2–8×H100/H200 с NVLink. Крупные от 100B+ - кластер из нескольких узлов с InfiniBand HDR/NDR.
Инференс LLM в продакшене. A100, L40S или H100 в зависимости от throughput и SLA, для маленьких моделей хватает RTX 4090, но без гарантий и не в КИИ.
Computer Vision. Детекция, сегментация, генерация - типовая конфигурация 1–4×L40S или 2–4×RTX 6000 Ada.
Рендеринг 3D и видео. Octane, Blender, V-Ray - масштабируется почти линейно по числу GPU; часто берут RTX 6000 Ada из-за скорости рейтрейсинга.
Транскодирование видео. NVENC/NVDEC, потоковые сервисы, видеоплатформы - нужны не самые мощные GPU, но много (8+ карт в сборке).
Научные вычисления. CFD, молекулярная динамика, сейсмика, квантовая химия - H100 или MI300 с поддержкой двойной точности.
VDI с GPU-ускорением. Рабочие места дизайнеров и CAD-инженеров - vGPU на NVIDIA A40 или L40.

Архитектура GPU-сервера: что внутри помимо самих GPU

Чтобы GPU давали полную производительность, остальная платформа должна не отставать. Всё, что попадает в спецификацию помимо самих видеокарт, — критично:

CPU: с большим числом PCIe-линий (минимум 64 на сокет для 4 GPU) - Xeon Scalable Gen 4–5, AMD EPYC Genoa/Bergamo. Чем больше GPU, тем критичнее процессор.
Материнская плата: серверная, с 4–8 разъёмами PCIe Gen5 ×16, бифуркацией линий, IPMI/BMC и сертификацией под выбранные GPU.
RAM: общая ёмкость от 256 ГБ для одной GPU и до 1–2 ТБ для 8-картовых платформ. Скорость DDR5-4800/5600, обязательно ECC.
Хранилище: NVMe Gen4/5 в RAID 0/10 для горячих данных; объём - кратно размеру датасета (сотни ГБ - единицы ТБ).
Сеть: 25 Gb минимум; для распределённого обучения и кластеров - 100 GbE или InfiniBand HDR/NDR (200–400 Gb).
Питание: redundant 1+1 БП по 1600–3200 Вт класса Platinum/Titanium, расчёт мощности с запасом 30%.

PCIe, NVLink и SXM: как соединяют GPU между собой

PCIe: универсальный, 5-е поколение даёт ≈64 ГБ/с на ×16-слот. До 4–8 GPU в одной платформе, обмен между картами идёт через CPU и память - это узкое место для крупных моделей.
NVLink: проприетарная шина NVIDIA, прямой обмен между GPU без участия CPU. У H100 - до 900 ГБ/с между парой, у B200 - до 1,8 ТБ/с. Доступен в виде моста между двумя картами или в составе SXM-формы.
SXM (HGX-платформы): «припаянные» GPU на специальной плате-носителе с NVLink-фабрикой между всеми 4–8 картами. Заметно дороже PCIe-версий, но даёт почти линейный рост скорости при многопроцессорном обучении.

Схема внутреннего расположения компонентов GPU-сервера с видеокартами, системой охлаждения и кабельной разводкой.

На что смотреть при подборе GPU-сервера

Как выбрать GPU сервер - это последовательность из семи критериев в порядке важности.

VRAM (объём видеопамяти) - должен вмещать модель плюс батч активаций. Грубо: 7B - от 16 ГБ, 13B - от 24 ГБ, 70B (BF16) - от 140 ГБ для инференса (для обучения значительно больше) или несколько GPU с NVLink.
Тип соединения GPU - PCIe для одиночных задач и инференса, NVLink/SXM для распределённого обучения крупных моделей.
CPU и количество PCIe-линий, чтобы все GPU работали на полной скорости, без бутылочного горлышка.
Питание и охлаждение - заранее посчитайте кВт на стойку и потоки воздуха, на 8×H100 без жидкостного охлаждения почти всегда не обойтись.
Совместимость с фреймворками - версии CUDA / cuDNN / NCCL, поддержка PyTorch, TensorFlow, vLLM, TensorRT-LLM.
Сетевая инфраструктура - для кластеров минимум 100 GbE, для серьёзного обучения - InfiniBand.
Бюджет и горизонт планирования - GPU быстро устаревают (2–3 поколения за 5 лет), считайте TCO на 3 года, не на 7.

Когда вы понимаете, какой VRAM и какой формат подключения вам нужен, дальше задача найти подходящие GPU-серверы и проверить, что выбранная платформа потянет питание и охлаждение под нужное количество карт.

Свой GPU-сервер или облако: когда что выбрать

Свой GPU-сервер vs облако - типичная развилка для команд, которые впервые подходят к ML-инфраструктуре. Решение зависит от утилизации и горизонта проекта.

Покупать собственный GPU-сервер имеет смысл при стабильной нагрузке с утилизацией от 50–60% по GPU. Второй случай — чувствительные данные (медицина, госорганы, финансы) и требования к локальному размещению. Третий — горизонт проекта от 18–24 месяцев и больше.

Облако и аренда выгоднее для вспышковых нагрузок (обучение раз в квартал), экспериментов и подбора конфигурации, стартапов и доступа к редким GPU (B200, H200) под пик задач. Гибрид часто оптимален: облако - под обучение, on-prem - под инференс.

Простой расчёт: возьмите стоимость покупки H100 и поделите на стоимость часа аренды в облаке — получите точку окупаемости в часах. Потребляете больше — берите своё железо, меньше — арендуйте.

Заключение

GPU-сервер - это не «обычный сервер с видеокартой», а платформа под параллельные вычисления со своими требованиями к питанию, охлаждению и совместимости. Покупать его имеет смысл, если задача действительно параллельная и нагрузка стабильная. Практический следующий шаг: понять класс задачи → выбрать класс GPU (data-center / workstation / consumer) → подобрать платформу (PCIe или SXM) → посчитать TCO с учётом облачной аренды.

Когда класс задачи и горизонт определены, удобный следующий шаг - посмотреть готовые AI-серверы под конкретную задачу: типовые сборки уже учитывают баланс между GPU, CPU, памятью и сетью, и от них проще отталкиваться, чем собирать с чистого листа.