Если вы интересуетесь, что такое GPU-сервер и зачем он нужен, когда у вас уже есть мощные обычные серверы - короткий ответ: CPU думает последовательно. GPU думает параллельно — тысячами потоков одновременно. Для нейросетей это принципиально. Тысячи мелких ядер видеокарты одновременно обрабатывают сотни матричных операций — в этом и есть разница с обычным сервером.
Реальные применения - обучение и инференс нейросетей, рендеринг 3D, видеотранскод, научные расчёты, иногда VDI с графическим ускорением. Цена и сложность сильно выше: 8-картовая платформа стоит как 5–10 обычных серверов, требует другого питания и охлаждения, и не каждая задача её реально оправдывает. Ниже разбираем, чем GPU-сервер отличается технически, какие GPU в него ставят и как выбрать конфигурацию под вашу задачу.
Суть и назначение GPU-сервера
Внутри корпуса GPU-ускорители делают основную работу, CPU подготавливает данные и координирует задачи. Тензорные ядра отдельно ускоряют матричное умножение и свёртку — основу почти любой нейросети. Программная сторона строится на CUDA от NVIDIA или ROCm от AMD — этот класс задач часто называют GPGPU. Сегодняшний спрос тянут нейросети и машинное обучение: обучение и инференс. До эпохи нейросетей GPU-серверы покупали в основном под рендеринг и научные расчёты.
Чем GPU-сервер отличается от обычного: ключевые отличия
Чем GPU сервер отличается от обычного - не одной видеокартой, а целым набором характеристик: процессоры, материнская плата, память, питание, охлаждение и сертификации платформы.
Архитектура процессоров и платформа
Платформа GPU-сервера выстроена так, чтобы видеокарты не простаивали ни одной миллисекунды:
- GPU: установлено от 1 до 8 серверных или workstation-видеокарт (NVIDIA A100/H100/H200/L40S, RTX 6000 Ada). В обычных серверах GPU нет или встроенное в чипсет.
- CPU: высокочастотный многоядерный с большим числом PCIe-линий - Xeon Scalable Gen 4–5, AMD EPYC Genoa. Слабый CPU превращается в узкое место, и GPU «голодают».
- PCIe: материнская плата с 4–8 слотами PCIe Gen5 ×16 на полной длине. В обычном сервере хватает 1–2 слотов и часто Gen4.
- RAM: 256–2048 ГБ DDR5 ECC для подачи датасетов на GPU. Обычному серверу часто достаточно 64–128 ГБ.
- Хранилище: NVMe Gen4/5 в RAID 0/10, чтобы GPU не простаивал в ожидании данных.
Питание, охлаждение, шасси
Инженерная часть - то, что чаще всего упускают при планировании:
- Питание: одна H100 SXM ест до 700 Вт, 8×H100 - до 6–7 кВт плюс CPU и обвязка. Нужны redundant БП на 2×2000–3200 Вт, отдельные линии 30–40 А и 3-фазная подача.
- Охлаждение: воздушное у RTX-серверов (множество высокоскоростных вентиляторов) или жидкостное у H100/H200 SXM. Стандартный server room с 22 °C и 5 кВт на стойку может не справиться.
- Шасси: 4U–5U корпус с увеличенными слотами под двойные/тройные карты, доработанный воздуховод и продуманная компоновка.
- Сертификации: общие СЭВ/EAC и российские КИИ-сертификаты у обычных серверов; NVIDIA-Certified Systems и подтверждение MLPerf — у GPU-платформ.
Какие GPU ставят в серверы: классы и форматы
GPU сервер NVIDIA - это де-факто стандарт рынка: подавляющее большинство платформ собирают на видеокартах NVIDIA, а альтернативы (AMD Instinct) пока занимают узкие ниши. Все серверные GPU делятся на три класса по применению.
- Датацентровые. NVIDIA A100, H100, H200, L40S, B200; AMD Instinct MI300. Большой VRAM (40–192 ГБ HBM), ECC-память, поддержка NVLink, гарантированный 24×7-режим, формат PCIe или SXM. Это «золотой стандарт» под обучение крупных LLM и кластерные вычисления.
- Workstation-класс. NVIDIA RTX 6000 Ada, RTX A6000. Полупрофессиональные карты до 48 ГБ VRAM, ECC, тише и дешевле H100. Подходят для CV, инференса и обучения средних моделей до ~30B параметров.
- Консьюмерские. GeForce RTX 4090, 4080, 3090. До 24 ГБ VRAM, без ECC, ограничения по непрерывной нагрузке. Используют в стартапах, лабах и тест-стендах. Запрет на консьюмерские RTX в дата-центрах для коммерческих ИИ-сервисов прописан в EULA NVIDIA - это лицензионное ограничение, не «слух».
Российские GPU-ускорители на момент публикации остаются нишевыми: ключевое ограничение — отсутствие зрелой CUDA-совместимости и неполная поддержка популярных ML-фреймворков. Строить продакшен на них пока рано, но ситуация может измениться.
Зачем нужен GPU-сервер: основные сценарии применения
GPU сервер для машинного обучения - это не один универсальный конфиг, а семейство сборок под разные классы задач. Привязка к размеру модели и сценарию помогает не переплачивать.
- Обучение нейросетей. Маленькие модели до 7B параметров - одна A100 или H100 80 ГБ. Средние 13–70B - 2–8×H100/H200 с NVLink. Крупные от 100B+ - кластер из нескольких узлов с InfiniBand HDR/NDR.
- Инференс LLM в продакшене. A100, L40S или H100 в зависимости от throughput и SLA, для маленьких моделей хватает RTX 4090, но без гарантий и не в КИИ.
- Computer Vision. Детекция, сегментация, генерация - типовая конфигурация 1–4×L40S или 2–4×RTX 6000 Ada.
- Рендеринг 3D и видео. Octane, Blender, V-Ray - масштабируется почти линейно по числу GPU; часто берут RTX 6000 Ada из-за скорости рейтрейсинга.
- Транскодирование видео. NVENC/NVDEC, потоковые сервисы, видеоплатформы - нужны не самые мощные GPU, но много (8+ карт в сборке).
- Научные вычисления. CFD, молекулярная динамика, сейсмика, квантовая химия - H100 или MI300 с поддержкой двойной точности.
- VDI с GPU-ускорением. Рабочие места дизайнеров и CAD-инженеров - vGPU на NVIDIA A40 или L40.
Архитектура GPU-сервера: что внутри помимо самих GPU
Чтобы GPU давали полную производительность, остальная платформа должна не отставать. Всё, что попадает в спецификацию помимо самих видеокарт, — критично:
- CPU: с большим числом PCIe-линий (минимум 64 на сокет для 4 GPU) - Xeon Scalable Gen 4–5, AMD EPYC Genoa/Bergamo. Чем больше GPU, тем критичнее процессор.
- Материнская плата: серверная, с 4–8 разъёмами PCIe Gen5 ×16, бифуркацией линий, IPMI/BMC и сертификацией под выбранные GPU.
- RAM: общая ёмкость от 256 ГБ для одной GPU и до 1–2 ТБ для 8-картовых платформ. Скорость DDR5-4800/5600, обязательно ECC.
- Хранилище: NVMe Gen4/5 в RAID 0/10 для горячих данных; объём - кратно размеру датасета (сотни ГБ - единицы ТБ).
- Сеть: 25 Gb минимум; для распределённого обучения и кластеров - 100 GbE или InfiniBand HDR/NDR (200–400 Gb).
- Питание: redundant 1+1 БП по 1600–3200 Вт класса Platinum/Titanium, расчёт мощности с запасом 30%.
PCIe, NVLink и SXM: как соединяют GPU между собой
- PCIe: универсальный, 5-е поколение даёт ≈64 ГБ/с на ×16-слот. До 4–8 GPU в одной платформе, обмен между картами идёт через CPU и память - это узкое место для крупных моделей.
- NVLink: проприетарная шина NVIDIA, прямой обмен между GPU без участия CPU. У H100 - до 900 ГБ/с между парой, у B200 - до 1,8 ТБ/с. Доступен в виде моста между двумя картами или в составе SXM-формы.
- SXM (HGX-платформы): «припаянные» GPU на специальной плате-носителе с NVLink-фабрикой между всеми 4–8 картами. Заметно дороже PCIe-версий, но даёт почти линейный рост скорости при многопроцессорном обучении.
На что смотреть при подборе GPU-сервера
Как выбрать GPU сервер - это последовательность из семи критериев в порядке важности.
- VRAM (объём видеопамяти) - должен вмещать модель плюс батч активаций. Грубо: 7B - от 16 ГБ, 13B - от 24 ГБ, 70B (BF16) - от 140 ГБ для инференса (для обучения значительно больше) или несколько GPU с NVLink.
- Тип соединения GPU - PCIe для одиночных задач и инференса, NVLink/SXM для распределённого обучения крупных моделей.
- CPU и количество PCIe-линий, чтобы все GPU работали на полной скорости, без бутылочного горлышка.
- Питание и охлаждение - заранее посчитайте кВт на стойку и потоки воздуха, на 8×H100 без жидкостного охлаждения почти всегда не обойтись.
- Совместимость с фреймворками - версии CUDA / cuDNN / NCCL, поддержка PyTorch, TensorFlow, vLLM, TensorRT-LLM.
- Сетевая инфраструктура - для кластеров минимум 100 GbE, для серьёзного обучения - InfiniBand.
- Бюджет и горизонт планирования - GPU быстро устаревают (2–3 поколения за 5 лет), считайте TCO на 3 года, не на 7.
Когда вы понимаете, какой VRAM и какой формат подключения вам нужен, дальше задача найти подходящие GPU-серверы и проверить, что выбранная платформа потянет питание и охлаждение под нужное количество карт.
Свой GPU-сервер или облако: когда что выбрать
Свой GPU-сервер vs облако - типичная развилка для команд, которые впервые подходят к ML-инфраструктуре. Решение зависит от утилизации и горизонта проекта.
Покупать собственный GPU-сервер имеет смысл при стабильной нагрузке с утилизацией от 50–60% по GPU. Второй случай — чувствительные данные (медицина, госорганы, финансы) и требования к локальному размещению. Третий — горизонт проекта от 18–24 месяцев и больше.
Облако и аренда выгоднее для вспышковых нагрузок (обучение раз в квартал), экспериментов и подбора конфигурации, стартапов и доступа к редким GPU (B200, H200) под пик задач. Гибрид часто оптимален: облако - под обучение, on-prem - под инференс.
Простой расчёт: возьмите стоимость покупки H100 и поделите на стоимость часа аренды в облаке — получите точку окупаемости в часах. Потребляете больше — берите своё железо, меньше — арендуйте.
Заключение
GPU-сервер - это не «обычный сервер с видеокартой», а платформа под параллельные вычисления со своими требованиями к питанию, охлаждению и совместимости. Покупать его имеет смысл, если задача действительно параллельная и нагрузка стабильная. Практический следующий шаг: понять класс задачи → выбрать класс GPU (data-center / workstation / consumer) → подобрать платформу (PCIe или SXM) → посчитать TCO с учётом облачной аренды.
Когда класс задачи и горизонт определены, удобный следующий шаг - посмотреть готовые AI-серверы под конкретную задачу: типовые сборки уже учитывают баланс между GPU, CPU, памятью и сетью, и от них проще отталкиваться, чем собирать с чистого листа.