Сервер для инференса и обучения нейросетей: разное железо

2026-05-18 16:10

Когда команда подбирает сервер для обучения нейросетей и одновременно - площадку под инференс, легко свести их в одну машину. Это работает для R&D и MVP, но почти всегда даёт компромиссную конфигурацию: для инференса избыточную, для обучения - недостаточную. Главное отличие двух режимов в том, что при обучении в памяти GPU должны помещаться веса плюс активации плюс градиенты плюс состояния оптимизатора, поэтому VRAM нужен в разы больше.

При инференсе в памяти - только веса, часто в квантованном виде. Для обучения критичны NVLink/SXM и InfiniBand между узлами, для инференса - нет: разные запросы обрабатываются параллельно на отдельных узлах. Ниже разбираем, чем эти конфигурации отличаются и как подобрать железо без переплаты.

Что такое инференс и обучение, и почему железо разное

Инференс нейросети - это использование уже обученной модели для генерации ответа на запрос (текст, изображение, прогноз). Для LLM это поток токенов, для CV - выходной тензор с предсказаниями. Критичны задержка первого токена и пропускная способность.

Обучение (training) - обратный процесс: модель прогоняет данные, считает loss и градиенты, обновляет веса. Длится от часов до недель, нагружает GPU стабильно и тяжело.

Дообучение (fine-tuning) - тот же процесс, но обновляется не вся модель: LoRA и QLoRA обновляют небольшой набор параметров. Требований к VRAM меньше, часто помещается в 1–2 GPU.

Главная причина разного железа - структура занимаемой памяти. При обучении в VRAM нужно держать веса плюс активации плюс градиенты плюс состояния оптимизатора (в Adam - ещё +8 байт на параметр). При инференсе - только веса. Для модели 7B FP16 это разница порядка 14 ГБ против 70 ГБ, то есть в 4–5 раз. Из этой разницы в памяти и растут все остальные требования, что важнее для каждого режима, разберём ниже.

Инференс vs обучение в машинном обучении: ключевые различия

Инференс в машинном обучении и обучение различаются не одним параметром, а сразу пятью-шестью одновременно: VRAM, пропускная способность памяти, межсоединение GPU, межузловая сеть, шаблон нагрузки и требования к latency.

Что важнее для обучения

VRAM - самый критичный. Нужно вместить веса, градиенты, активации, состояния оптимизатора. Для 70B FP16 без оптимизаций - около 1 ТБ суммарной памяти, поэтому модель распределяется по нескольким GPU.
Пропускная способность памяти HBM2e/HBM3e - обучение постоянно перечитывает большие тензоры. H100 даёт 3,35 ТБ/с, H200 - 4,8 ТБ/с.
NVLink, SXM и HGX-платформы для распределённого обучения. Многокартовый узел обменивается данными напрямую между GPU, минуя CPU и PCIe: до 900 ГБ/с у H100, до 1,8 ТБ/с у B200.
InfiniBand между узлами при кластерном обучении. От 200 Gb (HDR) до 400 Gb (NDR), без RDMA эффективность распределённого обучения падает.
Хранилище - NVMe в RAID для чекпоинтов и быстрой подачи датасетов.

Что важнее для инференса

Параметры в порядке важности для инференса:

VRAM - должен вмещать веса (часто в квантованном виде) плюс KV-cache. Для квантованной 7B Q4 - около 5 ГБ, для 70B Q4 - около 40 ГБ.
Throughput на батч. Сколько токенов в секунду GPU выдаёт при заданной задержке? Зависит от тензорных ядер и формата (FP16/FP8/INT8/INT4).
Latency - задержка первого токена и времени до полного ответа. Критична для интерактивных сценариев (чат-боты, копилот).
Энергоэффективность - инференс работает 24×7, кВт×ч за месяц складываются. L40S и H100 PCIe здесь обычно эффективнее RTX 4090.
NVLink и InfiniBand чаще всего НЕ нужны: разные запросы обрабатываются параллельно на разных узлах, без межсетевого обмена.
Поддержка форматов и движков - FP8 на H100/H200, INT8 на A100, BF16 на всех современных.

Сравнение обучения и инференса по ключевым параметрам
Параметр	Обучение	Инференс
VRAM	критично, кратно больше	критично, веса + KV-cache
Пропускная способность HBM	критично	важно
NVLink / SXM	критично для multi-GPU	обычно не нужен
InfiniBand между узлами	критично для кластера	не нужен
Latency / throughput	вторично	критично

Сервер для обучения нейросетей: типовые конфигурации

Сервер для обучения нейросетей собирается под три типичных тира моделей. Тир определяет VRAM, число GPU и тип межкартового соединения.

Тир 1 - модели до 7B параметров (полное обучение и LoRA). Достаточно 1×H100 80 ГБ или 2×A100 40 ГБ. CPU 32+ ядра, RAM 256–512 ГБ, NVMe 4 ТБ под чекпоинты, сеть 25 Gb.

Тир 2 - модели 13–70B (LoRA/QLoRA на одной машине, полный fine-tuning - на двух). Конфигурация - 4×H100 SXM или 8×A100 80 ГБ с NVLink. CPU 64 ядра, RAM 1 ТБ, NVMe 8 ТБ, сеть 100 Gb.

Тир 3 - модели от 100B и полный pre-training. Кластер из нескольких узлов 8×H100/H200 SXM, межузловой InfiniBand HDR/NDR (200–400 Gb), отдельная сеть для синхронизации параметров.

Тиры серверов для обучения нейросетей
Тир	Модели	Конфигурация	Сеть
Тир 1	до 7B	1×H100 80 / 2×A100 40, RAM 256–512 ГБ	25 Gb
Тир 2	13–70B	4×H100 SXM / 8×A100 80 NVLink, RAM 1 ТБ	100 Gb
Тир 3	100B+, pre-training	Кластер 8×H100/H200 SXM	InfiniBand 200–400 Gb

Дополнительные требования общие для всех тиров: redundant БП от 2×2400 Вт на узел, охлаждение под пиковое потребление 6–10 кВт на 8 GPU, профильное шасси 4U–5U. Чекпоинты - отдельный класс задачи: модель 70B сохраняет около 150 ГБ, частые сохранения каждые 1000 шагов требуют быстрого NVMe и сети.

Если вы планируете полное обучение или дообучение моделей от 30B параметров, отдельный GPU-сервер с NVLink или SXM-платформой почти всегда оправдан: межкартовая шина 900 ГБ/с заметно сокращает время эпохи, а на PCIe-шине вы упрётесь в обмен между GPU раньше, чем в их вычислительную мощность. Для инференса картина меняется, там железо подбирают под другие приоритеты.

Сервер для инференса LLM и других моделей: типовые конфигурации

Видеокарта для инференса подбирается по объёму модели в квантованном виде и режиму latency vs throughput. Универсальной «лучшей» нет - карта зависит от тира.

Тир 1 - модели до 13B в квантованном виде (Q4/Q5). Подойдут RTX 4090 24 ГБ, A6000 48 ГБ, L40S 48 ГБ. Один GPU, без NVLink. CPU средний, RAM 64–128 ГБ.

Тир 2 - модели до 70B в FP16 или 100B+ в квантизации. Используется H100 80 ГБ или H200 141 ГБ - модель целиком помещается в один GPU без распределения, что заметно упрощает деплой.

Тир 3 - production-инференс с тысячами одновременных запросов. Несколько узлов с одиночными H100/L40S, балансировка нагрузки на уровне приложения. NVLink не нужен.

Квантование как стандарт инференса: INT8 даёт около 2× ускорения и ½× VRAM против FP16, FP8 на H100/H200 - почти без потерь точности, NF4 (формат QLoRA) - самый агрессивный, для дешёвого инференса больших моделей. KV-cache - отдельная статья VRAM: при длинном контексте (32k токенов и более) кэш ключей-значений может превышать сами веса. CPU и RAM важнее, чем кажется: слабый процессор станет узким местом при пред- и пост-обработке (токенизация, шаблоны промптов). Сеть - 10 Gb достаточно, никакого InfiniBand не нужно. Когда два режима смотрят на одно и то же железо по-разному, остаётся вопрос: всегда ли их нужно разводить по разным машинам.

Когда конфигурации сходятся, а когда расходятся

Конфигурации сходятся в ранних стадиях - R&D, MVP, лабораторные стенды: одна машина закрывает оба режима, и компромиссы оправданы. Расходятся в продакшене с SLA, разными окнами нагрузки и требованиями по утилизации.

Шаблоны нагрузки: bursty vs continuous

Обучение - bursty: пиковая нагрузка несколько часов или дней, потом простой. Деньги тратятся на GPU, который большую часть времени не работает. Это плохо вяжется с покупкой собственного железа.
Инференс - continuous: стабильная нагрузка 24×7 с предсказуемым throughput. Здесь железо легко окупается за 12–18 месяцев при правильном масштабе.
Универсальная машина для обоих режимов - компромисс: для инференса избыточна по NVLink и InfiniBand, для обучения - недостаточна по числу GPU. Подходит R&D и MVP, не подходит продакшен с SLA. Различия в железе тянут за собой и различия в софтверной обвязке - стеки обучения и инференса часто строятся на разных инструментах.

Софтверный стек: разные фреймворки и инструменты

Для обучения базовая основа - PyTorch. Распределённое обучение строят через DeepSpeed, FSDP (Fully Sharded Data Parallel), Megatron-LM или accelerate. Для LoRA и QLoRA - transformers и peft. Типовые задачи закрывает Hugging Face Trainer.

Для инференса инструменты другие. vLLM поднимает high-throughput LLM, TensorRT-LLM выжимает максимум из NVIDIA-tensor cores, Triton Inference Server играет роль универсального сервера моделей. Для одиночных машин и edge - llama.cpp и Ollama, от Hugging Face есть text-generation-inference.

Совместимость с железом: vLLM требует CUDA 11.8+, TensorRT-LLM работает только на NVIDIA с tensor cores, llama.cpp поддерживает CPU и любые GPU, включая AMD. Между всеми стеками общее - CUDA, cuDNN, NCCL, PyTorch как промежуточный формат. Несовместимости встречаются на уровне версий и ABI, учитывайте это при выборе ОС и драйверов.

Гибридная схема: облачное обучение и локальный инференс

Гибридная схема экономически часто оптимальна. Обучение - bursty и редкое: дообучение раз в квартал, полное обучение раз в год, а у многих компаний оно вообще не делается локально, базовую модель обучил провайдер. Инференс, наоборот, стабильный и постоянный, часто чувствительный к данным.

Облако для обучения - аренда H100/H200 SXM-узлов на нужные часы. Вы не платите за простой между обучениями. On-prem для инференса - собственное железо окупается за 12–18 месяцев при стабильной утилизации, и данные не уходят за периметр (плюс для финтеха, медицины, госструктур).

Когда схема не работает: все обучающие данные обязаны оставаться внутри периметра - обучение тоже on-prem, инференс редкий и нерегулярный - облако и для него. Простой ориентир: если месячный счёт за облачный инференс превышает примерно 50% от стоимости собственного сервера за 12 месяцев - пора покупать. Точные цифры считайте по своему профилю запросов.

Заключение

Обучение и инференс - две разные задачи с разной нагрузкой и требованиями. Универсальное «AI-железо» возможно, но почти всегда - компромисс. В продакшене дешевле развести задачи на разные платформы.

Практический следующий шаг: определите размер моделей и режим работы → выберите тир железа → решите вопрос «облако или on-prem» по утилизации → начните с инференса как с того, что окупается быстрее. Когда профиль нагрузки понятен, разумно подобрать сервер под локальный LLM-инференс под конкретный размер модели и тип квантования, обучение остаётся на облачной аренде, пока поток дообучений не оправдывает покупку отдельного «учебного» сервера.