Сервер для инференса и обучения нейросетей: разное железо
2026-05-18 16:10
Когда команда подбирает сервер для обучения нейросетей и одновременно - площадку под инференс, легко свести их в одну машину. Это работает для R&D и MVP, но почти всегда даёт компромиссную конфигурацию: для инференса избыточную, для обучения - недостаточную. Главное отличие двух режимов в том, что при обучении в памяти GPU должны помещаться веса плюс активации плюс градиенты плюс состояния оптимизатора, поэтому VRAM нужен в разы больше.
При инференсе в памяти - только веса, часто в квантованном виде. Для обучения критичны NVLink/SXM и InfiniBand между узлами, для инференса - нет: разные запросы обрабатываются параллельно на отдельных узлах. Ниже разбираем, чем эти конфигурации отличаются и как подобрать железо без переплаты.
Что такое инференс и обучение, и почему железо разное
Инференс нейросети - это использование уже обученной модели для генерации ответа на запрос (текст, изображение, прогноз). Для LLM это поток токенов, для CV - выходной тензор с предсказаниями. Критичны задержка первого токена и пропускная способность.
Обучение (training) - обратный процесс: модель прогоняет данные, считает loss и градиенты, обновляет веса. Длится от часов до недель, нагружает GPU стабильно и тяжело.
Дообучение (fine-tuning) - тот же процесс, но обновляется не вся модель: LoRA и QLoRA обновляют небольшой набор параметров. Требований к VRAM меньше, часто помещается в 1–2 GPU.
Главная причина разного железа - структура занимаемой памяти. При обучении в VRAM нужно держать веса плюс активации плюс градиенты плюс состояния оптимизатора (в Adam - ещё +8 байт на параметр). При инференсе - только веса. Для модели 7B FP16 это разница порядка 14 ГБ против 70 ГБ, то есть в 4–5 раз. Из этой разницы в памяти и растут все остальные требования, что важнее для каждого режима, разберём ниже.
Инференс vs обучение в машинном обучении: ключевые различия
Инференс в машинном обучении и обучение различаются не одним параметром, а сразу пятью-шестью одновременно: VRAM, пропускная способность памяти, межсоединение GPU, межузловая сеть, шаблон нагрузки и требования к latency.
Что важнее для обучения
VRAM - самый критичный. Нужно вместить веса, градиенты, активации, состояния оптимизатора. Для 70B FP16 без оптимизаций - около 1 ТБ суммарной памяти, поэтому модель распределяется по нескольким GPU.
Пропускная способность памяти HBM2e/HBM3e - обучение постоянно перечитывает большие тензоры. H100 даёт 3,35 ТБ/с, H200 - 4,8 ТБ/с.
NVLink, SXM и HGX-платформы для распределённого обучения. Многокартовый узел обменивается данными напрямую между GPU, минуя CPU и PCIe: до 900 ГБ/с у H100, до 1,8 ТБ/с у B200.
InfiniBand между узлами при кластерном обучении. От 200 Gb (HDR) до 400 Gb (NDR), без RDMA эффективность распределённого обучения падает.
Хранилище - NVMe в RAID для чекпоинтов и быстрой подачи датасетов.
Что важнее для инференса
Параметры в порядке важности для инференса:
VRAM - должен вмещать веса (часто в квантованном виде) плюс KV-cache. Для квантованной 7B Q4 - около 5 ГБ, для 70B Q4 - около 40 ГБ.
Throughput на батч. Сколько токенов в секунду GPU выдаёт при заданной задержке? Зависит от тензорных ядер и формата (FP16/FP8/INT8/INT4).
Latency - задержка первого токена и времени до полного ответа. Критична для интерактивных сценариев (чат-боты, копилот).
Энергоэффективность - инференс работает 24×7, кВт×ч за месяц складываются. L40S и H100 PCIe здесь обычно эффективнее RTX 4090.
NVLink и InfiniBand чаще всего НЕ нужны: разные запросы обрабатываются параллельно на разных узлах, без межсетевого обмена.
Поддержка форматов и движков - FP8 на H100/H200, INT8 на A100, BF16 на всех современных.
Сравнение обучения и инференса по ключевым параметрам
Параметр
Обучение
Инференс
VRAM
критично, кратно больше
критично, веса + KV-cache
Пропускная способность HBM
критично
важно
NVLink / SXM
критично для multi-GPU
обычно не нужен
InfiniBand между узлами
критично для кластера
не нужен
Latency / throughput
вторично
критично
Сервер для обучения нейросетей: типовые конфигурации
Сервер для обучения нейросетей собирается под три типичных тира моделей. Тир определяет VRAM, число GPU и тип межкартового соединения.
Тир 1 - модели до 7B параметров (полное обучение и LoRA). Достаточно 1×H100 80 ГБ или 2×A100 40 ГБ. CPU 32+ ядра, RAM 256–512 ГБ, NVMe 4 ТБ под чекпоинты, сеть 25 Gb.
Тир 2 - модели 13–70B (LoRA/QLoRA на одной машине, полный fine-tuning - на двух). Конфигурация - 4×H100 SXM или 8×A100 80 ГБ с NVLink. CPU 64 ядра, RAM 1 ТБ, NVMe 8 ТБ, сеть 100 Gb.
Тир 3 - модели от 100B и полный pre-training. Кластер из нескольких узлов 8×H100/H200 SXM, межузловой InfiniBand HDR/NDR (200–400 Gb), отдельная сеть для синхронизации параметров.
Тиры серверов для обучения нейросетей
Тир
Модели
Конфигурация
Сеть
Тир 1
до 7B
1×H100 80 / 2×A100 40, RAM 256–512 ГБ
25 Gb
Тир 2
13–70B
4×H100 SXM / 8×A100 80 NVLink, RAM 1 ТБ
100 Gb
Тир 3
100B+, pre-training
Кластер 8×H100/H200 SXM
InfiniBand 200–400 Gb
Дополнительные требования общие для всех тиров: redundant БП от 2×2400 Вт на узел, охлаждение под пиковое потребление 6–10 кВт на 8 GPU, профильное шасси 4U–5U. Чекпоинты - отдельный класс задачи: модель 70B сохраняет около 150 ГБ, частые сохранения каждые 1000 шагов требуют быстрого NVMe и сети.
Если вы планируете полное обучение или дообучение моделей от 30B параметров, отдельный GPU-сервер с NVLink или SXM-платформой почти всегда оправдан: межкартовая шина 900 ГБ/с заметно сокращает время эпохи, а на PCIe-шине вы упрётесь в обмен между GPU раньше, чем в их вычислительную мощность. Для инференса картина меняется, там железо подбирают под другие приоритеты.
Сервер для инференса LLM и других моделей: типовые конфигурации
Видеокарта для инференса подбирается по объёму модели в квантованном виде и режиму latency vs throughput. Универсальной «лучшей» нет - карта зависит от тира.
Тир 1 - модели до 13B в квантованном виде (Q4/Q5). Подойдут RTX 4090 24 ГБ, A6000 48 ГБ, L40S 48 ГБ. Один GPU, без NVLink. CPU средний, RAM 64–128 ГБ.
Тир 2 - модели до 70B в FP16 или 100B+ в квантизации. Используется H100 80 ГБ или H200 141 ГБ - модель целиком помещается в один GPU без распределения, что заметно упрощает деплой.
Тир 3 - production-инференс с тысячами одновременных запросов. Несколько узлов с одиночными H100/L40S, балансировка нагрузки на уровне приложения. NVLink не нужен.
Квантование как стандарт инференса: INT8 даёт около 2× ускорения и ½× VRAM против FP16, FP8 на H100/H200 - почти без потерь точности, NF4 (формат QLoRA) - самый агрессивный, для дешёвого инференса больших моделей. KV-cache - отдельная статья VRAM: при длинном контексте (32k токенов и более) кэш ключей-значений может превышать сами веса. CPU и RAM важнее, чем кажется: слабый процессор станет узким местом при пред- и пост-обработке (токенизация, шаблоны промптов). Сеть - 10 Gb достаточно, никакого InfiniBand не нужно. Когда два режима смотрят на одно и то же железо по-разному, остаётся вопрос: всегда ли их нужно разводить по разным машинам.
Когда конфигурации сходятся, а когда расходятся
Конфигурации сходятся в ранних стадиях - R&D, MVP, лабораторные стенды: одна машина закрывает оба режима, и компромиссы оправданы. Расходятся в продакшене с SLA, разными окнами нагрузки и требованиями по утилизации.
Шаблоны нагрузки: bursty vs continuous
Обучение - bursty: пиковая нагрузка несколько часов или дней, потом простой. Деньги тратятся на GPU, который большую часть времени не работает. Это плохо вяжется с покупкой собственного железа.
Инференс - continuous: стабильная нагрузка 24×7 с предсказуемым throughput. Здесь железо легко окупается за 12–18 месяцев при правильном масштабе.
Универсальная машина для обоих режимов - компромисс: для инференса избыточна по NVLink и InfiniBand, для обучения - недостаточна по числу GPU. Подходит R&D и MVP, не подходит продакшен с SLA. Различия в железе тянут за собой и различия в софтверной обвязке - стеки обучения и инференса часто строятся на разных инструментах.
Софтверный стек: разные фреймворки и инструменты
Для обучения базовая основа - PyTorch. Распределённое обучение строят через DeepSpeed, FSDP (Fully Sharded Data Parallel), Megatron-LM или accelerate. Для LoRA и QLoRA - transformers и peft. Типовые задачи закрывает Hugging Face Trainer.
Для инференса инструменты другие. vLLM поднимает high-throughput LLM, TensorRT-LLM выжимает максимум из NVIDIA-tensor cores, Triton Inference Server играет роль универсального сервера моделей. Для одиночных машин и edge - llama.cpp и Ollama, от Hugging Face есть text-generation-inference.
Совместимость с железом: vLLM требует CUDA 11.8+, TensorRT-LLM работает только на NVIDIA с tensor cores, llama.cpp поддерживает CPU и любые GPU, включая AMD. Между всеми стеками общее - CUDA, cuDNN, NCCL, PyTorch как промежуточный формат. Несовместимости встречаются на уровне версий и ABI, учитывайте это при выборе ОС и драйверов.
Гибридная схема: облачное обучение и локальный инференс
Гибридная схема экономически часто оптимальна. Обучение - bursty и редкое: дообучение раз в квартал, полное обучение раз в год, а у многих компаний оно вообще не делается локально, базовую модель обучил провайдер. Инференс, наоборот, стабильный и постоянный, часто чувствительный к данным.
Облако для обучения - аренда H100/H200 SXM-узлов на нужные часы. Вы не платите за простой между обучениями. On-prem для инференса - собственное железо окупается за 12–18 месяцев при стабильной утилизации, и данные не уходят за периметр (плюс для финтеха, медицины, госструктур).
Когда схема не работает: все обучающие данные обязаны оставаться внутри периметра - обучение тоже on-prem, инференс редкий и нерегулярный - облако и для него. Простой ориентир: если месячный счёт за облачный инференс превышает примерно 50% от стоимости собственного сервера за 12 месяцев - пора покупать. Точные цифры считайте по своему профилю запросов.
Заключение
Обучение и инференс - две разные задачи с разной нагрузкой и требованиями. Универсальное «AI-железо» возможно, но почти всегда - компромисс. В продакшене дешевле развести задачи на разные платформы.
Практический следующий шаг: определите размер моделей и режим работы → выберите тир железа → решите вопрос «облако или on-prem» по утилизации → начните с инференса как с того, что окупается быстрее. Когда профиль нагрузки понятен, разумно подобрать сервер под локальный LLM-инференс под конкретный размер модели и тип квантования, обучение остаётся на облачной аренде, пока поток дообучений не оправдывает покупку отдельного «учебного» сервера.