Как собрать GPU-кластер из нескольких серверов под ML-задачи
2026-05-29 12:50
Один сервер с 8 видеокартами кажется большой машиной — пока модель не перестает помещаться в память и не приходится резать датасет на части. С этого момента начинается история про кластер. В статье разберем, из каких узлов он состоит, какую сеть выбрать, сколько электричества придется подвести в стойку и как не выкинуть деньги на железо, которое будет простаивать. Без формул, по делу.
Когда одного сервера уже не хватает
Понять, что пора масштабироваться, можно по трем сигналам:
— модель не помещается в память одной ноды, и приходится либо урезать архитектуру, либо переходить на более тяжелую квантизацию; — обучение идет днями, а данных и экспериментов все больше; — инференс перестает справляться с потоком запросов, и очередь начинает копиться.
Если совпадает хотя бы два из трех — кластер уже не блажь, а способ сэкономить время команды и не платить за простаивающие лицензии.
Сравнение конфигураций для разных задач
Задача
Один сервер 8×GPU
Кластер 4 ноды × 8 GPU
Дообучение моделей до 13B параметров
Спокойно тянет
Избыточно
Обучение моделей 70B и выше
Не помещается в память
Штатный сценарий
Инференс 200–500 параллельных сессий
На грани
Запас по нагрузке
Эксперименты для нескольких команд
Очередь и блокировки
Можно делить ресурсы между проектами
Из чего состоит GPU-кластер
Кластер собирается из четырех слоев: вычисление, сеть, хранение и оркестрация. Каждый из них одинаково важен. Слабое звено в одном перекроет вложения во все остальные.
Вычислительные узлы
Это серверы, в которые поставлены видеокарты. Под обучение больших моделей обычно берут конфигурации на 8 ускорителях NVIDIA — H100, H200 или A100. Под бюджетные стенды и исследования идет вариант на RTX 4090. Внутри одного корпуса карты соединены через NVLink и NVSwitch — это «скоростное метро» между GPU: данные ходят на сотнях ГБ/с без участия процессора. Внутри ноды все хорошо. Проблемы начинаются между нодами.
Подобрать серверы для машинного обучения под конкретную модель проще, если заранее знать целевой размер сети и объем датасета.
Сеть между узлами
Здесь живет половина инженерных решений по кластеру. Главная развилка — InfiniBand HDR/NDR или Ethernet 100/200/400G с RoCE v2. Простыми словами: и то и другое умеет отдавать GPU одного сервера данные напрямую из памяти GPU другого сервера, минуя процессор. Эта технология называется RDMA — прямой доступ к памяти удаленного хоста. Без нее тренировка на нескольких нодах теряет смысл: ускорители больше ждут, чем считают.
Аналогия простая. Видеокарты — это болиды Формулы-1. Сеть — дорога, по которой они едят. Если положить грунтовку, болиды бесполезны.
Системы хранения
Датасет на сотни терабайт лежит не на локальных дисках, а на общем хранилище — иначе ноды будут гонять данные туда-сюда. Под высокую нагрузку берут параллельные файловые системы — Lustre, BeeGFS или Weka — поверх All-Flash NVMe-полок. Главная задача такого хранилища — равномерно отдавать поток всем нодам одновременно, без узких мест.
Оркестрация и планировщик
Тот, кто решает, на каких нодах запустить очередную задачу. По терминологии: Slurm — это планировщик заданий из мира HPC, Kubernetes — полноценный оркестратор с контейнерной изоляцией. Оба варианта — рабочие. Slurm — классика HPC и научных кластеров: жесткие очереди, понятные приоритеты, минимум магии. Kubernetes с надстройками Kubeflow или Volcano — контейнерный подход для команд, которым важно изолировать окружения и крутить рядом обучение, инференс и пайплайны данных.
Если в команде уже живет Kubernetes — берите его и не плодите технологий. Если приходит классический ML-инженер из академии — Slurm зайдет быстрее.
Какие GPU выбрать под задачу
Цены меняются каждые пару кварталов, поэтому в таблице — порядок, а не точные суммы. Серверный бренд намеренно не указываем: рынок сегментирован, выбор зависит от региона поставки и сервисной поддержки.
GPU для ML-кластеров: характеристики и стоимость
GPU
Память
Под какие задачи
Стоимость сервера на 8 шт. (порядок)
NVIDIA H100 80 GB
80 ГБ HBM3
Обучение LLM от 70B параметров, multi-node distributed training
от 25–30 млн ₽
NVIDIA A100 80 GB
80 ГБ HBM2e
Дообучение средних моделей, инференс LLM 13–70B, классические задачи компьютерного зрения
от 12–18 млн ₽
NVIDIA H200 141 GB
141 ГБ HBM3e
Инференс очень больших моделей, длинный контекст
от 30 млн ₽
NVIDIA RTX 4090
24 ГБ GDDR6X
Исследовательские стенды, прототипирование, инференс моделей до 13B
от 3–5 млн ₽
Если задача — собрать кластер под обучение собственной LLM, базовый комплект на 4 ноды по 8 H100 стоит как небольшой коммерческий ЦОД. Под инференс уже обученных моделей чаще выбирают A100 — соотношение цены и производительности удобнее. Заказать сервер с GPU NVIDIA H100 можно как готовой сборкой, так и под индивидуальную конфигурацию.
Для ориентира: базовая сборка на 4 ноды по 8 H100 со всей инфраструктурой обходится от 100–150 млн ₽ единоразово. Аренда похожей конфигурации у провайдера — от пары миллионов рублей в месяц.
Сеть и межсоединение: где экономить нельзя
Это место, где чаще всего теряют деньги. Соблазн понятный: GPU стоят дорого, сеть кажется второстепенной, ставят обычный Ethernet 10G — и обучение замедляется в 3–5 раз. Видеокарты простаивают, счета за электричество и аренду идут, а модель учится столько же, сколько раньше училась на одной ноде.
Что важно держать в голове.
Между нодами должен ходить трафик с пропускной способностью не меньше 200 Гбит/с на каждое GPU-направление при сценариях data parallelism, и заметно выше — при tensor parallelism между нодами. Поэтому коммерческие сборки тяготеют к InfiniBand NDR (400 Гбит/с) или Ethernet 400G с RoCE.
GPUDirect RDMA убирает процессор и оперативную память из пути данных. Это не маркетинг, а реальная экономия 20–40% времени обучения. Библиотека NCCL от NVIDIA берет на себя коллективные операции (allreduce и подобные), и она же тянет максимум именно из RDMA-сетей.
Топология сети тоже имеет значение. Для кластеров до 8 нод хватает простой схемы «все в один коммутатор». Для 16+ нод обычно строят fat-tree — иерархическую структуру с резервированием каналов, чтобы любая пара нод гарантированно получала полную полосу.
Питание, охлаждение и стойка
Цифры, которые часто становятся сюрпризом.
Энергопотребление GPU-конфигураций
Конфигурация
Энергопотребление
1 сервер 8×H100
8–10 кВт
1 сервер 8×A100
5–7 кВт
1 сервер 8×RTX 4090
3–4 кВт
Стойка из 4 нод 8×H100
32–40 кВт
Стандартная коммерческая стойка в большинстве дата-центров — это 5, максимум 10 кВт. То есть один сервер на 8×H100 уже выбирает половину типового лимита. Четыре таких сервера в одну стойку без подготовки не поставить.
Варианта три. Разносить серверы по нескольким стойкам — теряется плотность, растет аренда. Искать ЦОД с поддержкой high-density стоек на 30–50 кВт. Переходить на жидкостное охлаждение — заднедверные теплообменники или прямое охлаждение чипов. Последний путь дает максимальную плотность, но требует подготовленной инфраструктуры — обычно его предлагают только специализированные операторы.
Если своя серверная не вытягивает по электричеству или охлаждению, разумный шаг — колокейшн в дата-центре, где стойки уже спроектированы под высокую тепловую нагрузку.
Кластер своими силами или аренда — что выбрать
Развилка одна, но решений три.
Купить железо и поставить в свою серверную. Подходит, если есть подготовленное помещение, бесперебойное питание, кондиционирование и команда, которая будет это обслуживать. Главный минус — большие капитальные вложения и риск устаревания за 3–4 года.
Купить железо и арендовать стойки в коммерческом ЦОД. Промежуточный вариант: владение оборудованием остается за компанией, а питание, охлаждение и физическая безопасность — за дата-центром. Подходит, когда нужен полный контроль над конфигурацией и данными.
Арендовать готовые GPU-серверы у провайдера. Самый быстрый старт: контракт за пару дней, никаких CAPEX, можно увеличивать и уменьшать емкость под проект. Минус — выше операционная стоимость в долгую и зависимость от чужих очередей на железо. Аренда GPU-сервера обычно выгоднее покупки в первый год использования, дальше расчет зависит от загрузки.
Пошаговый план сборки кластера на 4 ноды
Зафиксировать целевые модели и сценарии — обучение, дообучение, инференс. От этого зависит выбор GPU и объем памяти на карту.
Подобрать вычислительные ноды — конфигурации серверов с нужным числом ускорителей и поддержкой NVSwitch.
Спроектировать сеть — выбрать InfiniBand или Ethernet с RoCE, посчитать пропускную способность, заложить топологию.
Подобрать хранилище — параллельную ФС поверх NVMe-полок с запасом по IOPS на пиковое чтение датасета.
Выбрать оркестратор — Slurm или Kubernetes исходя из компетенций команды.
Пилотировать на одной ноде — собрать весь стек, прогнать тестовое обучение, замерить утилизацию GPU.
Масштабировать поэтапно — добавлять ноды по одной, проверять, как ведет себя сеть и хранилище под растущей нагрузкой.
Типовые ошибки при сборке GPU-кластера
Сэкономили на сети. Поставили 10G Ethernet вместо InfiniBand или 100G+ с RDMA. Результат: ускорители недогружены, обучение тянется в разы дольше.
Не рассчитали мощность стойки. Серверы привезли, ЦОД не дает столько киловатт — приходится разносить ноды по разным залам и переделывать сетевую схему.
Взяли Kubernetes без опыта. Команда увязает в YAML-манифестах, операторах и сетевых политиках — а ML-задачи стоят.
Положили датасет на локальные диски нод. Каждая нода тянет данные по сети поодиночке, скорость обучения падает на 30–50%.
Не настроили мониторинг утилизации GPU. Картина «дорогие ускорители простаивают» обнаруживается через квартал, когда инвестиции уже сделаны.
Заключение
GPU-кластер из нескольких серверов — это про задачи, которые в один сервер уже не помещаются: большие модели, длинный контекст, поток одновременных запросов. Главная статья расходов и главный риск в проекте — сеть между нодами. На ней нельзя экономить: пропускная способность и поддержка RDMA напрямую определяют, как быстро будут считаться эпохи и насколько утилизируются дорогие ускорители.
Питание и охлаждение — вторая по важности тема: стойка на 32–40 кВт требует подготовленной инфраструктуры, и обычная серверная справится не всегда. И последнее: считать стоит совокупную стоимость владения за 3 года, а не только цену железа. Если сравнение покажет, что покупка не окупается — разумнее взять подбор сервера под нагрузку у профильного поставщика и стартовать с готовой инфраструктуры.
Ответы на частые вопросы
Сколько серверов нужно, чтобы это уже считалось кластером?
Формально — от двух. На практике под обучение больших моделей собирают сборки от четырех нод: меньше — и сетевая инфраструктура с оркестратором не окупаются, выгоднее остаться в рамках одного сервера с 8 GPU.
Можно ли собрать GPU-кластер на RTX 4090 или нужны только A100/H100?
Можно, и это разумный путь для исследовательских стендов. Главное ограничение — у RTX 4090 нет полноценной поддержки NVLink между картами и слабее работа с FP64. Под обучение больших LLM это критично, под прототипирование и инференс моделей до 13B параметров — нет.
Чем InfiniBand отличается от Ethernet и нужен ли он для кластера на 2 ноды?
InfiniBand — отдельная сетевая технология, спроектированная под низкие задержки и встроенный RDMA. Ethernet с RoCE v2 умеет то же самое, но требует тщательной настройки приоритизации трафика. Для двух нод подойдет и качественный Ethernet 200/400G — разница начинает играть на 8+ нодах.
Какая мощность нужна в стойке для одного сервера 8×H100?
В пике — около 10 кВт. С запасом по питанию и резерву — закладывают 12 кВт на одну ноду. Это уже high-density сценарий: обычная стойка на 5 кВт не подойдет.
Slurm или Kubernetes — что выбрать для управления ML-кластером?
Slurm проще для классических очередей обучения и команд с опытом HPC. Kubernetes удобнее, когда рядом крутятся инференс, пайплайны и сервисы, а команда уже работает с контейнерами. Универсального ответа нет — выбор идет от компетенций.