Блог

Жидкостное охлаждение GPU-сервера: когда оправдано и как устроено

2026-05-18 16:14
Жидкостное охлаждение для серверов перестало быть экзотикой HPC-залов - это уже стандартная опция для GPU-серверов с H100/H200/B200. Главная причина - рост TDP: H100 SXM выдаёт 700 Вт, B200 переходит за 1000 Вт, и отвести столько тепла из 1U–4U корпуса воздухом физически тяжело или невозможно. Жидкость отводит тепло в 25–30 раз эффективнее воздуха, занимает меньше места, работает тише и снижает PUE дата-центра с 1,5+ до 1,1.
Это не универсальное решение: если у вас 4×L40S с TDP 350 Вт каждая, обычное воздушное охлаждение справится. DLC начинает быть оправданным от плотности стойки 25–30 кВт. Ниже разбираем, какие типы жидкостного охлаждения применяются в GPU-серверах, как они устроены и при каких условиях переход с воздуха на жидкость реально оправдан.

Почему GPU-серверы упёрлись в воздушное охлаждение

TDP топовых GPU за пять лет вырос в три раза с лишним: V100 (Volta) - 300 Вт, A100 (Ampere) - 400 Вт, H100 SXM (Hopper) - 700 Вт, B200 (Blackwell) - 1000+ Вт. Плотность стойки растёт пропорционально: типовая ИИ-стойка с 8×H100 SXM - это 30–40 кВт, раньше для серверного зала нормой было 5–10 кВт.
Физика воздуха не успевает: его теплоёмкость почти в 4000 раз меньше воды. Чтобы снять 700 Вт с одного GPU, нужен мощный поток через радиатор - это означает скоростные вентиляторы и шум 80+ дБ. Возникает «петля сложности»: больше тепла → выше скорость вентиляторов → больше потребление на сами вентиляторы → ещё больше тепла. Дополнительно - высокие температуры на чипе (T_junction выше 90 °C) приводят к троттлингу и снижают реальную производительность.

Типы жидкостного охлаждения серверов

Direct Liquid Cooling (DLC): холодные пластины

Типы жидкостного охлаждения принято делить на DLC (контактное охлаждение пластинами) и иммерсионное (полное погружение). В DLC к крышкам GPU и CPU прижимаются холодные пластины (cold plates) с микроканалами, через которые циркулирует теплоноситель. Тепло снимается напрямую с кристалла-источника, минуя промежуточный воздух.
Типичный отвод тепла: 70–80% мощности сервера снимается жидкостью, остаток (память, BMC, PSU) - воздухом. Поэтому DLC-сервер всё равно требует базовой вентиляции. В продуктиве DLC доминирует: NVIDIA HGX H100/H200 SXM поставляются с DLC «из коробки», Blackwell B200 идёт только с жидкостным охлаждением, без воздушной альтернативы. Плюсы - высокая надёжность закрытого контура, компактность, низкий шум. Минусы - выше CapEx и нужен подвод теплоносителя к стойке.

Иммерсионное охлаждение: single-phase и two-phase

Иммерсионное охлаждение - серверная плата целиком погружается в диэлектрическую жидкость в специальной ванне. Это не дистиллят и не вода, а масла или фторированные углеводороды (Novec, Fluorinert и аналоги).
Существует две схемы. Single-phase: жидкость остаётся жидкой, тепло снимается циркуляцией через теплообменник - проще, дешевле, надёжнее. Two-phase: жидкость кипит при ~50 °C прямо на чипах, пар конденсируется на охлаждаемой крышке ванны - эффективнее по теплоотводу, но сложнее и дороже.
Применение - майнинг (асики), HPC-кластеры, отдельные AI-инсталляции; в обычном корпоративном ЦОД пока нечасто из-за нестандартного форм-фактора. Плюсы - максимальная плотность (до 100+ кВт на ванну), отсутствие пыли, тихая работа. Минусы - сложность сервиса, специфическая жидкость, неудобство обслуживания компонентов.
Помимо DLC и иммерсии есть переходная схема - RDHX (Rear Door Heat Exchanger), теплообменник в задней двери стойки. Внутри сервера остаётся воздух, но горячий выходящий воздух охлаждается жидкостным радиатором двери. Применяется в гибридных схемах ЦОД, где нет возможности подвести жидкость напрямую к серверам.
Сравнение типов жидкостного охлаждения

Технология

Отвод тепла

Плотность кВт/стойку

Стоимость (условно)

DLC

70–80% жидкостью

до 40 кВт

средняя

Иммерсия

100% жидкостью

100+ кВт на ванну

высокая

RDHX

через дверь стойки

15–30 кВт

низкая

Из чего состоит DLC: компоненты системы

Контур DLC выстраивается от чипа до отвода тепла во внешнюю среду из шести-семи блоков.
Холодные пластины (cold plates) - медные блоки с микроканалами, прижимаются к GPU и CPU через термоинтерфейс. На сервер с 8×H100 - 8 GPU-плат и 2 CPU-платы.
Манифолды и быстросъёмные коннекторы (quick-connect) - подвод и отвод теплоносителя к каждой пластине без капель при подключении и отключении.
Внутрисерверный контур изолирован от ЦОД и подключается к манифолду стойки. Чаще всего - гибкие шланги-«гофры».
CDU (Coolant Distribution Unit) - теплообменник, насосы, датчики. Разделяет внутренний контур (TCS - Technology Cooling System) и внешний контур ЦОД (FWS - Facility Water System). Обычно ставится в стойку или рядом.
Внешний контур ЦОД - чиллеры или drycoolers (сухие градирни) на крыше. В прохладных регионах часто хватает фрикулинга - естественного охлаждения наружным воздухом без работы компрессоров.
Теплоноситель для внутреннего контура - пропиленгликоль 25–50% (PG25/PG50) или дистиллированная вода с присадками-ингибиторами. Этиленгликоль избегают по требованиям безопасности. Системы безопасности - leak detection (датчики протечки) на уровне стойки и ряда, drip pans (поддоны), автоматическое отключение насосов при срабатывании.

Когда жидкостное охлаждение реально оправдано

Когда нужно жидкостное охлаждение - вопрос не вкуса, а инженерной арифметики. Пороги задаются двумя осями: TDP отдельных компонентов и плотность стойки.
По TDP компонентов. До 350 Вт - комфортный воздух. 350–500 Вт - воздух работает, но шумно и на грани. 500+ Вт - DLC становится практичнее. На 700+ Вт (H100, B200) DLC обязательно или почти обязательно.
По плотности стойки. До 15 кВт - воздух с обычными CRAC-кондиционерами. 15–25 кВт - гибрид: RDHX или жидкостно-воздушные доводчики. 25–40 кВт - DLC оптимально. 40+ кВт - иммерсия или полный DLC с контейнерным охлаждением. Типовой сценарий, в котором воздух физически не справится: AI-кластер из 4–8 H100 SXM-узлов в одной стойке - это 30–60 кВт.
Дополнительные доводы. Шумовое ограничение: серверная в офисе или коворкинге, где сотрудники работают рядом, не выдержит воздух 80+ дБ, DLC даёт 50–60 дБ. Бюджет: DLC увеличивает CapEx на стойку ориентировочно на 20–30%, но снижает PUE и счета на электричество - окупается за 18–36 месяцев при стабильной нагрузке. Когда жидкость не нужна: одиночные L40S или RTX 6000 Ada в общем серверном зале с обычной плотностью - воздух справится, DLC будет переплатой.
Выбор типа охлаждения по TDP и плотности

Диапазон

Что подходит

Что выбрать

TDP до 350 Вт

воздух — норма

стандартное воздушное

TDP 500–700 Вт

воздух на грани

гибрид или DLC

Плотность 25–40 кВт

воздух не справится

DLC оптимально

Плотность 40+ кВт

DLC на пределе

иммерсия или контейнер

Если в стойку планируется поставить узлы с 8×H100 SXM или будущие B200, проще сразу смотреть на готовые GPU-серверы с водяным охлаждением. Для таких TDP воздушный вариант либо отсутствует, либо превращает серверную в источник 80-децибельного шума.

Воздушное vs жидкостное: TCO и риски

PUE и операционные расходы

Жидкость дороже в CapEx, но дешевле в OpEx. Окупаемость зависит от нагрузки и тарифа на электроэнергию. PUE (Power Usage Effectiveness) - отношение полной мощности ЦОД к мощности на ИТ. У хорошего воздушного ЦОД - 1,5–1,7, у DLC-площадки - 1,05–1,1. Разница в 30–40% по электричеству.
CapEx. DLC дороже воздуха на 20–30% за стойку (CDU, манифолды, drycoolers, обвязка). Иммерсия - ещё дороже из-за специальной жидкости и нестандартных ванн.
OpEx. DLC экономит на электричестве (меньше работают компрессоры) и на кондиционировании воздуха. На крупных площадках разница превращается в миллионы рублей в год.
Риски. Течи статистически редкие, но возможны - нужны leak detection и drip pans. Сервис требует обученных инженеров. Гарантия вендора при модификации серверов и схемы ответственности при инциденте - отдельный пункт переговоров с поставщиком.

Что нужно учесть при внедрении DLC в существующий ЦОД

DLC в новом ЦОД проектируется сразу, во встроенном - это реконструкция. Перед запуском проверьте шесть точек.
Подвод теплоносителя - трубы PG25/PG50 от чиллера до стойки. В существующем зале это либо реконструкция фальшпола, либо разводка по потолку.
Drycoolers и чиллеры - внешний контур, обычно на крыше. В прохладном климате (Россия, северная Европа) фрикулинг работает 6–9 месяцев в году и сильно экономит на электричестве.
Электропитание - DLC снижает суммарное потребление, но требует резервирования насосов (N+1) и UPS на CDU. Совместимость стоек и шасси - DLC-серверы часто 4U–8U, проверяйте, что в стойке хватит места и направляющих.
Обучение персонала - операторы должны уметь штатно отключать узел, продувать контур, реагировать на тревоги leak detection. Гарантия и ответственность - при течи может возникнуть конфликт «производитель сервера vs владелец ЦОД vs производитель CDU», пропишите порядок реакции и ответственность в SLA заранее.

Какие GPU-серверы доступны с жидкостным охлаждением

Платформы NVIDIA HGX H100/H200 SXM - стандартный 8-GPU-узел с DLC. Их собирают Supermicro, Dell, Lenovo, HPE и крупные российские интеграторы.
Платформы NVIDIA Blackwell B200 и GB200 идут только с жидкостным охлаждением - их TDP не оставляет вариантов воздуху.
MGX-платформы NVIDIA - модульная архитектура, поддерживает разные конфигурации жидкостного и воздушного охлаждения, это гибче для интеграторов.
Workstation- и средние GPU (L40S, RTX 6000 Ada, A40) преимущественно идут на воздухе. DLC-варианты у узких вендоров есть, но это нишевые решения.
На российском рынке интеграторы предлагают сборки на Supermicro и Asus с DLC, а также собственные платформы под HGX. Для импортозамещённых сценариев ассортимент пока ограничен и подбирается отдельно под каждый объект.

Заключение

Жидкостное охлаждение оправдано там, где TDP компонентов и плотность стойки выходят за рамки воздушных норм. На H100 SXM и выше - это уже стандарт, на L40S и младше - переплата.
Практический следующий шаг: посчитайте тепловыделение запланированной стойки, сравните с возможностями текущего ЦОД, определите тип охлаждения (DLC vs гибрид vs иммерсия), проверьте инфраструктуру (электропитание, подвод воды, leak detection) и подберите платформу. Когда тип охлаждения и плотность стоек уже понятны, удобнее всего собирать решения по охлаждению ЦОД комплексом - GPU-серверы, чиллеры, drycoolers и инфраструктуру стойки выбирают вместе, а не по отдельности у разных поставщиков.