Жидкостное охлаждение GPU-сервера: когда оправдано и как устроено
2026-05-18 16:14
Жидкостное охлаждение для серверов перестало быть экзотикой HPC-залов - это уже стандартная опция для GPU-серверов с H100/H200/B200. Главная причина - рост TDP: H100 SXM выдаёт 700 Вт, B200 переходит за 1000 Вт, и отвести столько тепла из 1U–4U корпуса воздухом физически тяжело или невозможно. Жидкость отводит тепло в 25–30 раз эффективнее воздуха, занимает меньше места, работает тише и снижает PUE дата-центра с 1,5+ до 1,1.
Это не универсальное решение: если у вас 4×L40S с TDP 350 Вт каждая, обычное воздушное охлаждение справится. DLC начинает быть оправданным от плотности стойки 25–30 кВт. Ниже разбираем, какие типы жидкостного охлаждения применяются в GPU-серверах, как они устроены и при каких условиях переход с воздуха на жидкость реально оправдан.
Почему GPU-серверы упёрлись в воздушное охлаждение
TDP топовых GPU за пять лет вырос в три раза с лишним: V100 (Volta) - 300 Вт, A100 (Ampere) - 400 Вт, H100 SXM (Hopper) - 700 Вт, B200 (Blackwell) - 1000+ Вт. Плотность стойки растёт пропорционально: типовая ИИ-стойка с 8×H100 SXM - это 30–40 кВт, раньше для серверного зала нормой было 5–10 кВт.
Физика воздуха не успевает: его теплоёмкость почти в 4000 раз меньше воды. Чтобы снять 700 Вт с одного GPU, нужен мощный поток через радиатор - это означает скоростные вентиляторы и шум 80+ дБ. Возникает «петля сложности»: больше тепла → выше скорость вентиляторов → больше потребление на сами вентиляторы → ещё больше тепла. Дополнительно - высокие температуры на чипе (T_junction выше 90 °C) приводят к троттлингу и снижают реальную производительность.
Типы жидкостного охлаждения серверов
Direct Liquid Cooling (DLC): холодные пластины
Типы жидкостного охлаждения принято делить на DLC (контактное охлаждение пластинами) и иммерсионное (полное погружение). В DLC к крышкам GPU и CPU прижимаются холодные пластины (cold plates) с микроканалами, через которые циркулирует теплоноситель. Тепло снимается напрямую с кристалла-источника, минуя промежуточный воздух.
Типичный отвод тепла: 70–80% мощности сервера снимается жидкостью, остаток (память, BMC, PSU) - воздухом. Поэтому DLC-сервер всё равно требует базовой вентиляции. В продуктиве DLC доминирует: NVIDIA HGX H100/H200 SXM поставляются с DLC «из коробки», Blackwell B200 идёт только с жидкостным охлаждением, без воздушной альтернативы. Плюсы - высокая надёжность закрытого контура, компактность, низкий шум. Минусы - выше CapEx и нужен подвод теплоносителя к стойке.
Иммерсионное охлаждение: single-phase и two-phase
Иммерсионное охлаждение - серверная плата целиком погружается в диэлектрическую жидкость в специальной ванне. Это не дистиллят и не вода, а масла или фторированные углеводороды (Novec, Fluorinert и аналоги).
Существует две схемы. Single-phase: жидкость остаётся жидкой, тепло снимается циркуляцией через теплообменник - проще, дешевле, надёжнее. Two-phase: жидкость кипит при ~50 °C прямо на чипах, пар конденсируется на охлаждаемой крышке ванны - эффективнее по теплоотводу, но сложнее и дороже.
Применение - майнинг (асики), HPC-кластеры, отдельные AI-инсталляции; в обычном корпоративном ЦОД пока нечасто из-за нестандартного форм-фактора. Плюсы - максимальная плотность (до 100+ кВт на ванну), отсутствие пыли, тихая работа. Минусы - сложность сервиса, специфическая жидкость, неудобство обслуживания компонентов.
Помимо DLC и иммерсии есть переходная схема - RDHX (Rear Door Heat Exchanger), теплообменник в задней двери стойки. Внутри сервера остаётся воздух, но горячий выходящий воздух охлаждается жидкостным радиатором двери. Применяется в гибридных схемах ЦОД, где нет возможности подвести жидкость напрямую к серверам.
Сравнение типов жидкостного охлаждения
Технология
Отвод тепла
Плотность кВт/стойку
Стоимость (условно)
DLC
70–80% жидкостью
до 40 кВт
средняя
Иммерсия
100% жидкостью
100+ кВт на ванну
высокая
RDHX
через дверь стойки
15–30 кВт
низкая
Из чего состоит DLC: компоненты системы
Контур DLC выстраивается от чипа до отвода тепла во внешнюю среду из шести-семи блоков.
Холодные пластины (cold plates) - медные блоки с микроканалами, прижимаются к GPU и CPU через термоинтерфейс. На сервер с 8×H100 - 8 GPU-плат и 2 CPU-платы.
Манифолды и быстросъёмные коннекторы (quick-connect) - подвод и отвод теплоносителя к каждой пластине без капель при подключении и отключении.
Внутрисерверный контур изолирован от ЦОД и подключается к манифолду стойки. Чаще всего - гибкие шланги-«гофры».
CDU (Coolant Distribution Unit) - теплообменник, насосы, датчики. Разделяет внутренний контур (TCS - Technology Cooling System) и внешний контур ЦОД (FWS - Facility Water System). Обычно ставится в стойку или рядом.
Внешний контур ЦОД - чиллеры или drycoolers (сухие градирни) на крыше. В прохладных регионах часто хватает фрикулинга - естественного охлаждения наружным воздухом без работы компрессоров.
Теплоноситель для внутреннего контура - пропиленгликоль 25–50% (PG25/PG50) или дистиллированная вода с присадками-ингибиторами. Этиленгликоль избегают по требованиям безопасности. Системы безопасности - leak detection (датчики протечки) на уровне стойки и ряда, drip pans (поддоны), автоматическое отключение насосов при срабатывании.
Когда жидкостное охлаждение реально оправдано
Когда нужно жидкостное охлаждение - вопрос не вкуса, а инженерной арифметики. Пороги задаются двумя осями: TDP отдельных компонентов и плотность стойки.
По TDP компонентов. До 350 Вт - комфортный воздух. 350–500 Вт - воздух работает, но шумно и на грани. 500+ Вт - DLC становится практичнее. На 700+ Вт (H100, B200) DLC обязательно или почти обязательно.
По плотности стойки. До 15 кВт - воздух с обычными CRAC-кондиционерами. 15–25 кВт - гибрид: RDHX или жидкостно-воздушные доводчики. 25–40 кВт - DLC оптимально. 40+ кВт - иммерсия или полный DLC с контейнерным охлаждением. Типовой сценарий, в котором воздух физически не справится: AI-кластер из 4–8 H100 SXM-узлов в одной стойке - это 30–60 кВт.
Дополнительные доводы. Шумовое ограничение: серверная в офисе или коворкинге, где сотрудники работают рядом, не выдержит воздух 80+ дБ, DLC даёт 50–60 дБ. Бюджет: DLC увеличивает CapEx на стойку ориентировочно на 20–30%, но снижает PUE и счета на электричество - окупается за 18–36 месяцев при стабильной нагрузке. Когда жидкость не нужна: одиночные L40S или RTX 6000 Ada в общем серверном зале с обычной плотностью - воздух справится, DLC будет переплатой.
Выбор типа охлаждения по TDP и плотности
Диапазон
Что подходит
Что выбрать
TDP до 350 Вт
воздух — норма
стандартное воздушное
TDP 500–700 Вт
воздух на грани
гибрид или DLC
Плотность 25–40 кВт
воздух не справится
DLC оптимально
Плотность 40+ кВт
DLC на пределе
иммерсия или контейнер
Если в стойку планируется поставить узлы с 8×H100 SXM или будущие B200, проще сразу смотреть на готовые GPU-серверы с водяным охлаждением. Для таких TDP воздушный вариант либо отсутствует, либо превращает серверную в источник 80-децибельного шума.
Воздушное vs жидкостное: TCO и риски
PUE и операционные расходы
Жидкость дороже в CapEx, но дешевле в OpEx. Окупаемость зависит от нагрузки и тарифа на электроэнергию. PUE (Power Usage Effectiveness) - отношение полной мощности ЦОД к мощности на ИТ. У хорошего воздушного ЦОД - 1,5–1,7, у DLC-площадки - 1,05–1,1. Разница в 30–40% по электричеству.
CapEx. DLC дороже воздуха на 20–30% за стойку (CDU, манифолды, drycoolers, обвязка). Иммерсия - ещё дороже из-за специальной жидкости и нестандартных ванн.
OpEx. DLC экономит на электричестве (меньше работают компрессоры) и на кондиционировании воздуха. На крупных площадках разница превращается в миллионы рублей в год.
Риски. Течи статистически редкие, но возможны - нужны leak detection и drip pans. Сервис требует обученных инженеров. Гарантия вендора при модификации серверов и схемы ответственности при инциденте - отдельный пункт переговоров с поставщиком.
Что нужно учесть при внедрении DLC в существующий ЦОД
DLC в новом ЦОД проектируется сразу, во встроенном - это реконструкция. Перед запуском проверьте шесть точек.
Подвод теплоносителя - трубы PG25/PG50 от чиллера до стойки. В существующем зале это либо реконструкция фальшпола, либо разводка по потолку.
Drycoolers и чиллеры - внешний контур, обычно на крыше. В прохладном климате (Россия, северная Европа) фрикулинг работает 6–9 месяцев в году и сильно экономит на электричестве.
Электропитание - DLC снижает суммарное потребление, но требует резервирования насосов (N+1) и UPS на CDU. Совместимость стоек и шасси - DLC-серверы часто 4U–8U, проверяйте, что в стойке хватит места и направляющих.
Обучение персонала - операторы должны уметь штатно отключать узел, продувать контур, реагировать на тревоги leak detection. Гарантия и ответственность - при течи может возникнуть конфликт «производитель сервера vs владелец ЦОД vs производитель CDU», пропишите порядок реакции и ответственность в SLA заранее.
Какие GPU-серверы доступны с жидкостным охлаждением
Платформы NVIDIA HGX H100/H200 SXM - стандартный 8-GPU-узел с DLC. Их собирают Supermicro, Dell, Lenovo, HPE и крупные российские интеграторы.
Платформы NVIDIA Blackwell B200 и GB200 идут только с жидкостным охлаждением - их TDP не оставляет вариантов воздуху.
MGX-платформы NVIDIA - модульная архитектура, поддерживает разные конфигурации жидкостного и воздушного охлаждения, это гибче для интеграторов.
Workstation- и средние GPU (L40S, RTX 6000 Ada, A40) преимущественно идут на воздухе. DLC-варианты у узких вендоров есть, но это нишевые решения.
На российском рынке интеграторы предлагают сборки на Supermicro и Asus с DLC, а также собственные платформы под HGX. Для импортозамещённых сценариев ассортимент пока ограничен и подбирается отдельно под каждый объект.
Заключение
Жидкостное охлаждение оправдано там, где TDP компонентов и плотность стойки выходят за рамки воздушных норм. На H100 SXM и выше - это уже стандарт, на L40S и младше - переплата.
Практический следующий шаг: посчитайте тепловыделение запланированной стойки, сравните с возможностями текущего ЦОД, определите тип охлаждения (DLC vs гибрид vs иммерсия), проверьте инфраструктуру (электропитание, подвод воды, leak detection) и подберите платформу. Когда тип охлаждения и плотность стоек уже понятны, удобнее всего собирать решения по охлаждению ЦОД комплексом - GPU-серверы, чиллеры, drycoolers и инфраструктуру стойки выбирают вместе, а не по отдельности у разных поставщиков.