A100 vs H100 vs RTX 4090: выбор GPU для ML

A100 vs H100 vs RTX 4090 — это не выбор «самой быстрой карты». Это попытка собрать пазл из трех вещей: памяти, скорости и денег. Выкрутите одно — просядет другое. Дальше разберем, кому что подходит и где переплата вообще не имеет смысла.

Чем отличается datacenter-GPU от обычной игровой видеокарты

Представьте серверный комбайн. Карты Ampere и Hopper спроектированы именно под него. Форм-фактор — SXM с прямым NVLink или классический PCIe. Охлаждение пассивное, обдув идет сквозь корпус сервера. Между картами тянется общая шина через NVSwitch, плюс ECC-память на случай сбоев. И бонусом — MIG: фишка делит карту на 7 изолированных кусочков аппаратно. Удобно, когда нужно одновременно гонять несколько маленьких моделей. И главное — лицензия NVIDIA разрешает ставить такие GPU в датацентр.

GeForce 4090 — другая планета. Активный кулер с турбиной, 450 ватт TDP. Память GDDR6X без коррекции ошибок. Ни NVLink, ни MIG в эту карту не завезли. Юридический момент: лицензия EULA формально запрещает массово использовать GeForce в коммерческих ЦОДах. На практике поставщики собирают на 4090 R&D-стенды и стойки под inference, и это работает. Но если впереди госзакупки или публичное облако — лучше сразу серверная карта.

Главное различие — память. У датацентровых ускорителей на борту HBM: быстрая память на стеке, наклеенная прямо рядом с чипом. Пропускная способность доходит до 3.35 ТБ/с. У 4090 — обычная GDDR6X с примерно 1 ТБ/с. На бумаге разница в три раза. На больших моделях это разница между «работает» и «не работает». Если нейросеть не помещается в видеопамять, начинаются медленные обходные пути через системную память. Тренировка из часов превращается в сутки.

Архитектурная разница заложена на старте — но между двумя ампировскими и хопперовскими картами всё ещё есть собственный разрыв. Дальше разбираемся, чем именно отличаются A100 и H100 при одинаковом форм-факторе.

NVIDIA A100 и H100: что общего и в чем разница

NVIDIA A100 vs H100 — это два поколения архитектуры под одну роль, но с разным запасом мощности. У обеих карт 80 ГБ VRAM, MIG, NVLink и тензорные ядра. Оба форм-фактора в наличии. Дальше начинаются различия.

Ампировская карта (Ampere, 2020) — рабочая лошадь индустрии. На борту 6912 CUDA-ядер и тензорные ядра третьего поколения. В FP16 выдает около 312 TFLOPS, NVLink работает на 600 ГБ/с. До сих пор стоит в тысячах кластеров и на покой не собирается.

Hopper (2022) — следующий шаг. CUDA-ядер вдвое больше, тензорные ядра уже четвертого поколения. И они умеют считать в FP8. Память HBM3 разогнана до 3.35 ТБ/с, NVLink в SXM-варианте — до 900 ГБ/с. По сухим бенчмаркам флагман ускоряет трансформеры в 2–3 раза. Классические сверточные сети — скромнее, в 1.5–2 раза.

Главное у H100 — не цифры, а Transformer Engine. Этот движок автоматически переключается между FP8 и BF16 в каждом слое. Звучит как маркетинг — на деле дает реальный прирост скорости тренировки LLM в 2–3 раза в типовых бенчмарках и до 4 раз в продакшене на длинных контекстах. Это уже не лабораторные числа, а цена за GPU-час, которую считает финансовый отдел.

Числа выглядят впечатляюще — но 25–30 тысяч долларов за карту это серьезная инвестиция. Дальше разберем, в каких сценариях такая переплата действительно окупается.

NVIDIA H100: для каких задач переплата оправдана

Hopper в 2026 году стоит как небольшая иномарка: $25–30K за PCIe-карту, до $40K за SXM5. Это в 2–3 раза дороже Ampere. Когда такая разница имеет смысл?

Тренируете LLM от 70B параметров и выше. Без FP8 и быстрого интерконнекта обучение Llama 70B на A100 идет в 3–4 раза дольше и съедает столько же лишнего электричества. На моделях 100B+ разрыв растет.
Нужна низкая задержка на инференсе моделей с длинным контекстом — 32 тысячи токенов и больше. Тут Transformer Engine отыгрывает каждую копейку переплаты.
Собираете кластер из 8+ карт с жидкостным охлаждением. SXM5 масштабируется почти линейно: восемь Hopper дают примерно 7.5× от одной.

Внутри HGX-шасси на 8× SXM5 связь между картами идет через NVSwitch — отдельный коммутирующий чип. Он объединяет все NVLink-линии в полнодуплексную сеть. Между любой парой карт — 900 ГБ/с без узких мест и арбитража. Если NVSwitch убрать и оставить обмен через PCIe, кластер теряет до 30% производительности на каждой итерации.

Если команда гонит training больших моделей в продакшене, Hopper имеет смысл сразу разворачивать в сервере для корпоративного ИИ с 8× SXM5 и NVSwitch. Иначе вы платите за карты, которые не работают на полную. Дальше нужна правильная обвязка. На сети — PCIe Gen5 и InfiniBand 400G. Под датасеты — NVMe. Один такой кластер закрывает нагрузку, под которую раньше брали 16–24 ампировские карты.

Hopper нужен далеко не всем. Для большинства R&D-задач и среднего инференса хватит куда более дешевой карты — следующий блок именно про неё.

NVIDIA RTX 4090: когда геймерская карта уместна для ML

RTX 4090 vs A100 — самое популярное сравнение в духе «дешево против дорого». GeForce на Ada Lovelace дает около 165 TFLOPS в FP16 и 24 ГБ GDDR6X за полторы-две тысячи долларов. По сырым цифрам две таких потребительских карты примерно равны одной A100 — и за десятую часть цены.

Где это взлетает:

Inference моделей до 30B параметров. Llama 3 на 7, 13 и 30 миллиардов с квантизацией Q4–Q8 спокойно влезают в 24 ГБ. Семерку 4090 крутит на сотнях токенов в секунду.
Дообучение через LoRA и QLoRA. Адаптеры тренируются на одной карте за пару часов. Для small- и mid-моделей это самый дешевый путь к собственному файнтюну.
Прототипирование и R&D. Когда команда пробует 5–10 архитектур в неделю, ампировская карта простаивает большую часть времени. На 4090 получается дешевле и быстрее.

А вот где не работает. Тренировка моделей от 70B — нет: не хватит памяти. Сценарии с MIG — тоже не вариант, эту функцию на 4090 не привезли. Multi-GPU без NVLink отпадает следом: обмен через PCIe просто слишком медленный для распределенной тренировки.

Если задача — inference сетей до 30B и приоритет цена/производительность, проще всего подобрать GPU для AI с одной-двумя 4090 и грамотным охлаждением. Для inference-стенда есть готовые сборки на 4× RTX 4090 — но это история про параллельную независимую работу, а не про распределенную тренировку.

Сравнительная таблица: VRAM, FP16, TF32, NVLink, цена, потребление

Сравнение трёх карт в одной таблице — самый честный способ увидеть разницу одним взглядом. Цены — диапазоном 2026 года, точные значения зависят от поставщика и партии.

Параметр	A100 80GB	H100 80GB	RTX 4090
VRAM	80 ГБ HBM2e	80 ГБ HBM3	24 ГБ GDDR6X
Пропускная способность памяти	1.94 ТБ/с	3.35 ТБ/с	~1 ТБ/с
CUDA-ядер	6912	14592 (PCIe) / 16896 (SXM5)	16384
Тензорные ядра	3-е поколение	4-е поколение, FP8	4-е поколение
FP16 TFLOPS (без sparsity)	312	756 (PCIe) / 989 (SXM5)	165
TF32 TFLOPS	156	378	83
NVLink	600 ГБ/с	900 ГБ/с (SXM5 + NVSwitch)	нет
MIG	до 7 экземпляров	до 7 экземпляров	нет
TDP	300 Вт (PCIe) / 400 Вт (SXM4)	350 Вт (PCIe) / 700 Вт (SXM5)	450 Вт
Цена 2026	$10–15K	$25–40K	$1.5–2K
Лицензия для ЦОДа	да	да	EULA ограничивает

Из таблицы вытекает простая мысль. GeForce берет ценой: за минимальные деньги вы получаете высокую сырую производительность. Платите за это отсутствием интерконнекта и MIG. Плюс скромный объем видеопамяти. Ампировская карта — универсал на все случаи жизни в датацентре. Hopper — нишевый инструмент под training больших LLM и продакшен-инференс с длинным контекстом.

Цифры в таблице сравнивают карты в вакууме. На практике выбор зависит от того, что именно вы с ней делаете — тренируете сеть или гоняете готовую.

Training vs inference: какая GPU под какую задачу

Training и inference — выбор по двум осям. Первая ось: что вы делаете — тренируете сеть или гоняете готовую. Вторая: какого она размера. Логика на пальцах: тренировка упирается в память, инференс — в скорость и задержку.

Тренировка: память правит балом

Чем крупнее сеть, тем больше нужно VRAM. Llama 70B в FP16 занимает около 140 ГБ. Это уже две Hopper 80GB или восемь A100 40GB через tensor parallelism. Для 7B–13B хватит одной восьмидесятки или пары RTX 4090 — главное, аккуратно настроить градиентную аккумуляцию. На FP8 у H100 та же модель влезает вдвое плотнее, и это меняет математику парка железа.

Инференс: H100 для latency, A100 для concurrent-нагрузки

На 70B-сети в FP8 или INT4 Hopper дает задержку в 2–4 раза ниже Ampere. На 7B–13B одной 4090 хватает с запасом: 50–100 миллисекунд на токен в зависимости от батча. А когда летят десятки одновременных запросов — выигрывает A100 с MIG. Карта делится на 7 экземпляров, каждый держит свою сеть и не мешает соседям. Без MIG все запросы стоят в одной очереди.

LoRA и QLoRA: дообучение, доступное даже для 4090

Адаптеры тренируют примерно 1% параметров модели, поэтому RTX 4090 справляется с 7B–13B за разумное время. Для смешанных нагрузок имеет смысл собирать гибрид. Ампировская карта берет на себя тренировку. GeForce закрывает инференс и эксперименты — это типовой PyTorch-сервер для R&D-команды.

Софт-стек: где можно потерять 15% производительности

Свежим должно быть все. И драйвер, и CUDA, и библиотека cuDNN с готовыми ускоренными примитивами для нейросетей — свертки, attention, нормализации. Без актуальных версий FP8-ядра Hopper включаются не полностью, а часть оптимизаций под архитектуру просто не используется. У Ampere ситуация мягче: карта 2020 года, ее поддерживает практически любая стабильная ветка. Для 4090 важно держать драйвер 535+ и CUDA 12+, иначе теряются 10–15% на трансформерах.

С теорией разобрались — переходим к практике подбора. Ниже три фильтра, через которые проходит любой проект, плюс четвёртый, про который чаще всего забывают.

Как влияет размер модели и бюджет на выбор GPU

Выбор GPU обычно прогоняют через три фильтра, и иногда забывают про четвертый. Дальше по порядку.

Фильтр 1. Размер модели: до 13B, до 70B и выше

До 13B параметров RTX 4090 закрывает почти все, кроме серьезного продакшена. От 13B до 70B уже разумнее A100 80GB или две 4090 на инференсе. Для тренировки в этом диапазоне берут Ampere или Hopper. От 70B и выше — только H100 либо несколько ампировских карт через NVLink.

Фильтр 2. Бюджет: что собирается за 15K, 60K и 200K долларов

С пятью-пятнадцатью тысячами долларов вы соберете 1–2 RTX 4090 для R&D и инференса. При желании добавьте одну A100 refurb на тяжелые задачи. С тридцатью-шестьюдесятью тысячами берется одна Hopper или пара ампировских PCIe. От двухсот тысяч и выше начинается разговор про HGX-шасси с 8× SXM5 — здесь подключается NVSwitch и нормальное масштабирование.

Фильтр 3. Горизонт планирования: считайте парк на 2028, а не на сегодня

Если задачи команды растут по экспоненте — от 7B сегодня к 70B через два года, — тренироваться на 4090 и потом мигрировать на Hopper означает две капитальные покупки вместо одной. Иногда дешевле сразу взять Ampere PCIe и докупить вторую через год. Парк железа собирается на 3 года вперед: считайте не сегодняшние модели, а те, что будете гонять в 2027–2028.

Питание и охлаждение: где сюрпризы выходят боком

Восемь H100 SXM5 потребляют примерно 5.6 кВт. Это только на GPU, не считая CPU, памяти и сетевой подсистемы. Нужен ввод 380 вольт и жидкостное охлаждение. Четыре RTX 4090 в одном шасси — 1.8 кВт и серьезный воздушный поток через корпус. Иначе карты уходят в throttling и теряют скорость. Сюрпризы по электрике любят возникать на этапе ввода в эксплуатацию, когда переделывать стойку уже поздно и больно.

Заключение — краткий итог по трем картам

Если свести всё к трем ставкам, картина простая. Hopper — для тренировки LLM от 70B параметров и продакшен-инференса с длинным контекстом. Ampere — универсальная рабочая лошадка датацентра, особенно сильная в сценариях с MIG и параллельной обработкой множества запросов. RTX 4090 — самый дешевый путь к inference моделей до 30B и к R&D-экспериментам, но без места в распределенной тренировке.

Перед покупкой стоит прогнать конфигурацию через три фильтра: размер модели, бюджет, горизонт планирования на 2–3 года вперёд. Четвёртый, который часто забывают — питание и охлаждение в стойке. Под крупный кластер на 8× SXM5 нужен ввод 380 вольт и жидкостное охлаждение, и это закладывается на этапе проекта, а не после поставки.

h2 Часто задаваемые вопросы (FAQ) о выборе GPU для ML

h3 Можно ли использовать RTX 4090 для обучения больших моделей?

С оговорками. До 7B параметров — да, через LoRA или QLoRA. Для 70B и больше — нет: 24 ГБ мало даже с агрессивной квантизацией. Multi-GPU без интерконнекта — узкое место: данные между картами идут по PCIe, в 5–10 раз медленнее, чем по NVLink.

Сколько RTX 4090 заменят одну A100 80GB?

По сырым FP16 TFLOPS — примерно две. Но без NVLink и при 24 ГБ против 80 ГБ реальная замена работает только на инференсе моделей до 30B. В кластере для тренировки больших LLM 4090 не масштабируется как Ampere.

Чем отличается H100 PCIe от H100 SXM?

SXM5 — серверный сокет с прямым NVLink через NVSwitch, TDP 700 Вт, ставится в HGX-системы. PCIe — обычный слот, TDP 350 Вт, NVLink через мостик между парами карт. SXM5 на 10–30% производительнее и масштабируется лучше. PCIe гибче по серверам и дешевле.

Зачем нужен NVLink и работает ли он на RTX 4090?

NVLink — это высокоскоростная шина между GPU: 600–900 ГБ/с против примерно 64 ГБ/с у PCIe Gen5. Нужна для tensor parallelism на нескольких картах. На 4090 разъема нет — NVIDIA убрала его, начиная с серии 40. Поэтому в распределенной тренировке потребительская карта не участвует.

Какая GPU выгоднее для inference при высокой concurrent-нагрузке?

A100 с MIG. Карта делится на 7 изолированных экземпляров с фиксированной памятью и compute. Каждый держит свою сеть и не мешает соседям. У Hopper MIG тоже есть, но переплата на стандартном инференсе обычно не окупается. RTX 4090 эту фичу не умеет.

Подходит ли RTX 4090 для дообучения LoRA?

Это ее сильный сценарий. LoRA тренирует малую долю параметров, поэтому 24 ГБ хватает для 7B и 13B. Скорость сопоставима с Ampere за счет высокой сырой производительности тензорных ядер. На моделях 70B+ уже нужны A100 или H100.

Что такое тензорные ядра 4-го поколения у H100?

Это специализированные блоки внутри GPU для матричных операций — основа любой нейросети. У Hopper они умеют считать в FP8 (8-битные числа с плавающей точкой) и автоматически выбирают формат FP8/BF16 через Transformer Engine. На крупных трансформерах это дает 2–4× прирост скорости тренировки.

Какая GPU поддерживает MIG (Multi-Instance GPU)?

MIG — функция чисто для ЦОДа. Ее поддерживают только серверные карты A100 и H100. Аппаратное деление на 7 экземпляров с изолированной памятью и compute — отличный инструмент, когда нужно держать несколько небольших моделей под одной карточкой. RTX 4090 этого не умеет.

NVIDIA A100 vs H100 vs RTX 4090 для ML: что выбрать под задачу и бюджет