Видеоаналитика на базе ИИ: какое железо нужно

Служба безопасности просит распознавать лица на проходных и считать людей в зале, а в ИТ-отделе вопрос: одной RTX 4090 хватит или нужен сервер с тремя картами? Без расчёта по числу камер и моделям выбор GPU превращается в гадание, а счёт в смете - в несогласованную позицию. Видеоаналитика на базе ИИ за последние два-три года перешла от детекции движения и подсчёта людей к распознаванию лиц, ре-идентификации между камерами и поведенческой аналитике - это разные классы нагрузки на железо: одни сценарии тянет L4, другие требуют связки из L40S или серверного A100.

Дальше - как считать нагрузку на GPU по числу камер и типу моделей, какой класс ускорителей подходит под детекцию объектов, распознавание лиц и поведенческую аналитику, и куда разумнее ставить обработку: централизованно, на edge или гибридом.

Что такое современная видеоаналитика на ИИ

Классические VMS отличали движение в кадре по пикселям и давали тысячи ложных срабатываний от листвы, теней и засветок. Нейросетевые модели работают иначе: они понимают сцену. Детекция отвечает на вопрос «кто или что в кадре» - человек, автомобиль, животное. Классификация уточняет тип: легковая, грузовик, мотоцикл. Трекинг отслеживает объект между кадрами одной камеры. Ре-идентификация (Re-ID) узнаёт того же человека на разных камерах объекта.

Распознавание лиц стоит отдельным классом: детекция лица, выделение вектора признаков, сверка с базой. По нагрузке на GPU это тяжелее обычной детекции. Применения - корпоративная безопасность с контролем зон, ретейл-аналитика с подсчётом посетителей, дорожный трафик с распознаванием номеров, промышленная безопасность с контролем СИЗ и опасных зон.

Какие задачи и сколько мощности они требуют

Базовая детекция и классификация

Матрица из видеопотоков на мониторах с геометрией детекции объектов: машины, люди, выделенные боксами в реальном времени.

Детекция объектов на YOLO-семействе моделей (YOLOv8, YOLOv11) - самый массовый класс задач. Модели лёгкие: на потоке 1080p при 25 FPS одна RTX 4060 с 8 ГБ VRAM (архитектура Ada Lovelace) обрабатывает 4–8 камер. Но 8 ГБ VRAM - реальный потолок для базовой детекции: как только в пайплайне появляются классификация плюс распознавание лиц, либо YOLOv11x вместо облегчённой YOLOv11n, память заканчивается, и приходится переходить на L4 с 24 ГБ или RTX 4070 Ti SUPER с 16 ГБ. RTX 4060 подходит для пилотов и проверки концепции, для продакшена с несколькими моделями одновременно нужна карта с большим VRAM.

Классификация типа объекта добавляет 10–20% к нагрузке от детекции - запас на той же карте уменьшается, но карта продолжает справляться. Подсчёт людей и трекинг по одной камере - лёгкая задача: на серверной L4 с 24 ГБ VRAM и TDP 72 Вт укладывается до 16 камер 1080p.

Чтение автомобильных номеров (ANPR/LPR) - пайплайн «детекция номера, выделение, OCR»; одна L4 покрывает 8–12 проходных или дорожных камер. Цифры ориентировочные и зависят от модели, разрешения, FPS и точности.

Сложные сценарии: лица, ре-идентификация, поведение

Интерьер серверной с рядами высоких GPU-акселераторов NVIDIA, кабели питания, охлаждающие системы, техническое освещение.

Распознавание лиц с поиском по базе - тяжёлый пайплайн: детекция лица, выделение embedding, поиск по базе. Одна L40S с 48 ГБ VRAM обрабатывает 20–30 камер при реальной нагрузке, на RTX 4090 - около 15. Ре-идентификация требует попарного сравнения embedding-векторов каждого нового объекта со всеми ранее зафиксированными по сети камер: при N активных объектах число сравнений растёт как N², отсюда и квадратичная нагрузка. На 200 камерах с десятками человек в кадре это уже задача под A100 или несколько L40S. Поведенческая аналитика (падение, драка, оставленный предмет, проход против потока) работает с временными последовательностями и тяжелее статической детекции в 2–3 раза. Совмещение нескольких задач на одной камере суммирует нагрузку, критичен запас VRAM, чтобы модели одновременно помещались в память GPU.

Производительность GPU по типам аналитики
Задача	VRAM на поток	FPS на 1 камеру 1080p	Камер на одну L40S 48 ГБ
Детекция объектов (YOLOv8/v11)	0,3–0,5 ГБ	до 25	50–80
Классификация типа объекта	0,4–0,6 ГБ	до 25	40–60
Распознавание лиц с базой 10–50 тыс.	1,5–2 ГБ	10–15	20–30
Ре-идентификация (Re-ID)	2–4 ГБ	5–10	8–15

Сервер для видеоаналитики: какое железо нужно

Сервер для видеоаналитики собирается под четыре компонента, и на каждом есть характерные узкие места.

CPU. На декодирование потоков уходит заметная часть нагрузки: для 32 камер 1080p 25 FPS на программном декодировании нужно 16+ ядер Xeon Scalable или AMD EPYC. На GPU NVIDIA есть аппаратный декодер NVDEC, он разгружает CPU, но имеет лимит потоков на карту.

GPU. Главный компонент: подбор зависит от задач и числа камер, об этом отдельный раздел ниже. В сервер ставится от 1 до 8 GPU. Когда понятно число камер, разрешение и тип аналитики, удобнее отталкиваться от готовых конфигураций - сервер для нейросетей в реальном времени уже сбалансирован под обработку видеопотоков: достаточная пропускная способность сети, NVMe под модели, питание и охлаждение под несколько L40S или одну A100.

RAM. Для сервера с 4 GPU и 64 камерами - от 128 ГБ ECC, под нагруженные сценарии с базами лиц и Re-ID - 256–512 ГБ. Меньше - узкое место при загрузке моделей и буферизации. Диски. ОС и модели на NVMe SSD от 1 ТБ, если сервер пишет видеоархив (совмещённый VMS плюс аналитика) - отдельный том на HDD 8–16 ТБ в RAID.

Сеть. 32 камеры 2 Мпикс дают около 50–80 Мбит/с - 1 Гбит/с справится без запаса, на 64+ камер уже нужно 10 Гбит/с.

Питание. Сервер с четырьмя RTX 4090 - около 2 кВт пиковой нагрузки: ИБП с запасом и прецизионное охлаждение в серверной.

Подбор GPU под задачу видеоаналитики

От L4 и RTX 4060 до A100: где какая нужна

GPU для видеоаналитики делятся на три класса по тепловому пакету и объёму VRAM.

Entry-level. NVIDIA L4 - серверная карта малой мощности с активным NVENC/NVDEC, 24 ГБ VRAM, TDP 72 Вт. Подходит под 8–16 камер 1080p с базовой детекцией, устанавливается в 1U-серверы без жидкостного охлаждения. RTX 4060 и 4070 - потребительские аналоги для пилотов и тестовых стендов.

Средний сегмент. NVIDIA L40S, 48 ГБ VRAM, TDP 350 Вт — основной выбор для коммерческой видеоаналитики на объектах 32–64 камеры с детекцией и базовым распознаванием лиц. RTX 4090 - потребительский аналог с меньшим VRAM и ограничениями NVIDIA EULA на использование в дата-центрах.

Серверный класс. NVIDIA A100 (40/80 ГБ HBM2e) и H100 (80 ГБ HBM3) для инсталляций от 100+ камер, сложных пайплайнов с Re-ID и распознаванием лиц по большим базам. Стоят кратно дороже L40S, но дают пропорционально больше throughput.

Российские альтернативы. На 2026 год готовых серверных GPU класса L40S или A100 российского производства в открытой продаже нет. Edge-NPU есть, но они рассчитаны на одну-две камеры на устройство.

Что выбирать: до 16 камер с базовой детекцией - одна L4, 32–64 камеры с лицами - одна L40S или две L4, от 64 до 200 - связка L40S или одна A100, свыше 200 - кластер на A100/H100 или несколько L40S-серверов.

Архитектура: куда ставить видеоаналитику

Когда GPU подобран, остаётся вопрос размещения обработки. Вариантов четыре, и они сосуществуют в реальных проектах.

Централизованный сервер. Все потоки приходят на один сервер с GPU. Плюс - единое управление, минус - нагрузка на сеть и узкое место при отказе сервера.
Edge-аналитика. Обработка на самой камере или на компактном устройстве рядом. Современные IP-камеры уже несут NPU на борту (Hikvision Acusense, Dahua WizMind, российские аналоги). Главное ограничение в эксплуатации: набор моделей закрытый и обновляется только прошивкой вендора. Свои алгоритмы - обученную под конкретный объект модель детекции спецодежды или классификации товаров на складе, загрузить нельзя: SDK проприетарный, без доступа к нейросетевому слою. Камера выдаёт только те события, которые вендор предусмотрел в прошивке: пересечение линии, оставленный предмет, подсчёт людей, иногда распознавание лиц по локальной базе. Кастомные сценарии - это уже центральный сервер.
Гибрид. Базовая детекция - на камере, сложная аналитика (лица, Re-ID) - на центральном сервере по событиям. Часто оптимальная схема на крупных объектах с разнородной аналитикой.
Облачная аналитика. Внешний провайдер обрабатывает поток. Подходит для пилотов, не подходит для объектов с требованиями по локальному хранению видеоданных - 152-ФЗ, КИИ.

Что выбрать под конкретный объект

Малый объект до 16 камер с базовой детекцией. Сервер 2U с одной L4 или RTX 4060/4070, 64 ГБ RAM, NVMe SSD 1 ТБ. Этого хватает на типовую охранную задачу.
Средний объект 16–64 камеры с детекцией и распознаванием лиц на проходных. Сервер 2U–4U с одной L40S или двумя L4, 128 ГБ RAM. Под Re-ID между этажами - сразу две L40S.
Крупный объект от 64 камер с разнородной аналитикой. Сервер 4U с двумя-четырьмя L40S или одной A100, 256+ ГБ RAM, 10 Гбит/с сеть. Для кампусов и логистики - кластер из нескольких таких узлов.
Объект с требованиями КИИ или биометрией. Раздельная архитектура: отдельные серверы под видеоаналитику и под СКУД, видеоархив - на сертифицированной СХД.

Чего не делать

Не выбирать GPU «с запасом 5×». Лишняя мощность не даёт ускорения, но добавляет к счёту и энергопотреблению.
Не игнорировать стоимость лицензий ПО. Алгоритмы распознавания лиц и Re-ID лицензируются вендором отдельно, часто по числу камер или embedding в базе.
Не путать FPS обработки и FPS записи. Запись - 25–30 FPS, аналитика обычно работает на 5–10 FPS, этого достаточно для большинства задач.
Не размещать RTX 4090 в дата-центре для коммерческой ИИ-задачи без понимания EULA NVIDIA. Для дата-центра официально нужны L40S/A100/H100.

Заключение

Подбор железа под видеоаналитику - это расчёт по числу камер, разрешению и сложности моделей, а не выбор «самой мощной карты в каталоге». Малый объект - L4 или RTX 4060/4070, средний - L40S, крупный - A100 или связка из L40S. Архитектура - централизованная для большинства задач, гибрид с edge для крупных объектов с разнородной аналитикой, лицензии ПО считать вместе с железом. Когда сценарий выбран и понятно, какие модели и сколько камер будут работать, дальше это вопрос комплектации: готовые AI-серверы под задачу видеоаналитики, ML-обучения или инференса подбираются по балансу GPU, CPU, RAM и сети, а не собираются из отдельных позиций.

Видеоаналитика на базе ИИ: какое железо нужно для детекции объектов