Служба безопасности просит распознавать лица на проходных и считать людей в зале, а в ИТ-отделе вопрос: одной RTX 4090 хватит или нужен сервер с тремя картами? Без расчёта по числу камер и моделям выбор GPU превращается в гадание, а счёт в смете - в несогласованную позицию. Видеоаналитика на базе ИИ за последние два-три года перешла от детекции движения и подсчёта людей к распознаванию лиц, ре-идентификации между камерами и поведенческой аналитике - это разные классы нагрузки на железо: одни сценарии тянет L4, другие требуют связки из L40S или серверного A100.
Дальше - как считать нагрузку на GPU по числу камер и типу моделей, какой класс ускорителей подходит под детекцию объектов, распознавание лиц и поведенческую аналитику, и куда разумнее ставить обработку: централизованно, на edge или гибридом.
Что такое современная видеоаналитика на ИИ
Классические VMS отличали движение в кадре по пикселям и давали тысячи ложных срабатываний от листвы, теней и засветок. Нейросетевые модели работают иначе: они понимают сцену. Детекция отвечает на вопрос «кто или что в кадре» - человек, автомобиль, животное. Классификация уточняет тип: легковая, грузовик, мотоцикл. Трекинг отслеживает объект между кадрами одной камеры. Ре-идентификация (Re-ID) узнаёт того же человека на разных камерах объекта.
Распознавание лиц стоит отдельным классом: детекция лица, выделение вектора признаков, сверка с базой. По нагрузке на GPU это тяжелее обычной детекции. Применения - корпоративная безопасность с контролем зон, ретейл-аналитика с подсчётом посетителей, дорожный трафик с распознаванием номеров, промышленная безопасность с контролем СИЗ и опасных зон.
Какие задачи и сколько мощности они требуют
Базовая детекция и классификация
Детекция объектов на YOLO-семействе моделей (YOLOv8, YOLOv11) - самый массовый класс задач. Модели лёгкие: на потоке 1080p при 25 FPS одна RTX 4060 с 8 ГБ VRAM (архитектура Ada Lovelace) обрабатывает 4–8 камер. Но 8 ГБ VRAM - реальный потолок для базовой детекции: как только в пайплайне появляются классификация плюс распознавание лиц, либо YOLOv11x вместо облегчённой YOLOv11n, память заканчивается, и приходится переходить на L4 с 24 ГБ или RTX 4070 Ti SUPER с 16 ГБ. RTX 4060 подходит для пилотов и проверки концепции, для продакшена с несколькими моделями одновременно нужна карта с большим VRAM.
Классификация типа объекта добавляет 10–20% к нагрузке от детекции - запас на той же карте уменьшается, но карта продолжает справляться. Подсчёт людей и трекинг по одной камере - лёгкая задача: на серверной L4 с 24 ГБ VRAM и TDP 72 Вт укладывается до 16 камер 1080p.
Чтение автомобильных номеров (ANPR/LPR) - пайплайн «детекция номера, выделение, OCR»; одна L4 покрывает 8–12 проходных или дорожных камер. Цифры ориентировочные и зависят от модели, разрешения, FPS и точности.
Сложные сценарии: лица, ре-идентификация, поведение
Распознавание лиц с поиском по базе - тяжёлый пайплайн: детекция лица, выделение embedding, поиск по базе. Одна L40S с 48 ГБ VRAM обрабатывает 20–30 камер при реальной нагрузке, на RTX 4090 - около 15. Ре-идентификация требует попарного сравнения embedding-векторов каждого нового объекта со всеми ранее зафиксированными по сети камер: при N активных объектах число сравнений растёт как N², отсюда и квадратичная нагрузка. На 200 камерах с десятками человек в кадре это уже задача под A100 или несколько L40S. Поведенческая аналитика (падение, драка, оставленный предмет, проход против потока) работает с временными последовательностями и тяжелее статической детекции в 2–3 раза. Совмещение нескольких задач на одной камере суммирует нагрузку, критичен запас VRAM, чтобы модели одновременно помещались в память GPU.
Сервер для видеоаналитики: какое железо нужно
Сервер для видеоаналитики собирается под четыре компонента, и на каждом есть характерные узкие места.
CPU. На декодирование потоков уходит заметная часть нагрузки: для 32 камер 1080p 25 FPS на программном декодировании нужно 16+ ядер Xeon Scalable или AMD EPYC. На GPU NVIDIA есть аппаратный декодер NVDEC, он разгружает CPU, но имеет лимит потоков на карту.
GPU. Главный компонент: подбор зависит от задач и числа камер, об этом отдельный раздел ниже. В сервер ставится от 1 до 8 GPU. Когда понятно число камер, разрешение и тип аналитики, удобнее отталкиваться от готовых конфигураций - сервер для нейросетей в реальном времени уже сбалансирован под обработку видеопотоков: достаточная пропускная способность сети, NVMe под модели, питание и охлаждение под несколько L40S или одну A100.
RAM. Для сервера с 4 GPU и 64 камерами - от 128 ГБ ECC, под нагруженные сценарии с базами лиц и Re-ID - 256–512 ГБ. Меньше - узкое место при загрузке моделей и буферизации. Диски. ОС и модели на NVMe SSD от 1 ТБ, если сервер пишет видеоархив (совмещённый VMS плюс аналитика) - отдельный том на HDD 8–16 ТБ в RAID.
Сеть. 32 камеры 2 Мпикс дают около 50–80 Мбит/с - 1 Гбит/с справится без запаса, на 64+ камер уже нужно 10 Гбит/с.
Питание. Сервер с четырьмя RTX 4090 - около 2 кВт пиковой нагрузки: ИБП с запасом и прецизионное охлаждение в серверной.
Подбор GPU под задачу видеоаналитики
От L4 и RTX 4060 до A100: где какая нужна
GPU для видеоаналитики делятся на три класса по тепловому пакету и объёму VRAM.
Entry-level. NVIDIA L4 - серверная карта малой мощности с активным NVENC/NVDEC, 24 ГБ VRAM, TDP 72 Вт. Подходит под 8–16 камер 1080p с базовой детекцией, устанавливается в 1U-серверы без жидкостного охлаждения. RTX 4060 и 4070 - потребительские аналоги для пилотов и тестовых стендов.
Средний сегмент. NVIDIA L40S, 48 ГБ VRAM, TDP 350 Вт — основной выбор для коммерческой видеоаналитики на объектах 32–64 камеры с детекцией и базовым распознаванием лиц. RTX 4090 - потребительский аналог с меньшим VRAM и ограничениями NVIDIA EULA на использование в дата-центрах.
Серверный класс. NVIDIA A100 (40/80 ГБ HBM2e) и H100 (80 ГБ HBM3) для инсталляций от 100+ камер, сложных пайплайнов с Re-ID и распознаванием лиц по большим базам. Стоят кратно дороже L40S, но дают пропорционально больше throughput.
Российские альтернативы. На 2026 год готовых серверных GPU класса L40S или A100 российского производства в открытой продаже нет. Edge-NPU есть, но они рассчитаны на одну-две камеры на устройство.
Что выбирать: до 16 камер с базовой детекцией - одна L4, 32–64 камеры с лицами - одна L40S или две L4, от 64 до 200 - связка L40S или одна A100, свыше 200 - кластер на A100/H100 или несколько L40S-серверов.
Архитектура: куда ставить видеоаналитику
Когда GPU подобран, остаётся вопрос размещения обработки. Вариантов четыре, и они сосуществуют в реальных проектах.
- Централизованный сервер. Все потоки приходят на один сервер с GPU. Плюс - единое управление, минус - нагрузка на сеть и узкое место при отказе сервера.
- Edge-аналитика. Обработка на самой камере или на компактном устройстве рядом. Современные IP-камеры уже несут NPU на борту (Hikvision Acusense, Dahua WizMind, российские аналоги). Главное ограничение в эксплуатации: набор моделей закрытый и обновляется только прошивкой вендора. Свои алгоритмы - обученную под конкретный объект модель детекции спецодежды или классификации товаров на складе, загрузить нельзя: SDK проприетарный, без доступа к нейросетевому слою. Камера выдаёт только те события, которые вендор предусмотрел в прошивке: пересечение линии, оставленный предмет, подсчёт людей, иногда распознавание лиц по локальной базе. Кастомные сценарии - это уже центральный сервер.
- Гибрид. Базовая детекция - на камере, сложная аналитика (лица, Re-ID) - на центральном сервере по событиям. Часто оптимальная схема на крупных объектах с разнородной аналитикой.
- Облачная аналитика. Внешний провайдер обрабатывает поток. Подходит для пилотов, не подходит для объектов с требованиями по локальному хранению видеоданных - 152-ФЗ, КИИ.
Что выбрать под конкретный объект
- Малый объект до 16 камер с базовой детекцией. Сервер 2U с одной L4 или RTX 4060/4070, 64 ГБ RAM, NVMe SSD 1 ТБ. Этого хватает на типовую охранную задачу.
- Средний объект 16–64 камеры с детекцией и распознаванием лиц на проходных. Сервер 2U–4U с одной L40S или двумя L4, 128 ГБ RAM. Под Re-ID между этажами - сразу две L40S.
- Крупный объект от 64 камер с разнородной аналитикой. Сервер 4U с двумя-четырьмя L40S или одной A100, 256+ ГБ RAM, 10 Гбит/с сеть. Для кампусов и логистики - кластер из нескольких таких узлов.
- Объект с требованиями КИИ или биометрией. Раздельная архитектура: отдельные серверы под видеоаналитику и под СКУД, видеоархив - на сертифицированной СХД.
Чего не делать
- Не выбирать GPU «с запасом 5×». Лишняя мощность не даёт ускорения, но добавляет к счёту и энергопотреблению.
- Не игнорировать стоимость лицензий ПО. Алгоритмы распознавания лиц и Re-ID лицензируются вендором отдельно, часто по числу камер или embedding в базе.
- Не путать FPS обработки и FPS записи. Запись - 25–30 FPS, аналитика обычно работает на 5–10 FPS, этого достаточно для большинства задач.
- Не размещать RTX 4090 в дата-центре для коммерческой ИИ-задачи без понимания EULA NVIDIA. Для дата-центра официально нужны L40S/A100/H100.
Заключение
Подбор железа под видеоаналитику - это расчёт по числу камер, разрешению и сложности моделей, а не выбор «самой мощной карты в каталоге». Малый объект - L4 или RTX 4060/4070, средний - L40S, крупный - A100 или связка из L40S. Архитектура - централизованная для большинства задач, гибрид с edge для крупных объектов с разнородной аналитикой, лицензии ПО считать вместе с железом. Когда сценарий выбран и понятно, какие модели и сколько камер будут работать, дальше это вопрос комплектации: готовые AI-серверы под задачу видеоаналитики, ML-обучения или инференса подбираются по балансу GPU, CPU, RAM и сети, а не собираются из отдельных позиций.