Windows Server Failover Cluster: когда кластер оправдан

В пятницу вечером падает сервер с SQL Server и базой 1С, на которой работают отдел продаж и складской учёт. Бизнес стоит до утра понедельника - это десятки часов простоя и упущенной выручки. Windows Server Failover Cluster - компонент Windows Server, который при отказе одного узла продолжает обслуживать сервис на соседнем: нагрузка переезжает автоматически, пользователи в большинстве случаев замечают только короткую паузу. Ниже разберём, в каких задачах кластеризация действительно окупается, а где она избыточна и съедает бюджет.

Что такое WSFC и как он работает

Windows Server Failover Cluster - это группа из 2 и более серверов под управлением Windows Server, которые видят друг друга по сети и совместно обслуживают одну роль: базу данных, файловый ресурс или виртуальную машину. Для пользователей и приложений кластер выглядит как один сетевой адрес - какой именно физический узел сейчас держит сервис, клиенту не видно. Под капотом - четыре ключевых понятия. Нода - узел кластера, физический или виртуальный сервер с установленной ролью. Кворум - механизм голосования, который решает, кто принимает решения при сбое связи между узлами и предотвращает split-brain. Общее хранилище - Cluster Shared Volume на внешней СХД или Storage Spaces Direct. Heartbeat - постоянная проверка живости узлов по отдельному сетевому каналу с миллисекундной частотой.

Главное про отказоустойчивый кластер Windows: он не делает приложение быстрее и не защищает от логических ошибок. Если данные удалены или таблица повреждена приложением, эти изменения окажутся на всех узлах одновременно. Кластер синхронизирует именно состояние сервиса, а не намерения администратора. Задача WSFC - переключить сервис при отказе железа, операционной системы или одной из нод, не больше и не меньше. Это инструмент против сбоев, не замена бэкапу и не страховка от человеческого фактора.

Когда кластеризация оправдана для бизнеса

SQL Server и базы 1С

Отказоустойчивый кластер Windows окупается в первую очередь под SQL Server и 1С. SQL Server поверх кластера (Always On Failover Cluster Instance) обеспечивает переключение базы за 30–60 секунд в типовом сценарии. Для розничной сети с кассами или отдела продаж на 1С это разница между «никто не заметил» и «полдня без отгрузок». Порог окупаемости простой: имеет смысл, когда час простоя стоит дороже годовой стоимости второй ноды и лицензий. Если час остановки розничной точки или производственной линии стоит 200–500 тыс. ₽, окупаемость кластера измеряется единицами инцидентов в год.

На тяжёлых базах 1С с десятками одновременных пользователей кластер решает ещё одну задачу: плановые обновления платформы, накатка релизов и регламентные работы становятся возможны без окна простоя. Узел поочерёдно выводят из эксплуатации, обновляют, возвращают - пользователи работают непрерывно.

Hyper-V и файловые сервисы

Кластер Hyper-V - это про Live Migration: виртуальную машину можно увести с узла без остановки гостевой ОС. Базовый инструмент для обслуживания серверов без окон простоя: обновили прошивку, перезагрузили, вернули нагрузку - пользователи ничего не заметили. Тяжёлые виртуальные машины (терминальные серверы, сервисы 1С) уезжают за единицы минут, лёгкие за секунды. Файловый сервис на Scale-Out File Server закрывает задачу общего хранилища для отдела на сотни пользователей с автоматическим перебросом подключений между узлами. Для офисных сценариев это нередко дешевле и проще, чем отдельная СХД, а в случае сбоя одного из узлов клиенты переподключаются автоматически без действий администратора.

Кластер высокой доступности окупается там, где совпадают три фактора: критичный сервис, измеримая стоимость простоя и команда, готовая поддерживать кластерную инфраструктуру. Если хотя бы один из них отсутствует, дешевле и надёжнее идти альтернативным путём.

Схема архитектуры с серверами, сетевыми адаптерами, общим хранилищем и линиями синхронизации между компонентами

Архитектура и требования к инфраструктуре

Развёртывание Windows Server Failover Cluster требует пяти базовых компонентов, и без любого из них кластер не запустится либо будет работать ненадёжно.

Минимум 2 ноды одинаковой конфигурации, желательно одной модели, с идентичными CPU и ОЗУ. Разнобой по железу повышает риск разного поведения при failover и усложняет диагностику.
Общее хранилище - внешний СХД по iSCSI/FC или Storage Spaces Direct (S2D) на NVMe с сетью 10/25 GbE между узлами. Без общего тома Failover Cluster Instance просто не разворачивается.
Отдельная сеть для heartbeat - изолированный канал между узлами, чтобы кратковременная сетевая просадка не вызвала split-brain. На практике это второй сетевой адаптер на каждой ноде и отдельный VLAN.
Active Directory - кластер регистрируется в домене, без AD развернуть его нельзя. Сами контроллеры домена в кластер обычно не выносят: AD имеет собственную модель отказоустойчивости.
Резерв по ресурсам - нагрузка одной ноды должна полностью помещаться на оставшихся, иначе при отказе сервис деградирует. Простое правило: если в кластере 2 ноды, каждая должна тянуть 100% нагрузки в одиночку. На 3 нодах допустимо проектировать 66% запас, но в малом и среднем бизнесе чаще встречаются именно двухузловые конфигурации.

Если кластер строится под виртуализацию или 1С, имеет смысл сразу подбирать серверы для виртуализации, там уже учтены требования по объёму ОЗУ, дисковым контроллерам и сетевым картам под Hyper-V. Спецификация ноды кластера и одиночного сервера отличается заметно: больше памяти под резерв, отдельный сетевой адаптер под heartbeat, поддержка iSCSI или FC под общее хранилище.

Лицензирование и стоимость владения

Главное правило: Windows Server лицензируется по физическим ядрам, и в кластере лицензировать нужно каждую ноду отдельно. Минимум - 16 ядер на сервер, даже если физически их меньше. Это база, на которой строится дальнейший расчёт стоимости владения.

Datacenter vs Standard, что выбрать под кластер

Лицензирование Windows Server Datacenter и Standard различается принципиально. Standard разрешает 2 виртуальные машины на лицензируемом сервере, Datacenter - неограниченное число. Для Hyper-V-кластера из 2 нод с 10+ виртуальными машинами Datacenter обычно выходит дешевле, чем стопка Standard-лицензий, и сильно проще в учёте при добавлении новых ВМ.

Для кластера SQL Server считают отдельно: лицензия SQL Server покупается по ядрам, и здесь работает программа Software Assurance (SA) - это подписка Microsoft с правом на обновления, мобильность лицензий и Failover Rights. При активной SA на ядра основного узла пассивная нода в режиме холодного или горячего резерва не требует отдельных лицензий SQL Server до 90 дней failover в год. Экономия по сравнению с лицензированием обеих нод как активных получается заметная - порядка 30–40% от стоимости SQL Server, но это не «скидка», а отдельная подписка с её собственной ценой и условиями продления.

Конкретные суммы в рублях зависят от модели поставки (OEM, Volume, CSP) и курса валют, но порядок объёма лицензий считается заранее. Для кластера из двух нод по 16 ядер минимальный набор - 32 ядра Windows Server (по 16 на каждую ноду) плюс CAL-лицензии на пользователей или устройства, при выборе Datacenter, те же 32 ядра в редакции Datacenter. Под SQL Server добавляется лицензирование по тем же физическим ядрам активного узла плюс подписка Software Assurance, если планируется failover на пассивную ноду без отдельных лицензий. В бизнес-логике ориентир такой: при горизонте 3–5 лет CapEx на кластер сравнивают с потерями от часа простоя. Если простой обходится в 200–500 тыс. ₽ в час, окупаемость кластера - единицы инцидентов.

Профессиональный эффект процесса резервного копирования данных и синхронизации между системами

Когда WSFC избыточен - альтернативы

Кластер - не универсальный ответ. Есть три типичные ситуации, где он не нужен, и одна особая - облако.

Сервис не критичен для бизнеса. Внутренний портал, файловый архив, тестовая среда. Достаточно регулярных бэкапов и плановых регламентов восстановления. Городить кластер ради того, что нормально живёт сутки в офлайне - переплата.
Команда не готова обслуживать кластер. WSFC требует понимания кворума, домена, СХД и сетей. Без выделенного инженера или подрядчика на сопровождение он быстро превращается в источник проблем: split-brain, расхождение конфигураций, провалы failover при инцидентах.
Есть более простой механизм под задачу. Для SQL Server подойдёт Always On Availability Groups без общего хранилища, для файлов - DFS Replication, для виртуализации в небольшом офисе - резервный сервер с регулярной репликацией через Hyper-V Replica.

Отдельный случай - облачные сценарии. Для систем, которые работают в облаке провайдера, кластер обычно заменяется встроенной отказоустойчивостью платформы. Смысл WSFC здесь сохраняется только в гибридных развёртываниях, где нужна совместимость с on-prem-системой и единая модель управления.

Заключение

Windows Server Failover Cluster оправдан, когда совпадают три условия: час простоя сервиса стоит дороже годовой стоимости второй ноды и лицензий, есть команда для сопровождения и понятная архитектура общего хранилища. Если хотя бы один пункт не выполняется, стоит рассмотреть Always On Availability Groups, Hyper-V Replica или бэкап с быстрым восстановлением.

Подбор железа под кластер начинают не с лицензий, а с задачи. На нашем сайте собраны отказоустойчивые серверы с конфигурациями под WSFC, SQL Server и Hyper-V - там видны типовые наборы ОЗУ, дисков и сетевых карт. Помогаем подобрать пару серверов и СХД, рассчитываем лицензирование и собираем стенд под нагрузку клиента.

Windows Server Failover Cluster: когда кластеризация оправдана