Теперь для кластеров Kubernetes доступен автохилинг. Разберем на пальцах, как система сама чинит проблемные ноды:
Алгоритм работы:
1️⃣ Каждые 10 минут проверяем состояние всех нод.
2️⃣ Если нода в состоянии NotReady или со статусом Failed:
3️⃣ Для конкретных нод можно отключить автохилинг через лейбл.
Доступно для всех кластеров с автоскейлингом и без GPU-нод.