Прогнозируем текучесть персонала с помощью ML: какие методы использовать и как это работает на практике
Текучесть персонала — одна из самых болезненных проблем, с которой сталкиваются компании по всему миру. Когда сотрудник уходит, компания теряет не только специалиста, но и деньги на подбор и обучение нового человека. Средний показатель текучести сегодня достигает 15–16%, а замена одного сотрудника может стоить компании от 6 до 9 его ежемесячных зарплат.
Сейчас с этой проблемой помогают справиться технологии машинного обучения (ML). HR-аналитика на основе ML позволяет не только выявить сотрудников, склонных к уходу, но и заранее разобраться в причинах возможного увольнения. В статье расскажем, какие алгоритмы прогнозирования текучести персонала существуют, какие у них плюсы и минусы, покажем реальные примеры и дадим рекомендации по их применению.
В конце статьи — сравнительная таблица всех моделей по их точности, сложности и возможности интерпретации для HR.

Методы машинного обучения для прогноза текучести
Рассмотрим основные алгоритмы, которые можно использовать для прогноза увольнений, их преимущества и недостатки.
1. Логистическая регрессия
Один из самых понятных и популярных методов в HR-аналитике. Логистическая регрессия позволяет ответить на вопрос: «Какие факторы больше всего влияют на решение сотрудника уйти?»
Плюсы:
- Простая и понятная модель.
- Не требует огромных объемов данных.
- Легко объяснить результаты бизнесу.
Минусы:
- Плохо справляется со сложными нелинейными зависимостями.
- Уступает по точности более современным алгоритмам на больших данных.
2. Решающее дерево
Метод, который визуализируется как набор простых правил (например: «если стаж < 3 лет и зарплата низкая — сотрудник уйдёт»).
Плюсы:
- Легко интерпретировать и визуализировать.
- Выявляет нелинейные зависимости.
Минусы:
- Часто переобучается на небольших данных.
- Менее стабилен по сравнению с ансамблями (например, случайным лесом).
3. Случайный лес (Random Forest)
Ансамбль из множества решающих деревьев. Случайный лес строит сразу много деревьев, объединяя их прогнозы для более высокой точности.
Плюсы:
- Высокая точность и устойчивость к переобучению.
- Работает практически «из коробки».
Минусы:
- Сложнее интерпретировать конкретные решения (черный ящик).
- Требует больше вычислительных ресурсов, чем отдельное дерево.
4. Градиентный бустинг (XGBoost, LightGBM, CatBoost)
Ансамблевый подход, где каждое новое дерево корректирует ошибки предыдущих моделей. В соревнованиях по ML часто занимает призовые места.
Плюсы:
- Максимальная точность среди классических алгоритмов.
- Эффективен на сложных наборах данных.
Минусы:
- Сложно интерпретировать (черный ящик).
- Требует тщательной настройки и больших вычислительных мощностей.
5. Метод опорных векторов (SVM)
SVM строит границу, максимально четко разделяющую классы («уйдёт»/«останется»), и способен учитывать нелинейные зависимости.
Плюсы:
- Высокая точность на небольших данных.
- Стабильность к выбросам.
Минусы:
- Плохо масштабируется на большие данные.
- Практически не интерпретируем.
6. Нейронные сети (ANN)
Самый мощный, но требовательный к данным алгоритм. Нейросети используют, если есть много информации разного типа (например, тексты отзывов сотрудников).
Плюсы:
- Способны выявлять любые сложные зависимости.
- Эффективны на больших объемах данных.
Минусы:
- Сложная настройка.
- Низкая интерпретируемость и высокие требования к качеству данных.
Примеры реализации моделей на практике
Наиболее известны кейсы с использованием открытых данных, таких как IBM HR Analytics Dataset. Например:
- Случайный лес достиг точности 88,8%.
- Логистическая регрессия — около 87,7%.
В других проектах (например, GitHub-репозиториях и Kaggle-ноутбуках) применялись методы балансировки данных, такие как SMOTE, которые улучшали полноту (recall) модели при прогнозе увольнений с 62,1% до 70%.
Сравнение алгоритмов по точности и метрикам
Важно оценивать не только общую точность (accuracy), но и полноту (recall), точность (precision) и метрику ROC-AUC.
Сравнение алгоритмов
Логистическая регрессия
- Точность: ⭐️⭐️⭐️⭐️ (80–88 % accuracy)
- ROC‑AUC: ⭐️⭐️⭐️⭐️ (≈ 0,80)
- Интерпретируемость: ⭐️⭐️⭐️⭐️⭐️ (очень высокая)
Решающее дерево
- Точность: ⭐️⭐️⭐️ (70–85 % accuracy)
- ROC‑AUC: ⭐️⭐️⭐️ (≈ 0,75)
- Интерпретируемость: ⭐️⭐️⭐️ (средняя)
Случайный лес
- Точность: ⭐️⭐️⭐️⭐️ (85–90 % accuracy)
- ROC‑AUC: ⭐️⭐️⭐️⭐️ (> 0,80)
- Интерпретируемость: ⭐️⭐️ (ниже среднего)
Градиентный бустинг (XGBoost / LightGBM / CatBoost)
- Точность: ⭐️⭐️⭐️⭐️⭐️ (88–90 % accuracy)
- ROC‑AUC: ⭐️⭐️⭐️⭐️ (≈ 0,85)
- Интерпретируемость: ⭐️ (низкая)
Метод опорных векторов (SVM)
- Точность: ⭐️⭐️⭐️⭐️ (85–89 % accuracy)
- ROC‑AUC: ⭐️⭐️⭐️⭐️ (≈ 0,85)
- Интерпретируемость: ⭐️ (низкая)
Нейронные сети (ANN)
- Точность: ⭐️⭐️⭐️⭐️ (85–88 % accuracy)
- ROC‑AUC: ⭐️⭐️⭐️⭐️ (≈ 0,85)
- Интерпретируемость: ⭐️ (очень низкая)
Рекомендации по внедрению моделей на практике
- Подготовьте качественные данные:
- учитывайте демографию, карьерный путь, условия труда и удовлетворенность сотрудников;
- очищайте данные от выбросов и кодируйте категориальные переменные.
- Выберите подходящую модель:
- начните с логистической регрессии для базового анализа;
- затем пробуйте ансамблевые методы (Random Forest, XGBoost), если данных достаточно.
- Интерпретируйте результаты:
- используйте feature_importances_ или SHAP/LIME для объяснения решений сложных моделей.
- Переходите от прогноза к действиям:
- внедряйте модель в регулярный HR-процесс;
- регулярно проверяйте и обновляйте модель.