Прогнозируем текучесть персонала с помощью ML: какие методы использовать и как это работает на практике

Текучесть персонала — одна из самых болезненных проблем, с которой сталкиваются компании по всему миру. Когда сотрудник уходит, компания теряет не только специалиста, но и деньги на подбор и обучение нового человека. Средний показатель текучести сегодня достигает 15–16%, а замена одного сотрудника может стоить компании от 6 до 9 его ежемесячных зарплат.

Сейчас с этой проблемой помогают справиться технологии машинного обучения (ML). HR-аналитика на основе ML позволяет не только выявить сотрудников, склонных к уходу, но и заранее разобраться в причинах возможного увольнения. В статье расскажем, какие алгоритмы прогнозирования текучести персонала существуют, какие у них плюсы и минусы, покажем реальные примеры и дадим рекомендации по их применению.

В конце статьи — сравнительная таблица всех моделей по их точности, сложности и возможности интерпретации для HR.

Методы машинного обучения для прогноза текучести

Рассмотрим основные алгоритмы, которые можно использовать для прогноза увольнений, их преимущества и недостатки.

1. Логистическая регрессия

Один из самых понятных и популярных методов в HR-аналитике. Логистическая регрессия позволяет ответить на вопрос: «Какие факторы больше всего влияют на решение сотрудника уйти?»

Плюсы:

  • Простая и понятная модель.
  • Не требует огромных объемов данных.
  • Легко объяснить результаты бизнесу.

Минусы:

  • Плохо справляется со сложными нелинейными зависимостями.
  • Уступает по точности более современным алгоритмам на больших данных.

2. Решающее дерево

Метод, который визуализируется как набор простых правил (например: «если стаж < 3 лет и зарплата низкая — сотрудник уйдёт»).

Плюсы:

  • Легко интерпретировать и визуализировать.
  • Выявляет нелинейные зависимости.

Минусы:

  • Часто переобучается на небольших данных.
  • Менее стабилен по сравнению с ансамблями (например, случайным лесом).

3. Случайный лес (Random Forest)

Ансамбль из множества решающих деревьев. Случайный лес строит сразу много деревьев, объединяя их прогнозы для более высокой точности.

Плюсы:

  • Высокая точность и устойчивость к переобучению.
  • Работает практически «из коробки».

Минусы:

  • Сложнее интерпретировать конкретные решения (черный ящик).
  • Требует больше вычислительных ресурсов, чем отдельное дерево.

4. Градиентный бустинг (XGBoost, LightGBM, CatBoost)

Ансамблевый подход, где каждое новое дерево корректирует ошибки предыдущих моделей. В соревнованиях по ML часто занимает призовые места.

Плюсы:

  • Максимальная точность среди классических алгоритмов.
  • Эффективен на сложных наборах данных.

Минусы:

  • Сложно интерпретировать (черный ящик).
  • Требует тщательной настройки и больших вычислительных мощностей.

5. Метод опорных векторов (SVM)

SVM строит границу, максимально четко разделяющую классы («уйдёт»/«останется»), и способен учитывать нелинейные зависимости.

Плюсы:

  • Высокая точность на небольших данных.
  • Стабильность к выбросам.

Минусы:

  • Плохо масштабируется на большие данные.
  • Практически не интерпретируем.

6. Нейронные сети (ANN)

Самый мощный, но требовательный к данным алгоритм. Нейросети используют, если есть много информации разного типа (например, тексты отзывов сотрудников).

Плюсы:

  • Способны выявлять любые сложные зависимости.
  • Эффективны на больших объемах данных.

Минусы:

  • Сложная настройка.
  • Низкая интерпретируемость и высокие требования к качеству данных.

Примеры реализации моделей на практике

Наиболее известны кейсы с использованием открытых данных, таких как IBM HR Analytics Dataset. Например:

  • Случайный лес достиг точности 88,8%.
  • Логистическая регрессия — около 87,7%.

В других проектах (например, GitHub-репозиториях и Kaggle-ноутбуках) применялись методы балансировки данных, такие как SMOTE, которые улучшали полноту (recall) модели при прогнозе увольнений с 62,1% до 70%.


Сравнение алгоритмов по точности и метрикам

Важно оценивать не только общую точность (accuracy), но и полноту (recall), точность (precision) и метрику ROC-AUC.

Сравнение алгоритмов

Логистическая регрессия

  • Точность: ⭐️⭐️⭐️⭐️ (80–88 % accuracy)
  • ROC‑AUC: ⭐️⭐️⭐️⭐️ (≈ 0,80)
  • Интерпретируемость: ⭐️⭐️⭐️⭐️⭐️ (очень высокая)

Решающее дерево

  • Точность: ⭐️⭐️⭐️ (70–85 % accuracy)
  • ROC‑AUC: ⭐️⭐️⭐️ (≈ 0,75)
  • Интерпретируемость: ⭐️⭐️⭐️ (средняя)

Случайный лес

  • Точность: ⭐️⭐️⭐️⭐️ (85–90 % accuracy)
  • ROC‑AUC: ⭐️⭐️⭐️⭐️ (> 0,80)
  • Интерпретируемость: ⭐️⭐️ (ниже среднего)

Градиентный бустинг (XGBoost / LightGBM / CatBoost)

  • Точность: ⭐️⭐️⭐️⭐️⭐️ (88–90 % accuracy)
  • ROC‑AUC: ⭐️⭐️⭐️⭐️ (≈ 0,85)
  • Интерпретируемость: ⭐️ (низкая)

Метод опорных векторов (SVM)

  • Точность: ⭐️⭐️⭐️⭐️ (85–89 % accuracy)
  • ROC‑AUC: ⭐️⭐️⭐️⭐️ (≈ 0,85)
  • Интерпретируемость: ⭐️ (низкая)

Нейронные сети (ANN)

  • Точность: ⭐️⭐️⭐️⭐️ (85–88 % accuracy)
  • ROC‑AUC: ⭐️⭐️⭐️⭐️ (≈ 0,85)
  • Интерпретируемость: ⭐️ (очень низкая)

Рекомендации по внедрению моделей на практике

  1. Подготовьте качественные данные:
  • учитывайте демографию, карьерный путь, условия труда и удовлетворенность сотрудников;
  • очищайте данные от выбросов и кодируйте категориальные переменные.
  1. Выберите подходящую модель:
  • начните с логистической регрессии для базового анализа;
  • затем пробуйте ансамблевые методы (Random Forest, XGBoost), если данных достаточно.
  1. Интерпретируйте результаты:
  • используйте feature_importances_ или SHAP/LIME для объяснения решений сложных моделей.
  1. Переходите от прогноза к действиям:
  • внедряйте модель в регулярный HR-процесс;
  • регулярно проверяйте и обновляйте модель.