Карьера под прицелом алгоритма: как LLM оценивают «soft skills» и какие это несет риски
Представьте собеседование, на котором вместо внимательного рекрутера ваши жесты и слова анализирует нейросеть. Ваш чат с HR превращается в диалог с ChatGPT, а по завершении алгоритм уже вынес вердикт о вашем характере и склонностях. Фантастика? Вовсе нет – технологии больших языковых моделей (LLM) сегодня проникли и в сферу оценки так называемых «soft skills» – наших личных качеств и навыков общения. Компании ищут способы ускорить и удешевить подбор персонала, и ИИ уже применяется для первичного скрининга резюме и онлайн-тестирования кандидатов.
Парадоксально, но и сами кандидаты начали пользоваться нейросетями, чтобы составлять идеальные резюме и даже решать тестовые задания. Получается своеобразная гонка вооружений: HR вооружается алгоритмами, а соискатели – подсказками ИИ. Однако идея доверить машине оценку человеческих качеств вызывает как интерес, так и опасения. Попробуем разобраться, на что уже способны LLM в оценке «мягких навыков» и какие вопросы валидности и этики при этом возникают.

Что такое «soft skills» и зачем их измерять
Под «soft skills» – мягкими, или гибкими навыками – обычно понимают личностные, межличностные и социально-поведенческие компетенции человека. Это то, как мы работаем с людьми и адаптируемся в среде: умение общаться, эмоциональный интеллект, командная работа, креативность, этика, лидерские качества и многое другое. В отличие от узких профессиональных умений (hard skills), эти навыки труднее формализовать и измерить. Тем не менее работодатели все чаще считают их решающими: сотрудник может блистательно знать технику, но провалиться в работе команды из-за конфликтности или неумения адаптироваться.
Традиционно мягкие навыки оценивают с помощью интервью с психологическими вопросами, ассессмент-центров, кейсов или рекомендаций. Но человеческая оценка субъективна и трудоемка. Что, если поручить эту задачу продвинутому искусственному интеллекту? Современные LLM вроде GPT-4 умеют анализировать тексты, «понимать» смыслы и даже отвечать на эмоциональные вопросы. Возможно, они сумеют заметить в словах кандидата те самые личностные черты – энтузиазм, эмпатию, настойчивость – которые важны для роли.
Нейросеть против психолога: первые успехи LLM в мягких навыках
Уже появились обнадеживающие результаты исследований. Весной 2025 года группа ученых протестировала возможности ChatGPT-4 и ряда других LLM на задачах эмоционального интеллекта. Модели решали сразу пять стандартных тестов на определение эмоций и правильное реагирование – и в среднем набрали 81% правильных ответов, тогда как люди ранее показывали около 56%. Иными словами, по ряду психометрических тестов машина уже превзошла среднестатистического человека.
Более того, исследователи попробовали поручить ChatGPT-4 самому придумывать вопросы к таким тестам. Новые задания от ИИ по сложности практически не уступали оригинальным, хотя и отличались по стилю и чуть иначе коррелировали с внешними метриками. Получается, LLM способен не только решать, но и конструировать инструменты для измерения эмоциональных навыков.
Конечно, одно дело – искусственно сгенерированный тест, и совсем другое – реальная речь живого человека. Но и здесь нейросети демонстрируют недюжинные способности. В одном эксперименте интервьюер попросил кандидатов рассказать о своем провале, а затем дал тот же ответ проанализировать ChatGPT. Модель в отзыве подчеркнула, что кандидат проявил «скромность, ответственность и готовность учиться на своих ошибках» – то есть фактически распознала важные soft skills вроде умения признавать ошибки и работать в команде. Подобные примеры показывают, что ИИ уже сейчас умеет вычленять из потока слов показатели эмоциональной зрелости, лидерского потенциала и прочие тонкие моменты, на которые обращают внимание опытные HR-менеджеры.
Самое впечатляющее – такие умения возникают у больших языковых моделей без специальной настройки под психодиагностику. Например, исследователи из Колумбийского университета проверили, сможет ли GPT-3.5 и GPT-4 определить черты личности Big Five (большой пятерки: экстраверсия, доброжелательность, добросовестность, нейротизм, открытость) по постам пользователей в соцсетях. Результат: корреляция порядка 0,3 между предсказанными ИИ чертами и реальными результатами психотестов участников.
Это сопоставимо с точностью специальных алгоритмов, которые обучались на подобных задачах! Другими словами, ChatGPT смог по текстам из Facebook довольно надежно угадать характер людей, пусть и не безошибочно. Это открывает заманчивую перспективу: вместо того чтобы гонять сотни сотрудников через опросники и интервью, компания может пропустить их ответы или переписку через нейросеть – и за считанные минуты получить оценку коммуникабельности, эмоционального интеллекта, стрессоустойчивости и т.д.
Валидность под вопросом: где алгоритм может ошибаться
Однако не стоит спешить увольнять психологов и передавать все оценки роботу. Несмотря на успехи, у алгоритмических «психологов» есть серьезные ограничения. Главный вопрос – валидность: действительно ли модель измеряет то, что мы думаем? Корреляция 0,3, о которой шла речь выше, означает, что большая часть вариаций человеческой личности остается неуловимой для ИИ.
Да, связь есть, но пока далека от идеальной. Для сравнения, традиционные опросники личности при повторном прохождении одним человеком показывают корреляции порядка 0,7–0,8. Так что GPT еще предстоит доказать свою надежность на уровне классических методик.
Более того, выяснилось, что алгоритмы могут работать неравномерно для разных групп людей. В эксперименте с Big Five предсказания оказались точнее для женщин и молодых пользователей, чем для мужчин и возрастных групп. Исследователи предположили, что дело либо в перекосах обучающих данных (интернет-тексты, на которых тренируются LLM, могут отражать преимущественно стиль коммуникации одних групп), либо в различиях самого стиля общения – скажем, молодые люди более откровенно выражают свои эмоции в соцсетях, чем поколения постарше. Какова бы ни была причина, факт остается: есть риск необъективности, заложенной в модели. Если не скорректировать такие смещения, автоматическая оценка soft skills может несправедливо занижать баллы отдельным категориям кандидатов, усиливая существующие предрассудки.
Похожая история произошла несколько лет назад с системой HireVue, которая одной из первых на рынке предложила автоматизировать оценку соискателей. Ее алгоритм анализировал видеозаписи интервью – от речи и выбора слов до мимики – и выдавал рейтинг «продуктивности» и личностных качеств кандидата, таких как «готовность учиться» и «личностная стабильность». Казалось бы, мечта HR: нажал кнопку – и получил объективный психологический портрет. Но на практике возникло столько вопросов, что в дело вмешались правозащитники. В 2019 году крупнейшая организация по защите цифровых прав EPIC подала жалобу в Федеральную торговую комиссию США, обвинив HireVue в «нечестной и обманной практике».
В жалобе утверждалось, что методики компании «носят предвзятый, недоказуемый и неповторяемый характер». Алгоритм, по их мнению, мог несправедливо понижать оценку кандидатов из-за таких признаков, как пол, раса, сексуальная ориентация или нейроразнообразие. Кроме того, разработчики отказались раскрыть, как именно ИИ принимает решения, лишив соискателей возможности оспорить результаты. Фактически, судьбу людей доверили «черному ящику» – и это поставило под удар их права.
Мало того, выяснилось, что у HireVue не было серьезных исследований, подтверждающих валидность ее чудо-алгоритма. В жалобе EPIC прямо указывалось, что компания не доказала точность, надежность и объективность компьютерных оценок, а также не проверила, превышают ли выгоды от такой автоматизации возможный ущерб. Эта история стала тревожным звоночком: если даже специально разработанная HR-система грешит предвзятостью и сомнительной наукой, то тем более осторожно надо относиться к универсальным языковым моделям, которые изначально обучались не для оценки людей.
Этические ловушки: конфиденциальность, доверие и новые законы
Помимо точности измерений, всплывает целый пласт этических вопросов. Конфиденциальность – один из первых. Алгоритму для вывода о вашей личности нужны данные: тексты, записи голоса, видео. Но готовы ли вы, чтобы работодатель скармливал нейросети ваши посты из соцсетей или записанные разговоры?
В упомянутом исследовании ученые свободно использовали публичные данные Facebook-профилей для оценки личности через GPT. В научных целях это приемлемо (тем более анонимно), но если такую практику перенять бизнес, возникает риск скрытого «профайлинга» людей без их согласия. Право на самоопределение (self-determination), о котором говорят авторы исследования, подразумевает, что человек сам решает, когда и как его оценивают – и на основе чего. Алгоритмические же системы могут тайно присваивать нам ярлыки, влияющие на карьеру, – и мы об этом даже не узнаем.
Прозрачность и ответственность – следующая проблема. Если вам отказали в должности из-за низкого «балла soft skills», выставленного нейросетью, сможете ли вы узнать, почему? Какие именно слова или интонации привели к такому выводу? Классическое собеседование тем и ценилось, что хороший интервьюер мог обосновать свое мнение о кандидате, дать обратную связь.
Алгоритм же часто не умеет объяснять свои решения (эта особенность LLM известна как проблема «интерпретируемости»). Разработчики могут и вовсе сослаться на коммерческую тайну, скрыв детали модели. В результате кандидат лишается шанса оспорить или скорректировать оценку – ситуация, которую уже назвали «дегуманизацией» найма. Люди превращаются в строчки данных, а решения принимаются без учета контекста и индивидуальности, что противоречит самим принципам равноправия и разнообразия в работе.

Чтобы такие сценарии не стали реальностью, регуляторы и сами разработчики пытаются ввести ограничения. В Европе готовится к вступлению регламент AI Act, который отнесет системы оценки персонала на базе ИИ к категории повышенного риска и потребует строгой сертификации на отсутствие дискриминации и прозрачность алгоритмов. Стартапы, работающие в этой области, уже вынуждены создавать собственные этические советы и механизмы контроля. Так, швейцарская платформа Vima Link, разрабатывавшая ИИ для оценки мягких навыков, учредила независимый совет по этике, пытаясь минимизировать риски и выработать справедливые рекомендации.
Ее основательница Гизлен Куврер уверена, что при правильном подходе такая технология может быть полезной – помогать сотрудникам и руководителям лучше понять себя и друг друга, устраняя человеческую предвзятость. «Системы ИИ эффективны только тогда, когда они служат людям и улучшают их опыт», – отмечает Куврер. Однако даже она признает, что убедить людей доверять объективности технологии – огромный вызов. Недаром ее компания так и не смогла выйти на стабильный уровень и закрылась в 2023 году, не выдержав управленческих и регуляторных трудностей.
Сможем ли мы приручить алгоритмы, чтобы они оценивали нас честно и уважительно? Пока это открытый вопрос. Очевидно одно: потенциал LLM в сфере soft skills велик и уже частично реализован – они способны анализировать эмоциональные тексты, давать развернутый фидбэк, даже предсказывать черты характера по цифровому следу. Но применять эти возможности нужно осторожно. Без прозрачности, валидности и этического надзора подобные системы рискуют превратиться в инструмент усиления предубеждений и нарушения приватности, вместо того чтобы нести объективность.
Возможно, ближайшее будущее – за гибридными решениями, когда ИИ выступает помощником HR-специалиста, подсказывает и структурует информацию, но не выносит окончательный вердикт. В конце концов, как метко заметили в Университете Мэриленда, «роботы сравнивают вас с историями успеха прошлого, они не ищут нестандартных, но многообещающих кандидатов». Чуткость к уникальности каждого человека – то, чего мы ждем от хорошего наставника или менеджера, – остается пока свойством человеческого интеллекта. И нейросетям еще предстоит доказать, что на этом поприще они действительно могут нам помочь, а не навредить.
Вывод: LLM уже умеют оценивать наши soft skills в определенных задачах, но доверять им судьбы людей без оговорок рано. Необходимы дальнейшие исследования валидности, устранение алгоритмического бага предвзятости и четкие этические нормы использования. Возможно, тогда – и только тогда – искусственный интеллект из пугающего судии превратится в полезного советчика, помогающего раскрыть потенциал каждого из нас, а не загнать нас в рамки чьих-то данных.