Как нанять data scientist’а и ML-инженера: вопросы на прескринге, которые решают всё
За последние годы профессии Data Scientist и ML-инженера превратились в одни из самых желанных на технологическом рынке. Мир охватила настоящая «золотая лихорадка» данных: компании спешат нанять специалистов по искусственному интеллекту, а кандидаты массово осваивают онлайн-курсы, мечтая ворваться в Data Science. Неудивительно, что Всемирный экономический форум уже относит ML-инженеров к пятёрке самых востребованных профессий будущего — спрос на них растёт стремительно (источник hirewithnear.com).
Но высокая популярность имеет и обратную сторону: вакансии завалены откликами. HR-менеджерам нередко приходится просматривать сотни резюме на одну позицию (источник reddit.com), причём сфера буквально наводнена людьми с онлайн-сертификатами, уверенными, что этого достаточно для карьеры в данных. В таких условиях особенно важно уже на прескринге – первом коротком интервью – понять, кто перед вами: настоящий профессионал или новичок, знающий модные слова, но не имеющий глубоких навыков.

Data Scientist vs. ML-инженер: не перепутайте роль
Прежде чем обсуждать вопросы, стоит определиться, кого именно вы ищете. Data Scientist и ML-Engineer часто упоминаются рядом, но акценты в их работе разные. Data Scientist – это мастер анализа данных: он собирает и исследует данные, ищет закономерности, строит модели и формулирует инсайты для бизнеса. ML-инженер же – ближе к разработчику: его задача – взять модели машинного обучения и внедрить их в рабочие продукты, наладить pipelines и обеспечить масштабируемость решений (источник hirewithnear.com).
Проще говоря, Data Scientist генерирует понимание из данных, а ML-инженер делает так, чтобы это понимание работало в продукте на миллионы пользователей. Оба специалиста, конечно, разбираются и в коде, и в моделях, но фокус различается. Если нанять «не того» – например, взять аналитика данных, когда компании нужен инженер для продакшена, – можно получить ситуацию, при которой у вас есть изящные модели, но они так и не внедрены, или наоборот – автоматизированная система без осмысленных бизнес-инсайтов.
Для работодателя это значит, что на прескринге нужно уточнить профиль кандидата. Задайте пару вопросов про его текущую работу и интересы: что ему больше нравится – копаться в данных, тестируя гипотезы, или писать код и деплоить модели? По тому, как человек отвечает, станет понятно, совпадает ли его специализация с ролью. Этот момент часто упускают, но он важен: даже лучшие вопросы бесполезны, если вы с самого начала ищете «не ту» экспертизу.
Прескрин: фильтр, экономящий ваше время
Прескрин-интервью – это короткая беседа (часто по телефону или видеосвязи) длительностью 15–30 минут, цель которой отсеять заведомо неподходящих кандидатов, прежде чем звать их на углублённые технические этапы. В случае data science это особенно критично: как мы выяснили, желающих в разы больше, чем реально квалифицированных специалистов. «Перебор» кандидатов – процесс дорогостоящий, поэтому важно уметь снять верхний слой пены и оставить только перспективных. Компании всё чаще переносят фокус на технические вопросы уже на ранних стадиях собеседований – в последние годы даже на первом интервью могут спросить базовые алгоритмы, SQL или основы ML (источник interviewquery.com). Это связано с тем, что рынок стал зрелее: многие кандидаты умеют произвести впечатление общими фразами, но проверить их реальные навыки лучше сразу, не откладывая до финального этапа.

Как отмечают специалисты по найму, хороший прескрин – не допрос с пристрастием, а дружеская разведка боем. Ваша задача – за короткое время понять уровень кандидата, при этом не отпугнув сильного профессионала излишне формальным тоном или деструктивной критикой. Лучше представить разговор как обмен опытом: попросить человека поделиться, как он решал задачи, с которыми вы сами сталкиваетесь в работе. Ниже – ключевые темы и вопросы, которые помогут «раскопать» компетенции кандидата еще до технического тестирования. И главное – никаких бесполезных паззлов или вопросов-ловушек: цель прескрина – не загнать человека в угол, а честно оценить его знания и опыт.
Техническая экспертиза: проверяем базу знаний
Первое, что нужно выяснить, – базовый технический уровень кандидата. Data Science – междисциплинарная область, поэтому хороший специалист должен хотя бы в общих чертах разбираться во всем понемногу: и в математике, и в кодинге, и в предметной области. На прескринге имеет смысл задать несколько широких вопросов, которые позволят судить о кругозоре претендента.
Опыт работы с данными. Один из первых вопросов – про опыт работы с крупными, реальными датасетами. «Приходилось ли вам работать с очень большими объемами данных, на каком масштабе?» Такой вопрос сразу показывает, как кандидат чувствует себя с Big Data.
Если человек уже сгружал и обрабатывал миллионы строк, значит, умеет эффективно обращаться с большими объёмами информации и не пугается масштабов (источник hirevire.com). Если же максимум, что он делал, – учебные задачки на игрушечных наборах, это тоже станет понятно из ответа. Цель – оценить реальную практику работы с данными: кандидат, который может привести пример из опыта, когда он успешно справился с большим датасетом, явно заслуживает перехода на следующий этап.
Знание алгоритмов и моделей. Data Scientist без понимания алгоритмов машинного обучения – все равно что повар, не знающий рецептов. На прескринге вполне уместно спросить: «Какие алгоритмы ML вы чаще всего используете? В чем их особенности?» или «Какие подходы пробовали в последних проектах?».
Вопрос про знакомство с ML-алгоритмами – ключевой маркер: он выявляет, насколько глубокие у кандидата теоретические знания и умеет ли он применять их на практике. Сильный специалист сразу расскажет, с какими моделями работал – от регрессий и решающих деревьев до нейросетей – и объяснит, почему выбирал именно их. Это сигнал, что человек понимает, как и когда применять разные методы, а не просто вызубрил один-два алгоритма. Развернутый ответ про алгоритмы часто отличает кандидата с настоящим опытом от того, кто ограничился парой курсов.
Кстати, тут же можно уточнить про базовые концепции: например, попросить объяснить простыми словами разницу между обучением с учителем и без учителя или что такое «bias-variance tradeoff» (баланс смещения и разброса) – как ни странно, многие «теоретики» путаются даже в таких основах. Задавая подобные вопросы, вы проверяете фундамент: насколько твёрдо кандидат усвоил основы машинного обучения и статистики. Если человек сходу дает понятные определения (скажем, рассказывает про отличие регрессии от кластеризации, или объясняет, зачем нужна кросс-валидация), это хороший знак. Конечно, детализацию можно продолжить и на техническом интервью, но уже на прескринге важно понять: перед вами человек с системным пониманием ML или случайный соискатель, выучивший пару модных терминов.
Работа с пропущенными данными и аномалиями. Реальные данные редко бывают идеально чистыми – наоборот, обычно они полны пробелов, опечаток, выбросов. Хороший кандидат знает это и умеет приводить данные в порядок. Спросите, что он делает, если в наборе данных обнаруживаются пропуски (missing values). Например: «Как вы поступаете, когда в данных не хватает значений?» Ответ покажет, знаком ли человек с методами обработки пропусков (удаление, заполнение средним, прогнозирование недостающих значений и т.д.) и понимает ли, как неправильная обработка может исказить результаты анализа.
Аналогично, можно поинтересоваться, как он обращается с аномальными выбросами. Например: «Что вы будете делать, если обнаружите в выборке подозрительно странные значения, сильно выбивающиеся из общей картины?». Цель – проверить, понимает ли кандидат важность корректной работы с такими данными. Опытный аналитик ответит, что сначала проверит, не ошибка ли это сбора данных, затем оценит влияние этих точек на модель и решит, нужно ли их исключить или учесть особым образом. Внимание к “грязным данным” – признак зрелого практика: начинающие часто переоценивают роль сложных моделей, забывая, что 80% успеха – это качественная подготовка данных.
Очистка и подготовка данных. Развивая тему, имеет смысл спросить: «Приходилось ли вам чистить “зашумлённые” данные? Как вы подходите к очистке больших датасетов с ошибками?». Этот вопрос копает вглубь опыта data cleaning – рутинного, но крайне важного этапа любой аналитики.
Ответ кандидата продемонстрирует его навык выявлять и исправлять ошибки в данных. Конкретные примеры — например, как он находил дубликаты, исправлял некорректные форматы, выявлял нелепые значения — покажут, насколько методично человек подходит к качеству данных. Если в ответе звучат знакомые каждому дата-сайентисту слова «outliers», «missing values», «data cleaning pipeline», «ETL», и кандидат рассказывает о своем опыте в этой области, перед вами явно не новичок.
Инструменты и язык программирования. Невозможно представить data scientist’а без уверенного владения хотя бы одним языком программирования, чаще всего Python или R. Поэтому на прескринге обязательно выясните: «На каких языках и платформах для анализа данных вы пишете? Python, R, может SQL?» Знание SQL – фактически обязательный навык, ведь львиная доля данных хранится в базах. Хороший кандидат подтвердит, что свободно чувствует себя в SQL и, скорее всего, приведёт примеры используемых запросов. Также спросите про знакомство с Python (или R) и основными библиотеками: Pandas, NumPy, sklearn для data scientist’ов; возможно PyTorch/TensorFlow для ML-инженеров.
По перечисленным инструментам сразу можно понять, насколько широко кандидат работал. В идеале в ответе вы хотите услышать весь «джентльменский набор» аналитика: язык программирования + SQL + инструменты визуализации. Например: «Я в основном работаю в Python, использую Pandas/NumPy для обработки данных, Matplotlib/Seaborn для графиков, плюс знаю SQL на уровне написания сложных JOIN’ов». Такой ответ свидетельствует о хорошей практической подготовке. Если же человек вспоминает с трудом или путается, возможно, его опыт ограничен учебной средой, и в боевых проектах он не был.
Стоит отдельно упомянуть инструменты визуализации и “традиционные” ПО: спросите, пользовался ли кандидат, например, Tableau, Power BI или даже Excel. Это не вопрос на засыпку – напротив, это покажет гибкость. Мощные скрипты – хорошо, но часто нужно быстро сделать понятный дашборд для менеджеров.
Поэтому знание популярных инструментов визуализации данных будет плюсом. Сильный кандидат ответит, что, помимо Python-графиков, умеет делать интерактивные дашборды или презентации данных – например, строил отчёты в Tableau или Google Data Studio. Data Scientist нередко становится переводчиком с языка цифр на язык бизнеса, и умение красиво подать данные тут весьма кстати.
Знакомство с большими данными и реальным временем. Вопрос, который отличает middle-уровень от джуна: «Есть ли у вас опыт работы с big data-платформами вроде Hadoop, Spark?» Если ваша компания оперирует большими данными, для вас будет критично найти человека, который уже пробовал эти технологии. Зачастую кандидаты указывают в резюме знакомство с Hadoop/Spark – прескрин как раз момент спросить детали: «Какой именно проект на Spark вы делали? Что там нужно было обработать?». Уверенный ответ (например, о настройке Spark-джоб для распределённой обработки терабайтов данных) даст понять, что кандидат сможет укротить ваши объёмы.
Если же в ответ – тишина или общие слова, возможно, опыта нет вовсе. Второй смежный вопрос: «Работали ли вы с потоковыми данными, реальным временем?». В эпоху стриминга это становится всё важнее: умение обрабатывать данные на лету, в режиме реального времени. Если человеку есть что рассказать (например, опыт с Kafka, Spark Streaming или очередями сообщений) – это жирный плюс к его оценке.
Подводя итог технической части: ваша цель – охватить широким лучом основные компетенции. Узнайте понемногу обо всём: работа с данными, знание алгоритмов, навыки программирования, инструменты, опыт с большими данными. Хороший кандидат пусть кратко, но сможет ответить на все эти темы, опираясь на свой опыт. Если же кто-то выпадает из обсуждения (например, не может толком объяснить ни одного алгоритма или ни разу не писал SQL-запрос) – это сигнал, что дальше беседовать, возможно, не имеет смысла.
Практический опыт: проекты и решения
Одной теории мало – особенно в Data Science, где пропасть между учебными задачками и реальными промышленными проектами огромна. Поэтому обязательно задайте вопросы, раскрывающие практический опыт кандидата. Пусть человек расскажет о конкретных проектах, над которыми работал: это лучшая проверка правды в резюме.
Расскажите о недавнем проекте. Отличный открытый вопрос: «Над каким последним проектом вы работали в области Data Science/ML? Расскажите, в чем была задача и как вы её решили.» Пусть кандидат опишет, какую проблему решала команда, какие данные использовали, какую модель строили.
Особенно ценно, если проект дошёл до продакшена: тогда попросите уточнить, как модель внедряли. Ответ на такой вопрос сразу показывает полный цикл компетенций: человек с реальным опытом расскажет и про сбор/подготовку данных, и про эксперименты с моделями, и про то, как итоговую модель протестировали и выкатили в продукт. Вы также оцените способность кандидата доходчиво объяснять сложные вещи: если он может понятно описать свой проект, значит, в работе ему будет легче коммуницировать с коллегами.
Обратите внимание на детали в рассказе. Например, кандидат упоминает: «Мы пробовали несколько моделей – сначала решающее дерево, потом Random Forest, но получили переобучение. Тогда я использовал кросс-валидацию и регуляризацию, чтобы улучшить обобщающую способность модели».
Такие нюансы сигнализируют: человек не просто был в команде, он понимает, что делал и почему. Также ценны упоминания о том, как результаты проекта использовали в бизнесе: например, «построенная модель помогла отделу маркетинга сократить отток клиентов на 15%». Это говорит об осознании бизнес-ценности своей работы, а значит, о более зрелом уровне специалиста.
Вызовы и ошибки. Еще один хороший вопрос: «Какую самую сложную проблему в области машинного обучения вам доводилось решать, и как вы это сделали?» Такой вопрос ставит человека в ситуацию вспомнить реальный челлендж: может, были трудности с качеством данных, или модель никак не обучалась, или возникала утечка данных (data leakage) валидации. Слушая ответ, вы поймёте стиль мышления кандидата: ищет ли он творческие пути, как ведёт себя под давлением, учится ли на ошибках. Опытный ML-инженер может рассказать, например, как он поборол переобучение сложной нейросети, перебрав десяток архитектур и настроив регуляризацию – и что из этого вынес.
Это покажет и уровень его технической смекалки, и умение не сдаваться при неудачах. Младший специалист, возможно, не вспомнит глобальных провалов, но хотя бы должен честно признаться, с какими трудностями сталкивался в учебных проектах и чему научился. Главное – чтобы кандидат не утверждал, будто у него «не было сложностей»; такой ответ обычно свидетельствует о скудности реального опыта.
Конкретные навыки через призму опыта. Прескрин – отличное время проверить заявленные в резюме навыки, попросив кандидата привести пример из практики для каждого. Например, в CV указано «опыт проведения A/B-тестов» – спросите: «Какой именно A/B-тест вы ставили? Что сравнивали и как интерпретировали результаты?».
Человек, действительно делавший продуктовые эксперименты, опишет и постановку гипотезы, и метрики успеха, и подводные камни (например, что тест пришлось останавливать раньше срока из-за смещения аудитории). Такой рассказ сразу выявит понимание важности экспериментов и статистической значимости. Если же в ответ туманно: «Ну, мы как-то пробовали кнопку перекрасить… кажется, конверсия выросла» – есть повод насторожиться.
Другой пример: кандидат заявляет «Inteграция данных из разных источников» – спросите, как он это делал. Пусть опишет, приходилось ли объединять данные из нескольких баз, API или файлов, и с какими трудностями столкнулся (различные форматы, дубли, несоответствие схем). По ответу вы оцените навык свода данных воедино. Опытный специалист, скорее всего, вспомнит случай, когда собирал единую витрину из разнородных данных, и скажет, как решал проблемы несовместимости или разной детализации данных. Это признак системного подхода: уметь склеить информацию из разных источников так, чтобы потом анализ имел смысл.
Если вы нанимаете ML-инженера, обязательно коснитесь темы деплоя моделей. Задайте вопрос: «Что нужно, чтобы перевести модель из ноутбука в промышленный продакшен? Как вы деплоили модели в своих проектах?».
Цель – понять, представляет ли кандидат весь цикл MLOps: упаковку модели (например, в виде сервиса или Docker-контейнера), настройку API или batch-процесса, мониторинг качества модели после выкатки. Кандидат с реальным опытом развертывания расскажет, какие шаги предпринимал, упомянет инструменты (например, MLflow, Docker, Kubernetes, CI/CD) – и вы сразу убедитесь, что перед вами человек, способный довести ML-проект «до железа». Если же он плавает в этой теме – возможно, он больше исследователь, чем инженер, и тогда решайте, критично ли это для роли.
Наконец, расспросите про валидaцию моделей: «Как вы проверяете, что модель работает качественно, перед тем как передать ее бизнес-заказчикам?». Хороший data scientist обязательно расскажет про отложенную выборку, кросс-валидацию, контроль ключевых метрик (Accuracy, ROC-AUC, Precision/Recall – в зависимости от задачи). Возможно, упомянет и про мониторинг модели после деплоя (отслеживание деградации качества со временем).
Это демонстрирует серьезное отношение к надежности результатов. Ведь как бы ни была хитра модель, без проверки и мониторинга её ценность нулевая – важен результат, подтвержденный метриками и стабильностью. Услышав это от кандидата, вы можете быть уверены: перед вами профессионал, который заботится о том, чтобы его модели реально работали и приносили пользу, а не только красиво выглядели на тренировочных данных.
Коммуникация и культура: проверяем soft skills
Технические навыки – необходимое условие, но недостаточное. Data Scientist редко работает в одиночку в вакууме. Обычно он взаимодействует с бизнес-заказчиками, презентует результаты непосвященным людям, сотрудничает с инженерами для внедрения решений. Поэтому успешный кандидат должен обладать и soft skills: коммуникабельностью, умением работать в команде, обучаемостью и адаптивностью. Прескрин – хороший момент, чтобы оценить и эти качества.
Умение говорить с «не-айтишниками». Кандидат может блистательно писать код, но сможет ли он объяснить директору по маркетингу, почему модель выдаёт именно такой прогноз? Чтобы это понять, задайте вопрос: «Что вы будете делать, если заинтересованные стороны (stakeholders) не понимают возможностей и ограничений AI? Приходилось ли вам объяснять сложные вещи бизнесу?». Хороший специалист расскажет, как он доносит суть аналитики на понятном языке, управляет ожиданиями и даже обучает коллег азам Data Science.
Например, может упомянуть случай, когда развеивал завышенные ожидания руководства относительно «волшебства ИИ», аккуратно поясняя ограничения модели. Это покажет его способность выстраивать доверие и говорить с бизнесом на одном языке. Если кандидат говорит: «Я стараюсь приводить аналогии или простые метафоры, чтобы объяснить, что может и чего не может наша модель» – перед вами коммуникабельный и зрелый профессионал. В противном случае, если человек заявляет, что «бизнес ничего не понимает и это их проблема» – стоит насторожиться, вдруг он не командный игрок.
Работа в команде. Data Science – командная игра. Даже если часть работы проходит соло за ноутбуком, в итоге результат рождается совместно: аналитики общаются с предметными экспертами, ML-инженеры – с разработчиками, все вместе – с руководителями проектов. Поэтому полезно спросить: «Расскажите о проекте, где вы тесно сотрудничали с другими – инженерами, аналитиками, бизнес-аналитиками.
Какую роль вы выполняли и чему научились?» Ответ высветит умение кандидата работать кросс-функционально. Вы услышите, как человек описывает взаимодействие: упоминает ли он, что обсуждал постановку задачи с маркетингом, передавал модель в продуктовую команду, учитывал ли фидбэк коллег? Хороший признак, если кандидат ценит командную работу и может привести примеры эффективной кооперации («мы вместе с инженерами настроили pipeline, я много узнал про продакшен у них, а они благодаря мне стали лучше понимать модели»). Это говорит о гибкости и неконфликтности – качествах, без которых тяжело реализовать сложные AI-проекты в реальном бизнесе.
Мотивация и горящие глаза. Нелишним будет выяснить, что движет кандидатом в профессии. Например: «Что вас больше всего захватывает в машинном обучении?» или «Какой последний тренд/статья в Data Science вас по-настоящему вдохновила?». Цель – понять, есть ли у человека настоящий энтузиазм к теме, или он здесь только ради высокой зарплаты. Ответ может многое сказать о мотивации.
Если кандидат с воодушевлением рассказывает, что его поражают возможности больших языковых моделей или что он экспериментировал с новым архитектурным подходом в свободное время – это явно увлеченный профессионал. Такой, скорее всего, продолжит учиться и развиваться вместе с вашей компанией. Если же собеседник затрудняется ответить или говорит только общие фразы про «перспективную сферу» – возможно, внутреннего огня маловато. Конечно, не все общительные, кто-то может стесняться, но горящие глаза обычно заметны, и хороший интервьюер всегда рад их увидеть.
В связке с этим стоит спросить и про обучение и самосовершенствование: «Как вы обновляете свои знания, чтобы не отставать от быстрого прогресса в AI?». Data Science – одна из самых динамично развивающихся областей, и лучшие специалисты непрерывно учатся. Кандидат, который регулярно читает индустриальные исследования, ходит на митапы, курсы или участвует в профессиональных сообществах, скорее всего упомянет об этом.
Например: «Я подписан на arXiv и Telegram-каналы по ML, регулярно просматриваю новые статьи, плюс участвую в хакатонах». Это явный плюс – такой сотрудник будет привносить актуальные знания в команду. Если же человек с недоумением переспрашивает, зачем вообще следить за новинками – есть риск, что его знания быстро устареют на фоне стремительного прогресса ИИ.
Конфликты и трудные ситуации. На финале прескрина можно задать поведенческий вопрос, чтобы оценить эмоциональный интеллект кандидата. Например: «Был ли у вас случай, когда вы не соглашались с коллегой или руководителем по поводу стратегии в ML-проекте? Как вы вышли из этой ситуации?» Ответ покажет, как человек ведет себя при разногласиях: способен ли аргументированно отстаивать мнение, уважая чужую позицию, и ищет ли компромисс. Идеальный ответ – честный рассказ о том, как кандидат столкнулся с иным мнением, чем его собственное, и сумел продуктивно решить ситуацию: через эксперименты, дополнительные данные или обсуждение рисков.
Например, он может сказать: «Да, у нас в команде был спор по выбору модели – я считал, что лучше простая интерпретируемая модель, а коллега настаивал на сложной нейросети. Мы договорились провести эксперимент с двумя подходами и сравнить на контрольной выборке. В итоге выбрали нейросеть, но с моими идеями по упрощению — так мы учли оба мнения». Такой кандидат демонстрирует зрелость, умение конструктивно решать конфликты и ставить интерес проекта выше своего эго. Если же в ответ – категоричное «я всегда знаю, как лучше, и буду стоять на своем» или, наоборот, человек пугается самого вопроса – это звоночки относительно его гибкости и навыков коммуникации.

Вывод: ищите пытливых практиков
Подбор Data Scientist’ов и ML-инженеров – задача нетривиальная, но увлекательная. Прескрин-интервью, при грамотном подходе, позволяет за короткое время составить объёмное впечатление о кандидате. Как мы убедились, спрашивать есть о чём: и про данные, и про модели, и про код, и про опыт, и про работу в команде. Важно не упустить ни одну грань – Data Science требует разноплановых навыков, и сильный кандидат обычно обладает хотя бы понемногу каждым из них.
Составляя список вопросов, ориентируйтесь на те задачи, с которыми предстоит работать у вас в компании. Если данные у вас хранятся в SQL – спрашивайте SQL. Если продукт связан с реальным временем – уточните про стриминг.
Если критична визуализация – узнайте, делал ли человек дашборды. Не стесняйтесь задавать и, казалось бы, простые вопросы: иногда базовые вещи говорят о кандидате больше, чем заумные головоломки. Ведь цель прескрина – отсеять явно не подходящих и отобрать тех, кто достойны более глубокого разговора.
И последний совет: создайте на интервью атмосферу открытого диалога. Да, у вас есть чек-лист тем, но дайте кандидату раскрыться, говорите на одном языке. Помните, что собеседование – это дорога с двусторонним движением: вы оцениваете специалиста, а он оценивает вашу компанию. Хорошие вопросы на прескринге помогут вам не только выбрать звезд будущей команды, но и произведут впечатление на кандидата, показав, что вы цените его опыт и разбираетесь в теме. Удачного вам найма и пусть в вашей команде окажутся именно те пытливые практики, которые продвинут ваш AI-проект к новым высотам!