НОВОСТИ HeadHunter запатентовал технологию скоростного поиска вакансий и сотрудников

BDFINFO2.0
Оффлайн
Регистрация
14.05.16
Сообщения
11.398
Реакции
501
Репутация
0
HeadHunter запатентовал технологию скоростного поиска вакансий и сотрудников


11.03.2020, Ср, 15:04, Мск , Текст: Владимир Бахур
Патент компании HeadHunter на «умное сжатие» данных с технологией машинного обучения позволяет ускорить отбор подходящих вакансий, сократив время и расходы на создание рекомендаций.


Умный хедхантинг


Компания HeadHunter запатентовала компоненты технологии «умного» поиска сайта hh.ru для рекомендации резюме и вакансий. В качестве патентообладателя изобретения указано ООО «Хэдхантер», авторами указаны Георгий Даньщин, Виктор Реушкин и Александр Сидоров.

Патентная заявка к изобретению под названием «Рекомендательная система подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных и способ подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных» опубликована за №2019107661 на сайте Федеральной службы по интеллектуальной собственности (Роспатент).

Как рассказал CNews Александр Сидоров, руководитель направления анализа данных компании HeadHunter и один из изобретателей технологии, запуск запатентованных технологий в рамках умного поиска hh.ru был произведен во второй половине 2019 г., однако разработка проекта продолжалась на протяжении нескольких лет, начиная с 2017 г.

Патентная заявка описывает изобретение как специализированную систему для поиска вакансий и резюме «в рекомендательных системах подбора персонала с большим количеством записей в базах данных». Суть изобретения сводится к применению особого алгоритма сжатия данных из резюме и вакансий с минимальной потерей смысла. Это значительно ускоряет их обработку, обеспечивая при этом выборку релевантных по тексту и смыслу документов из миллионов резюме и сотен тысяч вакансий за сотни миллисекунд.

Отобранные таким образом данные применяются для ускоренного предварительного отбора вакансий и резюме, и затем с помощью моделей машинного обучения производится точный отбор подходящих кандидатов.

По информации пояснительной записки к изобретению, весь комплекс компонентов технологии поиска для сайта HeadHunter преимущественно работает лучше правил, подобранных вручную. При этом качество рекомендаций резюме и вакансий повышается, на их обработку затрачивается меньше вычислительных ресурсов.

Особенности технологии «умного» хедхантинга


Ключевой проблемой поиска соответствий резюме и вакансий является огромное число возвращаемых поисковых запросов, обусловленное большим количеством объявлений о поиске работы теми, кто уже трудоустроен, но потенциально готов сменить работу. В итоге множество однотипных результатов поиска затрудняет быстрый и верный выбор кандидата. Обратная задача проще, поскольку число вакансий, как правило, на порядок или два меньше числа резюме в базе данных.


Запатентованный умный поиск внедрен в hh.ru в 2019 г.


Изобретение используется как для обработки запросов работодателей при поиске в базе резюме, так и для обработки запросов соискателей при поиске вакансий. Изобретение hh.ru предлагает автоматизированный поиск релевантных документов для рекомендательного подбора персонала с машинным обучением и с понижением размерности многомерных данных.

Алгоритм понижает размерности части векторного представления текста и смысловых категорий в вакансии и резюме до последовательностей из нескольких битов, составляет из них LSH-хеши (Locality-sensitive hashing — вероятностный метод для понижения размерности многомерных данных).

Длина хэш-функции может быть задана заранее. В процессе обработки запроса LSH-хеши сравниваются прямо в поисковом движке, и далее вакансия помещается в предварительный список только при совпадении ее LSH-хеша с LSH-хешем резюме до 1 бита. Так удается экономить расход машинного времени без снижения качества рекомендаций и количества откликов.

Уменьшение размерности также позволяет представлять тексты для обучающих моделей на ансамблях решающих деревьев. В векторном представлении текст вакансии и резюме обычно составлен из векторов длиной порядка 40 тыс. значений для вакансии и около 60 тыс. для резюме, где преимущественно записаны нули.


Пример платформы умного поиска. Источник: Роспатент


Алгоритм hh.ru уменьшает размерности векторов терминов и использует их как признаки для ансамблей решающих деревьев. Такой подход для рекомендаций вакансий дает порядка 2 900 дополнительных откликов в сутки, в поиске вакансий — порядка 4 500 откликов в сутки.

В процессе машинного обучения используются существенная часть базы вакансий и резюме, по которым была активность за последнее время. По словам Александра Сидорова, обучение представляет собой перманентный процесс, который подразумевает улучшение алгоритмов умного поиска за счет постоянно обновляемой базы данных.

Эффективность и перспективы технологии


Как отмечено в пояснительной записке к патенту, отказ от изобретения снизил бы число откликов на вакансии примерно на 5%, при этом рекомендованные резюме для 75% вакансий появлялись бы на сутки позже, а не сразу после создания вакансии.

В дополнение, значительно бы увеличилось время обработки данных для рекомендации резюме – с нынешних 200 миллисекунд, и потребовались бы значительно большие серверные мощности, что в конечном итоге повлияло бы на стоимость сервиса для работодателей.

За счет экономии времени пользователей и вычислительных мощностей, алгоритм позволяет внедрять сложные модели машинного обучения для более качественных рекомендаций. В качестве обучающих данных используется реакция пользователей на результаты работы поисковой системы. В процессе машинного обучения у пользователя запрашивают реальную степень соответствия элементов списка запросу.

Отвечая на вопрос о том, возможна ли интеграция описанных в патенте компонентов технологии в сервисах для других отраслей, Александр Сидоров пояснил, что технология разрабатывалась специально для оптимизации бизнес-процессов компании HeadHunter, однако внедрение компонентов этого изобретения могло бы показать высокую эффективность в любых отраслях, где требуется получение быстрого результата при сопоставлении больших массивов данных.


 
Сверху Снизу