Senior Analyst Developer (GigaChat)

Оплата не указана

Вакансия находится в архиве

СБЕР

Кутузовская

и еще 1 станция

г. Москва

Требуемый опыт работы

От 3 до 6 лет

Тип занятости

Полная занятость

График работы

Полный день

Цифровые поверхности Салют (SberDevices) — уникальное IT-пространство внутри Сбера. Мы занимаемся разработкой голосовых продуктов, умных устройств и виртуальных ассистентов и сервисов для них.

Наша команда готовит данные для базовых моделей LLM (GigaChat) и Speech (ASR, Spotter, виртуальные ассистенты). Кроме того, мы помогаем смежным командам эффективно использовать данные технологии для оптимизации бизнес-процессов, улучшения сервисов.

Наши направления на проекте:

Gigachat Data готовит данные для всех этапов обучения GigaChat: файнтюнинг (SFT), RLHF, доменное обучение (например, математика, финансы, медицина), продуктовые кейсы. Кроме текстовых моделей мы формируем обучающие и тестовые сеты мультимодальных моделей и эмбедеров.

Speech Data готовит данные для всех голосовых задач в SaluteSpeech. Вместе с ML-инженерами мы разрабатываем модели распознавания речи, диаризации, споттера, распознавания эмоций, а еще учим GigaChat понимать звук. У нас современный стек, мощные сервера и петабайты аудио.

Задачи, с которыми работаем:

  • Research: исследование и реализация перспективных подходов обучения, синтеза и фильтрации данных
  • Конструирование метрик и бенчмарков LLM
  • Разработка пайплайнов для решения продуктовых кейсов с помощью больших языковых моделей
  • Code: реализация prod-ready кода по работе с LLM, БД, API
  • Markup: формирование и контроль пайплайнов разметки данных
  • Pretrain: повышение качества pretrain набора данных
  • RL: эксперименты с RL, Reward и DPO подходами.

Мы ожидаем, что вы:

  • имеете опыт в улучшении и аналитике ML-моделей — от трех лет.

Будет плюсом:

  • опыт синтеза, обогащения и фильтрации обучающих данных
  • опыт формирования и работы с продуктовыми и ML метриками, тестовыми сетами и бенчмарками в разных доменах
  • опыт построения пайплайнов разметки данных
  • использование, обучение и файн-тюн open-source LLM и других нейросетей.

Почему вам понравится работать с нами:

  • очень сильная молодая команда, с которой можно расти вместе, в команде происходит ооооочень много интересного - будет на что посмотреть и у кого поучиться
  • масштабные, сложные и разнообразные задачи, есть возможность влиять на развитие проекта и результат и стремительно расти как профи
  • своя digital-платформа для развития ключевых IT-компетенций, внутренние и внешние конференции и профессиональные сообщества Сбера
  • знаменитый офис на Кутузовском проспекте с парковкой и спортзалом, возможность выбора формата работы (офис, гибрид)
  • много корпоративных плюшек: расширенная программа ДМС (возможность подключения родственников), страхование жизни, специальные условия по кредитам/ипотеке, скидки от компаний-партнёров
  • атмосфера стартапа и надёжность гиганта.

Ключевые навыки

Python
Data analysis
Классическое машинное обучение

Адрес

Москва, Кутузовский проспект, 32к1

Контактная информация

СБЕР

Сайт: sber.ru

Почта: не указана

Вакансия опубликована 01.08.2024 в г. Москва.

Похожие вакансии

#

от 150 000 ₽

Москва

Полный день

Подробное описание

14 августа

#

Не указана

Москва

Удаленная работа

Подробное описание

9 апреля

#

Москва

Полный день

Подробное описание

16 августа