Senior Data Engineer

Оплата не указана

Вакансия находится в архиве

Требуемый опыт работы

От 3 до 6 лет

Тип занятости

Полная занятость

График работы

Полный день

О компании:

Мы создаем единую распределенную систему масштаба страны, которая преобразит опыт совершения покупок, а именно позволит "оцифровать" каждую единицу товара уже к 2025 году.

Это позволит каждому покупателю быть уверенным в качестве и происхождении товара, а производителям и продавцам - не только уменьшить долю неоригинальной продукции на рынке, но и оптимизировать производственно-логистические процессы и сократить издержки за счет возможностей аналитической подсистемы.

Уже сейчас система обрабатывает миллиарды транзакций ежедневно и оперирует петабайтами данных на скоростях десятки тысяч запросов в секунду.

О команде:

Данные – это нефть 21 века. Данные «Честного знака» - настоящий «клондайк», глобальное месторождение эксклюзивных фактов о товарообороте страны. Мы трекаем поэкземплярно весь товарооборот маркированных товарных групп и на этом строим уникальные показатели.

Мы ищем крепкого инженера в bigdata-команду, обладающего экспертными знаниями в области построения систем на базе Hadoop/Spark.

Технологический стек:

Текущий стек команды: Hadoop / Spark 3 (batch/streaming) / Scala / SQL / Parquet / Hive / Kafka / HBase / ClickHouse / PostgreSQL / Airflow / Zeppelin / Jupyter/ S3 MinIO

Смотрим в сторону: Iceberg для MOR, COW / DBT модели для данных / Твоего опыта и исследований

Наши данные в цифрах: поток > 20k RPS, > 900 млрд. фактов, > 10Пб данных в HDFS.

Чем предстоит заниматься:

  • Влиять на стратегию развития архитектуры платформы, исследованиями и разработкой пилотных решений.

  • Предлагать, отстаивать и реализовывать архитектурные решения (POC).

  • Настраивать сборку приложений и их размещение как docker контейнеров в k8s, мониторинг их работоспособности.

  • Участвовать в pre-prod тестировании, выводе приложений в PROD среду и диагностике в случае сбоев.

  • Тесное сотрудничать с другими командами департамента по внедрению разработанных решений.

  • Прототипировать ETL процессы c необходимым эмулированием данных с использованием Jupyter Lab / Zeppelin.

  • Работать в команде преимущественно в режиме удалённой работы.

От успешного кандидата мы ожидаем:

  • Подтвержденный опыт разработки от 5 лет.

  • Понимание базовых структур данных.

  • Опыт применения алгоритмов и возможность про них рассказать.

  • Уверенные знания и опыт работы в стеке Spark (batch/streaming) on Hadoop.

  • Опыт работы с реляционными БД.

  • Экспертное знание SQL.

  • Уверенное знание Scala.

  • Знание и опыт работы с DevOps, понимание принципов CI/CD в области обработки данных.

Что вам точно понравится:

  • Сложные и интересные задачи, работа с реально большими объемами данных и современным востребованным стеком.
  • Возможность поработать с новыми технологиями и прокачать скиллы, постоянно развиваться.
  • Молодая, экспертная, увлеченная и талантливая команда, у которой можно многому научиться, культура открытости и взаимопомощи.
  • Конкурентная ЗП, оформление по ТК РФ.
  • ДМС со стоматологией после испытательного срока, ДМС для семьи с корпоративными скидками.
  • Страхование жизни и здоровья.
  • Корпоративный психолог.
  • Buddy-поддержка во время адаптации.
  • Обеспечиваем рабочей техникой на базе последних Macos / Windows.
  • Возможность участия в митапах, конференциях.
  • Гибкое начало рабочего дня.
  • Возможность работать удаленно/частично удаленно, в офисе в Москве или Санкт-Петербурге.
  • Корпоративный мерч.
  • “Кафетерий” льгот (возмещение расходов на любое самообразование, спорт, ДМС для членов семьи, доступ к ИТ сервисам и т.д)

Контактная информация

ЦРПТ (Центр развития перспективных технологий)

Сайт: crpt.ru

Почта: не указана

Вакансия опубликована 30.04.2024 в г. Санкт-Петербург.

Похожие вакансии

#

Не указана

Москва

Менделеевская

и еще 1 станция

Полный день

Основные задачи:
  • Разработка и оптимизация архитектуры облачного хранилища данных (Data Lake + Data Warehouse)

  • Внедрение практик и инструментов контроля и поддержания качества данных

  • Импорт данных в Data Lake из разных источников...

2 июля

#

Москва

Полный день

Команда Reference Data Platform отвечает за создание собственного решения класса MDM (Master Data Management) для эффективного управления нормативно-справочной информацией. Такое решение позволит повысить качество и согласованность справочных данных и...

11 апреля

#

от 130 000 до 200 000 ₽

Москва

Удаленная работа

Cherrypick.agency — компания, которая активно работает над поиском инновационных решений и стремится к сотрудничеству с талантливыми людьми, готовыми принять вызов и преодолеть любые трудности. Мы гордимся тем, что нас рекомендуют во многие иностранные стартапы и своей...

29 мая