Junior Data Engineer

Оплата не указана

Вакансия находится в архиве

Lamoda Tech

г. Москва

Требуемый опыт работы

От 1 года до 3 лет

Тип занятости

Полная занятость

График работы

Гибкий график

Мы в поиске младшего Инженера по работе с большими данными в направление дата инжиниринга, который будет участвовать в значимых для инфраструктуры данных в Lamoda проектах.

Чем предстоит заниматься:

  • Проектировать и разрабатывать ETL пайплайны данных на Airflow для Spark, Streaming, Hive, Trino et;

  • Оптимизировать действующие пайплайны в продуктах на основе платформ данных;

  • Настраивать интеграции с новыми источниками данных (Kafka, Postgres, S3, HDFS, Aerospike);

  • Работать в команде с аналитиками и ML специалистами для создания/развертывания инструментов и наборов данных, соответствующих их требованиям;

  • Изучать бизнес процессы, которые стоят за данными и исходя из них выстраивать логику обработки данных;

  • Мониторить нагрузку на кластер и оптимальность затрачиваемых приложениями ресурсов;

  • Обеспечивать качество данных в разных системах, адаптировать платформу Data Quality под нужды пользователей и поставщиков данных.

Мы ожидаем:

  • Уверенное знание одного из языков программирования: Python, Java, Scala;

  • Знание основных структур данных;

  • Умение работать с Git и Gitlab/Github/Bitbucket, понимание что такое CI/CD;

  • Уверенное знание SQL (умение написать сложный запрос и оптимизировать его);

  • Знание основ Big Data:

    • понимание концепции распределенных вычислений;

    • понимание как работают различные файловые форматы;

    • понимание различий баз данных (Postgres, Clickhouse, Redis);

    • понимание подходов к обработке данных (streaming, batch);

  • Опыт работы с Hadoop, Spark, Hive, Airflow;

  • Знание английского языка достаточные для чтения технической документации.

Будет плюсом:

  • Знание основных методологий разработки;

  • Понимание основ Docker и зачем он нужен;

  • Опыт реализации пайплайнов и витрин данных в продукте: работа с различными источниками и типами данных (Hive, S3, Kafka, Postgres, Redis);

  • Опыт или понимание основ оптимизации Spark приложений или SQL запросов;

  • Опыт изучения бизнес-процессов, которые стоят за данными, опыт выстраивания логики обработки данных.

Ключевые навыки

Python
Sqlite
Java
Scala
Big data
Airflow

Контактная информация

Lamoda Tech

Сайт: не указан

Почта: не указана

Вакансия опубликована 19.04.2024 в г. Москва.

Похожие вакансии

#

Москва

Удаленная работа

Подробное описание

5 августа

#

Москва

Полный день

Подробное описание

30 июля

#

Екатеринбург

Удаленная работа

Подробное описание

28 июля