Ищем Data Engineer в команду разработки хранилища данных.
Зона ответственности команды DWH - качественные и своевременные данные, решающие потребности бизнеса. За платформу данных и подключение источников к озеру данных отвечает отдельная платформенная команда.
Чем предстоит заниматься:
- Развивать домен DWH с данными трафика (кликстрим). Основной потребитель и заказчик - продуктовые аналитики.
- Осуществлять проектирование и разработку витрин для перехода на новую систему трекинга пользовательских событий, которая позволит повысить оперативность и качество анализируемых данных
- Разрабатывать ETL для витрин на Spark (PySpark), выполнять их оркестрацию в Airflow.
- Выполнять оптимизацию производительности ETL (так как объемы данных логов событий пользователей исчисляется сотнями терабайтов)
- Разрабатывать проверки качества данных, помогать в разборе инцидентов с данными.
Мы ожидаем от Вас:
- Глубокое знание SQL (включая оконные аналитические функции);
- Уверенное владение Python;
- Опыт написания пайплайнов на Spark и опыт работы с Hadoop-стеком (HDFS, YARN, Hive);
- Опыт работы с большими объемами данных и оптимизации производительности;
- Ответственность, самостоятельность, коммуникативность.
Будет плюсом:
- Опыт работы с данными кликстрима
- Опыт проектирования DWH
Условия:
- Сильная команда, с которой можно расти
- Петабайты данных и огромные мощности для их переваривания
- Сложные, нетривиальные задачи для маркетплейса с миллионами пользователей
- Возможность влиять на процесс и результат
- ДМС со стоматологией
- Гибкий график работы, удаленка также рассматривается
- Достойная зарплата
- Комфортный офис в Cити
- MacBook or Windows ноутбук