Мы - команда «Баланс поставщиков» в составе Wildberries.

Чем мы занимаемся: мы обеспечиваем консолидацию средств на счете WB: от регистрации продавца в сервисе, до логистики, хранения, вручения и/или возвращения товара. Мы работаем на стыке транзакционных и аналитических систем.

С нашей помощью продавцы на площадке имеют возможность оперативно управлять своими средствами, а также направлять их в нужные зоны своего бизнеса. Мы не ограничены в технологиях, подходах, фреймворках, и тем не менее, являемся высоконагруженным сервисом с высоким business value. Результат работы команды виден сразу, и он является важной частью большого бизнеса WB.

И самое главное - у нас много данных, очень много данных.

В связи с ростом масштабов задач, мы в поисках талантливого Data Engineer-а, который присоединится к нашей команде и поможет поддержать дальнейший рост нашего продукта.

Какие задачи нужно будет решать:
- интеграция данных с различных источников (преимущественно транзакционные системы) в Data Lake
- разработка процессов расчета аналитических витрин
- разработка процессов контроля качества данных
- разработка процессов мониторинга и алертов, покрывающих наши ETL/ELT пайплайны, а также процессы контроля и обеспечения качества данных
- реализация разработанной модели данных (как разделить «горячие» и «холодные» потоки данных, какие форматы хранения использовать, как правильно разложить данные в хранилище, в какие сущности их разделить и т.д.)
- построение Data Platform-ы вместе с коллегами из смежной команды

Какими навыками обладает наш идеальный кандидат:
- опыт работы с решениями класса Data Lake (на базе Hadoop)
- опыт работы с PySpark и/или Trino
- уверенное владение Python (без фанатизма, но нужно уметь писать лаконичный и переиспользуемый код)
- очень уверенное владение SQL (не только DML, но и DDL с CTE)
- знание теории баз данных
- понимание различий между ETL и ELT, опыт разработки данных процессов

Будет плюсом:
- опыт работы в роли DevOps-а (развертывание и поддержка сервисов под задачи Data Engineering-a)
- опыт работы в роли системного/бизнес-аналитика
- опыт развертывания и конфигурирования систем хранения данных
- опыт разработки процессов контроля качества данных (как на базе open source-решений, так и самописных)
- опыт развертывания сервисов/окружений в облаках, либо опыт работы с k8s
- опыт работы с S3
- опыт разработки стриминговых интеграций данных (real-time или NRT)

С какими технологиями у нас возможно поработать:
- Citus, ClickHouse
- HDFS, S3
- MongoDB, Cassandra
- Kafka
- Spark, Trino
- Cloud, k8s
- Ni-Fi
- Airflow
- GitLab CI/CD
- Grafana
- Streamlit

Data Engineer в Баланс поставщиков