Транснефть-Технологии оказывает IT-услуги организациям системы «Транснефть» в области внедрения, технической эксплуатации и сопровождения корпоративных информационных систем и IT-инфраструктуры.
Приглашаем в команду Data Engineer / Инженера данных.
Мы строим корпоративную платформу для работы с данными на базе открытого программного обеспечения, и нам нужен специалист с хорошими знаниями Apache Spark и опытом работы с большими данными, чтобы присоединиться к нашему динамичному и инновационному проекту.
Ты будешь отвечать за сбор, трансформацию, подготовку и проверку данных, обеспечивая их доступность и качество, а также занимается интеграцией источников данных, архитектурой хранения данных и оптимизацией, обеспечением эффективного использования баз данных.
Задачи:
- Разработка и оптимизация ETL процессов для обработки больших данных с использованием Apache Spark.
- Разработка высокопроизводительных распределенных вычислений и оптимизация задач на платформе Spark (в том числе Spark SQL, Spark Streaming).
- Построение и поддержка дата-центров на основе S3-Minio и других облачных решений.
- Интеграция и работа с хранилищами данных ClickHouse, GreenPlum.
- Управление каталогом данных с использованием OpenMetadata.
- Управление метаданными с использованием Apache Hive Metastore.
- Работа с колоночными форматами файлов ORC и Parquet, написание сложных SQL-запросов.
- Проектирование и управление моделями данных с использованием DBT (Data Build Tool), управление пайплайнами данных.
Требования:
- Уверенные знания Apache Spark, включая Pyspark, Spark SQL, Spark Streaming, MLlib).
- Опыт работы с CDC на базе Dbezium или Airbyte.
- Опыт оптимизации производительности Spark- jobs, настройки кластеров Spark (Tuning, Partitioning, Caching).
- Опыт работы с S3 совместимыми хранилищами больших данных (Minio),
- Понимание работы хранилищ метаданных Apache Hive Metastore.
- Опыт работы с колоночными аналитическими базами данных ClickHouse, GreenPlum.
- Уверенные знания SQL и умение писать сложные запросы.
- Опыт работы с распределенными вычислительными системами и технологиями обработки больших данных.
- Знание принципов архитектуры данных и разработки ETL процессов.
- Опыт работы с аналитическими базами данных и хранилищами больших данных.
- Знание процессов управления моделями данных и проектирования схем данных с использованием Dbt будет преимуществом.
- Опыт работы с каталогом данных (OpenMetadata) также будет плюсом.
Мы предлагаем:
- Возможность поучаствовать в масштабном, интересном проекте в команде профессионалов.
- Работа в стабильной, развивающейся компании, высокий уровень дохода (оклад +ежемесячные и годовые премии).
- Широкий социальный пакет: ДМС (+стоматология), доплата к отпуску, частичная компенсация санаторно-курортного лечения и отдыха, скидки на фитнесс и др.
- График работы: с 09.00 до 18.00; пятница: до 16.45;
- Гибридный формат работы.
- Уютный и комфортный офис в 15 минутах от м.Зорге, м. Полежаевская, м. ЦСКА.