Нашему будущему коллеге предстоит работать над проектом: OMNI-дашборды - системой визуализации отчетности для покрытия потребности в аналитических инструментах для высшего и среднего менеджмента Компании. Работать над развитием Корпоративного Хранилища Данных (Hadoop), которое является основным источником данных для этого проекта.

Также, в работе у команды проект по переезду с google analytics на Snowplow.

Цель проекта – реализовать уникальную систему по работе с клиентскими данными ПАО "Детский мир" на основе используемых компонентов и стэка технологий и программного обеспечения компании. По итогам проекта в компании появится единый источник непротиворечивой и консистентной информации для принятия управленческих решений.

Мы ищем эксперта с высокой ролью ответственности на проекте, умеющего самостоятельно и в команде принимать решение по архитектуре и реализации.

Что нужно делать?

Проектирование, разработка и поддержка витрины данных для целей маркетинговых промо-кампаний
Операционализация моделей машинного обучения от команды DS
Техническая поддержка запуска кампаний (включая автоматизацию формирования контента)
Разработка алгоритмов выгрузки, обработки, хранения данных (ETL) из разных систем, интеграция с внешними системами
Автоматизация процессов обновления данных и запуска промо-кампаний
Разработка правил и процедур контроля качества данных

Наш стек:

Последние версии Apache Spark и Apache Airflow
Hadoop 3
Docker, Kubernetes
GitLab для CI/CD

Что нужно делать?

Создавать Spark ETL pipeline для загрузки данных в HDFS и преобразования данных на HDFS
Обсуждать с аналитиками алгоритмы преобразования данных, переводить SQL от аналитиков в Spark API
Участвовать в code review
Проектировать и создавать архитектуру проекта и адаптировать ее под новые требования
Выстраивать процессы CI/CD, мониторинга, взаимодействовать с командой DevOps
Заниматься созданием и развертыванием REST-сервисов на базе Spring Kotlin
Заниматься развертыванием вспомогательной инфраструктуры (Airflow, Zeppelin, Spark History/Thrift Server) в Kubernetes
Заниматься созданием Streaming job

Наши ожидания:

Знания SQL
Опыт работы с Docker обязателен
Понимание жизненного цикла разработки ПО, культуры CI/CD
Опыт создания и оптимизации Spark batch jobs, Scala API (PySpark не используется)
Опыт разработки на Java (kotlin) Spring Service
Опыт работы с Airflow, умение создавать DAG'и, состоящие из Task и Sensor

Будет плюсом:

Опыт работы с Kubernetes, Helm
Опыт работы с Kafka, Nifi, Spark Streaming любые открытые инструменты для Streaming
Опыт работы с GitLab CI/CD
Проектирование сбора/визуализации метрик с использованием Prometheus/Grafana

Условия:

Официальное оформление в соответствии с ТК РФ, полная стабильность
Отсутствие бюрократии и плоская организационная структура
Возможность вносить коррективы в процессы, в архитектуру и лояльный бизнес, постоянные коммуникации, возможность на равных обсуждать бизнес-фичи на стадии формирования
Действительно высокий уровень дохода, оклад + годовая премия, полностью "белый".
Гибкое начало работы, но 5/2, полный день. Возможен частично-удаленный / удаленный формат работы. Офис- м/мцд Окружная или корп.транспорт 7 минут от м.Петровско-Разумовская. .
Хорошее техническое оснащение, никаких проблем с доступами на удаленной работе
Расширенный полис ДМС
До 20% скидка на продукцию компании
Мы являемся официальной IT компанией в РФ (льготная ипотека, отсрочка от армии).
Индексация дохода

Data/ML engineer (OMNI-дашборды)