Проект по разработке, оптимизации и тестирования единого централизованного механизма загрузки (репликации) из реляционных/нереляционных источников данных в хранилище ODS реализованном в кластере Hadoop (Hive). Проект включает в себя функционал для создания компонентов реплики (структуры таблиц, параметры загрузки и тд) и непосредственно ETL-инструмента для выполнения загрузки (ядро)

Твои задачи:

Разработка/доработка ETL процессов в соответствии с требованиями ТЗ
Анализ источников данных (PostgreSQL, Oracle, MS SQL, плоские файлы)
Разработка/доработка функционала для создания компонентов реплик по требованиям ТЗ (Python 3.6 + Jenkins)
Разработка/доработка ядра ETL процессов с использованием Python 2.7.
Конфигурация потоков данных из систем источников, их мониторинг, модификация и оптимизация
Оркестрация процессов обработки данных с использованием Oozie Workflow & Hue
Покрытие кода тест-кейсами.

Мы ждем от тебя:

Опыт разработки ETL процессов
Понимание работы и опыт использования основных реляционных SQL хранилищ: PostgreSQL, Oracle, MS SQL
Понимание принципов и опыт применения чистой архитектуры и других принципов проектирования (напр, SOLID).
Опыт настройки SSL/TLS сертификатов для подключения к СУБД
Опыт создание дашбордов (панелей) в Grafana, используя источник Prometheus
Опыт построения Jenkins CI/CD на языке Groovy
Опыт написания юнит-тестов с использованием библиотек Unittest, Pytest

Что мы обеспечим:

Поездки на конференции и тренинги за счет компании, внутренние семинары, внутренние митапы, мы очень любим учиться новому
Технику для комфортной работы
Сессия профессионального развития персонала дважды в год, результатом которой является план индивидуального развития каждого сотрудника
Сообщества по интересам: Лига Спорта, Лига Экспертов, Cyber Лига , а также возможность организовать свое сообщество и получить поддержку от компании
Корпоративная культура со своими ценностями и традициями, в которой каждый чувствует себя частью команды

Разработчик ETL