Проект по разработке, оптимизации и тестирования единого централизованного механизма загрузки (репликации) из реляционных/нереляционных источников данных в хранилище ODS реализованном в кластере Hadoop (Hive). Проект включает в себя функционал для создания компонентов реплики (структуры таблиц, параметры загрузки и тд) и непосредственно ETL-инструмента для выполнения загрузки (ядро)
Твои задачи:
- Разработка/доработка ETL процессов в соответствии с требованиями ТЗ
- Анализ источников данных (PostgreSQL, Oracle, MS SQL, плоские файлы)
- Разработка/доработка функционала для создания компонентов реплик по требованиям ТЗ (Python 3.6 + Jenkins)
- Разработка/доработка ядра ETL процессов с использованием Python 2.7.
- Конфигурация потоков данных из систем источников, их мониторинг, модификация и оптимизация
- Оркестрация процессов обработки данных с использованием Oozie Workflow & Hue
- Покрытие кода тест-кейсами.
Мы ждем от тебя:
- Опыт разработки ETL процессов
- Понимание работы и опыт использования основных реляционных SQL хранилищ: PostgreSQL, Oracle, MS SQL
- Понимание принципов и опыт применения чистой архитектуры и других принципов проектирования (напр, SOLID).
- Опыт настройки SSL/TLS сертификатов для подключения к СУБД
- Опыт создание дашбордов (панелей) в Grafana, используя источник Prometheus
- Опыт построения Jenkins CI/CD на языке Groovy
- Опыт написания юнит-тестов с использованием библиотек Unittest, Pytest
Что мы обеспечим:
- Поездки на конференции и тренинги за счет компании, внутренние семинары, внутренние митапы, мы очень любим учиться новому
- Технику для комфортной работы
- Сессия профессионального развития персонала дважды в год, результатом которой является план индивидуального развития каждого сотрудника
- Сообщества по интересам: Лига Спорта, Лига Экспертов, Cyber Лига , а также возможность организовать свое сообщество и получить поддержку от компании
- Корпоративная культура со своими ценностями и традициями, в которой каждый чувствует себя частью команды