Для открытия контактов резюме необходимо приобрести доступ к базе
Не указана
Гражданство
Россия
Тип занятости
Полная занятость, Частичная занятость
Мужчина, 30 лет, родился 9 апреля 1994
Город: Саратов
Опыт работы
4 года 8 месяцев
HelloFresh
Data Engineer
С 01.05.2024 по 01.01.2025 (8 месяцев)
Работа в отделе Operations Data Analytics Platform 1. Интеграция новых источников данных Подключение и интеграция различных источников данных, включая API и Kafka-топики. Обеспечение поступления данных для дальнейшей обработки и аналитики. 2. Разработка ETL-процессов и их оркестрация в Airflow Разработка и настройка ETL-процессов с использованием DAG-ов в Airflow, обеспечивающих обработку данных и их подготовку для передачи конечному пользователю — команде Data Analytics. Для выполнения задач использовался Spark, развернутый на Amazon EMR с использованием Amazon EKS. 3. Настройка Slack-уведомлений Автоматизация уведомлений о статусе задач в Airflow с помощью Slack API, для отслеживания выполнения процессов. 4. Переход от структуры Data Lake на S3 к улучшенной схеме хранения и обработки данных с использованием Data Vault моделирования • Организация хранения raw-данных и данных с базовыми трансформациями (добавление мета-колонок, колонок для партиционирования, удаление PII данных и т. д.) в S3 и Glue. • Передача данных в Snowflake через COPY INTO и внедрение Data Vault моделирования для структурирования данных и подготовки их к анализу • Разработка и внедрение новых пайплайнов, адаптированных под обновленную схему с использованием Medallion архитектуры 5.Использование Data Quality проверок с помощью платформы Soda Обеспечение качества данных через Data Quality проверки на платформе Soda, для поддержания надежности данных. 6. Поддержка существующих пайплайнов Регулярная поддержка и оптимизация текущих пайплайнов. 7. Покрытие нового функционала unit тестами Написание unit тестов для новых функциональных модулей.
HelloFresh
Data Engineer
С 01.05.2024 по 01.01.2025 (8 месяцев)
Работа в отделе Operations Data Analytics Platform 1. Интеграция новых источников данных Подключение и интеграция различных источников данных, включая API и Kafka-топики. Обеспечение поступления данных для дальнейшей обработки и аналитики. 2. Разработка ETL-процессов и их оркестрация в Airflow Разработка и настройка ETL-процессов с использованием DAG-ов в Airflow, обеспечивающих обработку данных и их подготовку для передачи конечному пользователю — команде Data Analytics. Для выполнения задач использовался Spark, развернутый на Amazon EMR с использованием Amazon EKS. 3. Настройка Slack-уведомлений Автоматизация уведомлений о статусе задач в Airflow с помощью Slack API, для отслеживания выполнения процессов. 4. Переход от структуры Data Lake на S3 к улучшенной схеме хранения и обработки данных с использованием Data Vault моделирования • Организация хранения raw-данных и данных с базовыми трансформациями (добавление мета-колонок, колонок для партиционирования, удаление PII данных и т. д.) в S3 и Glue. • Передача данных в Snowflake через COPY INTO и внедрение Data Vault моделирования для структурирования данных и подготовки их к анализу • Разработка и внедрение новых пайплайнов, адаптированных под обновленную схему с использованием Medallion архитектуры 5.Использование Data Quality проверок с помощью платформы Soda Обеспечение качества данных через Data Quality проверки на платформе Soda, для поддержания надежности данных. 6. Поддержка существующих пайплайнов Регулярная поддержка и оптимизация текущих пайплайнов. 7. Покрытие нового функционала unit тестами Написание unit тестов для новых функциональных модулей.
Grid Dynamics
Data Engineer
С 01.06.2023 по 01.05.2024 (11 месяцев)
I. Разработка Data Ingestion Framework Проектирование и реализация metadata-driven data ingestion framework II. Создание Custom Airflow Operators Разработано несколько пользовательских операторов Apache Airflow, облегчающих передачу и преобразование данных III. Создание Data Pipelines Построены множественные цепочки обработки данных, сосредоточенные на процессах ELT, включающие такие этапы, как: - Передача данных с SMB на ADLS Gen2 - Загрузка данных из ADLS в Snowflake - Операции Upsert из таблиц "bronze" уровня в таблицы "gold" уровня в Snowflake IV. Имплементация Dag Factory С помощью которой, процесс создания DAG'ов и очередности задач происходит путем из JSON-конфигураций, делающий создание DAG динамичным, эффективным и последовательным V. Метрики и оповещения Разработка операторов для сбора и отправки метрик, предупреждений и оповещений после загрузки данных, с подробными отчетами в Snowflake таблицы и логи Airflow VI. Data Partitioning с помощью Dask Обеспечение партиционирования больших файлов при их поступлении в ADLS. Обеспечение единообразия header'ов и оптимизации размеров файлов для обработки
Grid Dynamics
Data Engineer
С 01.10.2022 по 01.06.2023 (8 месяцев)
I. Создание Event stream для online магазина с помощью Confluent Kafka и KSQL: Согласование и создание схем, топиков Создание стримов, таблиц, materialized стримов и таблиц Имплементация трансформаций в source стримах, таблицах с использованием агрегационных и скалярных функций Schema evolution II. Создание Confluent Kafka S3 sink connector для BI департамента Конфигурация коннектора c помощью Terraform, который отправляет данные из Kafka в AWS S3 с периодичностью hourly/daily Трансформация структуры данных для последующего маскирования PII данных (GDPR) и записи в AWS S3 III. Back in Stock notification data pipeline Обработка данных, полученных при запросе клиента об уведомлении по появлению товара в наличии на сайте Запись данных запроса в DynamoDB таблицу Создание DynamoDB стриминга из оригинальной таблицы (trigger для AWS Lambda функции) Event driven Lambda function основной функционал - данные в топики Confluent Kafka Трансформация структуры полученных данных для последующего маскирования PII данных (GDPR) и записи в AWS S3
Grid Dynamics
Data Engineer
С 01.02.2022 по 01.10.2022 (8 месяцев)
I. Удаление зависимостей CDH из DAGs, которые были смигрированы на CDP Отключение CDH и удаление CDH метастора II. Event Driven ETL's output tables population Создать приложение, основная цель которого заполнять и обновлять ETL’s output tables Имплементация: - AWS S3 event notification (AWS Lambda trigger) - AWS Lambda event-message parser (get needed data) - SQS queue messaging (предотвращение многократного обновление одних и тех же данных) - Hive и Impala repair и refresh таблиц ✔ Достигнуто: Отдел Data Science получает актуальные данные для последующих трансформаций Отдел Data Science освобожден от выполнения запросов на refresh и repair таблиц (данные в таблицах всегда up to date) III. Миграция CI/CD основных репозиториев проекта с Concourse на GitHubActions Использование jetstream для создания основных файлов нужных для запуска GitHub Actions Конфигурация job и action для GitHub actions workflow для корректного выполнения процессов CI/CD Удаление зависимостей Jenkins & Concourse (использовались до перехода на GHA)
Grid Dynamics
Junior Data Engineer
С 01.02.2021 по 01.02.2022 (1 год)
I. Миграция с Python 2.7 на Python 3.7.5 Основная цель миграции - работоспособность проекта на Python 3 II. Миграция с HDFS на AWS S3 Изменение существующих ETL workflows и DAGs - прочтение/запись данных из/в AWS S3 storage. Изначально проект использовал source/output данных являлся HDFS. Адаптировать ETLs code и DAGs code в рамках целей миграции. Добавление в настройках DAGs AWS authentication конфигурации для Spark Submit ✔ Достигнуто: Повышение ценовой эффективности (3x сокращение расходов) Улучшенная availability и надежность хранилища (2x выше производительность) III. CDH to CDP - Batch pipeline миграция Прогрессивная миграция pipelines на новую платформу Миграция CI/CD с Jenkins на Concourse каждого репозитория Пересоздание source/intermediate/output таблиц на CDP Impala Модифицировать DAGs таким образом, чтобы их запуск происходил на CDP и metadata обновлялась как на CDP, так и CDH метасторах ✔ Достигнуто: В 3x раза быстрее чтение/запись данных из/в S3 используя CDP вместо CDH Сокращение времени выполнения задач на Airflow
Grid Dynamics
Студент
С 01.01.2021 по 01.02.2021 (1 месяц)
Проходил стажировку по направлению Big Data. Работал в команде студентов над написанием проекта по анализу погодных условий в период с 2015 по 2020 год, для 50 городов мира. На проекте применял: 1) Apache Spark (Batch, Streaming) 2) Apache Kafka 3) Postgresql 4) Elasticsearch 5) Kibana Получил полезные теоретические знания и практические навыки используемые в Big Data направлении. Прокачал уровень владения английским языком.
Образование
Университет
Саратовский социально-экономический институт РЭУ им. Г.В. Плеханова
Университет
Саратовский социально-экономический институт РЭУ им. Г.В. Плеханова
Владение языками
Родной язык
Русский
Иностранные языки
Английский, Ту?, Аф?
Дополнительно
Ключевые навыки
Python
Ms sql
Etl / self service etl
Apache spark
Apache kafka
Apache hadoop
Amazon aws
Apache airflow
Sql nosql
Знание git
Apache hive
Ms power bi
Разговорный английский язык
Devops (git (bitbucket), jenkins, ansible, maven, gradle, junit и пр.)
concourse
githubactions
ksql
confluent
impala
Дополнительная информация
Data Engineer, заинтересованный в Python, Spark, SQL, Airflow технологиях и Data Analytics. Всегда стараюсь делать все возможное и не останавливаться в саморазвитии Ответственный, исполнительный, проявляющий инициативу, организованный и пунктуальный. Самостоятельно разбираюсь в сути вопроса, могу отделить главное от второстепенного. Проявляю исполнительность, умею самостоятельно организовать свою работу. При необходимости проявляю достаточную настойчивость и упорство, чтобы довести дело до конца. Хорошо владею английском языком. Увлекаюсь музыкой и играю на гитаре и ударной установке. Меломан.
Похожие резюме
до 80 000 ₽
54 года
Саратов
Полный день
Последнее место работы
ОАО "Автоматика-Сервис", заместитель генерального директора, октябрь 2004 - март 2005
Обновлено
11.11 в 09:44
Был на сайте
Более недели назад
Опыт работы
33 года 10 месяцев
до 80 000 ₽
37 лет
Саратов
Полный день
Последнее место работы
ООО "Геоштамп", техник-землеустроитель, июль 2009 - сентябрь 2010
Обновлено
17.11 в 17:57
Был на сайте
Более недели назад
Опыт работы
28 лет 5 месяцев
до 150 000 ₽
Саратов
Полный день
Последнее место работы
ООО " Саратов Волга Сухие Смеси ", Инженер-лаборант,нач.лаборатории, февраль 2005 - октябрь 2012
Обновлено
07.01 в 15:03
Был на сайте
Более недели назад
Опыт работы
19 лет 5 месяцев