Для открытия контактов резюме необходимо приобрести доступ к базе

  • Открывайте только нужные вам целевые контакты
  • Контакты открываются навсегда
  • Низкая стоимость
#

data engineer

Не указана

Гражданство

Россия

Тип занятости

Полная занятость, Частичная занятость

Мужчина, 30 лет, родился 9 апреля 1994

Город: Саратов

Опыт работы

4 года 8 месяцев

HelloFresh

Data Engineer

С 01.05.2024 по 01.01.2025 (8 месяцев)

Работа в отделе Operations Data Analytics Platform 1. Интеграция новых источников данных Подключение и интеграция различных источников данных, включая API и Kafka-топики. Обеспечение поступления данных для дальнейшей обработки и аналитики. 2. Разработка ETL-процессов и их оркестрация в Airflow Разработка и настройка ETL-процессов с использованием DAG-ов в Airflow, обеспечивающих обработку данных и их подготовку для передачи конечному пользователю — команде Data Analytics. Для выполнения задач использовался Spark, развернутый на Amazon EMR с использованием Amazon EKS. 3. Настройка Slack-уведомлений Автоматизация уведомлений о статусе задач в Airflow с помощью Slack API, для отслеживания выполнения процессов. 4. Переход от структуры Data Lake на S3 к улучшенной схеме хранения и обработки данных с использованием Data Vault моделирования • Организация хранения raw-данных и данных с базовыми трансформациями (добавление мета-колонок, колонок для партиционирования, удаление PII данных и т. д.) в S3 и Glue. • Передача данных в Snowflake через COPY INTO и внедрение Data Vault моделирования для структурирования данных и подготовки их к анализу • Разработка и внедрение новых пайплайнов, адаптированных под обновленную схему с использованием Medallion архитектуры 5.Использование Data Quality проверок с помощью платформы Soda Обеспечение качества данных через Data Quality проверки на платформе Soda, для поддержания надежности данных. 6. Поддержка существующих пайплайнов Регулярная поддержка и оптимизация текущих пайплайнов. 7. Покрытие нового функционала unit тестами Написание unit тестов для новых функциональных модулей.

HelloFresh

Data Engineer

С 01.05.2024 по 01.01.2025 (8 месяцев)

Работа в отделе Operations Data Analytics Platform 1. Интеграция новых источников данных Подключение и интеграция различных источников данных, включая API и Kafka-топики. Обеспечение поступления данных для дальнейшей обработки и аналитики. 2. Разработка ETL-процессов и их оркестрация в Airflow Разработка и настройка ETL-процессов с использованием DAG-ов в Airflow, обеспечивающих обработку данных и их подготовку для передачи конечному пользователю — команде Data Analytics. Для выполнения задач использовался Spark, развернутый на Amazon EMR с использованием Amazon EKS. 3. Настройка Slack-уведомлений Автоматизация уведомлений о статусе задач в Airflow с помощью Slack API, для отслеживания выполнения процессов. 4. Переход от структуры Data Lake на S3 к улучшенной схеме хранения и обработки данных с использованием Data Vault моделирования • Организация хранения raw-данных и данных с базовыми трансформациями (добавление мета-колонок, колонок для партиционирования, удаление PII данных и т. д.) в S3 и Glue. • Передача данных в Snowflake через COPY INTO и внедрение Data Vault моделирования для структурирования данных и подготовки их к анализу • Разработка и внедрение новых пайплайнов, адаптированных под обновленную схему с использованием Medallion архитектуры 5.Использование Data Quality проверок с помощью платформы Soda Обеспечение качества данных через Data Quality проверки на платформе Soda, для поддержания надежности данных. 6. Поддержка существующих пайплайнов Регулярная поддержка и оптимизация текущих пайплайнов. 7. Покрытие нового функционала unit тестами Написание unit тестов для новых функциональных модулей.

Grid Dynamics

Data Engineer

С 01.06.2023 по 01.05.2024 (11 месяцев)

I. Разработка Data Ingestion Framework Проектирование и реализация metadata-driven data ingestion framework II. Создание Custom Airflow Operators Разработано несколько пользовательских операторов Apache Airflow, облегчающих передачу и преобразование данных III. Создание Data Pipelines Построены множественные цепочки обработки данных, сосредоточенные на процессах ELT, включающие такие этапы, как: - Передача данных с SMB на ADLS Gen2 - Загрузка данных из ADLS в Snowflake - Операции Upsert из таблиц "bronze" уровня в таблицы "gold" уровня в Snowflake IV. Имплементация Dag Factory С помощью которой, процесс создания DAG'ов и очередности задач происходит путем из JSON-конфигураций, делающий создание DAG динамичным, эффективным и последовательным V. Метрики и оповещения Разработка операторов для сбора и отправки метрик, предупреждений и оповещений после загрузки данных, с подробными отчетами в Snowflake таблицы и логи Airflow VI. Data Partitioning с помощью Dask Обеспечение партиционирования больших файлов при их поступлении в ADLS. Обеспечение единообразия header'ов и оптимизации размеров файлов для обработки

Grid Dynamics

Data Engineer

С 01.10.2022 по 01.06.2023 (8 месяцев)

I. Создание Event stream для online магазина с помощью Confluent Kafka и KSQL: Согласование и создание схем, топиков Создание стримов, таблиц, materialized стримов и таблиц Имплементация трансформаций в source стримах, таблицах с использованием агрегационных и скалярных функций Schema evolution II. Создание Confluent Kafka S3 sink connector для BI департамента Конфигурация коннектора c помощью Terraform, который отправляет данные из Kafka в AWS S3 с периодичностью hourly/daily Трансформация структуры данных для последующего маскирования PII данных (GDPR) и записи в AWS S3 III. Back in Stock notification data pipeline Обработка данных, полученных при запросе клиента об уведомлении по появлению товара в наличии на сайте Запись данных запроса в DynamoDB таблицу Создание DynamoDB стриминга из оригинальной таблицы (trigger для AWS Lambda функции) Event driven Lambda function основной функционал - данные в топики Confluent Kafka Трансформация структуры полученных данных для последующего маскирования PII данных (GDPR) и записи в AWS S3

Grid Dynamics

Data Engineer

С 01.02.2022 по 01.10.2022 (8 месяцев)

I. Удаление зависимостей CDH из DAGs, которые были смигрированы на CDP Отключение CDH и удаление CDH метастора II. Event Driven ETL's output tables population Создать приложение, основная цель которого заполнять и обновлять ETL’s output tables Имплементация: - AWS S3 event notification (AWS Lambda trigger) - AWS Lambda event-message parser (get needed data) - SQS queue messaging (предотвращение многократного обновление одних и тех же данных) - Hive и Impala repair и refresh таблиц ✔ Достигнуто: Отдел Data Science получает актуальные данные для последующих трансформаций Отдел Data Science освобожден от выполнения запросов на refresh и repair таблиц (данные в таблицах всегда up to date) III. Миграция CI/CD основных репозиториев проекта с Concourse на GitHubActions Использование jetstream для создания основных файлов нужных для запуска GitHub Actions Конфигурация job и action для GitHub actions workflow для корректного выполнения процессов CI/CD Удаление зависимостей Jenkins & Concourse (использовались до перехода на GHA)

Grid Dynamics

Junior Data Engineer

С 01.02.2021 по 01.02.2022 (1 год)

I. Миграция с Python 2.7 на Python 3.7.5 Основная цель миграции - работоспособность проекта на Python 3 II. Миграция с HDFS на AWS S3 Изменение существующих ETL workflows и DAGs - прочтение/запись данных из/в AWS S3 storage. Изначально проект использовал source/output данных являлся HDFS. Адаптировать ETLs code и DAGs code в рамках целей миграции. Добавление в настройках DAGs AWS authentication конфигурации для Spark Submit ✔ Достигнуто: Повышение ценовой эффективности (3x сокращение расходов) Улучшенная availability и надежность хранилища (2x выше производительность) III. CDH to CDP - Batch pipeline миграция Прогрессивная миграция pipelines на новую платформу Миграция CI/CD с Jenkins на Concourse каждого репозитория Пересоздание source/intermediate/output таблиц на CDP Impala Модифицировать DAGs таким образом, чтобы их запуск происходил на CDP и metadata обновлялась как на CDP, так и CDH метасторах ✔ Достигнуто: В 3x раза быстрее чтение/запись данных из/в S3 используя CDP вместо CDH Сокращение времени выполнения задач на Airflow

Grid Dynamics

Студент

С 01.01.2021 по 01.02.2021 (1 месяц)

Проходил стажировку по направлению Big Data. Работал в команде студентов над написанием проекта по анализу погодных условий в период с 2015 по 2020 год, для 50 городов мира. На проекте применял: 1) Apache Spark (Batch, Streaming) 2) Apache Kafka 3) Postgresql 4) Elasticsearch 5) Kibana Получил полезные теоретические знания и практические навыки используемые в Big Data направлении. Прокачал уровень владения английским языком.

Образование

Университет

Саратовский социально-экономический институт РЭУ им. Г.В. Плеханова

Университет

Саратовский социально-экономический институт РЭУ им. Г.В. Плеханова

Владение языками

Родной язык

Русский

Иностранные языки

Английский, Ту?, Аф?

Дополнительно

Ключевые навыки

  • Python

  • Ms sql

  • Etl / self service etl

  • Apache spark

  • Apache kafka

  • Apache hadoop

  • Amazon aws

  • Apache airflow

  • Sql nosql

  • Знание git

  • Apache hive

  • Ms power bi

  • Разговорный английский язык

  • Devops (git (bitbucket), jenkins, ansible, maven, gradle, junit и пр.)

  • concourse

  • githubactions

  • ksql

  • confluent

  • impala

Дополнительная информация

Data Engineer, заинтересованный в Python, Spark, SQL, Airflow технологиях и Data Analytics. Всегда стараюсь делать все возможное и не останавливаться в саморазвитии Ответственный, исполнительный, проявляющий инициативу, организованный и пунктуальный. Самостоятельно разбираюсь в сути вопроса, могу отделить главное от второстепенного. Проявляю исполнительность, умею самостоятельно организовать свою работу. При необходимости проявляю достаточную настойчивость и упорство, чтобы довести дело до конца. Хорошо владею английском языком. Увлекаюсь музыкой и играю на гитаре и ударной установке. Меломан.

Похожие резюме

#

до 80 000 ₽

54 года

Саратов

Полный день

Последнее место работы

ОАО "Автоматика-Сервис", заместитель генерального директора, октябрь 2004 - март 2005

Обновлено

11.11 в 09:44

Был на сайте

Более недели назад

Опыт работы

33 года 10 месяцев

#

до 80 000 ₽

37 лет

Саратов

Полный день

Последнее место работы

ООО "Геоштамп", техник-землеустроитель, июль 2009 - сентябрь 2010

Обновлено

17.11 в 17:57

Был на сайте

Более недели назад

Опыт работы

28 лет 5 месяцев

#

до 150 000 ₽

Саратов

Полный день

Последнее место работы

ООО " Саратов Волга Сухие Смеси ", Инженер-лаборант,нач.лаборатории, февраль 2005 - октябрь 2012

Обновлено

07.01 в 15:03

Был на сайте

Более недели назад

Опыт работы

19 лет 5 месяцев