Оплата не указана
Вакансия находится в архиве
Требуемый опыт работы
От 3 до 6 лет
Тип занятости
Полная занятость
График работы
Полный день
О компании:
Мы создаем единую распределенную систему масштаба страны, которая преобразит опыт совершения покупок, а именно позволит "оцифровать" каждую единицу товара уже к 2025 году.
Это позволит каждому покупателю быть уверенным в качестве и происхождении товара, а производителям и продавцам - не только уменьшить долю неоригинальной продукции на рынке, но и оптимизировать производственно-логистические процессы и сократить издержки за счет возможностей аналитической подсистемы.
Уже сейчас система обрабатывает миллиарды транзакций ежедневно и оперирует петабайтами данных на скоростях десятки тысяч запросов в секунду.
О команде:
Данные – это нефть 21 века. Данные «Честного знака» - настоящий «клондайк», глобальное месторождение эксклюзивных фактов о товарообороте страны. Мы трекаем поэкземплярно весь товарооборот маркированных товарных групп и на этом строим уникальные показатели.
Мы ищем крепкого инженера в bigdata-команду, обладающего экспертными знаниями в области построения систем на базе Hadoop/Spark.
Технологический стек:
Текущий стек команды: Hadoop / Spark 3 (batch/streaming) / Scala / SQL / Parquet / Hive / Kafka / HBase / ClickHouse / PostgreSQL / Airflow / Zeppelin / Jupyter/ S3 MinIO
Смотрим в сторону: Iceberg для MOR, COW / DBT модели для данных / Твоего опыта и исследований
Наши данные в цифрах: поток > 20k RPS, > 900 млрд. фактов, > 10Пб данных в HDFS.
Чем предстоит заниматься:
Влиять на стратегию развития архитектуры платформы, исследованиями и разработкой пилотных решений.
Предлагать, отстаивать и реализовывать архитектурные решения (POC).
Настраивать сборку приложений и их размещение как docker контейнеров в k8s, мониторинг их работоспособности.
Участвовать в pre-prod тестировании, выводе приложений в PROD среду и диагностике в случае сбоев.
Тесное сотрудничать с другими командами департамента по внедрению разработанных решений.
Прототипировать ETL процессы c необходимым эмулированием данных с использованием Jupyter Lab / Zeppelin.
Работать в команде преимущественно в режиме удалённой работы.
От успешного кандидата мы ожидаем:
Подтвержденный опыт разработки от 5 лет.
Понимание базовых структур данных.
Опыт применения алгоритмов и возможность про них рассказать.
Уверенные знания и опыт работы в стеке Spark (batch/streaming) on Hadoop.
Опыт работы с реляционными БД.
Экспертное знание SQL.
Уверенное знание Scala.
Знание и опыт работы с DevOps, понимание принципов CI/CD в области обработки данных.
Что вам точно понравится:
Контактная информация
ЦРПТ (Центр развития перспективных технологий)
Сайт: crpt.ru
Почта: не указана
Вакансия опубликована 30.04.2024 в г. Санкт-Петербург.
Похожие вакансии
Не указана
Москва
Менделеевская
Полный день
Разработка и оптимизация архитектуры облачного хранилища данных (Data Lake + Data Warehouse)
Внедрение практик и инструментов контроля и поддержания качества данных
2 июля
Не указана
Москва
Полный день
Команда Reference Data Platform отвечает за создание собственного решения класса MDM (Master Data Management) для эффективного управления нормативно-справочной информацией. Такое решение позволит повысить качество и согласованность справочных данных и...
11 апреля
от 130 000 до 200 000 ₽
Москва
Удаленная работа
Cherrypick.agency — компания, которая активно работает над поиском инновационных решений и стремится к сотрудничеству с талантливыми людьми, готовыми принять вызов и преодолеть любые трудности. Мы гордимся тем, что нас рекомендуют во многие иностранные стартапы и своей...
29 мая