Компания – одно из крупнейших Бюро кредитных историй в России. В числе клиентов более 4 миллионов физических лиц, 600 банков, МФО, страховых компаний и операторов сотовой связи.
Что мы делаем?
- Мы храним и обрабатываем кредитные истории более 100 миллионов россиян, уделяя большое внимание не только количеству данных, но и качеству их обработки.
- Предоставляем b2b клиентам данные и аналитику по потенциальным заемщикам, которая помогает им в принятии решения о предоставлении или не предоставлении кредита.
- Даем возможность физ. лицам ознакомиться со своей кредитной историей, получить выгодные предодобренные предложения от банков.
Проект
Мы строим нашу инфраструктуру данных без легаси с использованием современного стека и подходов на базе Hadoop и GreenPlum. Занимаемся имплементацией и развитием Data Lake gen 3 и аналитической платформы данных, строим витрины данных, внедряем лучшие практики обработки и доставки данных в компании, реализуем MLOps, следим за качеством и «чистотой» данных.
Команда
14 data engineer, Tech Lead, 2 архитектора, системные аналитики. Дата инженеры работают в 2х командах (одна отвечает за загрузку данных, другая - за витрины данных). Сейчас открыта позиция в команде загрузки данных.
Чем предстоит заниматься
- Разрабатывать пайплайны загрузки данных из различных источников (РСУБД, NoSQL, files, streaming) в Datalake.
- Проводить RnD новых инструментов и технологий обработки и хранения данных.
- Решать алгоритмические задачи наполнения слоев хранилищ.
- Оптимизировать процессы хранения и обработки данных с использованием современных технологии и подходов.
- Реализовывать распределенные алгоритмы обработки больших данных.
- Разрабатывать компоненты загрузки данных между разрозненными компонентами платформы данных (Hadoop <-> Greenplum).
Что ожидаем от тебя
- Опыт работы на Scala от 2х лет.
- Опыт работы с экосистемой кластера Hadoop.
- Опыт работы с БД: Delta lake, HBase, Redis, Greenplum.
- Опыт работы с Apache Airflow, Datahub (Atlas, Amundsen), Great Expectation.
- Отличные навыки – Apache Spark, Apache Spark structured streaming, Kafka.
Будет плюсом
- Опыт работы с табличным форматом хранения данных Delta lake.
- Опыт разработки приложений распределенных вычислений и обработки данных на Apache Flink.
- Опыт работы с Data science в части доставки данных и продукционализации моделей машинного обучения.
- Опыт построения Data lineage.
- Опыт работы с БД: Cassandra, Redis.
- Опыт работы с Feast.
Что готовы предложить
- Оформление по ТК РФ: оклад + годовой бонус – определяется по итогу собеседований.
- Компания входит в реестр аккредитованных ИТ компаний.
- Удаленный формат работы (в пределах РФ). При желании можно работать в офисе класса А (г. Москва).
- График работы 5/2, с 9 до 18 по Московскому времени.
- ДМС со стоматологией (с 1 рабочего дня + полис путешественника).
- Частичная компенсация фитнеса / обучения / доп. мед. услуг (лимит - 25 тыс. рублей в год).
- Льготная ипотека (от Сбербанк), в том числе рефинансирование (ставка по ипотеке на 2 пункта ниже).
- Дополнительные дни к ежегодному отпуску (всего 31 день в году).
- Современное оборудование (Lenovo ThinkPad на Windows).
- Выстроенный онбординг.
- Возможности для роста внутри компании по прозрачному треку (техническая карта и карта компетенций).
Как мы проводим собеседования
- 15-20 минут - общение с рекрутером (в аудио-формате)
- 60-90 минут - техническое интервью с лидом команды (google meet, видео встреча).
- 60 минут - интервью с руководителем направления (google meet, видео встреча).
- Проверка документов 1-2 дня (анкета в электронном виде).
- Оффер, обсуждение даты выхода на работу.
Мы стараемся как можно быстрее принимать решения.