Компания – одно из крупнейших Бюро кредитных историй в России. В числе клиентов более 4 миллионов физических лиц, 600 банков, МФО, страховых компаний и операторов сотовой связи.

Что мы делаем?

Мы храним и обрабатываем кредитные истории более 100 миллионов россиян, уделяя большое внимание не только количеству данных, но и качеству их обработки.
Предоставляем b2b клиентам данные и аналитику по потенциальным заемщикам, которая помогает им в принятии решения о предоставлении или не предоставлении кредита.
Даем возможность физ. лицам ознакомиться со своей кредитной историей, получить выгодные предодобренные предложения от банков.

Проект

Мы строим нашу инфраструктуру данных без легаси с использованием современного стека и подходов на базе Hadoop и GreenPlum. Занимаемся имплементацией и развитием Data Lake gen 3 и аналитической платформы данных, строим витрины данных, внедряем лучшие практики обработки и доставки данных в компании, реализуем MLOps, следим за качеством и «чистотой» данных.

Команда

14 data engineer, Tech Lead, 2 архитектора, системные аналитики. Дата инженеры работают в 2х командах (одна отвечает за загрузку данных, другая - за витрины данных). Сейчас открыта позиция в команде загрузки данных.

Чем предстоит заниматься

Разрабатывать пайплайны загрузки данных из различных источников (РСУБД, NoSQL, files, streaming) в Datalake.
Проводить RnD новых инструментов и технологий обработки и хранения данных.
Решать алгоритмические задачи наполнения слоев хранилищ.
Оптимизировать процессы хранения и обработки данных с использованием современных технологии и подходов.
Реализовывать распределенные алгоритмы обработки больших данных.
Разрабатывать компоненты загрузки данных между разрозненными компонентами платформы данных (Hadoop <-> Greenplum).

Что ожидаем от тебя

Опыт работы на Scala от 2х лет.
Опыт работы с экосистемой кластера Hadoop.
Опыт работы с БД: Delta lake, HBase, Redis, Greenplum.
Опыт работы с Apache Airflow, Datahub (Atlas, Amundsen), Great Expectation.
Отличные навыки – Apache Spark, Apache Spark structured streaming, Kafka.

Будет плюсом

Опыт работы с табличным форматом хранения данных Delta lake.
Опыт разработки приложений распределенных вычислений и обработки данных на Apache Flink.
Опыт работы с Data science в части доставки данных и продукционализации моделей машинного обучения.
Опыт построения Data lineage.
Опыт работы с БД: Cassandra, Redis.
Опыт работы с Feast.

Что готовы предложить

Оформление по ТК РФ: оклад + годовой бонус – определяется по итогу собеседований.
Компания входит в реестр аккредитованных ИТ компаний.
Удаленный формат работы (в пределах РФ). При желании можно работать в офисе класса А (г. Москва).
График работы 5/2, с 9 до 18 по Московскому времени.
ДМС со стоматологией (с 1 рабочего дня + полис путешественника).
Частичная компенсация фитнеса / обучения / доп. мед. услуг (лимит - 25 тыс. рублей в год).
Льготная ипотека (от Сбербанк), в том числе рефинансирование (ставка по ипотеке на 2 пункта ниже).
Дополнительные дни к ежегодному отпуску (всего 31 день в году).
Современное оборудование (Lenovo ThinkPad на Windows).
Выстроенный онбординг.
Возможности для роста внутри компании по прозрачному треку (техническая карта и карта компетенций).

Как мы проводим собеседования

15-20 минут - общение с рекрутером (в аудио-формате)
60-90 минут - техническое интервью с лидом команды (google meet, видео встреча).
60 минут - интервью с руководителем направления (google meet, видео встреча).
Проверка документов 1-2 дня (анкета в электронном виде).
Оффер, обсуждение даты выхода на работу.

Мы стараемся как можно быстрее принимать решения.

Data engineer (Scala)