Мы усиливаем департамент инфраструктуры и находимся в поиске опытного SRE.

Чем нужно будет заниматься?

Обеспечивать заданный уровень SLA для сервисов компании;
Разработка и контроль метрик производительности, надежности;
Работа в составе продуктовых команд/стримов;
Анализировать сервисы и интеграции между сервисами и принимать меры для предотвращения инцидентов;
Проводить postmortem-ы и разрабатывать мероприятия для повышения стабильности сервисов;
Подготавливать DRP, BCP и проводить регулярные учения по отказам с последующим анализом результатов;
Прорабатывать мониторинг сервисов в production для оперативного реагирования дежурной смены;
Участвовать в проработке архитектуры приложений и изменений их конфигураций.

Что мы ожидаем от кандидата:

Опыт работы в роли инженера Dev/DevOps/SRE от 3-х лет;
Опыт работы с высоконагруженными системами в production от 3 лет;
Понимание принципов SRE;
Опыт работы и понимание принципов обеспечения High availability в различных решениях (SberCloud, K8S, AWS, GCP и пр.);
Навыки автоматизации при решении задач (Python), а также чтение и понимание кода;
Опыт работы с инструментами управления конфигурациями (Terraform, Ansible и пр.).