Мы усиливаем департамент инфраструктуры и находимся в поиске опытного SRE.
Чем нужно будет заниматься?
- Обеспечивать заданный уровень SLA для сервисов компании;
- Разработка и контроль метрик производительности, надежности;
- Работа в составе продуктовых команд/стримов;
- Анализировать сервисы и интеграции между сервисами и принимать меры для предотвращения инцидентов;
- Проводить postmortem-ы и разрабатывать мероприятия для повышения стабильности сервисов;
- Подготавливать DRP, BCP и проводить регулярные учения по отказам с последующим анализом результатов;
- Прорабатывать мониторинг сервисов в production для оперативного реагирования дежурной смены;
- Участвовать в проработке архитектуры приложений и изменений их конфигураций.
Что мы ожидаем от кандидата:
- Опыт работы в роли инженера Dev/DevOps/SRE от 3-х лет;
- Опыт работы с высоконагруженными системами в production от 3 лет;
- Понимание принципов SRE;
- Опыт работы и понимание принципов обеспечения High availability в различных решениях (SberCloud, K8S, AWS, GCP и пр.);
- Навыки автоматизации при решении задач (Python), а также чтение и понимание кода;
- Опыт работы с инструментами управления конфигурациями (Terraform, Ansible и пр.).