Обязанности:

1. Обеспечение бесперебойной работы крупного SaaS продукта.

2. Сопровождение (администрирование) и развитие инфраструктуры прода, систем мониторинга и логгирования, анализ логов, проактивный поиск проблем.

3. Повышение отказоустойчивости и доступности инфраструктуры.

4. Внедрение новых подходов и технологий.

5. Реакция на алерты мониторига, решение инцидентов, анализ причин их возникновения.

6. Развитие инструментов резервного копирования.

7. Развитие практики Infrastructure as a Code.

8. Взаимодействие с другими командами - аналитика, разработка, саппорт, помощь в решении их проблем.

9. Изучение имеющийся документации по инфраструктуре и написание новой.

10. Работа не только с новым кодом, но и с легаси.

11. Работа в команде, умение аргументировать свою точку зрения, и услышать чужую. Находить общий язык, анализировать, принимать взвешенные решения.

Мы используем:

1. bare metal в основном + несколько сотен виртуалок у разных провайдеров, И немного докера

2. ansible + чуть-чуть terraform

3. php 7.2+

4. mysql

5. nginx, redis, clickhouse, rabbitmq, zookeeper, kafka

6. prometheus, alertmanager), grafana, elk

7. Ну и немного всякой мелочи вроде proxysql или отдельных компонентов kafka стека

Требования:

1. Опыт работы от 3 лет на аналогичной позиции.

2. Опыт администрирования и глубокое понимание работы Linux, настройки и оптимизации ОС, конфигурирования ядра, сетевых подсистем, файловых систем и тд. - консоль ваше родное. Обязательно знание ubuntu - 99% всего на ней.

3. Опыт настройки в проде, настройка, обслуживание, мониторинг, построение отказоустойчивый конфигураций - nginx, redis, clickhouse, rabbitmq, zookeeper, kafka часть нашего зоопарка.

4. Опыт работы с mysql сильно выше среднего, высокая доступность, планы запросов, оптимизация работы сервера, метрики и мониторинг, понимание работы протокола репликации.

5. Уверенный опыт работы с ansible (использование готовых плейбуков, написание новых, предложения по рефакторингу того, что есть).

6. Php 7+ минимум свободно читаете, можете некостыльно подправить что-то, понимаете принципы работы, понимаете различие между версиями.

7. Опыт настройки в проде систем мониторинга на базе Prometheus stack (prometheus, alertmanager) + grafana, elk

8. Понимание контейнеризации docker, опыт работы в проде.

9. Умение не только решать проблемы, но и находить причины их возникновения и делать выводы.

10. Опыт работы с высокими нагрузками.

11. Базовые знания ИБ.

12. Реакция на мониторинг, даже иногда в нерабочее время, не часто, но сбои бывают. Решение инцидента до конца.

Будет плюсом:

1. Опыт и стремление к IaС и автоматизации.

2. Умение читать незнакомый код, конфигурацию.

3. Опыт в инцидент менеджменте.

4. Умение хорошо программировать на php 7+ (middle+).

5. Уверенное знание сетевых технологий и протоколов.

6. Terraform

7. Опыт разворачивания kubernetes в проде и работы с ним.

Мы предлагаем:

1. Достойный уровень окладной части и премии.

2. Официальное оформление.

3. Работа в аккредитованной Минцифрой IT-компании, расширенный пакет ДМС со стоматологией, оплата участия в конференциях и прочие радости зрелой IT-компании.

4. Возможность заниматься йогой и бегом в корпоративном формате.

5. Гибридный формат работы с посещением уютного офиса в 5 минутах от ст.м. улица 1905 года. Полностью удаленный формат готовы обсуждать после года работы (или чуть раньше).

6. Еще мы проводим регулярные корпоративы, где собираемся все вместе и отрываемся от души;)

Senior SRE Engineer