ITSpace — международная сервисная компания. Мы успешно помогаем бизнесу и талантам встретиться.
Главная ценность нашей компании - это люди, которые в ней работают. Поэтому мы стремимся, чтобы работа у нас была максимально комфортной, а сотрудничество долгим и продуктивным.

Вакансия открыта в крупной российской страховой компании.

Описание проекта:

Оказание услуг по устранению и предотвращению аварий, повышению надежности, минимизации простоев, оптимизации производительности в высоконагруженных информационных системах заказчика исполнителя.

Верхнеуровневое описание стека:

Сamunda, Kafka, Jenkins, Github, KeyCloak, Minio, Redis, MongoDB, PostgreSQL, MS SQL Server, Kubernates, helm, ELK, Grafana, Zabbix, Prometheus, Java, Nginx, Docker, Dotnet3, Maven, PHP, Gradle, Python, Mono, Angular, Node.js.

Обязанности:

Анализ текущей IT-инфраструктуры:

- Проведение анализа существующих информационных систем, сервисов и IT- инфраструктуры. Оценка текущей и целевой архитектуры на предмет отказоустойчивости и надёжности;

- Выявление уязвимости, узкие места фактические и потенциальные точки отказа.

Расследование и устранение инцидентов:

- Обеспечение максимально быстрого устранения инцидентов (аварий) с предоставлением отчетов (post-mortem) по анализу корневых причин (RCA) и рекомендаций по действиям для их предотвращения;

- Разработка и внедрение стратегии для проактивного и реактивного предотвращения аварий предусматривающую быстрое время реагирования и устранения.

Повышение надежности:

- Подготовка и реализация практических предложений по улучшению надежности системы, включая балансировку нагрузки, механизмы аварийной перезагрузки и стратегии резервирования;

- Организация и внедрение Оbservability;

- Разработка/доработка сервисов, автоматизированных инструментов мониторинга включая настройку алертинга и агрегацию метрик со всех слоев приложений, их корреляцию с целью превентивного выявления проблем.

Оптимизация производительности:

- Проведение анализа метрик производительности системы включая профилирование и распределенную трассировку запросов по микросервисам, выработать и реализовать предложения по оптимизации, включая запросы к БД, шаблоны перегрузки (Circuit Breaker), механизмы кеширования с целью улучшения эффективности работы сервисов снижения времени отклика, улучшения производительности;

- Проведение анализа и реализация автомасштабтирования ресурсов в зависимости от потребностей сервисов;

- Доработка процедуры тестирования производительности и бенчмарков с целью выявления пороговых значений и точек деградации производительности сервисов, включая Chaos Engineering;

- Подготовка предложений в части Capacity planning;

- Разработка инструкций по troubleshooting с указанием алгоритмов и процедуры обработки инцидентов;

- Проведение обучения внутренних команд по реализации практик SRE, инструментов мониторинга и управления развитием и инфраструктурой;

- Обеспечение эффективного взаимодействия с командами разработки с целью внедрения лучших практик надежности и мониторинга в код и архитектуру приложения;

- Проведение анализа релизов и изменений в составе CAB;

- Подготовка предложений по улучшению практик управления изменениями, релизами, развёртывания.

Требования:

Исполнитель по результатам выполнения работ предоставляет:

1. Отчеты по анализу корневых причин (RCA) недавних инцидентов (аварий) с рекомендациями по их предотвращению.

2. Практические рекомендации и планы реализации для повышения надежности системы.

3. Отчеты по оптимизации производительности и стратегии для ее постоянного мониторинга.

4. Подробную документацию, включающая конфигурации системы инструкций по troubleshooting с указанием алгоритмов и процедуры обработки инцидентов.

5. Исходные коды разработанных инструментов по observability мониторингу, средствам диагностики и устранения инцидентов

6. Обучающие сессии для внутренних команд по практикам и инструментам SRE.

Условия:

Работа в аккредитованной IT компании;
Удалённый формат работы, гибкое начало рабочего дня;
Длительный проект, полное погружение в продуктовую разработку;
Стабильность, компания устойчива ко всем изменениям на рынке;
Оформление в штат: ТК РФ, ГПХ или ИП;
Ежегодный пересмотр заработной платы, в зависимости от результатов работы;
Профессиональное развитие, обучение за счет компании;
По согласованию за счет компании: ДМС, предоставление оборудования, фитнес, психологическая помощь.

Team Lead SRE