Оплата не указана
Вакансия находится в архиве
Требуемый опыт работы
Более 6 лет
Тип занятости
Полная занятость
График работы
Удаленная работа
ITSpace — международная сервисная компания. Мы успешно помогаем бизнесу и талантам встретиться.
Главная ценность нашей компании - это люди, которые в ней работают. Поэтому мы стремимся, чтобы работа у нас была максимально комфортной, а сотрудничество долгим и продуктивным.
Вакансия открыта в крупной российской страховой компании.
Описание проекта:
Оказание услуг по устранению и предотвращению аварий, повышению надежности, минимизации простоев, оптимизации производительности в высоконагруженных информационных системах заказчика исполнителя.
Верхнеуровневое описание стека:
Сamunda, Kafka, Jenkins, Github, KeyCloak, Minio, Redis, MongoDB, PostgreSQL, MS SQL Server, Kubernates, helm, ELK, Grafana, Zabbix, Prometheus, Java, Nginx, Docker, Dotnet3, Maven, PHP, Gradle, Python, Mono, Angular, Node.js.
Обязанности:
- Проведение анализа существующих информационных систем, сервисов и IT- инфраструктуры. Оценка текущей и целевой архитектуры на предмет отказоустойчивости и надёжности;
- Выявление уязвимости, узкие места фактические и потенциальные точки отказа.
- Обеспечение максимально быстрого устранения инцидентов (аварий) с предоставлением отчетов (post-mortem) по анализу корневых причин (RCA) и рекомендаций по действиям для их предотвращения;
- Разработка и внедрение стратегии для проактивного и реактивного предотвращения аварий предусматривающую быстрое время реагирования и устранения.
- Подготовка и реализация практических предложений по улучшению надежности системы, включая балансировку нагрузки, механизмы аварийной перезагрузки и стратегии резервирования;
- Организация и внедрение Оbservability;
- Разработка/доработка сервисов, автоматизированных инструментов мониторинга включая настройку алертинга и агрегацию метрик со всех слоев приложений, их корреляцию с целью превентивного выявления проблем.
- Проведение анализа метрик производительности системы включая профилирование и распределенную трассировку запросов по микросервисам, выработать и реализовать предложения по оптимизации, включая запросы к БД, шаблоны перегрузки (Circuit Breaker), механизмы кеширования с целью улучшения эффективности работы сервисов снижения времени отклика, улучшения производительности;
- Проведение анализа и реализация автомасштабтирования ресурсов в зависимости от потребностей сервисов;
- Доработка процедуры тестирования производительности и бенчмарков с целью выявления пороговых значений и точек деградации производительности сервисов, включая Chaos Engineering;
- Подготовка предложений в части Capacity planning;
- Разработка инструкций по troubleshooting с указанием алгоритмов и процедуры обработки инцидентов;
- Проведение обучения внутренних команд по реализации практик SRE, инструментов мониторинга и управления развитием и инфраструктурой;
- Обеспечение эффективного взаимодействия с командами разработки с целью внедрения лучших практик надежности и мониторинга в код и архитектуру приложения;
- Проведение анализа релизов и изменений в составе CAB;
- Подготовка предложений по улучшению практик управления изменениями, релизами, развёртывания.
Требования:
Исполнитель по результатам выполнения работ предоставляет:
1. Отчеты по анализу корневых причин (RCA) недавних инцидентов (аварий) с рекомендациями по их предотвращению.
2. Практические рекомендации и планы реализации для повышения надежности системы.
3. Отчеты по оптимизации производительности и стратегии для ее постоянного мониторинга.
4. Подробную документацию, включающая конфигурации системы инструкций по troubleshooting с указанием алгоритмов и процедуры обработки инцидентов.
5. Исходные коды разработанных инструментов по observability мониторингу, средствам диагностики и устранения инцидентов
6. Обучающие сессии для внутренних команд по практикам и инструментам SRE.
Условия:Ключевые навыки
Контактная информация
АЙТИ.СПЕЙС
Сайт: itspace.services
Почта: не указана
Вакансия опубликована 09.04.2024 в г. Москва.
Похожие вакансии
Москва
Полный день
Подробное описание
17 мая
от 1 000 до 3 000 $
Санкт-Петербург
Полный день
Подробное описание
23 марта