На этой позиции вам предстоит развивать мониторинг на базе Prometheus/Thanos для всего Ozon.

Вам предстоит:

Разрабатывать инструмент для оркестрации инфраструктуры мониторинга и распределения нагрузки.
Исправлять баги и дорабатывать Prometheus/Thanos для Ozon-специфичных задач, по возможности пропихивая их в апстрим.
Искать и оптимизировать узкие места при выполнении запросов к метрикам.
Писать сервисы и утилиты вокруг Prometheus/Thanos, которые позволяли бы нам разбираться с проблемами и оптимизировать использование ресурсов.
Разрабатывать сервис управления мониторингом серверов и сетевых устройств, чтобы все наши админы и сетевые инженеры чувствовали себя в безопасности.
Разрабатывать систему показывающую стабильность сервисов в озоне
Собирать данные с различных компонентов: серверов, сетевых устройств, систем учёта серверов, нового ПО и внешних аналитических систем.
Внедрять мониторинг там, где его нет: склады, доставка, почтоматы и т.д.
Обеспечивать команды общими инструментами и решениями для мониторинга и алертинга.
Разрабатывать экспортеры под Prometheus для ПО, которое не умеет выдавать метрики в нужном формате.
Консультировать разработчиков и технических специалистов по интеграции с системой мониторинга и создавать общие дашборды.

Мы ожидаем:

Вы умеете писать понятный и тестируемый код на одном или более языках: C, C++, Java, Python, Go, Ruby, PHP (мы пишем на Go).
Вы свободно пользуетесь терминалом в Linux и понимаете, куда посмотреть, когда сервер тупит.
Вы работали с распределёнными системами (микросервисы, service discovery) и соответствующими инструментами (LXC, Docker, orchestration systems).
Вы понимаете принципы обеспечения высокой доступности приложений и слышали о балансировщиках нагрузки и rate-limiter'ах.
Опыт разработки отказоустойчивых сервисов и высоконагруженных систем.
Понимание архитектуры, принципов и механизмов работы ОС Linux (управление процессами, файловые системы, сетевой стек).

Будет плюсом:

Вам интересен анализ и решение проблем в масштабных системах, состоящих из большого числа компонентов.
Вы умеете дебажить и оптимизировать код, автоматизировать рутинные операции.
Алгоритмический бэкграунд.
Вы умеете делать CI, build pipeline и собирать Docker-образы и писать Makefile;
Вы хорошо знакомы с эксплуатацией софта и работал с системами мониторинга (Prometheus, Nagios, Zabbix), логирования и трейсинга.
Вам интересен анализ и решение проблем в масштабных системах, состоящих из большого числа компонентов.
Вы умеете дебажить и оптимизировать код, автоматизировать рутинные операции.

Интересные факты:

Все метрики начиная от сетевых железок и оборудования на складах, заканчивая метриками приложений, хранятся в централизованной системе.
У нас собирается больше 600 миллионов метрик каждую секунду.
Огромный продакшен кластер Prometheus — 250+ инстансов.
Мы активно взаимодействуем с мейнтейнерами Prometheus/Thanos.
Вся инфраструктура развернута в Kubernetes.

Мы предлагаем:

Динамичный и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе лучший продукт на рынке e-commerce.
Свободу принимать решения при разработке.
Достойный уровень заработной платы.
Профессиональную команду, которой мы гордимся.
Возможность развиваться вместе с нашим бизнесом.

Разработчик Go, Телеметрия