Оплата не указана
Вакансия находится в архиве
Требуемый опыт работы
От 3 до 6 лет
Тип занятости
Полная занятость
График работы
Полный день
На этой позиции вам предстоит развивать мониторинг на базе Prometheus/Thanos для всего Ozon.
Вам предстоит:
Разрабатывать инструмент для оркестрации инфраструктуры мониторинга и распределения нагрузки.
Исправлять баги и дорабатывать Prometheus/Thanos для Ozon-специфичных задач, по возможности пропихивая их в апстрим.
Искать и оптимизировать узкие места при выполнении запросов к метрикам.
Писать сервисы и утилиты вокруг Prometheus/Thanos, которые позволяли бы нам разбираться с проблемами и оптимизировать использование ресурсов.
Разрабатывать сервис управления мониторингом серверов и сетевых устройств, чтобы все наши админы и сетевые инженеры чувствовали себя в безопасности.
Разрабатывать систему показывающую стабильность сервисов в озоне
Собирать данные с различных компонентов: серверов, сетевых устройств, систем учёта серверов, нового ПО и внешних аналитических систем.
Внедрять мониторинг там, где его нет: склады, доставка, почтоматы и т.д.
Обеспечивать команды общими инструментами и решениями для мониторинга и алертинга.
Разрабатывать экспортеры под Prometheus для ПО, которое не умеет выдавать метрики в нужном формате.
Консультировать разработчиков и технических специалистов по интеграции с системой мониторинга и создавать общие дашборды.
Мы ожидаем:
Вы умеете писать понятный и тестируемый код на одном или более языках: C, C++, Java, Python, Go, Ruby, PHP (мы пишем на Go).
Вы свободно пользуетесь терминалом в Linux и понимаете, куда посмотреть, когда сервер тупит.
Вы работали с распределёнными системами (микросервисы, service discovery) и соответствующими инструментами (LXC, Docker, orchestration systems).
Вы понимаете принципы обеспечения высокой доступности приложений и слышали о балансировщиках нагрузки и rate-limiter'ах.
Опыт разработки отказоустойчивых сервисов и высоконагруженных систем.
Понимание архитектуры, принципов и механизмов работы ОС Linux (управление процессами, файловые системы, сетевой стек).
Будет плюсом:
Вам интересен анализ и решение проблем в масштабных системах, состоящих из большого числа компонентов.
Вы умеете дебажить и оптимизировать код, автоматизировать рутинные операции.
Алгоритмический бэкграунд.
Вы умеете делать CI, build pipeline и собирать Docker-образы и писать Makefile;
Вы хорошо знакомы с эксплуатацией софта и работал с системами мониторинга (Prometheus, Nagios, Zabbix), логирования и трейсинга.
Вам интересен анализ и решение проблем в масштабных системах, состоящих из большого числа компонентов.
Вы умеете дебажить и оптимизировать код, автоматизировать рутинные операции.
Интересные факты:
Все метрики начиная от сетевых железок и оборудования на складах, заканчивая метриками приложений, хранятся в централизованной системе.
У нас собирается больше 600 миллионов метрик каждую секунду.
Огромный продакшен кластер Prometheus — 250+ инстансов.
Мы активно взаимодействуем с мейнтейнерами Prometheus/Thanos.
Вся инфраструктура развернута в Kubernetes.
Мы предлагаем:
Ключевые навыки
Контактная информация
Ozon
Сайт: не указан
Почта: не указана
Вакансия опубликована 10.04.2024 в г. Москва.
Похожие вакансии
Уфа
Полный день
О нас.
Молодая компания работает с нестандартными, интересными проектами и помогаем своим клиентам увеличивать прибыль, привлекать больше клиентов в их бизнес.
Что нужно делать?
1. Разрабатывать и поддерживать мобильные приложения для iOS/Android на Flutter...
6 июня
от 200 000 ₽
Тюмень
Полный день
Группа компаний УГМК-Телеком приглашает на работу Разработчика C++Senior / Middle
Проект связан с детектированием нарушений ПДД при помощи оптического способа (камеры). К нарушениям относятся - превышение скорости, поворот не из того ряда, проезд на красный свет, езда по полосе общественного транспорта и т.д...
21 июня
от 220 000 до 260 000 ₽
Москва
Удаленная работа
Domodedovo Integration (DI) – IT-интегратор Московского аэропорта Домодедово (DME).
DI - это:
• 29+ лет внутреннего IT-консалтинга и интеграции сложных систем...
21 мая