Привет! Меня зовут Вадим, я руковожу одной из команд админов в Туту. Нас в команде 9 человек, и мы поддерживаем значительную часть инфраструктуры компании — базы данных, очереди, серверы приложений, фронтпрокси, сервисы мониторинга и многое другое. Всего в компании более 800 сотрудников, из них более 200 в ИТ.

У нас нет совсем уж bleeding edge технологий, но достаточно много свежих и не сильно распространённых в стране. Мы прекрасно понимаем, что им, да и тому, как мы их готовим, всё равно придётся учиться, поэтому самое главное для нас — не знание конкретных технологий, а выраженная ответственность за системы и умение нормально договориться в команде. Будет и достаточно много рутины, и регулярные сложные задачи, которыми можно будет гордиться в профессиональном смысле.

Немного про стек

— ОС — сейчас в процессе переезда с Centos7 на Alma9.

— lvs — ключевой элемент нашей HA.

— Ansible, Terraform — инструменты внутренней автоматизации.

— Очереди: Kafka, RabbitMQ (отмирает).

— Frontproxy: Envoy, Nginx (вспомогательно и остаточно).

— Стек мониторинга: Prometheus, Grafana, Promgen, Alertmanager, Pyroscope.

— Сбор ошибок: Sentry со всеми внутренностями.

— Пайплайн трейсинга: Open Telemetry Collectors, Jaeger, ClickHouse.

— Elasticsearch — несколько продуктовых инсталляций и основной узел системы логирования (с пайплайном доставки Fluent-bit — Kafka — Fluentd).

— MinIO (s3-совместимое объектное хранилище).

— Apache — legacy application server в монолите, иногда с ним приходится что-то делать.

— Docker — часть сервисов предоставляется в контейнерах на хостах с самодельной оркестрацией, часть — на платформе OKD (но саму платформу сопровождает другая команда).

Базы данных, которые сопровождает выделенная подкоманда ДБА:

— MariaDB (+ ProxySQL + GitHub orchestrator).

— MongoDB.

— Redis + Sentinel.

— PostgreSQL + PgBouncer + Patroni.

Основные задачи

— Развивать текущие сервисы (Elasticsearch, Kafka, Envoy, MinIO, части пайплайна сбора логов — EFK, элементы инфраструктуры мониторинга — Prometheus-based, Pyroscope, Sentry): оптимизировать под увеличивающиеся нагрузки или меняющиеся паттерны использования, добавлять отказоустойчивость, повышать Observability, упрощать использование сервисов в коде приложений, заниматься закрытием уязвимостей, обновлением.

— Разворачивать и в дальнейшем развивать ещё не используемые в компании сервисы — по запросам разработки или в рамках внутренних проектов команды.

— Чинить проблемы на продакшене — реагировать на алерты конкретных сервисов и на комплексные сбои.

— Готовить элементы нашей платформы к интеграции с платформой Openshift.

— Поддерживать продуктовую разработку в режиме HelpDesk — типовые не автоматизированные операции, консультации, отладка сложных багов.

— Развивать внутреннюю автоматизацию (Ansible, Terraform).

Не придётся

— Трогать железо.

— Настраивать сети.

— Поддерживать кластера Openshift.

— Сильно погружаться в базы данных.

Всё это в компании есть, но занимаются другие команды.

От вас нужно

— Опыт работы Linux-администратором (хотя можете называть себя и девопсом, и SRE-инженером). Для нас это подразумевает умение развернуть и настроить с нуля новый софт — на нескольких серверах и не вручную — и дальше сопровождать его.

— Больше года работали на реальных проектах, желательно именно в вебе.

— Любите помогать разработчикам, можете их услышать, разобраться и придумать варианты. Нам на самом деле не пофиг, и разработка ценит это. Они делают продукт, мы помогаем с инфраструктурой настолько, насколько это возможно.

— Способны спокойно, быстро и чётко реагировать в случае сбоев — они бывают.

— Умеете разбираться в чём-то новом или странном с помощью логики и Google’а (англоязычного).

— Хотите работать в команде. Придётся много общаться, а это значит — и аргументировать свою точку зрения, и слушать и понимать других. Мы признаём свои косяки и не наказываем за них, поэтому ожидаем этого и от вас — главное делать из ошибок правильные выводы. Если для вас важны искренность и открытость, то у нас вам будет хорошо.

— Готовы работать не только с новым, но и с легаси. За более, чем 20 лет существования компании его накопилось в достатке, поэтому важно уметь оценивать: где лучше оставить, где чуть пошевелить, а где — переделать с нуля.

— Не боитесь писать скрипты и знаете или хотите изучить Python.

— Ничего не имеете против «Котиков» — команда называется именно так.

Про команду и рабочие процессы

Один на один со мной раз в неделю первое время, в дальнейшем, возможно, реже. Общекомандный созвон-синхрон раз в неделю.

Плановые задачи в любом случае проходят через меня. Источником могут быть внутренние идеи на улучшение инфры, проекты уровня компании / технического департамента, запросы продуктовых команд.

Внеплановые задачи — или из системы алертинга или от технических специалистов продуктовых команд.

Кто уже в моей команде?

Яша придумал и внедрил центральный элемент нашего видения HA — балансировщики на базе lvs и эникаст-адресов. Развернул новую систему централизованного мониторинга на базе Prometheus (вместо Graphite) и пайплайн сбора логов Fluent-bit — Kafka — Fluent вместо Rsyslog — Logstash. Основной эксперт по MinIO.

Антон внедрил в компании Kafka, главный эксперт по этому сервису. Сейчас занимается развитием инструментов управления облаками — главный по Terraform’у (мы живём в 5 ЦОДах https://habr.com/ru/company/tuturu/blog/508872/). Развивает envoy (о внедрении можно почитать тут https://habr.com/ru/company/tuturu/blog/544128/).

Леонид. Специализируется преимущественно на инструментах мониторинга и логирования. Развернул Pyroscope в Openshift для удобной профилировки продуктовых сервисов на go, сделал отдельный пайплайн для логов аудита (Kafka — Vector —ClickHouse).

Виталий. Отвечает за наш frontproxy — envoy (с элементами разработки на Python и Lua) и страхует Антона по Terraform.

Лёха. Ведущий DBA с опытом более 15 лет. Сделал отказоустойчивым весь наш парк MariaDB, с использованием ProxySQL, GitHub Orchestrator и самописного «клея» на Python. Придумал и внедрил HA Redis на основе Sentinel. Сейчас занимается развитием использования PostgreSQL в компании и техлидит подкоманду ДБА.

Элина. Самый первый админ в Туту — уже больше 11 лет в компании. Сейчас DBA и основной специалист по MongoDB.

Никита. Новичок в команде ДБА, около полугода в компании. Помогает Лёхе и Элине со всем многообразием наших БД.

Саша — разработчик, раньше занималась эксплуатацией монолитного приложения, а сейчас развивает инструменты внутренней автоматизации.

Вадим (я) — бывший разработчик, а сейчас главный зануда команды. Помимо руководства помогаю ребятам с кодом обвязок и скриптов, архитектурой и диагностикой сложных сбоев.

График работы

Есть полная удалёнка, работа из офиса или посещение офиса когда захочется. Это как вам удобнее.

Про компанию

— Компания с хорошим техническим стеком, техруководителями и готовностью одними из первых пробовать новые технологии.

— Сильный блог на Хабре, где пишут в том числе технари о своей работе.

Весь положенный набор плюшек: ДМС со стоматологией, кухня в офисе, страховка на путешествия, ноутбук, премии по результатам работы, оплата больничных, регулярная переиндексация зарплаты, а также обучение, премия за прочитанные книги и обмен опытом.

Структура собеседований

— Первая встреча-знакомство с HR-менеджером и Вадимом на 1 час.

— Встреча с парой техспецов. Можно понять, достаточно ли профессиональна наша команда и комфортно ли вам с ней будет. Мы в свою очередь проверим ваши профессиональные знания и навыки ;)

— Финальная встреча с командой и её руководителем.

Системный администратор в команду путешествий