Прод-простой
Полная недоступность сервиса, потеря данных, security breach. Бизнес теряет деньги каждую минуту.
5 этапов с фиксированным SLA: detect → ack → investigate → mitigate → resolve. Прозрачный лог инцидентов, обязательный post-mortem, no-blame культура. Реакция начинается за 15 минут, не за день.
Любая ситуация, которая прерывает запланированную работу команды и требует немедленной реакции. Не баг в backlog, не feature-request. Инцидент — это всегда: «прямо сейчас плохо пользователям и нужно что-то делать».
Платные клиенты? Free-users? Один сегмент? Internal users? Considers blast radius.
Теряются ли деньги каждую минуту? Есть workaround? Возможен ли отложенный fix?
1 user или 100%? Один регион или global? Один endpoint или весь API?
Эти случаи — нормальный flow поддержки или development. Идут через обычные каналы (Linear, email, weekly sync), не через PagerDuty.
Полная недоступность сервиса, потеря данных, security breach. Бизнес теряет деньги каждую минуту.
Деградация UX, ошибки у части пользователей, slow response. Бизнес работает, но ощутимо.
Workaround есть, UX страдает но работает. Edge-case, влияющий на <1% юзеров.
Опечатки, визуальные мелочи, request на улучшение. В бэклоге, без хирургии.
Sentry / Grafana / PagerDuty ловят отклонение от baseline за секунды. Auto-alert если threshold нарушен.
On-call инженер получает звонок. Принимает alert, открывает war-room в Slack, эскалация если P1.
Trace через OTel + logs + dashboards. Hypothesis-driven debug, без угадайки. RCA-документация в Slack.
Hotfix через GitOps · rollback · feature-flag · scaling. Цель — вернуть метрики в норму, RCA потом.
Подтверждаем что метрики стабильны 30+ минут. Закрываем инцидент. Назначаем post-mortem на D+1.
Frontend + backend ошибки в realtime. Source maps, release tracking, performance traces. Alerts на error-rate.
Системные метрики, бизнес-KPI, SLO-tracking. Дашборды для CFO + on-call. Alert-rules с эскалацией.
Product events, funnel-analytics, session-replay. Ловит UX-проблемы которые не видны в метриках.
Расписание дежурств, авто-эскалация, integration с Slack/PD-mobile. Звонок инженеру за 15 мин.
War-room каналы для инцидентов, integration с alerts. Shared-канал с клиентом для прозрачности.
Distributed tracing для микросервисов. Видим где именно теряются миллисекунды. Critical для RCA.
Action items из post-mortem в Linear. Owner, deadline, статус. Не «обсудили и забыли», а трекинг.
WAF, rate-limiting, DDoS-mitigation, edge cache. Многие потенциальные P1 ловятся здесь до прода.
14:08–15:46 МСК. Error-rate на Stripe-webhook повысился до 14% из-за роста latency на стороне Stripe. Наш timeout 30s не справлялся. Затронуто ~12% transactions, 8 пользователей получили двойное списание (компенсировано).
Это не «виноват on-call» или «плохой код». Это процесс не учёл сценарий внешней latency. Все action-items — про процесс и инструменты. Команда отработала на 10/10 в условиях, которых процесс не предусматривал.
Раз в месяц — chaos-engineering день. Сами ломаем сервисы, проверяем reaction. Находим weak spots до того как нашёл production.
Headless-боты раз в минуту делают полный flow: login → create → pay → logout. Если что-то не работает — alert до того как пожаловался юзер.
Renovate + Snyk. Auto-PR на security-патчи, weekly merge tech-debt-обновлений. Зависимости не залёживаются на месяцы.
k6 + GitHub Actions. Если новый код медленнее baseline на 10%+ — блокировка release. Не дотягиваем до прод-инцидентов.
Раз в квартал — full disaster recovery: восстановление prod-DB из backup, failover в другой регион. Уверены что план работает.
Quarterly internal audit + annual external pentest. Compliance-questionnaire — готовы к 152-ФЗ, GDPR, ISO 27001 без аврала.
Аггрегированные метрики со всех 14 продуктов на support. Прозрачно публикуем — каждый клиент видит свой кусок в shared-канале.
14 месяцев на Gold. Метрики за год: avg MTTR 12 мин, P1 — 1 раз (3h 32m), P2 — 8 раз (avg recovery 4 ч), P3 — 23 раза. 0 compensations выплачено — SLA выдержан всегда. 100% post-mortem опубликованы в shared-канале клиента.
30 минут с on-call lead. Обсудим текущий уровень monitoring, runbook, alerts. После звонка — рекомендация SLA-tier и план onboarding в поддержку.