Час реакції на інциденти

Час реакції на інциденти показує, як швидко команда виявляє подію, підтверджує її та бере в роботу. Зазвичай виділяють три компоненти: MTTD (time to detect — від початку інциденту до виявлення), MTTA (time to acknowledge — від виявлення до підтвердження онколом) і TTE/Time to Engage (до залучення відповідної команди). Короткий час реакції знижує даунтайм і ймовірність порушення SLO/SLA.

Що вимірює показник

Швидкість переходу від події до активної роботи над її усуненням у розрізі пріоритетів (P0–P3), сервісів, регіонів і каналів алертингу (PagerDuty/Slack/телефон). Окремо контролюйте автоалерти vs ручні репорти, робочі/поза робочими годинами та чергові зміни.

Розрахунок

  • MTTD = avg(DetectedAtIncidentStart)
  • MTTA = avg(AcknowledgedAtDetectedAt)
  • TTE (Engage) = avg(EngagedAtDetectedAt) або до приєднання потрібної ролі (DB/SRE/App)
  • Response SLA, % = Інциденти з MTTA ≤ ціль / Релевантні інциденти × 100
  • Рахуйте окремо P50/P90 для стабільності й порівнюйте «on-hours» vs «off-hours»

Зафіксуйте початок/кінець відліку, часові пояси, бізнес- vs календарні години, правила об’єднання пов’язаних подій та ескалаційні рівні.

Джерела даних

Моніторинг/APM, системи алертингу та онколлів (PagerDuty/Opsgenie), логи інцидентів ITSM (JSM/ServiceNow), канали комунікації (Slack/телефонія), статус-сторінка, календарі чергувань.

Інтерпретація

  • MTTD↑ — недостатній покрив SLI/синтетики, «німий» алертинг, пороги не налаштовані
  • MTTA↑ — проблеми з онкол-графіками, ескалаціями, мобільністю або шумом алертів
  • TTE↑ — нечіткі рунабуки, відсутність автотегів сервісів/залежностей, слабкий триаж
  • Високі значення ведуть до MTTR↑ і витрати error budget

Корисні розрізи

  • Пріоритет (P0–P3); сервіс/ендпоінт; регіон/зона
  • On-hours vs off-hours; команда/роль (SRE/DB/Network/App)
  • Тип алерта (авто/ручний); джерело (APM/лог/синтетика)
  • Причина (RCA): код/конфіг/інфра/залежність/міграція

Візуалізації на дашборді

  • Тренд P50/P90 MTTD/MTTA/TTE із цільовими коридорами
  • Heatmap реакції по сервісах/годинах/чергах
  • Воронка «подія → виявлено → підтверджено → залучено → відновлено»
  • Зв’язок із MTTR/Uptime та breach rate

Як ставити цілі

Орієнтири для P0: MTTD ≤ 1–2 хв, MTTA ≤ 5 хв, TTE ≤ 10 хв. Налаштуйте автоескалації й мультиканальні алерти, скоротіть шум (alert hygiene), впровадьте рунабуки й автодіагностику, підтримуйте актуальні онкол-розклади та тренінги.

Типові помилки

  • Відсутність єдиного джерела часу подій; плутанина таймзон
  • Шумні/дубльовані алерти без агрегації та кореляції
  • Немає «after-hours» політики й компенсації — повільна реакція вночі
  • Невизначені ролі ескалації; ручний триаж без шаблонів

Запитання для обговорення

  • Які алерти найчастіше ігноруються/запізно підтверджуються і чому?
  • Де скоротити MTTA за рахунок автоескалацій/онкол-покриття?
  • Які рунабуки потрібні для швидшого TTE і стабільного триажу?
  • Чи узгоджені цілі реакції з SLO/SLA для P0/P1?