Час реакції на інциденти

Час реакції на інциденти показує, як швидко команда виявляє подію, підтверджує її та бере в роботу. Зазвичай виділяють три компоненти: MTTD (time to detect — від початку інциденту до виявлення), MTTA (time to acknowledge — від виявлення до підтвердження онколом) і TTE/Time to Engage (до залучення відповідної команди). Короткий час реакції знижує даунтайм і ймовірність порушення SLO/SLA.

Що вимірює показник

Швидкість переходу від події до активної роботи над її усуненням у розрізі пріоритетів (P0–P3), сервісів, регіонів і каналів алертингу (PagerDuty/Slack/телефон). Окремо контролюйте автоалерти vs ручні репорти, робочі/поза робочими годинами та чергові зміни.

Розрахунок

MTTD = avg(DetectedAt − IncidentStart)
MTTA = avg(AcknowledgedAt − DetectedAt)
TTE (Engage) = avg(EngagedAt − DetectedAt) або до приєднання потрібної ролі (DB/SRE/App)
Response SLA, % = Інциденти з MTTA ≤ ціль / Релевантні інциденти × 100
Рахуйте окремо P50/P90 для стабільності й порівнюйте «on-hours» vs «off-hours»

Зафіксуйте початок/кінець відліку, часові пояси, бізнес- vs календарні години, правила об’єднання пов’язаних подій та ескалаційні рівні.

Джерела даних

Моніторинг/APM, системи алертингу та онколлів (PagerDuty/Opsgenie), логи інцидентів ITSM (JSM/ServiceNow), канали комунікації (Slack/телефонія), статус-сторінка, календарі чергувань.

Інтерпретація

MTTD↑ — недостатній покрив SLI/синтетики, «німий» алертинг, пороги не налаштовані
MTTA↑ — проблеми з онкол-графіками, ескалаціями, мобільністю або шумом алертів
TTE↑ — нечіткі рунабуки, відсутність автотегів сервісів/залежностей, слабкий триаж
Високі значення ведуть до MTTR↑ і витрати error budget

Корисні розрізи

Пріоритет (P0–P3); сервіс/ендпоінт; регіон/зона
On-hours vs off-hours; команда/роль (SRE/DB/Network/App)
Тип алерта (авто/ручний); джерело (APM/лог/синтетика)
Причина (RCA): код/конфіг/інфра/залежність/міграція

Візуалізації на дашборді

Тренд P50/P90 MTTD/MTTA/TTE із цільовими коридорами
Heatmap реакції по сервісах/годинах/чергах
Воронка «подія → виявлено → підтверджено → залучено → відновлено»
Зв’язок із MTTR/Uptime та breach rate

Як ставити цілі

Орієнтири для P0: MTTD ≤ 1–2 хв, MTTA ≤ 5 хв, TTE ≤ 10 хв. Налаштуйте автоескалації й мультиканальні алерти, скоротіть шум (alert hygiene), впровадьте рунабуки й автодіагностику, підтримуйте актуальні онкол-розклади та тренінги.

Типові помилки

Відсутність єдиного джерела часу подій; плутанина таймзон
Шумні/дубльовані алерти без агрегації та кореляції
Немає «after-hours» політики й компенсації — повільна реакція вночі
Невизначені ролі ескалації; ручний триаж без шаблонів

Запитання для обговорення

Які алерти найчастіше ігноруються/запізно підтверджуються і чому?
Де скоротити MTTA за рахунок автоескалацій/онкол-покриття?
Які рунабуки потрібні для швидшого TTE і стабільного триажу?
Чи узгоджені цілі реакції з SLO/SLA для P0/P1?