Кількість інцидентів / MTTR / MTBF

Інциденти, MTTR і MTBF — базовий набір SRE-метрик надійності. Кількість інцидентів відображає частоту збоїв, MTTR (Mean Time to Restore) — швидкість відновлення сервісу, а MTBF (Mean Time Between Failures) — середній час між збоями. Разом ці показники показують стабільність платформи, зрілість процесів інцидент-менеджменту та виконання SLO/SLA.

Що вимірює показник

Обсяг і якість інцидентів за пріоритетами (P0–P3), швидкість виявлення/реакції/відновлення та стійкість сервісу між інцидентами. Доречно окремо відслідковувати MTTD (time to detect) і MTTA (time to acknowledge), а також частку повторних інцидентів і порушень SLA.

Розрахунок

Incident Count = Кількість підтверджених інцидентів за період (окремо P0/P1/P2/P3)
Incident Rate = Інциденти / Період (або на 1 млн запитів, на 1 тис. користувачів)
MTTD = avg(Час виявлення − Час початку інциденту)
MTTA = avg(Час підтвердження онколом − Час виявлення)
MTTR = avg(Час відновлення − Час початку) — у межах визначення «відновлення сервісу»
MTBF = avg(Час початку наступного інциденту − Час відновлення попереднього)
Альтернатива: (Часове вікно − Σ Downtime) / К-сть інцидентів
Breach Rate, % = Інциденти з порушенням SLA / Усі інциденти × 100

Зафіксуйте політику: що вважаємо «початком/кінцем» інциденту, календарні чи бізнес-години, облік часткових деградацій (вага за трафіком/користувачами), дедуплікація пов’язаних подій і критерії P0–P3.

Джерела даних

Моніторинг/APM/логінг (метрики/трейси/логи), синтетичні перевірки, PagerDuty/On-call, ITSM/інцидент-менеджмент (JSM/ServiceNow), CI/CD (деплої/rollback), статус-сторінка, журнали постмортемів.

Інтерпретація

Incident Count↑ — технічний борг, слабкі тести/перевірки, високий change failure rate
MTTR↑ — повільна діагностика/ескалація, брак рунабучних скриптів, неякісні алерти
MTBF↓ — крихкість архітектури, нестабільні залежності, ризикові релізи
Перевіряйте вплив на SLO/SLA, Error Budget і клієнтські метрики (CSAT, конверсія)

Корисні розрізи

Сервіс/ендпоінт; регіон/зона; середовище (prod/stage)
Тип інциденту: інфраструктура/деплой/конфіг/залежність/безпека
Первинна причина (RCA): код/зміни/ємність/мережа/БД/кеш/черги
Команда/онкол-роуль; час доби/зміна; реліз/канарний/rollback

Візуалізації на дашборді

Тренди Incident Count, MTTR, MTBF з цільовими коридорами
Таймлайн інцидентів із анотаціями деплоїв та SLA-порушеннями
Heatmap за пріоритетами/сервісами/регіонами
Pareto RCA та повторюваних проблем
Зв’язок з Uptime, Error Budget burn, латентністю та помилками 5xx

Як ставити цілі

Приклади: P0 ≤ 1/кв., MTTR P0 ≤ 30–60 хв, MTBF для ядра ≥ 30 днів. Впровадьте error budget policy, канарні/blue-green релізи, автодіагностику та рунабучні скрипти, SLO-алерти на burn rate (1/6 год), регулярні постмортеми з CAPA.

Типові помилки

Подвійний облік пов’язаних подій/алертів як окремих інцидентів
Невірне визначення старт/стоп; мікс календарних/бізнес-годин
Ігнор часткових деградацій та ваги за трафіком/користувачами
Фокус лише на середньому без P50/P90 і сегментів P0–P3
Відсутність зв’язку з деплоями, тестами та Capacity/SLI

Запитання для обговорення

Які 3 RCA дають 80% інцидентів і як їх прибрати?
Де скоротити MTTR: детекція, ескалації, рунабучні скрипти?
Який ефект канарних релізів/фіче-флагів на Incident Rate?
Чи відповідають алерти SLO/SLI та чи налаштований burn rate?