Tu /api/checkout empezo a devolver errores 500 a las 2:13 AM. Tu monitor externo pingo el health check a las 2:15 — devolvio 200. Tu ingeniero de guardia se entero a las 3:00 AM por un tweet de un cliente.
MTTD: 47 minutos. Casi una hora de ingresos perdidos antes de que alguien supiera.
Que es MTTD?
MTTD = momento de deteccion − momento de inicio del incidente
MTTD vs MTTR
| Metrica | Mide | Se controla con |
|---|---|---|
| MTTD | Tiempo para descubrir el incidente | Mejor monitoreo, alertas mas rapidas |
| MTTR | Tiempo para solucionarlo | Runbooks, rollback automatico |
Benchmarks por enfoque de monitoreo
| Enfoque | MTTD tipico |
|---|---|
| Reportes de clientes | 30-120 minutos |
| Pings externos (UptimeRobot) | 1-5 minutos |
| APM (Datadog, New Relic) | 1-3 minutos |
| SDK interno (Nurbak Watch) | < 10 segundos |
Como lograr MTTD menor a 10 segundos
Nurbak Watch monitorea cada API route desde dentro del servidor. Cada request, sin sampling, alertas instantaneas por WhatsApp. Gratis en beta.

