Sua REST API esta "no ar." Parabens. Isso nao diz quase nada.
Uptime significa que o servidor responde. Nao diz que /api/checkout demora 4 segundos em vez de 400 milissegundos. Nao diz que 3% dos requests para /api/users retornam 500.
Metrica 1: Uptime — Mas medido corretamente
O que a maioria faz: Um servico externo pinga /api/health a cada 60 segundos. Se retorna 200, a API esta "no ar."
O que voce deveria fazer: Calcular uptime a partir de dados de requests reais. Se voce serviu 1,000,000 de requests e 2,000 retornaram 5xx, seu uptime efetivo e 99.8%.
| SLA | Downtime permitido/ano | Tipico para |
|---|---|---|
| 99.0% | 3.65 dias | Ferramentas internas |
| 99.9% | 8.7 horas | Maioria dos SaaS |
| 99.95% | 4.4 horas | APIs de pagamento / auth |
| 99.99% | 52 minutos | APIs de infraestrutura |
Metrica 2: Percentis de latencia — P50, P95, P99
O tempo de resposta medio e mentira. Se 99 requests demoram 50ms e 1 demora 10 segundos, a media e 149ms. Esse numero esconde que 1% dos seus usuarios tem uma experiencia terrivel.
- P50 (mediana) — A experiencia tipica.
- P95 — Os 5% mais lentos. Captura queries lentas, cold starts e problemas n+1.
- P99 — O 1% pior. Um usuario que faz 100 chamadas tem 63% de probabilidade de experimentar o P99 pelo menos uma vez.
Alvos: P50 abaixo de 100ms, P95 abaixo de 500ms, P99 abaixo de 2 segundos.
Metrica 3: Taxa de erro por endpoint
Uma taxa de erro global de 0.5% parece ok. Mas e se todos os erros vem de um unico endpoint?
// Vista global: 0.5% taxa de erro — parece ok
// Vista por endpoint:
// GET /api/users → 0.01% erros ✅
// POST /api/checkout → 12.4% erros 🔴 ← Aqui estao todos os errosMetrica 4: Throughput — Requests por minuto
Throughput combinado com latencia e erros se torna diagnostico:
- Throughput sobe + latencia sobe = Aproximando-se do limite de capacidade
- Throughput sobe + erros sobem = Ja passou do limite
- Throughput desce + latencia sobe = Uma dependencia esta lenta
Metrica 5: Deteccao de endpoints lentos
Limites estaticos ("alertar se resposta > 2 segundos") nao funcionam quando voce tem 30 endpoints com faixas normais diferentes. A deteccao de endpoints lentos identifica automaticamente quais rotas estao degradando relativo a sua propria baseline.
Comparacao de ferramentas
| Datadog | New Relic | Nurbak Watch | |
|---|---|---|---|
| Custo mensal (equipe pequena) | $258+ | $147+ | $0 (beta) / $29 |
| Tempo de setup | 2-4 horas | 1-2 horas | 5 minutos |
| Linhas de codigo | 50-100+ | 20-50 | 5 |
| Impacto no cold start | +200-800ms | +200-400ms | +5-15ms |
| Funciona no Vercel serverless | Parcialmente | Parcialmente | Completamente |
| Alertas WhatsApp | Nao | Nao | Sim |
Setup em 5 minutos com Nurbak Watch
npm install @nurbak/watch// instrumentation.ts
import { initWatch } from '@nurbak/watch'
export function register() {
initWatch({
apiKey: process.env.NURBAK_WATCH_KEY,
})
}Em 60 segundos apos o primeiro request, voce ve cada API route no dashboard com P50/P95/P99, taxas de erro, throughput e deteccao de endpoints lentos. Alertas por Slack, email ou WhatsApp em menos de 10 segundos.
O que fazer depois do setup
- Semana 1: Observar. Nao definir limites ainda. Deixar a ferramenta estabelecer baselines.
- Semana 2: Definir limites de P95 por endpoint (2x a baseline e um bom ponto de inicio).
- Semana 3: Definir limites de taxa de erro. 0.5% para endpoints criticos, 2% para o resto.
- Continuo: Revisar semanalmente. Procurar tendencias lentas.
Comece gratis
Nurbak Watch esta em beta e e completamente gratis durante o lancamento. As 5 metricas deste guia — percentis de latencia, taxas de erro, throughput, uptime e deteccao de endpoints lentos — rastreadas automaticamente para cada API route.

