What metrics should I monitor for a REST API?

The five critical REST API metrics are: (1) Uptime — percentage of time your API is available, measured from real requests, not synthetic pings. (2) Latency percentiles — P50, P95, and P99 response times per endpoint. (3) Error rate — percentage of 4xx and 5xx responses per route. (4) Throughput — requests per minute per endpoint. (5) Slow endpoint detection — identifying which routes are degrading before they break.

What is the difference between P50, P95, and P99 latency?

P50 (median) is the response time that 50% of requests are faster than — it represents the typical user experience. P95 means 95% of requests are faster than this value — it captures the experience of users on slow connections or hitting complex queries. P99 means only 1% of requests are slower — it catches the worst-case scenarios like cold starts, connection pool exhaustion, or garbage collection pauses. Monitoring all three gives you a complete picture of your API's performance.

What tools can I use for REST API monitoring?

Common REST API monitoring tools include Datadog (full APM, $71+/host/month), New Relic (full observability, $49+/host/month), and Nurbak Watch (lightweight SDK for Next.js, free during beta). Datadog and New Relic use external agents that add overhead and complexity. Nurbak Watch runs inside your server via the Next.js instrumentation hook, monitors every API route automatically, and requires only 5 lines of code to set up.

Monitoramento de REST API: 5 Metricas Chave e Melhores Ferramentas (2026)

Sua REST API esta "no ar." Parabens. Isso nao diz quase nada.

Uptime significa que o servidor responde. Nao diz que /api/checkout demora 4 segundos em vez de 400 milissegundos. Nao diz que 3% dos requests para /api/users retornam 500.

Metrica 1: Uptime — Mas medido corretamente

O que a maioria faz: Um servico externo pinga /api/health a cada 60 segundos. Se retorna 200, a API esta "no ar."

O que voce deveria fazer: Calcular uptime a partir de dados de requests reais. Se voce serviu 1,000,000 de requests e 2,000 retornaram 5xx, seu uptime efetivo e 99.8%.

SLA	Downtime permitido/ano	Tipico para
99.0%	3.65 dias	Ferramentas internas
99.9%	8.7 horas	Maioria dos SaaS
99.95%	4.4 horas	APIs de pagamento / auth
99.99%	52 minutos	APIs de infraestrutura

Metrica 2: Percentis de latencia — P50, P95, P99

O tempo de resposta medio e mentira. Se 99 requests demoram 50ms e 1 demora 10 segundos, a media e 149ms. Esse numero esconde que 1% dos seus usuarios tem uma experiencia terrivel.

P50 (mediana) — A experiencia tipica.
P95 — Os 5% mais lentos. Captura queries lentas, cold starts e problemas n+1.
P99 — O 1% pior. Um usuario que faz 100 chamadas tem 63% de probabilidade de experimentar o P99 pelo menos uma vez.

Alvos: P50 abaixo de 100ms, P95 abaixo de 500ms, P99 abaixo de 2 segundos.

Metrica 3: Taxa de erro por endpoint

Uma taxa de erro global de 0.5% parece ok. Mas e se todos os erros vem de um unico endpoint?

// Vista global: 0.5% taxa de erro — parece ok
// Vista por endpoint:
// GET  /api/users     → 0.01% erros  ✅
// POST /api/checkout  → 12.4% erros  🔴  ← Aqui estao todos os erros

Metrica 4: Throughput — Requests por minuto

Throughput combinado com latencia e erros se torna diagnostico:

Throughput sobe + latencia sobe = Aproximando-se do limite de capacidade
Throughput sobe + erros sobem = Ja passou do limite
Throughput desce + latencia sobe = Uma dependencia esta lenta

Metrica 5: Deteccao de endpoints lentos

Limites estaticos ("alertar se resposta > 2 segundos") nao funcionam quando voce tem 30 endpoints com faixas normais diferentes. A deteccao de endpoints lentos identifica automaticamente quais rotas estao degradando relativo a sua propria baseline.

Comparacao de ferramentas

	Datadog	New Relic	Nurbak Watch
Custo mensal (equipe pequena)	$258+	$147+	$0 (beta) / $29
Tempo de setup	2-4 horas	1-2 horas	5 minutos
Linhas de codigo	50-100+	20-50	5
Impacto no cold start	+200-800ms	+200-400ms	+5-15ms
Funciona no Vercel serverless	Parcialmente	Parcialmente	Completamente
Alertas WhatsApp	Nao	Nao	Sim

Setup em 5 minutos com Nurbak Watch

npm install @nurbak/watch

// instrumentation.ts
import { initWatch } from '@nurbak/watch'

export function register() {
  initWatch({
apiKey: process.env.NURBAK_WATCH_KEY,
  })
}

Em 60 segundos apos o primeiro request, voce ve cada API route no dashboard com P50/P95/P99, taxas de erro, throughput e deteccao de endpoints lentos. Alertas por Slack, email ou WhatsApp em menos de 10 segundos.

O que fazer depois do setup

Semana 1: Observar. Nao definir limites ainda. Deixar a ferramenta estabelecer baselines.
Semana 2: Definir limites de P95 por endpoint (2x a baseline e um bom ponto de inicio).
Semana 3: Definir limites de taxa de erro. 0.5% para endpoints criticos, 2% para o resto.
Continuo: Revisar semanalmente. Procurar tendencias lentas.

Comece gratis

Nurbak Watch esta em beta e e completamente gratis durante o lancamento. As 5 metricas deste guia — percentis de latencia, taxas de erro, throughput, uptime e deteccao de endpoints lentos — rastreadas automaticamente para cada API route.

Monitoramento de REST API: O Que Rastrear e Quais Ferramentas Usar

Metrica 1: Uptime — Mas medido corretamente

Metrica 2: Percentis de latencia — P50, P95, P99

Metrica 3: Taxa de erro por endpoint

Metrica 4: Throughput — Requests por minuto

Metrica 5: Deteccao de endpoints lentos

Comparacao de ferramentas

Setup em 5 minutos com Nurbak Watch

O que fazer depois do setup

Comece gratis

Fabián Delgado

Comece a monitorar suas APIs grátis

Metrica 1: Uptime — Mas medido corretamente

Metrica 2: Percentis de latencia — P50, P95, P99

Metrica 3: Taxa de erro por endpoint

Metrica 4: Throughput — Requests por minuto

Metrica 5: Deteccao de endpoints lentos

Comparacao de ferramentas

Setup em 5 minutos com Nurbak Watch

O que fazer depois do setup

Comece gratis

Fabián Delgado

Comece a monitorar suas APIs grátis

Leia a Seguir

SLO vs SLA vs SLI: Qual e a Diferenca? (Com Exemplos)

MTTD Explicado: Como Medir e Reduzir o Tempo Medio de Deteccao

O ciclo de resposta a incidentes para equipes de APIs (5 passos)