GPTBot es el crawler web de OpenAI — el bot que lee páginas públicas para mejorar los modelos de OpenAI y alimentar el browsing y las citas de ChatGPT. Dejarlo entrar o no es poco esfuerzo y mucha consecuencia: es la diferencia entre ser citado en las respuestas de IA o ser invisible para ellas.
Qué hace GPTBot
GPTBot trae páginas públicas respetando robots.txt. OpenAI usa lo que recolecta para entrenar/mejorar modelos y, cada vez más, para fundamentar las respuestas de ChatGPT con citas a fuentes en vivo. Se identifica con el user agent GPTBot y publica sus rangos de IP.
Los crawlers de IA que tenés que conocer
| Crawler | Quién | Propósito |
|---|---|---|
GPTBot | OpenAI | Entrenamiento + browsing/citas de ChatGPT |
ClaudeBot | Anthropic | Entrenamiento + citas de Claude |
PerplexityBot | Perplexity | Indexado del answer engine |
Google-Extended | Gemini / entrenamiento IA (aparte de Search) | |
CCBot | Common Crawl | Dataset abierto que usan muchos modelos |
¿Permitir o bloquear?
- Permitir si querés visibilidad en IA. Bloquear GPTBot te saca de las citas de ChatGPT — lo opuesto del Answer Engine Optimization.
- Bloquear si protegés contenido propietario, con paywall o licenciado.
Google-Extended es aparte de Googlebot: bloquearlo te saca de Gemini/entrenamiento sin afectar tu ranking en Google Search.
Cómo permitir o bloquear GPTBot
# robots.txt — bloquear todo el sitio
User-agent: GPTBot
Disallow: / # permitir pero bloquear una sección
User-agent: GPTBot
Allow: /
Disallow: /members/Verificá tu acceso de crawlers de IA
El error más común es bloquear sin querer crawlers que querías permitir. Nurbak escanea tu sitio por acceso de crawlers de IA, estructura y llms.txt. Probalo con el AI Visibility Checker gratis.

