GPTBot es el crawler web de OpenAI — el bot que lee páginas públicas para mejorar los modelos de OpenAI y alimentar el browsing y las citas de ChatGPT. Dejarlo entrar o no es poco esfuerzo y mucha consecuencia: es la diferencia entre ser citado en las respuestas de IA o ser invisible para ellas.

Qué hace GPTBot

GPTBot trae páginas públicas respetando robots.txt. OpenAI usa lo que recolecta para entrenar/mejorar modelos y, cada vez más, para fundamentar las respuestas de ChatGPT con citas a fuentes en vivo. Se identifica con el user agent GPTBot y publica sus rangos de IP.

Los crawlers de IA que tenés que conocer

CrawlerQuiénPropósito
GPTBotOpenAIEntrenamiento + browsing/citas de ChatGPT
ClaudeBotAnthropicEntrenamiento + citas de Claude
PerplexityBotPerplexityIndexado del answer engine
Google-ExtendedGoogleGemini / entrenamiento IA (aparte de Search)
CCBotCommon CrawlDataset abierto que usan muchos modelos

¿Permitir o bloquear?

  • Permitir si querés visibilidad en IA. Bloquear GPTBot te saca de las citas de ChatGPT — lo opuesto del Answer Engine Optimization.
  • Bloquear si protegés contenido propietario, con paywall o licenciado.

Google-Extended es aparte de Googlebot: bloquearlo te saca de Gemini/entrenamiento sin afectar tu ranking en Google Search.

Cómo permitir o bloquear GPTBot

    # robots.txt — bloquear todo el sitio
User-agent: GPTBot
Disallow: /
    # permitir pero bloquear una sección
User-agent: GPTBot
Allow: /
Disallow: /members/

Verificá tu acceso de crawlers de IA

El error más común es bloquear sin querer crawlers que querías permitir. Nurbak escanea tu sitio por acceso de crawlers de IA, estructura y llms.txt. Probalo con el AI Visibility Checker gratis.

Artículos relacionados