O GPTBot é o crawler web da OpenAI — o bot que lê páginas públicas para melhorar os modelos da OpenAI e alimentar o browsing e as citações do ChatGPT. Deixá-lo entrar ou não é pouco esforço e muita consequência: é a diferença entre ser citado nas respostas de IA ou ser invisível para elas.

O que o GPTBot faz

O GPTBot busca páginas públicas respeitando o robots.txt. A OpenAI usa o que coleta para treinar/melhorar modelos e, cada vez mais, para fundamentar as respostas do ChatGPT com citações a fontes ao vivo. Identifica-se com o user agent GPTBot e publica suas faixas de IP.

Os crawlers de IA que você precisa conhecer

CrawlerQuemPropósito
GPTBotOpenAITreino + browsing/citações do ChatGPT
ClaudeBotAnthropicTreino + citações do Claude
PerplexityBotPerplexityIndexação do answer engine
Google-ExtendedGoogleGemini / treino IA (separado do Search)
CCBotCommon CrawlDataset aberto que muitos modelos usam

Permitir ou bloquear?

  • Permitir se você quer visibilidade em IA. Bloquear o GPTBot te tira das citações do ChatGPT — o oposto do Answer Engine Optimization.
  • Bloquear se você protege conteúdo proprietário, com paywall ou licenciado.

O Google-Extended é separado do Googlebot: bloqueá-lo te tira do Gemini/treino sem afetar seu ranking no Google Search.

Como permitir ou bloquear o GPTBot

    # robots.txt — bloquear o site todo
User-agent: GPTBot
Disallow: /
    # permitir mas bloquear uma seção
User-agent: GPTBot
Allow: /
Disallow: /members/

Verifique seu acesso de crawlers de IA

O erro mais comum é bloquear sem querer crawlers que você queria permitir. O Nurbak escaneia seu site por acesso de crawlers de IA, estrutura e llms.txt. Teste com o AI Visibility Checker grátis.

Artigos relacionados