O GPTBot é o crawler web da OpenAI — o bot que lê páginas públicas para melhorar os modelos da OpenAI e alimentar o browsing e as citações do ChatGPT. Deixá-lo entrar ou não é pouco esforço e muita consequência: é a diferença entre ser citado nas respostas de IA ou ser invisível para elas.
O que o GPTBot faz
O GPTBot busca páginas públicas respeitando o robots.txt. A OpenAI usa o que coleta para treinar/melhorar modelos e, cada vez mais, para fundamentar as respostas do ChatGPT com citações a fontes ao vivo. Identifica-se com o user agent GPTBot e publica suas faixas de IP.
Os crawlers de IA que você precisa conhecer
| Crawler | Quem | Propósito |
|---|---|---|
GPTBot | OpenAI | Treino + browsing/citações do ChatGPT |
ClaudeBot | Anthropic | Treino + citações do Claude |
PerplexityBot | Perplexity | Indexação do answer engine |
Google-Extended | Gemini / treino IA (separado do Search) | |
CCBot | Common Crawl | Dataset aberto que muitos modelos usam |
Permitir ou bloquear?
- Permitir se você quer visibilidade em IA. Bloquear o GPTBot te tira das citações do ChatGPT — o oposto do Answer Engine Optimization.
- Bloquear se você protege conteúdo proprietário, com paywall ou licenciado.
O Google-Extended é separado do Googlebot: bloqueá-lo te tira do Gemini/treino sem afetar seu ranking no Google Search.
Como permitir ou bloquear o GPTBot
# robots.txt — bloquear o site todo
User-agent: GPTBot
Disallow: / # permitir mas bloquear uma seção
User-agent: GPTBot
Allow: /
Disallow: /members/Verifique seu acesso de crawlers de IA
O erro mais comum é bloquear sem querer crawlers que você queria permitir. O Nurbak escaneia seu site por acesso de crawlers de IA, estrutura e llms.txt. Teste com o AI Visibility Checker grátis.

