O que é robots.txt?
Aprenda o que robots.txt significa, por que é importante para os resultados de busca, e como a publicação consistente de conteúdo mantém seu negócio visível no Google.
robots.txt é um arquivo de texto na raiz do seu site que diz aos rastreadores dos buscadores quais URLs eles podem ou não acessar.
O que é robots.txt?
O arquivo robots.txt fica no diretório raiz do seu domínio (seusite.com/robots.txt) e informa aos rastreadores dos buscadores quais páginas ou seções do seu site eles têm permissão para acessar.
Todos os grandes buscadores. Google, Bing, Yahoo. Consultam esse arquivo antes de rastrear o seu site. Pense nele como a lista do segurança da porta. Não é uma fechadura, é um conjunto claro de instruções que os bots bem-comportados seguem.
Segundo a documentação do próprio Google, o Googlebot lê o robots.txt antes de fazer qualquer requisição ao seu servidor. Em sites com milhares de páginas, esse arquivo se torna uma das peças mais importantes do seu SEO técnico.
Por que o robots.txt importa?
Errar o robots.txt pode derrubar suas posições da noite para o dia. Uma única diretiva fora de lugar e o Google deixa de enxergar suas páginas mais importantes.
- Proteção do crawl budget. Sites grandes têm crawl budget limitado. Bloquear páginas de baixo valor (painéis de admin, ambientes de staging, filtros duplicados) mantém o Googlebot focado no que importa.
- Evita a indexação de áreas sensíveis. Resultados de busca interna, páginas de login e carrinho não têm o que fazer na SERP. O robots.txt mantém os bots de fora.
- Descoberta mais rápida de novos conteúdos. Quando os rastreadores não desperdiçam requisições em páginas inúteis, encontram seus novos posts e fichas de produto mais cedo.
- Gestão da carga do servidor. Bots agressivos podem sobrecarregar servidores pequenos. Bloquear o rastreamento desnecessário reduz o consumo de recursos.
Se você publica conteúdo com regularidade. Sejam 5 páginas ou 30 artigos por mês. Você precisa que os rastreadores gastem o tempo deles nas URLs certas.
Como o robots.txt funciona
O arquivo usa uma sintaxe simples. Três diretivas centrais cobrem a maioria dos casos.
User-agent
Essa linha define a qual rastreador a regra se aplica. User-agent: * mira todos os bots. User-agent: Googlebot mira só o rastreador do Google. Você pode empilhar várias regras para bots diferentes no mesmo arquivo.
Disallow
A diretiva Disallow bloqueia um caminho específico. Disallow: /admin/ impede que rastreadores acessem qualquer coisa dentro do diretório /admin/. Deixe vazia (Disallow:) e você libera tudo. Uma única barra (Disallow: /) bloqueia o site inteiro.
Allow e Sitemap
Allow sobrepõe uma regra Disallow mais ampla para caminhos específicos. Útil quando você bloqueia um diretório mas quer que uma página dentro dele seja rastreada. A diretiva Sitemap aponta os rastreadores para o seu sitemap XML e os ajuda a encontrar todas as URLs importantes sem chutar.
Como o Google processa o arquivo
O Googlebot busca o seu robots.txt antes de rastrear qualquer outra coisa. Se o arquivo retorna status 200, o Google segue as regras. Um 404 significa “sem restrições”. Tudo é rastreado. Um erro 5xx deixa o Google temporariamente cauteloso e ele limita o rastreamento até o arquivo voltar a ficar acessível.
Tipos de diretivas robots.txt
As diretivas do robots.txt se dividem em 4 categorias principais:
- Diretivas de acesso (Allow/Disallow). Controlam quais caminhos os bots podem visitar. A base de qualquer arquivo robots.txt.
- Diretivas de user-agent. Direcionam regras a bots específicos. Você pode bloquear o SemrushBot enquanto libera acesso total ao Googlebot.
- Diretivas de crawl-delay. Dizem aos bots para esperar entre as requisições. O Google ignora isso (use o Google Search Console no lugar), mas Bing e Yandex respeitam.
- Diretivas de sitemap. Apontam para o seu arquivo de sitemap. Tecnicamente não é uma “regra”, é um mecanismo de descoberta que os bots usam.
A maioria dos sites pequenos e médios só precisa de diretivas de acesso e uma referência ao sitemap. O crawl-delay importa mais em sites de grande escala com restrições de servidor.
Exemplos de robots.txt
Exemplo 1: encanador local Um encanador em São Paulo tem um site em WordPress com os diretórios /wp-admin/, /carrinho/ e /precos-internos/. O robots.txt bloqueia os três e inclui uma referência ao sitemap. Resultado: o Googlebot gasta o tempo dele nas páginas de serviço e nos posts do blog. Não nos painéis de admin.
Exemplo 2: e-commerce com páginas filtradas
Um varejista online tem 50 produtos mas 3.000 combinações de filtros (tamanho + cor + preço). Sem um Disallow em /produtos?filtro=, o Googlebot desperdiça crawl budget em páginas filtradas duplicadas. Uma única linha Disallow resolve.
Exemplo 3: bloquear o site inteiro sem querer
Uma agência de marketing migrou de staging para produção e deixou Disallow: / no robots.txt. Por 3 semanas, nada foi indexado. O tráfego caiu para zero. Um único caractere causou isso. A barra depois do Disallow.
robots.txt vs meta tag robots
Esses dois fazem trabalhos diferentes em momentos diferentes. O robots.txt para os rastreadores antes que cheguem a uma página. A meta tag robots dá instruções depois que um rastreador já acessou a página.
| robots.txt | Meta tag robots | |
|---|---|---|
| Onde fica | Arquivo no diretório raiz | <head> HTML de páginas individuais |
| Quando age | Antes do rastreamento | Depois do rastreamento |
| Escopo | Diretórios ou caminhos inteiros | Páginas individuais |
| Impede a indexação? | Não. Só bloqueia o rastreamento | Sim, noindex remove da busca |
| Ideal para | Bloquear seções do site | Remover páginas específicas da busca |
Aqui está a pegadinha: se você bloquear uma página com robots.txt, o Google não consegue ver uma tag noindex nela. Então essa página pode continuar aparecendo nos resultados (sem snippet) porque o Google encontrou um link em outro lugar. Para remover de verdade uma página da busca, use a meta tag robots. Não o robots.txt.
Boas práticas para robots.txt
- Sempre inclua uma diretiva Sitemap. Aponte para o seu sitemap XML para dar aos rastreadores um mapa completo do site. Uma linha:
Sitemap: https://seusite.com/sitemap.xml. - Nunca bloqueie arquivos CSS ou JavaScript. O Google precisa renderizar suas páginas para entendê-las. Bloquear esses recursos prejudica seu SEO on-page.
- Teste antes de publicar. Use o testador de robots.txt do Google Search Console para conferir as regras. Um erro de digitação pode bloquear o site inteiro.
- Revise a cada trimestre. Conforme o site cresce, novos diretórios aparecem. O que fazia sentido há 6 meses pode estar bloqueando conteúdo importante hoje.
- Combine com uma estratégia de conteúdo. O robots.txt controla o que é rastreado, mas você ainda precisa de páginas que valham a pena rastrear. Serviços como theStacc publicam 30 artigos otimizados para SEO por mês, dando ao Googlebot conteúdo fresco a cada visita.
Perguntas frequentes
O robots.txt impede que páginas apareçam no Google?
Não diretamente. O robots.txt impede o rastreamento, não a indexação. Se outros sites linkam para uma página bloqueada, o Google ainda pode mostrá-la nos resultados. Só que sem snippet de descrição. Use uma meta tag noindex para remover totalmente uma página da busca.
Onde coloco o arquivo robots.txt?
Coloque na raiz do seu domínio: https://seusite.com/robots.txt. Em subdiretórios não funciona. Cada subdomínio precisa do próprio robots.txt.
O robots.txt pode melhorar meus rankings?
Indiretamente, sim. Bloquear páginas de baixo valor preserva o crawl budget para o seu conteúdo importante. Em sites grandes isso significa descoberta e indexação mais rápidas das páginas novas. O que pode acelerar a melhoria de posições.
Todos os bots seguem as regras do robots.txt?
Bots legítimos dos buscadores (Googlebot, Bingbot) respeitam o robots.txt. Bots maliciosos e scrapers normalmente ignoram. Não conte com o robots.txt para segurança. É uma diretriz, não um firewall.
Quer garantir que seu conteúdo de SEO seja realmente rastreado e ranqueado? theStacc publica 30 artigos otimizados para SEO no seu site todo mês. Automaticamente. Comece por $1 →
Fontes
- Google Search Central: especificações do robots.txt
- Google Search Central: como o Google interpreta o robots.txt
- Moz: Robots.txt. Learn SEO
- Ahrefs: Robots.txt. The Ultimate Guide
De entender robots.txt a ranquear por ele
Entender robots.txt é o ponto de partida. As empresas que realmente se beneficiam são as que executam consistentemente — com sistemas e automação. O theStacc elimina esse gargalo publicando 30 artigos otimizados por palavras-chave no seu site todo mês, automaticamente.
Veja como o theStacc funcionaTermos Relacionados
Indexação é o processo de adicionar páginas web ao banco de dados de um mecanismo de busca. Aprenda como indexação funciona, como verificar se páginas estão indexadas e como corrigir problemas.
Seo técnico é a prática de otimizar a infraestrutura do seu site — rastreabilidade, indexabilidade, velocidade, segurança e dados estruturados — para que mecanismos de busca encontrem, renderizem e ranqueiem suas páginas corretamente.
Um sitemap XML é um arquivo que lista todas as URLs importantes do seu site e ajuda buscadores como o Google a descobrir, rastrear e indexar suas páginas mais rápido.
Construa rankings para termos como "robots.txt". Automaticamente.
30 artigos otimizados por palavras-chave publicados no seu site todo mês. Os rankings se acumulam enquanto você foca no seu negócio.
Começar por R$1R$1 por 30 dias · Cancele quando quiser