O Google não é um leitor de mentes; ele é um robô (o Googlebot) que segue instruções. Dois arquivos simples, quando configurados corretamente, dão a você controle total sobre o que ele lê e onde ele gasta seu tempo.
Na **A AtiveSite**, a otimização de performance e SEO começa com o **Crawl Budget** (o tempo limitado que o Google gasta no seu site). Não desperdice esse tempo.
Robots.txt: O Porteiro do seu Site
O arquivo `robots.txt` deve estar na raiz do seu domínio (ex: `seusite.com.br/robots.txt`). Ele fala diretamente com os agentes de usuário (Googlebot, Bingbot, etc.).
Anatomia do Robots.txt
User-agent: * Disallow: /wp-admin/ Disallow: /tag/ Sitemap: https://seusite.com.br/sitemap.xml
- `User-agent: *`: Aplica a regra a **todos** os robôs.
- `Disallow: /wp-admin/`: Proíbe o acesso à pasta de administração (essencial para **segurança** e evitar que o robô perca tempo em áreas privadas).
- `Sitemap: …`: É a linha mais importante. Ela diz onde está o seu mapa para que o robô o encontre rapidamente.
Dica Pragmática: Use a ferramenta de Teste de Robots.txt no Google Search Console para confirmar se suas regras estão funcionando antes de colocá-las no ar.
Sitemap.xml: O Mapa do Tesouro
Se o robots.txt diz “onde não ir”, o sitemap.xml diz “onde ir”. Ele é uma lista hierárquica de URLs que você considera importantes. Para sites construídos com SSG, a geração desse arquivo é automática na hora do build.
Tipos de Sitemaps
Além do sitemap de posts e páginas (o mais comum), existem sitemaps de nicho:
- Imagens: Ajuda o Google a descobrir imagens complexas (ex: imagens dentro de galerias de produtos).
- Vídeo: Essencial para quem hospeda vídeos. Ajuda o Google a entender o título e a descrição do conteúdo de vídeo.
- Notícias: Para sites que publicam notícias em tempo real. Exige rastreamento instantâneo do Google (muito sensível ao monitoramento APM, pois qualquer lentidão é fatal).
Regra de Ouro: Seu sitemap deve listar apenas URLs que retornam o código HTTP **200 (OK)** e que não estão bloqueadas no robots.txt. Se você tem um sitemap com códigos **404** (Não Encontrado), o Google perde a confiança no seu mapa.
FAQ: Dúvidas Comuns sobre Rastreamento
1. O que são os códigos 404 e 410?
O 404 significa ‘Não Encontrado’. O 410 significa ‘Permanentemente Removido’. Profissionais de SEO usam o 410 quando um conteúdo foi deletado e não voltará mais, pois ele diz ao Google para desindexar a página mais rapidamente.
2. Devo bloquear os arquivos CSS e JS no robots.txt?
Absolutamente não. O Google precisa ler seu CSS e JS para entender se o site renderiza corretamente. Bloquear esses arquivos é um erro grave que afeta seu rankeamento e a avaliação de seus Core Web Vitals.
3. Posso ter mais de um sitemap?
Sim, e é altamente recomendável. Grandes sites dividem o sitemap por tipo de conteúdo (posts, páginas, categorias) ou por tamanho, pois o limite de um único sitemap é de 50.000 URLs. Você cria um ‘Sitemap Index’ que lista todos os sitemaps menores.
4. O que é o Crawl Budget e por que devo economizá-lo?
É o número de páginas que o Googlebot pode e deseja rastrear no seu site em um determinado período. Se você tiver 1 milhão de páginas, mas ele só rastrear 10.000 por dia, as novas páginas demorarão a ser indexadas. Bloquear lixo (páginas de tag, admin) no robots.txt o faz focar no conteúdo de valor.
5. O Sitemap substitui a necessidade de links internos?
Não. O sitemap é um guia. A **estrutura de links internos** é a estrada. Uma boa estrutura de links (que se assemelha à hierarquia de pastas) é mais importante para o Google entender a relevância de uma página do que o sitemap.
6. O Google ignora o Robots.txt?
O Google obedece as instruções de ‘Disallow’ no robots.txt. No entanto, o robô pode ocasionalmente rastrear o arquivo para ver se as regras mudaram. O único que pode ignorar essas regras é um hacker, pois o robots.txt é um protocolo, não uma **segurança** forçada.
7. Meu sitemap precisa ser gerado em tempo real?
Para a maioria dos blogs, diariamente ou a cada publicação é suficiente. Para grandes plataformas de notícias, onde a latência de indexação é crítica, o sitemap é gerado instantaneamente na publicação do artigo. Nesse caso, ferramentas de SSG ou plugins de cache ajudam muito.
8. Por que meu sitemap não aparece no Search Console?
Verifique se o URL que você enviou ao Search Console é o URL exato do sitemap e se ele retorna o código **200 (OK)** quando acessado no navegador (você pode verificar o status com sua ferramenta de monitoramento de Uptime).
Conclusão
O `robots.txt` e o `sitemap.xml` são ferramentas de comunicação. Use-as para guiar o robô, bloquear o lixo e garantir que seu conteúdo de valor seja rastreado e indexado o mais rápido possível. É o SEO técnico no seu estado mais puro e funcional.
Sitemap e Robots.txt: O Protocolo de Rastreamento que o Google Obedece
Tags para suas próximas buscas:
Robots.txt, Sitemap XML, SEO Técnico, Crawl Budget, Google Search Console, Disallow, Noindex, Erro 404, Sitemap Index, Otimização de Rastreamento, Core Web Vitals, Web Performance.