Robots.txt
robots.txt é um ficheiro de texto colocado no diretório raiz de um website que instrui os rastreadores dos motores de busca sobre quais páginas ou ficheiros lhes é permitido ou proibido solicitar. É a primeira linha de defesa no controlo de como os robôs interagem com a infraestrutura do seu site e ajuda a otimizar o orçamento de rastreamento.
Direcionar robôs para o seu melhor conteúdo
O Google aloca um "orçamento de rastreamento" limitado ao seu site — o número de páginas que os seus bots rastrearão por dia. Se os bots perderem tempo a rastrear painéis de administração, páginas duplicadas para impressão ou URLs de carrinho/checkout, poderão não encontrar as suas valiosas páginas de produtos traduzidas. O robots.txt diz aos bots "Não perca tempo com /admin/, concentre-se em /en/, /fr/, /de/ em vez disso." Para sites internacionais, deve proibir o rastreamento de páginas de redirecionamento de deteção automática de idioma, pontos de extremidade de API e quaisquer URLs técnicos que não precisem de ser indexados. No entanto, NUNCA bloqueie acidentalmente os seus diretórios de idioma — esse é um erro catastrófico que anula todo o SEO internacional.
Permitir vs. Proibir Acesso de Rastreamento
Impacto no Mundo Real
O site não tem robots.txt, robôs rastreiam 10.000 URLs de carrinho
Orçamento de rastreamento desperdiçado, páginas de produtos rastreadas lentamente
Novos produtos demoram semanas a aparecer na pesquisa
Adicionar robots.txt: Disallow /cart/, /checkout/, /api/
Os bots focam 100% nas páginas de produto e idioma
Novos produtos indexados em 24 horas