Informação Geral sobre robots.txt
O ficheiro robots.txt está localizado no diretório de raiz de um website e indica aos robôs de pesquisa quais os ficheiros e páginas a que deve ou não aceder.
Em geral, titulares de websites querem robôs de pesquisa para descobrir o seu website, mas há casos onde isto é desnecessário—por exemplo, quando são armazenadas informações valiosas num website, ou quando é necessário conservar a largura de banda, impedindo a indexação de páginas com grandes quantidades de dados ou imagens de alta resolução.
Quando um robô de pesquisa encontra uma página web, a primeira coisa que procura é o ficheiro robots.txt. Uma vez encontrado, o robô verifica as instruções de indexação contidas no ficheiro.
Importante saber: Cada website só precisa de ter apenas um ficheiro robots.txt. Para um domínio adicional, este ficheiro precisa de ser criado na localização apropriada.
Um ficheiro robots.txt consiste em linhas que contêm dois campos: uma linha a especificar o nome de agente do utilizador (para motores de pesquisa) e uma ou mais linhas que começam com a seguinte diretiva:
Não permitir:
O ficheiro robots.txt deve ser criado no formato UNIX.
Noções básicas de Syntax Robots.txt
Um ficheiro robots.txt típico contém algo como isto:
Agente utilizador: *
Não permitir: /cgi-bin/
Não permitir: /tmp/
Não permitir: /~diferente/
Neste exemplo, a indexação de três pastas (‘/cgi-bin/’, ‘/tmp/’ e ‘/~diferente/’) é desativada.
Importante notar: Cada comando deve ser escrito numa linha separada.
Um asterisco (*) no campo agente utilizador significa “qualquer robô de pesquisa”. Logicamente, “Não permitir:*.gif” ou “Agente utilizador: Mozilla*” não são suportados. Erros lógicos deste tipo devem ser evitados, pois estão entre os erros mais comuns.
Outros erros comuns incluem diretórios mal escritos, identificadores de software incorretos, falta de dois pontos após Agente utilizador e Não permitir, etc. À medida que o ficheiro robots.txt se torna mais complexo, torna-se mais fácil cometer este tipo de erros.
Exemplos da sua utilização
Desativar a indexação de todo o site para todos os robôs de pesquisa:
Agente utilizador: *
Não permitir: /
Permitir que todos os robôs de pesquisa indexem todo o site:
Agente utilizador: *
Não permitir:
Não permitir que apenas certos diretórios sejam indexados:
Agente utilizador: *
Não permitir: /cgi-bin/
Não permite a indexação do site para um robô de pesquisa específico:
Agente utilizador: Bot1
Não permitir: /
Permitir a indexação para um robô de pesquisa específico e não permitir outros:
Agente utilizador: Opera 9
Não permitir:
Agente utilizador: *
Não permitir: /
Desativar a indexação de todos os ficheiros exceto um:
Isto pode ser um pouco complicado, uma vez que o comando “Permitir” não existe no robots.txt. Em vez disso, todos os ficheiros que não pretende que sejam indexados devem ser colocados numa subpasta, exceto aquele que pretende que permaneça acessível:
Agente utilizador: *
Não permitir: /docs/
Robots.txt and SEO
Remover a proibição de indexação de imagens:
Para alguns sistemas de gestão de conteúdos (CMS), o ficheiro pode inadvertidamente impedir que a pasta de imagens seja indexada.
Este problema não ocorre com as versões mais recentes do CMS, mas versões mais antigas precisam de ser verificadas.
Bloquear a indexação de imagens significa que as suas imagens não aparecem na Pesquisa de imagens do Google, o que pode afetar negativamente a SEO.
Para permitir a indexação de imagens, é necessário remover a seguinte linha do robots.txt:
Não permitir: /images/
Especifique um caminho para o ficheiro sitemap.xml:
Se tiver um ficheiro sitemap.xml (e deve ter), é útil incluir a seguinte linha no seu ficheiro robots.txt:
Sitemap: http://www.domain.pt/sitemap.xml
Outras informações
- Não bloqueie CSS, Javascript, ou scripts semelhantes por predefinição. Isto pode impedir que o Googlebot processe corretamente a página e reconheça que está otimizada para dispositivos móveis.
- O ficheiro robots.txt pode ser utilizado para prevenir certas páginas de serem indexadas, tais como páginas de início de sessão ou páginas de erro 404, mas isto é melhor gerido utilizando a meta tag dos robôs.
- A adição de uma diretiva Não permitir no robots.txt não remove os dados dos motores de pesquisa, apenas impede os robôs de pesquisa de indexar páginas específicas. Se quiser remover o conteúdo dos resultados de pesquisa, é melhor utilizar uma meta tag noindex.
- Como regra geral, não se deve utilizar robots.txt para lidar com conteúdos duplicados. Há soluções mais eficazes, tais como a rel=tag canônica, que deve ser colocada na secção do cabeçalho do HTML.
- Tenha sempre em mente que o robots.txt é um ficheiro crucial. Em muitos casos, pode encontrar ferramentas mais poderosas do que aquelas oferecidas pelo Bing and Google Search Console para gerir indexação (indexing) e rastreio (crawling) eficazes.
Robots.txt para WordPress
Quando cria conteúdo no WordPress pela primeira vez, o ficheiro robots.txt é automaticamente gerado. Contudo, se já existir um ficheiro robots.txt real (não virtual) no servidor, isto não acontecerá. Um ficheiro robots.txt virtual, não existe fisicamente no servidor, apenas pode ser acedido através do seguinte link: http://www.tuapagina.pt/robots.txt
Por predefinição, o Google Mediabot está ativado, enquanto vários robôs de spam e certas pastas e ficheiros essenciais do WordPress estão bloqueados.
Se ainda não criou um verdadeiro ficheiro de robots.txt, pode fazê-lo utilizando qualquer editor de texto e depois carregá-lo para o diretório raiz do servidor através de FTP.
Bloquear os principais diretórios do WordPress
Para todas as instalações do WordPress, existem três diretórios padrão (wp-conteúdo, wp-admin, wp-inclui) que não precisam de ser indexados.
Contudo, a pasta inteira wp-content não deve ser bloqueada, pois contém uma pasta de carregamentos onde são guardados os ficheiros multimédia no website, que devem permanecer acessíveis. Por conseguinte, deve ser adotada a seguinte abordagem:
Não permitir: /wp-admin/
Não permitir: /wp-inclui/
Não permitir: /wp-conteudo/plugins/.
Não permitir: /wp-conteudo/temas/
Bloqueamento baseado na estrutura do website
Cada blog pode ser restringido de várias maneiras:
- Por categoria
- Por tags (etiquetas)
- Baseado em ambos, ou em nenhum
- Por arquivos de bases de dados
I. Se o website estiver estruturado por categorias, a indexação dos arquivos de tags é desnecessária.
A base de dados de tags pode ser acedida clicando no separador Opções e depois no separador Permalinks. Se o campo estiver vazio, a tag é simplesmente identificada como “tag”:
Não permitir: /tag/
II. Se o website estiver estruturado com etiquetas, bloqueie o arquivo de categorias. Localize a secção da categoria e aplique o seguinte comando:
Não permitir: /categoria/
III. Se o website utiliza as duas categorias e tags, não são necessárias instruções específicas. Se nenhuma for utilizada, ambas devem ser desativadas:
Não permitir: /tags/
Não permitir: /categoria/
IV. Se o website estiver estruturado em bases de dados, os arquivos podem ser bloqueados da seguinte forma:
Não permitir: /2010/
Não permitir: /2011/
Não permitir:/2012/
Não permitir: /2013/
Importante saber: O comando “Não permitir: /20/”* não pode ser utilizado, pois iria bloquear todos as publicações ou páginas que começassem por ‘20’.