Para que serve e como utilizar o robot.txt

O que é o robots.txt?

Robots.txt é um arquivo de texto com instruções para rastreadores de mecanismos de pesquisa. Ele define quais áreas dos sites os rastreadores têm permissão para pesquisar. Usando este arquivo de texto simples, você pode facilmente excluir domínios inteiros, diretórios completos, um ou mais subdiretórios, ou arquivos individuais do rastreamento do mecanismo de pesquisa. No entanto, este arquivo não protege contra acesso não autorizado.

Robots.txt é armazenado no diretório raiz de um domínio. Portanto, é o primeiro documento que os rastreadores abrem ao visitar seu site. No entanto, o arquivo não controla apenas o rastreamento. Você também pode integrar um link ao mapa do site, o que dá aos rastreadores de mecanismos de pesquisa uma visão geral de todas as URLs existentes em seu domínio.

Como funciona na prática?

Funciona assim: um robô deseja visitar o URL de um site, digamos http://www.example.com/welcome.html. Antes de fazer isso, ele primeiro verifica se há http://www.example.com/robots.txt e encontra:

Agente de usuário: *

Disallow: /

O “User-agent: *” significa que esta seção se aplica a todos os robôs. O ” Disallow: / ” informa ao robô que ele não deve visitar nenhuma página do site.

Existem duas considerações importantes ao usar /robots.txt:

  • Robôs podem ignorar seu /robots.txt. Especialmente os robôs de malware que fazem a varredura na web em busca de vulnerabilidades de segurança e os coletores de endereços de e-mail usados ​​por spammers não prestarão atenção.
  • O arquivo /robots.txt é um arquivo disponível publicamente. Qualquer pessoa pode ver quais seções do seu servidor você não deseja que os robôs usem.

Portanto, não tente usar /robots.txt para ocultar informações.

Quais as configurações do robots.txt?

O arquivo “/robots.txt” é um arquivo de texto, com um ou mais registros. Normalmente contém um único registro parecido com este:

User-agent: *

Disallow: /wp-admin/

Disallow: /tmp/

Disallow: /junk/

Neste exemplo, três diretórios são excluídos do rastreamento.

Observe que você precisa de uma linha separada “Disallow” para cada prefixo de URL que deseja excluir – você não pode dizer “Disallow: / cgi-bin / / tmp /” em uma única linha. Além disso, você não pode ter linhas em branco em um registro, pois elas são usadas para delimitar vários registros.

Cuidado com as pasta que pretende remover o rastreamento, as pessoas costumavam bloquear o acesso a arquivos CSS e JavaScript para manter os mecanismos de pesquisa focados nessas páginas de conteúdo tão importantes.

Hoje em dia, o Google busca todo o seu estilo e JavaScript e renderiza suas páginas completamente. Compreender o layout e a apresentação da sua página é uma parte importante de como ela avalia a qualidade. Portanto, o Google não gosta nem um pouco quando você nega acesso aos seus arquivos CSS ou JavaScript.

Para excluir todos os robôs de todo o servidor

User-agent: *

Disallow: /

Para permitir a todos os robôs acesso completo

User-agent: *

Allow: /

Para excluir um único robô

User-agent: Google

Disallow: /

Para permitir um único robô

User-agent: Google

Disallow:

User-agent: *

Disallow: /

Você pode proibir paginas especificas:

User-agent: *

Disallow: /~joe/junk.html

Disallow: /~joe/foo.html

Disallow: /~joe/bar.html

Como criar o arquivo robots.txt?

  1. Se você é nosso cliente de hospedagem conseguirá criar sem dificuldades através do cpanel. Após acessar o painel da sua hospedagem clique em gerenciador de arquivos.
  2. Em seguida clique em “+Arquivo”.
  3. Vai abrir uma tela menor solicitando o nome do arquivo, você vai digitar robots.txt e clicar em “Create New File”.
  4. Pronto, arquivo criado. Agora podemos editar ao nosso gosto, para editar e só localizar o arquivo e clicar com o botão direito do mouse sobre o arquivo e na opção “Edit”.
  5. Nessa tela você deve clicar novamente em “Edit”.
  6. Agora é só configurar da forma que desejar e clicar em “Salvar Alterações”.

Pronto, arquivo criado e configurado.

Testando o seu arquivo robots.txt

Uma forma fácil de testar seria utilizando o website da planet. É uma ferramenta gratuita e fácil de utilizar. Basta clicar neste link, inserir o link do seu robots.txt e clicar em verificar.

https://www.websiteplanet.com/pt-br/webtools/robots-txt/