Qu’est-ce que Robots.txt

C’est formidable lorsque les moteurs de recherche visitent fréquemment votre site et indexent votre contenu, mais il arrive souvent que l’indexation de certaines parties de votre contenu en ligne ne soit pas ce que vous souhaitez.

Par exemple, si vous avez deux versions d’une page (une pour l’affichage dans le navigateur et une pour l’impression), vous préférez que la version d’impression soit exclue de l’indexation, sinon vous risquez de vous voir imposer une pénalité pour contenu dupliqué.

De même, si vous avez sur votre site des données sensibles que vous ne voulez pas que le monde entier voie, vous préférerez également que les moteurs de recherche n’indexent pas ces pages (bien que dans ce cas, le seul moyen sûr de ne pas indexer les données sensibles soit de les conserver hors ligne sur une machine séparée). 

En outre, si vous souhaitez économiser de la bande passante en excluant les images, les feuilles de style et le javascript de l’indexation, vous devez également trouver un moyen d’indiquer aux robots d’indexation de se tenir à l’écart de ces éléments.

Une façon d’indiquer aux moteurs de recherche les fichiers et les dossiers de votre site Web à éviter est d’utiliser le métatag Robots. Mais comme tous les moteurs de recherche ne lisent pas les métabalises, la métabalise « Robots » peut tout simplement passer inaperçue. 

Une meilleure façon d’informer les moteurs de recherche de votre volonté est d’utiliser un fichier robots.txt.

Qu’est-ce que le fichier Robots.txt ?

Robots.txt est un fichier texte (et non html) que vous placez sur votre site pour indiquer aux robots de recherche les pages que vous souhaitez qu’ils ne visitent pas. 

Le fichier robots.txt n’est en aucun cas obligatoire pour les moteurs de recherche mais, en général, les moteurs de recherche obéissent à ce qu’on leur demande de ne pas faire. 

Il est important de préciser que le fichier robots.txt n’est pas un moyen d’empêcher les moteurs de recherche d’explorer votre site (il ne s’agit pas d’un pare-feu ou d’une sorte de protection par mot de passe) et que le fait de mettre un fichier robots.txt équivaut à mettre une note « S’il vous plaît, n’entrez pas » sur une porte non verrouillée – par exemple, vous ne pouvez pas empêcher les voleurs d’entrer, mais les gentils ne vont pas ouvrir la porte et entrer. 

C’est pourquoi nous disons que si vous avez des données sitives vraiment sensibles, il est trop naïf de compter sur le fichier robots.txt pour les protéger de l’indexation et de l’affichage dans les résultats de recherche.

L’emplacement du fichier robots.txt est très important.

Il doit se trouver dans le répertoire principal, sinon les agents utilisateurs (moteurs de recherche) ne pourront pas le trouver – ils ne cherchent pas un fichier nommé robots.txt sur l’ensemble du site. Au lieu de cela, ils regardent d’abord dans le répertoire principal (c’est-à-dire http://mydomain.com/robots.txt) et s’ils ne le trouvent pas là, ils supposent simplement que ce site n’a pas de fichier robots.txt et donc ils indexent tout ce qu’ils trouvent en chemin.

Ainsi, si vous ne placez pas le fichier robots.txt au bon endroit, ne soyez pas surpris que les moteurs de recherche indexent l’ensemble de votre site.

Le concept et la structure de robots.txt ont été développés il y a plus d’une décennie et si vous souhaitez en savoir plus à ce sujet, visitez http://www.robotstxt.org/ ou vous pouvez aller directement à la norme d’exclusion des robots car dans cet article, nous ne traiterons que des aspects les plus importants d’un fichier robots.txt. Nous poursuivrons ensuite avec la structure d’un fichier robots.txt.

Structure d’un fichier robots.txt

La structure d’un fichier robots.txt est assez simple (et à peine flexible) – il s’agit d’une liste interminable d’agents utilisateurs et de fichiers et répertoires interdits. 

En gros, la syntaxe est la suivante :

User-agent :

Disallow :

« User-agent » désigne les robots d’exploration des moteurs de recherche et « disallow : » énumère les fichiers et répertoires à exclure de l’indexation. En plus des entrées « user-agent : » et « disallow : », vous pouvez inclure des lignes de commentaires – il suffit de mettre le signe # au début de la ligne :

# Tous les agents utilisateurs ne sont pas autorisés à voir le répertoire /temp.

User-agent: *

Disallow: /temp/

Les pièges d’un fichier Robots.txt

Lorsque vous commencez à créer des fichiers complexes, c’est-à-dire lorsque vous décidez d’autoriser différents agents utilisateurs à accéder à différents répertoires, les problèmes peuvent commencer si vous ne prêtez pas une attention particulière aux pièges d’un fichier robots.txt. 

Les erreurs les plus courantes sont les fautes de frappe et les directives contradictoires. 

Les fautes de frappe sont les agents utilisateurs mal orthographiés, les répertoires, les deux-points manquants après User-agent et Disallow, etc. Les fautes de frappe peuvent être difficiles à repérer, mais dans certains cas, les outils de validation sont utiles.

Le problème le plus grave est celui des erreurs logiques. Par exemple :

User-agent: *

Disallow: /temp/

User-agent: Googlebot

Disallow: /images/

Disallow: /temp/

Disallow: /cgi-bin/

L’exemple ci-dessus provient d’un fichier robots.txt qui autorise tous les agents à accéder à tout ce qui se trouve sur le site, à l’exception du répertoire /temp. J

usqu’ici, tout va bien, mais plus loin, il y a un autre enregistrement qui spécifie des termes plus restrictifs pour Googlebot. Lorsque Googlebot commence à lire le fichier robots.txt, il constate que tous les agents utilisateurs (y compris Googlebot lui-même) sont autorisés à accéder à tous les dossiers sauf /temp/. 

Cela suffit à Googlebot pour savoir qu’il ne lira pas le fichier jusqu’au bout et indexera tout sauf /temp/ – y compris /images/ et /cgi-bin/, que vous pensez lui avoir dit de ne pas toucher. 

Vous voyez, la structure d’un fichier robots.txt est simple mais de graves erreurs peuvent être commises facilement.

Outils pour générer et valider un fichier robots.txt

Compte tenu de la syntaxe simple d’un fichier robots.txt, vous pouvez toujours le lire pour voir si tout est correct, mais il est beaucoup plus facile d’utiliser un validateur.

Ces outils signalent les erreurs courantes, comme les barres obliques ou les deux-points manquants, qui, si elles ne sont pas détectées, compromettent vos efforts. Par exemple, si vous avez tapé :

User agent: *

Disallow: /temp/

c’est faux car il n’y a pas de barre oblique entre « user » et « agent » et la syntaxe est incorrecte.

Dans ces cas-là, lorsque vous avez un fichier robots.txt complexe – c’est-à-dire que vous donnez des instructions différentes à des agents utilisateurs différents ou que vous avez une longue liste de répertoires et de sous-répertoires à exclure, l’écriture manuelle du fichier peut être un véritable calvaire. 

Mais ne vous inquiétez pas, il existe des outils qui génèrent le fichier pour vous. 

De plus, il existe des outils visuels qui permettent de pointer et de sélectionner les fichiers et dossiers à exclure. 

Mais même si vous n’avez pas envie d’acheter un outil graphique pour la génération de robots.txt, il existe des outils en ligne pour vous aider. 

Par exemple, le Server-Side Robots Generator propose une liste déroulante d’agents utilisateurs et une zone de texte dans laquelle vous pouvez indiquer les fichiers que vous ne voulez pas indexer. 

Honnêtement, ce n’est pas d’une grande aide, à moins que vous ne vouliez définir des règles spécifiques pour différents moteurs de recherche car, dans tous les cas, c’est à vous de taper la liste des répertoires, mais c’est plus que rien.

Laisser un commentaire