Tout les moteurs de recherche commence l'exploration d'un site web en cherchant le fichier robots.txt à la racine du site. Le fichier texte robots.txt contient des commandes à destination des robots d'indexation des moteurs de recherche afin de leur préciser les pages qui peuvent être indexées.
Le fichier robots.txt peut contenir les commandes suivantes :
- User-Agent : permet de préciser le robot concerné par les directives suivantes. La valeur * signifie "tous les moteurs de recherche".
- Disallow : permet d'indiquer les pages à exclure de l'indexation. Chaque page ou chemin à exclure doit être sur une ligne à part et doit commencer par /. La valeur / seule signifie "toutes les pages du site".
Quelques User-Agents
| Nom du moteur | User-Agent |
|---|---|
| Googlebot | |
| Voilà | Echo |
| Excite | ArchitextSpider |
| HotBot | Slurp |
| InfoSeek | InfoSeek Sidewinder |
| Lycos | T-Rex |
| Alta Vista | Scooter |
Attention : Le fichier robots.txt ne doit contenir aucune ligne vide !
Voici des exemples de fichier robots.txt :
Exclusion de toutes les pages :
User-Agent: *
Disallow: /
Exclusion d'aucune page (équivalent à l'absence de fichier robots.txt, toutes les pages sont visitées) :
User-Agent: *
Disallow:
Autorisation d'un seul robot :
User-Agent: nomDuRobot
Disallow :
User-Agent: *
Disallow: /
Exclusion d'un robot :
User-Agent: NomDuRobot
Disallow: /
User-Agent: *
Disallow:
Exclusion d'une page :
User-Agent: *
Disallow: /repertoire/chemin/page.html
Exclusion de plusieurs page :
User-Agent: *
Disallow: /repertoire/chemin/page.html
Disallow: /repertoire/chemin/page2.html
Disallow: /repertoire/chemin/page3.html
Exclusion de toutes les pages d'un répertoire et ses sous-dossiers :
User-Agent: *
Disallow: /repertoire/
Faire un portrait robot - Pour avoir des animaux sur son bureau - Pour tester votre QI - Pour créer son super héros -
Pour voir votre visage vieillir plus tard - Créer votre assistant virtuelTélécharger GRATUITEMENT des polices
Trouvez-tout.fr - Depuis 2009 - Tous droits réservés Mon CV - Me contacter - Plan du site - Autre liens