Savez-vous ce que sont les fichiers robots.txt?

Grâce au développement de Systèmes de Gestion de Contenu (CMS) robustes automatisant le processus de développement web, la création des sites se fait en un clin d’œil de nos jours. En quelques minutes, n’importe qui peut publier un site sur le web et le promouvoir sur un public large. Si vous voulez que votre site « soit trouvé » par les moteurs de recherche majeurs comme Google, il vous faudra un moyen d’annoncer votre présence. C’est là qu’intervient le simple mais puissant fichier robots.txt.

Qu’est-ce qu’un fichier Robots.txt?

Pour faire court, un fichier robots.txt est un petit fichier texte indiquant aux moteurs de recherche s’ils doivent indexer un site ou pas. Il est publié dans le répertoire racine d’un site afin qu’il puisse être vu par tout le monde. En réalité, le fichier robots.txt permet aux web crawlers ou « araignées » des moteurs de recherches comme Google ou Bing de mieux catégoriser le contenu.

Possibilités et applications courantes

De manière générale, un fichier robot.txt dit tout simplement à un moteur de recherche de parcourir le site en entier ou des répertoires en particulier en son sein. Il peut aussi veiller à ce que la plupart des moteurs de recherche ne parcourent pas le site pour une raison ou pour une autre. En d’autres termes, le fichier robots.txt permet aux webmasters d’exercer un contrôle poussé sur la manière dont les araignées des moteurs de recherche indexent leurs domaines. Le fichier robots.txt se base sur le robots exclusion standard pour assurer des résultats uniformes.

Avantages et inconvénients du format

Ce qui est bien avec le fichier robots.txt, c’est qu’il cachera les parties de votre site qui pourraient avoir un impact négatif sur votre référencement. Par exemple, les liens payants ou promotionnels dans certains répertoires pouvant être considérés comme du spam par un moteur de recherche peuvent être mis hors de vue. Le seul réel inconvénient du fichier robots.txt est qu’il peut ne pas empêcher les moteurs de recherche d’indexer des URL si d’autres sites publient des liens vers celles-ci.

Comment ajouter un fichier Robots.txt

Il est incroyablement facile de commencer à utiliser un fichier robots.txt. Tout d’abord, regardez si vous en avez déjà un. Tout ce que vous avez à faire, c’est entrer le nom de domaine de votre site dans votre navigateur et d’ajouter « /robots.txt » à la fin. Si vous n’avez pas de fichier robots.txt installé, créez un fichier texte vide et ajoutez quelques lignes simples pour indiquer au moteurs de recherche comme indexer votre site.

Trucs, astuces et bonnes pratiques

L’utilisation des fichiers robots.txt pour améliorer la visibilité de son site n’est pas un processus particulièrement compliqué. Veillez juste à utiliser les instructions standards d’exclusion communément acceptées et à éviter toute commande liée spécifiquement à un moteur de recherche comme Google ou Bing. Pour que les règles ne deviennent pas trop déroutantes, autorisez les moteurs de recherche à indexer l’ensemble du site par défaut, et bloquez des répertoires ou des pages selon vos besoins

Pourquoi les Robots.txt sont vraiment importants

Au final, les serveurs hébergeant les moteurs de recherche du monde se basent sur un certain nombre de standards pour « comprendre » le contenu du web. L’exclusion avec le standard robots n’est qu’un moyen de les aider à mieux faire leur travail. Si le fait que Google parcoure l’ensemble de votre ne vous pas de problème, alors vous n’avez pas besoin d’un fichier robots.txt. Vous pouvez rendre votre site plus efficace en utilisant ceci correctement.

Partager!Share on FacebookTweet about this on TwitterShare on Google+Email this to someone

Notre recommandation pour l'hébergement Web au Québec

WHC.ca

WHC.ca
Obtenez un rabais de 50% en utilisant notre lien.
Hébergement Web Canada est un hébergeur Web fiable avec un excellent service à la clientèle et l'installation de site Web en un clic. C'est notre recommandation pour héberger un site Web au Québec.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *