Titre un peu racoleur mais sans faire de raccourci trop généralisé, voici un exemple intéressant du comportement de Google vis-à-vis du robots.txt.
Par définition, le robots.txt d’un site, placé à sa racine, doit informer les moteurs de recherche des pages et/ou sections de site qui ne sont pas censées être indexées. Par convention, les robots tels que GoogleBot ou BingBot consultent robots.txt avant d’indexer un site Web.
Testons quelques requêtes sur Google.fr.
Essayons “portable sony ericsson”, requête plutôt mid-tail (1900 requêtes en “exact” sur selon Google Keyword External Tool), fort potentiel ecommerce…etc.
Tiens, tiens, le premier résultat appartient bien au site officiel de Sony Ericsson mais apparaît sans title défini et sans meta description. Google aurait-il “forcé” son apparition?
Un petit tour sur la page et une belle “erreur technique” apparaît. Expérience utilisateur nul. Sony avait bien pris toutes ses précautions en bloquant cette page mais big G en a décidé autrement et a préféré rediriger l’internaute vers une page moisie.
Allons faire un tour dans le robots.txt de ce sous-domaine :
Intéressant, selon ce robots.txt, que GoogleBot est censé suivre à la lettre, tous les répertoires de shop.sonyericsson.com devraient être bloqués et non indexés. En théorie.
Il n’en est donc rien, puisque GoogleBot va tranquillement crawler et indexer les pages de ce sous-domaine et, cela est plus embêtant, les placer en tête de liste des SERPS.
Un exemple ne vaut pas généralité mais j’en ai bien d’autres de la sorte à vous proposer si vous souhaitez.
Google indexe et positionne donc des pages bloquées dans le robots.txt… Avez-vous déjà rencontré ce genre de phénomène? La meilleure solution reste semble-t-il donc le “noindex” dans le header assiociée à une suppression manuelle depuis Google Webmaster Tools.










