Google prend-il vraiment en compte votre robots.txt ?

Titre un peu racoleur mais sans faire de raccourci trop généralisé, voici un exemple intéressant du comportement de Google vis-à-vis du robots.txt.

Par définition, le robots.txt d’un site, placé à sa racine, doit informer les moteurs de recherche des pages et/ou sections de site qui ne sont pas censées être indexées. Par convention, les robots tels que GoogleBot ou BingBot consultent robots.txt avant d’indexer un site Web.

Testons quelques requêtes sur Google.fr.

Essayons “portable sony ericsson”, requête plutôt mid-tail (1900 requêtes en “exact” sur selon Google Keyword External Tool), fort potentiel ecommerce…etc.

Tiens, tiens, le premier résultat appartient bien au site officiel de Sony Ericsson mais apparaît sans title défini et sans meta description. Google aurait-il “forcé” son apparition?

Un petit tour sur la page et une belle “erreur technique” apparaît. Expérience utilisateur nul. Sony avait bien pris toutes ses précautions en bloquant cette page mais big G en a décidé autrement et a préféré rediriger l’internaute vers une page moisie.

Allons faire un tour dans le robots.txt de ce sous-domaine :

Intéressant, selon ce robots.txt, que GoogleBot est censé suivre à la lettre, tous les répertoires de shop.sonyericsson.com devraient être bloqués et non indexés. En théorie.

Il n’en est donc rien, puisque GoogleBot va tranquillement crawler et indexer les pages de ce sous-domaine et, cela est plus embêtant, les placer en tête de liste des SERPS.

Un exemple ne vaut pas généralité mais j’en ai bien d’autres de la sorte à vous proposer si vous souhaitez.

Google indexe et positionne donc des pages bloquées dans le robots.txt… Avez-vous déjà rencontré ce genre de phénomène? La meilleure solution reste semble-t-il donc le “noindex” dans le header assiociée à une suppression manuelle depuis Google Webmaster Tools.

Le site du navigateur Chrome pénalisé par… Google !

Le site Google Chrome (http://www.google.com/chrome) avait récemment été attrapé par la patrouille pour avoir effectué des achats de liens sous forme d’articles sponsorisés.

Une petite recherche sur Google comme celle-ci vous permettra sans mal de retrouver certains de ces articles sponsorisés.

Google serait passé par deux agences de webmarketing (Essence Digital et Unruly) qui auraient lancé ces campagnes sans réel suivi de la part de Google.

Voici ce que Google a concrêtement communiqué sur la pénalité du site Google Chrome : “We’ve investigated and are taking manual action to demote www.google.com/chrome and lower the site’s PageRank for a period of at least 60 days. En gros, le PageRank du site Google Chrome serait dévalorisé pendant deux mois.

On connait de plus en plus l’inutilité, ou du moins la non-précision de cet outil de mesure.

Néanmoins, il semble que le site n’apparaît plus du tout sur certaines requêtes comme “web browser” ou encore, et c’est bien plus contraignant “Google Chrome” :

Plusieurs choses me gênent dans cette action :

-Google persiste chaque année à dire que le PR n’est pas révélateur de la popularité d’un site et de sa visibilité sur son moteur. Quel est donc le but de cette décision?

-Google indique que la pénalité durera 30 jours : aucun site qui a été pénalisé par Google dans son index n’a eu d’informations sur la durée de pénalité. Pourquoi ce traitement de faveur? Que doit-on en conclure? Serait-ce la même durée à envisager pour un autre site autre que Google?

-Que Chrome n’apparaisse pas lorsque l’on recherche “web browser” ou “browser”, pourquoi pas. Néanmoins, pourquoi déclasser (blacklister?) le site sur la requête de la marque “Google Chrome”? Google préfère que les internautes soient redirigés vers des sites de téléchargement hyper optimisés SEO avec un max de pub? Je ne comprends pas trop ce choix.

-Ne serait-ce pas enfin un gros coup de pub de Google pour Chrome mais aussi et surtout pour son algo afin de montrer que big G est prêt à pénaliser n’importe qui, y compris son propre domaine?

A voir dans 60 jours ou avant si la pénalité est levée sur certaines requêtes et si le PR revient.

PS : Google n’en est pas à son premier coup d’essai puisqu’en 2009, le moteur américain avait pénalisé son site japonais pour les mêmes raisons.

Google pénaliserait les sites ayant trop de publicités !

Pendant la célèbre conférence PubCon, Matt Cutts, directeur de la cellule Qualité de Google Search a sorti une phrase qui n’est pas passée inaperçue auprès de Danny Sullivan et autres webmasters :

“If you have ads obscuring your content, you might want to think about it,” asking publishers to consider, “Do they see content or something else that’s distracting or annoying?”

Autrement dit, Google est en train de réfléchir à l’implémentation d’une mise à jour de son algorithme qui pénaliserait les sites / pages présentant trop de publicités pour le contenu “utile” affiché.

Serait-ce l’hôpital qui se fout de la charité ? A l’heure où les départements Sales de Google n’hésitent pas à contacter les éditeurs pour afficher plus de pubs sur leurs sites et les annonceurs pour acheter plus de visibilité, il est bon de donner un exemple concret de page de résultat Google sur un écran classique (en rouge, les pubs, en vert les (le?) résultats naturels.

Vont-ils pénalisés les sites qui sont truffés d’Adsense ou seulement ceux passant par une autre régie ? Les régies publicitaires peuvent logiquement commencer à trembler…

La carte d’identité d’un lieu déployée sur Google France

Google avait déjà testé l’ajout d’informations sur les personnalités sur la droite des résultats sur Google.com.

Depuis ce matin, sur Google.fr, on peut voir de nouvelles informations associées à un lieu précis dans les résultats de recherche.

Par exemple si vous recherchez le nom d’un restaurant, d’une salle de concert ou d’une boutique, vous verrez apparaître une sorte de carte d’identité du lieu made in Google.

Au menu :

-une carte issue de Google Maps avec un lien “Itinéraire” qui calcule votre trajet en fonction de votre position actuelle

-les horaires d’ouverture et jours de fermeture

-des photos du lieu

-le métro le plus proche

-des liens vers des sites d’avis (TripAdvisor, Qype en première ligne)

-un lien “Commentaires” en bas de la carte d’identité afin de signaler un problème quelconque sur la fiche du lieu

tour d'argent google

Google teste la suppression du nom des sites dans les titles

Un titre un peu racoleur je l’avoue…

On savait que Google avait tendance, pour certains types de sites, à remplacer la jolie meta description proposée par les webmasters, par 3 lignes listées par des points reprenant le plus souvent des offres de la page correspondante.

On savait aussi que Google modifiait depuis peu les titles des pages pour en afficher une version “lightée” afin de supprimer toute redondance.

Un nouveau test vient d’apparaître, légèrement plus étonnant.

Exemple avec la page “Raquette de Tennis Nadal” d’un comparateur tendance ces temps-ci ;-) .

Title proposé dans le code : <title>Raquette de tennis Nadal | Achat Raquette de tennis Nadal sur Twenga</title>

Title modifié et affiché par Google : <title>Raquette de tennis Nadal – Tennis – Twenga</title>

On se dit que Google en a fini, mais non, le moteur a décidé de carrément supprimer le nom Twenga du title dans une nouvelle version pour donner quelque chose de très minimaliste (voir ci-dessous).

Qu’en pensez-vous?

Il ne s’agit que d’un test qui aurait peu de chances de s’appliquer sur la majorité des requêtes.

Google veut-il supprimer les notions de marques dans les SERP et donner à l’internaute une page hyper-lightée, avec des titles très proches ? L’internaute ne serait donc pas influencé par la marque ; et les critères de qualité, notamment le taux de rebond serait peut-être ainsi plus significatifs?

Nouvel affichage Google des résultats pour les personnalités

Google est actuellement en train de tester un nouvel affichage pour les requêtes relatives aux célébrités.

Exemple ci-dessous avec “Rihanna”.

Les nouveautés :

-une image principale

-des informations sur le physique (taille, poids)

-la date et le lieu de naissance

-une courte biographie issue de Wikipedia

-des titres de chansons si chanteur (films si acteur…etc)

-des artistes similaires

-des informations familiales (parents, conjoint(e)…etc)

rihanna google serp

Nouvel algo Google : 35% des requêtes impactées pour plus de fraîcheur

Notre meilleur ami Google, moteur de recherche numéro un dans le monde, vient d’annonce la mise à jour de son algorithme de recherche.

Attention à ne pas confondre 35% des requêtes avec 35% des mots clés ! Ce qui est sensiblement bien différent.
Ce nouvel algorithme a été mis en place grâce notamment à l’architecture Caffeine de 2010 qui permet le crawl massif de nouveaux contenus, plus frais.
Google va donc décider d’afficher des résultats récents (articles, news…etc) sur des requêtes bien spécifiques, généralement très génériques ou répondant à des noms de célébrités ou évènements par exemple.

La fraîcheur d’une page va donc être primordiale pour le classement de celle-ci sur le moteur. Cette fraîcheur correspond simplement à la date et l’heure à laquelle le moteur a découvert le document pour la première fois. Même si une mise à jour a lieu sur le contenu, cette date n’en sera pas modifiée.

Quelques types de requêtes qui risquent d’être impactés :
- “football” : requête très générique où de plus en plus de contenu frais sont nécessaires avec les derniers résultats de matches ou transferts.
- “roland garros” : requête évènementielle en plein tournoi qui fera apparaitre les tous derniers articles à ce sujet
- “brad pitt” : les dernières infos sur une célébrité, tournages, photos, films, interviews..etc.

On ne sait pas non plus sur quel(s) index Google va déployer ce nouvel algo. Il est certain que l’index US sera visé en priorité mais on n’en sait pas plus sur le reste du monde et particulièrement la France.

Concrètement, comment cela va se caractériser dans les résultats du moteur.

Google va simplement afficher de manière plus massive des liens vers les pages “fraîches” qui répondent à la requête. Quelques exemples ci-dessous déjà en live mais qui vont probablement devenir plus importants avec cette nouvelle annonce.

Google incite encore plus les internautes à bloquer les domaines dans les SERP

En Juillet dernier, Google a lancé une extension Chrome appelée Personal Blocklist qui donne la possibilité aux internautes de bloquer des domaines afin de ne plus les voir apparaître dans les résultats de recherche. Ces domaines font ensuite partie d’une liste accessible via Chrome ou l’internaute peut débloquer facilement un domaine.

personal blocklist google

Même si Google a confirmé que les données envoyées par les internautes n’étaient pas utilisés à des fins algorithmiques (pour Panda par exemple) mais plus pour des confirmations ou analyses.

Je peine à croire que ces données ne soient pas justement utilisées avec des seuils pour faire sortir des sites du lot et le mettre en haut de la liste des Quality Raters.

bloquer domaine serp google

Un changement mineur est intervenu depuis quelques jours. Presque invisble mais qui en dit long sur la volonté de Google à mon avis.

Si vous cliquez sur un lien depuis une page de résultats Google et que vous revenez sur Google avec la flèche arrière (autrement dit, si vous “bouncez”), le lien “Bloquer domaine.com” devient quelques instants rouge !

bloquer lien rouge googleCette petite modification attire l’oeil sur la fonctionnalité de blocage des domaines via Google.

Si on va (un tout petit peu) plus loin, pourquoi Google souhaite-t-il  à tout prix que l’internaute bloque ce domaine? Car il vient de bouncer évidemment !

Le taux de rebond influe sur le classement, on le savait déjà plus ou moins (on ne sait pas dans quelle mesure) mais la question est de savoir pourquoi Google tient-il tant à ce que l’internaute bloque un DOMAINE s’il ne vient de rebondir “que” sur une PAGE…

Est-ce lié aux enseignements tirés de Google Panda qui, entre autres, montraient que quelques pages de faible qualité pouvaient pénaliser un (sous-)domaine entier? J’y vois une certaine corrélation. Certaines pages avec une fort taux de rebond peuvent être négatives pour votre site.

Et si Google incite encore plus à bloquer des domaines, ne paraîtrait-il pas normal d’utiliser ces données à des fins algorithmiques en amont ou en aval des mises à jour de l’index?

Google Panda déployé en France

Le 12 Août 2011 sera une date gravée à jamais dans l’histoire de Google en Europe, qui vient de déployer son devenu célèbre filtre-update “Panda” sur toutes les langues (sauf chinois, japonais et coréens). Cette mise à jour va donc impacter les résultats du moteur de recherche Google France.

Voici la source officielle : http://googlefrance.blogspot.com/2011/08/lla-mise-jour-panda-pour-une-meilleure_12.html

“Cette mise à jour impacte les résultats perçus par les utilisateurs pour en moyenne 6 à 9% des requêtes, tous langages confondus. L’impact de ce changement est moindre que celui du lancement initial de Panda, qui affectait environ 12% des résultats perçus par les utilisateurs pour les requêtes anglophones. Cette mise à jour s’effectue pour toutes les langues sauf le chinois, le japonais et le coréen, pour lesquels nous continuons à tester des améliorations potentielles.”

panda google france

Google met en place des maxi-sitelinks

Depuis son matin, on voit apparaitre un nouveau type de sitelinks. bien plus gros et imposants que les précédents.

Ils apparaissent le plus souvent sur les noms de marque ou de gros sites marchands comme ici “La Redoute”, “Rue du Commerce” ou “CDiscount”. Amazon, 3 Suisses et Spartoo ont aussi ce mode d’affichage de sitelinks.

Cet affichage apporte évidemment beaucoup plus de visibilité pour les sites et permet à l’internaute de se diriger rapidement vers la section du site qui l’intéresse (Destockage, High Tech, Sports, Electroménager…etc). Il ne manque plus que la barre de recherche intégrée à la page de résultats Google (comme on peut la voir pour “Wikipedia”) et la boucle serait bouclée.

maxi-sitelinks-la-redoute

sitelinks-rdc

cdiscount-sitelinks

D’autres gros sites marchands n’ont pas encore ce mode d’affichage de sitelinks (par exemple Pixmania).