How to Improve Your Google Ranking : Myths and Reality

Le document « How to Improve Your Google Ranking : Myths and Reality » (traduction : Comment augmenter votre classement Google : mythes et réalité) est une publication scientifique qui présente des travaux de rétroingénierie sur le classement des sites dans les résultats de recherche de Google. Cette publication est très intéressante pour tous ceux qui s’intéressent au référencement et permet de casser certains mythes qui perdurent dans ce domaine d’activité. Cet article présente un rapport de lecture de cette publication.

Les hypothèses et rumeurs dans le domaine du référencement

Sachant que les moteurs de recherche ne dévoilent que la surface de certains de leurs algorithmes, les référenceurs doivent effectuer des tests ou spéculer sur l’importance de certains facteurs pour comprendre comment améliorer le positionnement d’un site dans les résultats de recherche. Pour preuve, il suffit de chercher le classement des critères les plus importants pour un bon référencement. Les référenceurs ne s’accordent pas tous de la même façon sur ces classements.

Par ailleurs, certains critères potentiels sont compliqués à tester. De ce fait, les référenceurs sont parfois obligés de faire des suppositions ou d’effectuer des tests. Certains référenceurs estiment par exemple que les blogs obtiennent un classement de moins bonne qualité que les sites dans les résultats de recherche en moyenne. Mais il y a tant de facteurs qui sont pris en compte qu’il n’est pas facile de vérifier cette hypothèse à l’aide d’un simple test.

Reverse engineering des algorithmes de Google

Cette publication utilise une méthode performante de reverse engineering. Ce chapitre va expliquer grossièrement la méthodologie utilisée sans aborder les détails techniques qui sont assez complexes.

Modèle utilisé pour faire le reverse-ingeniering de Google

Les auteurs de l’étude ont commencé par faire une liste de facteurs potentiels qui seraient utilisés par Google pour classer les pages dans les résultats de recherche :

Pagerank de la page
Age de la page
Mot-clé dans le nom de domaine
Mot-clé dans le chemin de l’URL (URL sans le nom de domaine)
Nombre de pages du site indexées par Google
Age du site sur lequel la page se situe
Mot clé dans la balise titre de la page (balise <title> dans le <head>)
Mot-clé dans la balise meta keywords
Mot-clé dans la balise meta description
Densité du mot-clé
Mot-clé dans la balise h1
Mot-clé dans la balise h2
Mot-clé dans la balise h3
Mot-clé dans la balise h4
Mot-clé dans la balise h5
Mot-clé dans des ancres de liens
Mot-clé dans les attributs d’une image

La seconde étape utilisée dans cette étape a consisté à extraire les résultats de Google pour plusieurs requêtes et utiliser un algorithme d’apprentissage qui va essayer de deviner le poids des facteurs listés ci-dessus.

Résultat de l’outil de reverse engineering

Une fois que l’outil à suffisamment appris, il est possible de classer l’importance des facteurs par importance.

Résultat en utilisant l’algorithme d’optimisation linéaire :

Pagerank
Nom de domaine
Title
Meta description
Chemin de l’URL
Densité
h1
Age du domaine
Lien
h2
h3
Age de la page
Nombre de pages indexées
Meta keywords
h4
image
h5

Résultat en utilisant l’algorithme « machine à vecteur de support (SVM) linaire »:

Pagerank
Nom de domaine
Title
Meta description
Chemin de l’URL
h1
Densité
h2
Age du domaine
h3
Meta keywords
Lien
Image
h4
Nombre de pages indexées
h5
Age de la page

D’une manière générale, l’ordre d’importance avec ces 2 algorithmes est similaire. Il est possible de s’accorder sur les balises les plus importances et celles qui sont peu ou pas du tout utilisée. Les plus importants semble être le PageRank (donc indirectement le netlinking), le nom de domaine, le title, la meta description et le chemin de l’URL.

Dans les résultats, on constate que les balises meta description et meta keywords sont présentes dans les résultats alors que Matt Cutts (ingénieur Google) a annoncé que les balises meta ne sont plus utilisées depuis longtemps pour classer l’ordre des pages. Cette présence semble donc être une coïncidence qui s’explique indirectement par deux raisons potentielles :

Certains webmasters pensent encore que ces balises sont utilisés dans l’algorithme de classement de Google
Ces balises sont complétées car elles sont utilisées indirectement par certains outils. La balise meta description est utilisé dans la génération des snippets de Google tandis que les mots-clés de la balise meta-keywords est parfois reprise par des outils (scripts d’annuaires ou outils d’indexation des noms de domaine).

Cette étude présente aussi un résultat étonnant. En comparant le positionnement de sites et de blogs, les auteurs de l’étude ont constaté que les sites obtiennent un meilleur positionnement que les blogs. Deux exemples sont présentés. Une première page issue d’une blog est en 62ème position sur Google alors qu’elle aurait été en 22ème position si elle avait été publiée sur un site. Une autre page issue d’un blog est classée à la 32ème position alors qu’elle aurait été en 8ème position sur Google si elle avait été publiée sur un site.

Enfin, les auteurs de la publication présentent un résultat qui dévoile que les erreurs de validation aux recommandations du W3C n’importent pas dans le classement de Google. Un site qui n’est pas conforme aux recommandations du W3C peut donc obtenir un positionnement similaire à un site entièrement valide W3C.

Résultat à modérer

Tous ces résultats sont à prendre en compte avec beaucoup de parcimonie pour les raisons suivantes :

Il ne faut pas confondre « cause » et « conséquence ». Par exemple, on peut considérer que lorsqu’il pleut l’herbe est mouillée. Pourtant si l’herbe est mouillée, il n’a pas forcément eu de pluie (exemple: arrosage automatique) et lorsqu’il pleut l’herbe n’est pas forcément mouillée (exemple : bâche pour protéger le gazon). Il en est de même pour le constat de cette étude.
Les requêtes étudiées ne représente pas un large panel des requêtes possibles. Google utilise sûrement différents algorithmes selon la requête (requête locale ? terme générique ? nom de marque? …).
Peu de requêtes ont été utilisées (15 pour l’algorithme d’apprentissage et 45 pour comparer).
De très nombreux facteurs n’ont pas été pris en compte (liens, taux de rebond vers Google, trustrank, mises à jour régulière du contenu, taux de publication de nouveau contenu …).
L’étude a été effectuée en 2010. Or les algorithmes de Google change et s’améliore rapidement.
Il est difficile de comprendre comment ont procédé les auteurs pour prendre en compte certains facteurs. Pour les images, ils n’ont pas précisé s’ils ont utilisé le nom de l’image ou l’attribut alternatif. De plus, la présence du mot-clé dans le titre est à associer à la notion de densité, de proximité et de proéminence, or la publication ne fait pas état de cela, ce qui peut biaiser les résultats.

En conclusion

Pour conclure, il est clair que cette publication est intéressante pour s’assurer de l’importance de certains facteurs et confirmer quelques hypothèses. Toutefois, les résultats sont fébriles. Il faut éviter de se faire des idées préconçues sinon les métiers du web vont s’adapter à Google au lieu de l’inverse. Pour preuve, les résultats concernant les balises meta sont disproportionnés alors qu’elles ne semblent pas utilisées dans les algorithmes de classement des pages. Ce qui serait très intéressant pour poursuivre cette étude, c’est d’intégrer de nouveaux facteurs à ceux présentés (dont le nombre de like sur Facebook, de +1 sur Google+ et de Tweets).

Similaire

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.