How to Improve Your Google Ranking : Myths and Reality

Le document « How to Improve Your Google Ranking : Myths and Reality » (traduction : Comment augmenter votre classement Google : mythes et réalité) est une publication scientifique qui présente des travaux de rétroingénierie sur le classement des sites dans les résultats de recherche de Google. Cette publication est très intéressante pour tous ceux qui s’intéressent au référencement et permet de casser certains mythes qui perdurent dans ce domaine d’activité. Cet article présente un rapport de lecture de cette publication.

Les hypothèses et rumeurs dans le domaine du référencement

Sachant que les moteurs de recherche ne dévoilent que la surface de certains de leurs algorithmes, les référenceurs doivent effectuer des tests ou spéculer sur l’importance de certains facteurs pour comprendre comment améliorer le positionnement d’un site dans les résultats de recherche. Pour preuve, il suffit de chercher le classement des critères les plus importants pour un bon référencement. Les référenceurs ne s’accordent pas tous de la même façon sur ces classements.

Par ailleurs, certains critères potentiels sont compliqués à tester. De ce fait, les référenceurs sont parfois obligés de faire des suppositions ou d’effectuer des tests. Certains référenceurs estiment par exemple que les blogs obtiennent un classement de moins bonne qualité que les sites dans les résultats de recherche en moyenne. Mais il y a tant de facteurs qui sont pris en compte qu’il n’est pas facile de vérifier cette hypothèse à l’aide d’un simple test.

Reverse engineering des algorithmes de Google

Cette publication utilise une méthode performante de reverse engineering. Ce chapitre va expliquer grossièrement la méthodologie utilisée sans aborder les détails techniques qui sont assez complexes.

Modèle utilisé pour faire le reverse-ingeniering de Google

Modèle utilisé pour faire le reverse-ingeniering de Google

Les auteurs de l’étude ont commencé par faire une liste de facteurs potentiels qui seraient utilisés par Google pour classer les pages dans les résultats de recherche :

La seconde étape utilisée dans cette étape a consisté à extraire les résultats de Google pour plusieurs requêtes et utiliser un algorithme d’apprentissage qui va essayer de deviner le poids des facteurs listés ci-dessus.

Résultat de l’outil de reverse engineering

Une fois que l’outil à suffisamment appris, il est possible de classer l’importance des facteurs par importance.

Résultat en utilisant l’algorithme d’optimisation linéaire :

  1. Pagerank
  2. Nom de domaine
  3. Title
  4. Meta description
  5. Chemin de l’URL
  6. Densité
  7. h1
  8. Age du domaine
  9. Lien
  10. h2
  11. h3
  12. Age de la page
  13. Nombre de pages indexées
  14. Meta keywords
  15. h4
  16. image
  17. h5

Résultat en utilisant l’algorithme « machine à vecteur de support (SVM) linaire »:

  1. Pagerank
  2. Nom de domaine
  3. Title
  4. Meta description
  5. Chemin de l’URL
  6. h1
  7. Densité
  8. h2
  9. Age du domaine
  10. h3
  11. Meta keywords
  12. Lien
  13. Image
  14. h4
  15. Nombre de pages indexées
  16. h5
  17. Age de la page

D’une manière générale, l’ordre d’importance avec ces 2 algorithmes est similaire. Il est possible de s’accorder sur les balises les plus importances et celles qui sont peu ou pas du tout utilisée. Les plus importants semble être le PageRank (donc indirectement le netlinking), le nom de domaine, le title, la meta description et le chemin de l’URL.

Dans les résultats, on constate que les balises meta description et meta keywords sont présentes dans les résultats alors que Matt Cutts (ingénieur Google) a annoncé que les balises meta ne sont plus utilisées depuis longtemps pour classer l’ordre des pages. Cette présence semble donc être une coïncidence qui s’explique indirectement par deux raisons potentielles :

Cette étude présente aussi un résultat étonnant. En comparant le positionnement de sites et de blogs, les auteurs de l’étude ont constaté que les sites obtiennent un meilleur positionnement que les blogs. Deux exemples sont présentés. Une première page issue d’une blog est en 62ème position sur Google alors qu’elle aurait été en 22ème position si elle avait été publiée sur un site. Une autre page issue d’un blog est classée à la 32ème position alors qu’elle aurait été en 8ème position sur Google si elle avait été publiée sur un site.

Enfin, les auteurs de la publication présentent un résultat qui dévoile que les erreurs de validation aux recommandations du W3C n’importent pas dans le classement de Google. Un site qui n’est pas conforme aux recommandations du W3C peut donc obtenir un positionnement similaire à un site entièrement valide W3C.

Résultat à modérer

Tous ces résultats sont à prendre en compte avec beaucoup de parcimonie pour les raisons suivantes :

En conclusion

Pour conclure, il est clair que cette publication est intéressante pour s’assurer de l’importance de certains facteurs et confirmer quelques hypothèses. Toutefois, les résultats sont fébriles. Il faut éviter de se faire des idées préconçues sinon les métiers du web vont s’adapter à Google au lieu de l’inverse. Pour preuve, les résultats concernant les balises meta sont disproportionnés alors qu’elles ne semblent pas utilisées dans les algorithmes de classement des pages. Ce qui serait très intéressant pour poursuivre cette étude, c’est d’intégrer de nouveaux facteurs à ceux présentés (dont le nombre de like sur Facebook, de +1 sur Google+ et de Tweets).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.