How to Improve Your Google Ranking : Myths and Reality

Le document « How to Improve Your Google Ranking : Myths and Reality » (traduction : Comment augmenter votre classement Google : mythes et réalité) est une publication scientifique qui présente des travaux de rétroingénierie sur le classement des sites dans les résultats de recherche de Google. Cette publication est très intéressantes pour tout ceux qui s’intéressent au référencement et permet de casser certains mythes qui perdurent dans ce domaine d’activité. Cet article présente un rapport de lecture de cette publication.

Les hypothèses et rumeurs dans le domaine du référencement

Sachant que les moteurs de recherche ne dévoilent que la surface de certains de leurs algorithmes, les référenceurs doivent effectuer des tests ou spéculer sur l’importance de certains facteurs pour comprendre comment améliorer le positionnement d’un site dans les résultats de recherche. Pour preuve il suffit de chercher le classement des critères les plus importants pour un bon référencement. Les référenceurs ne s’accordent pas tous de la même façon sur ces classements.

Par ailleurs, certains critères potentiels sont compliqués à tester. De ce fait, les référenceurs sont parfois obligé de faire des suppositions ou d’effectuer des tests. Certains référenceurs estiment par exemple que les blogs obtiennent un classement de moins bonne qualité que les sites dans les résultats de recherche en moyenne. Mais il y a tant de facteurs qui sont pris en compte qu’il n’est pas facile de vérifier cette hypothèse à l’aide d’un simple test.

Reverse engineering des algorithmes de Google

Cette publication utilise une méthode performante de reverse engineering. Ce chapitre va expliquer grossièrement la méthodologie utilisée sans aborder les détails techniques qui sont assez complexes.

Modèle utilisé pour faire le reverse-ingeniering de Google

Modèle utilisé pour faire le reverse-ingeniering de Google

Les auteurs de l’étude ont commencés par faire une liste de facteurs potentiels qui seraient utilisée par Google pour classer les pages dans les résultats de recherche :

  • Pagerank de la page
  • Age de la page
  • Mot-clé dans le nom de domaine
  • Mot-clé dans le chemin de l’URL (URL sans le nom de domaine)
  • Nombre de pages du site indexées par Google
  • Age du site sur lequel la page se situe
  • Mot clé dans la balise titre de la page (balise <title> dans le <head>)
  • Mot-clé dans la balise meta keywords
  • Mot-clé dans la balise meta description
  • Densité du mot-clé
  • Mot-clé dans la balise h1
  • Mot-clé dans la balise h2
  • Mot-clé dans la balise h3
  • Mot-clé dans la balise h4
  • Mot-clé dans la balise h5
  • Mot-clé dans des ancres de liens
  • Mot-clé dans les attributs d’une image

La seconde étape utilisé dans cette étape à consisté à extraire les résultats de Google pour plusieurs requêtes et utiliser un algorithme d’apprentissage qui va essayer de deviner le poids des facteurs listés ci-dessus.

Résultat de l’outil de reverse engineering

Une fois que l’outil à suffisamment appris, il est possible de classer l’importance des facteurs par importance.

Résultat en utilisant l’algorithme d’optimisation linéaire:

  1. Pagerank
  2. Nom de domaine
  3. Title
  4. Meta description
  5. Chemin de l’URL
  6. Densité
  7. h1
  8. Age du domaine
  9. Lien
  10. h2
  11. h3
  12. Age de la page
  13. Nombre de pages indexées
  14. Meta keywords
  15. h4
  16. image
  17. h5

Résultat en utilisant l’algorithme « machine à vecteur de support (SVM) linaire »:

  1. Pagerank
  2. Nom de domaine
  3. Title
  4. Meta description
  5. Chemin de l’URL
  6. h1
  7. Densité
  8. h2
  9. Age du domaine
  10. h3
  11. Meta keywords
  12. Lien
  13. Image
  14. h4
  15. Nombre de pages indexées
  16. h5
  17. Age de la page

D’une manière générale l’ordre d’importance avec ces 2 algorithmes est similaire. Il est possible de s’accorder sur les balises les plus importances et celles qui sont peu ou pas du tout utilisée. Les plus importants semble être le PageRank (donc indirectement le netlinking), le nom de domaine, le title, la meta description et le chemin de l’URL.

Dans les résultats ont constate que les balises meta description et meta keywords sont présentes dans les résultats alors que Matt Cutts (ingénieur Google) à annoncé que les balises meta ne sont plus utilisées depuis longtemps pour classer l’ordre des pages. Cette présence semble donc être une coïncidence qui s’explique indirectement par deux raisons potentielles:

  • Certains webmasters pensent encore que ces balises sont utilisés dans l’algorithme de classement de Google
  • Ces balises sont complété car elles sont utilisés indirectement par certains outils. La balise meta description est utilisé dans la génération des snippets de Google tandis que les mots-clés de la balise meta-keywords est parfois reprise par des outils (scripts d’annuaires ou outils d’indexation des noms de domaine).

Cette étude présente aussi un résultat étonnant. En comparant le positionnement de sites et de blogs, les auteurs de l’étude ont constatés que les sites obtiennent un meilleur positionnement que les blogs. Deux exemple sont présentés. Une première page issue d’une blog est en 62ème position sur Google alors qu’elle aurait été en 22ème position si elle avait été publiée sur un site. Une autre page issue d’un blog est classée à la 32ème position alors qu’elle aurait été en 8ème position sur Google si elle avait été publiée sur un site.

Enfin, les auteurs de la publication présentent un résultat qui dévoile que les erreurs de validation aux recommandations du W3C n’importent pas dans le classement de Google. Un site qui n’est pas conforme aux recommandations du W3C peut donc obtenir un positionnement similaire à un site entièrement valide W3C.

Résultat à modérer

Tous ces résultats sont à prendre en compte avec beaucoup de parcimonie pour les raisons suivantes:

  • Il ne faut pas confondre « cause » et « conséquence ». Par exemple, on peut considérer que lorsqu’il pleut l’herbe est mouillée. Pourtant si l’herbe est mouillé, il n’a pas forcément eu de pluie (exemple: arrosage automatique) et lorsqu’il pleut l’herbe n’est pas forcément mouillé (exemple : bâche pour protéger le gazon). Il en est de même pour le constat de cette étude.
  • Les requêtes étudiées ne représente pas un large panel des requêtes possible. Google utilise sûrement des algorithmes différents selon la requête (requête locale? terme générique? nom de marque? …).
  • Peu de requêtes ont été utilisées (15 pour l’algorithme d’apprentissage et 45 pour comparer).
  • De très nombreux facteurs n’ont pas été pris en compte (liens, taux de rebond vers Google, trustrank, mises à jour régulière du contenu, taux de publication de nouveau contenu …).
  • L’étude à été effectuée en 2010. Or les algorithmes de Google change et s’améliore rapidement.
  • Il est difficile de comprendre comment ont procédé les auteurs pour prendre en compte certains facteurs. Pour les images, ils n’ont pas précisé s’ils ont utilisés le nom de l’image ou l’attribut alternatif. De plus, la présence du mot-clé dans le titre est à associer à la notion de densité, de proximité et de proéminence, or la pulication ne fait pas état de cela ce qui peut biaiser les résultats.

En conclusion

Pour conclure, il est clair que cette publication est intéressante pour s’assurer de l’importance de certains facteurs et confirmer quelques hypothèses. Toutefois, les résultats sont fébriles. Il faut éviter de se faire des idées préconçu sinon les métiers du web vont s’adapter à Google au lieu de l’inverse. Pour preuve, les résultats concernant les balises meta sont disproportionnée alors qu’elles ne semble pas utilisées dans les algorithmes de classement des pages. Ce qui serait très intéressant pour poursuivre cette étude c’est d’intégrer de nouveaux facteurs à ceux présentés (dont le nombre de like sur Facebook, de +1 sur Google+ et de Tweets).

Publié dans SEO

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *