[Note de Lecture] BrowseRank : Letting Web Users Vote for Page Importance

Le BrowseRank est le nom d'une méthode permettant de déterminer la qualité d'une page web. Développé par des chercheurs de Microsoft et publié dans un document intitulé "BrowseRank: Letting Web Users Vote for Page Importance", la méthode peut s'avérer utile pour un moteur de recherche.

Résumé de la publication

Dans les algorithmes des moteurs de recherche, l'une des méthodes permettant de déterminer la popularité et le taux de confiance des pages est déterminée à partir de l'analyse des liens. A titre d'exemple, il est possible de citer le PageRank (détermine la popularité des pages pour Google) ou encore le TrustRank (détermine le taux de confiance des pages pour Yahoo). Malheureusement, ces algorithmes peuvent être tirés à leurs avantages par les webmasters/référenceurs, grâce à une bonne gestion du netlinking. De ce fait, ces algorithmes peuvent être faussés.

L'idée principale du BrowseRank consiste à récupérer des données à partir de la navigation d'internautes. Ces données, qui peuvent être récupérées grâce à une barre d'outils sur un navigateur, ne sont pas nécessairement nombreuses. Dans la publication, uniquement trois données sont utilisées: l'URL de la page visitée, le moment de la visite et le type de visite (si le visiteur à suivis un lien où s'il a entré l'adresse directement dans le navigateur).

Récolte des données utiles au BrowseRank

Récolte des données utiles au BrowseRank

Les tests expérimentaux ont montrés que le BrowseRank est plus profitable que le PageRank et le TrustRank pour à la fois déterminer la popularité des pages et également combattre le web spam.

Opinion

Idée

Le principe est une excellente idée qui pourrait, en théorie, déterminer plus facilement l'importance et la qualité d'une page. Toutefois, il semblerait intéressant de s'intéresser aux nombreux cas particuliers qui nécessitent probablement une adaptation de l'algorithme. Voici une petite liste de points qui seraient intéressant à analyser:

  • Selon le nombre de mots sur une page, le temps de lecture sera différent. De ce fait, il peut être judicieux de compter le nombre de mots sur les pages. Cela peut se révéler utile pour estimer le temps de lecture moyen et le comparer aux temps de visites moyens des visiteurs (sur une même page).
  • Les types de pages influent beaucoup sur la façon dont elles sont consultées. Les pages d'accueil ont des objectifs différents d'une page de contenu, d'une page catégorie et d'une page de contact. De ce fait, le traitement des données doit probablement être adapté pour ces différents types de pages.

Choix éthique

Une telle idée peut aisément poser des soucis de confidentialités des données. Les internautes ne souhaitent pas forcément que leur historique soit enregistré et analyser. Pourtant, force est de constaté qu'il n'y a pas eu de grandes polémiques à ce sujet. De mon point de vue, l'anonymat des données est à conservé au maximum.

Malheureusement, il est peut-être intéressant d'identifier l'endroit d'où proviennent les données pour personnaliser les résultats de recherche. A titre d'exemple, il est peut être judicieux de classer les données selon l'origine géographique du visiteur pour ensuite adapter le positionnement des résultats dans le moteur de recherche selon la localisation du visiteur.

Top 20 des sites web

Des tests expérimentaux ont été réalisés pour comparer les trois célèbres algorithmes que sont le PageRank, le TrustRank et le BrowseRank. Un top 20 des sites web à été effectué pour chacun des algorithmes01:

Top 20 des sites web (PageRank, TrustRank et BrowseRank)

Top 20 des sites web (PageRank, TrustRank et BrowseRank)

Les tests expérimentaux ont révélés que certains sites de type web 2.0 obtenaient d'excellent score avec le BrowseRank, alors que les algorithmes basés sur le netlinking donnaient souvent d'excellent score à des pages qui proposent de télécharger des logiciels (car beaucoup de personnes mettent en place des liens vers les pages de téléchargement). La publication originale spécifie que cela reflète la réelle intention des utilisateurs. Toutefois, cette réponse facile doit être prise avec des pincettes. Voici une liste de points qui permettent d'éviter de se faire une idée idéaliste du BrowseRank:

  • Les algorithmes de qualités doivent indispensablement être associés à des algorithmes pour gérer la pertinence des résultats vis-à-vis de la requête. Cette liste des 20 meilleurs sites ne veut pas forcément dire que l'un des algorithmes est "meilleur".
  • Une page de téléchargement d'un logiciel n'est peut-être pas une page extrêmement populaire comparé à d'énorme site (tel que Facebook.com) mais est d'une très grande qualité dans le cas où un internaute souhaite télécharger le logiciel.
  • Un algorithme qui favorise les sites web 2.0 n'est pas forcément meilleur. Il serait même possible de débattre sur un sujet tel que: "l'être humain ne sait pas forcément ce qui est bien pour lui".

Failles envisageables

Failles involontaires

Ce que je définis comme des "failles involontaires" fait référence à des failles possible de l'algorithme.

  • Il est indiqué dans la publication qu'une URL entré directement dans la barre du navigateur est considéré comme une page de confiance. Cela est tout à fait justifié, puisqu'une telle adresse est censée être saine, intéressante et/ou importante pour l'utilisateur. Malheureusement, dans le cas du typosquatting cela peut induire en erreur et donner de l'importance à un site qui en réalité n'est autre que du spam.
  • Si les données récupérés par les visiteurs ne sont pas assez nombreuses et ne sont pas représentatif d'un internaute "moyen", cela peut aisément biaiser les statistiques. A titre d'exemple, les statistiques Alexa peuvent être faussées facilement car les données sont récupérées grâce à la barre d'outils Alexa.
    Sachant que le taux d'utilisation d'internet explorer peut être largement différente d'un site à l'autre (exemple: faible taux sur un site consacré aux logiciels libres), cela peut d'autant plus fausser les résultats.
  • Il ne faut pas perdre de vue que les moteurs de recherche sont très utilisés de nos jours. Une page qui reçoit beaucoup de visiteurs (exemple: via un moteur de recherche populaire) recevra plus facilement un bon BrowseRank. De ce fait, cette page sera bien positionnée sur les requêtes du moteur de recherche. Cela peut amener à une boucle sans fin qui favorise à outrance les pages qui sont placées en bonne position dans les requêtes.

Failles volontaires

Le terme "failles volontaires" fait références à l'exploitation des failles par les webmasters/référenceurs pour obtenir une bonne position sur le moteur de recherche Bing (moteur de recherche Microsoft). En d'autres terme, il faut s'attendre à de nouvelles techniques SEO (white hat ou black hat) pour profiter de cet algorithme:

  • Utilisation de robots pour simuler un nombre important de visiteurs sur un site web.
  • Préférer les techniques de visitorbaiting aux techniques de linkbaiting.

Mot de la fin

Il a été vu que le BrowseRank est un algorithme très intéressant qui a un fort potentiel. Toutefois, une grande partie de l'article ci-présent révèle que beaucoup de points seraient très intéressant à étudier. Mais cela n'est pas une grande surprise, un grand moteur de recherche doit forcément effectuer de nombreux tests et prendre en compte de très nombreux cas spécifiques.

Ce qui est sur c'est que le BrowseRank centre ses données sur le visiteur et non plus sur le netlinking. De ce fait, cela remet l'utilisateur au centre du procédé et non la façon dont les webmasters lient les pages entre elles (bien que les webmasters aient un sens plus aigüe des pages de qualité dans leur thématique).

No comments yet.

Leave a comment