[Note de Lecture] BrowseRank : Letting Web Users Vote for Page Importance

Le BrowseRank est le nom d’une méthode permettant de déterminer la qualité d’une page web. Développé par des chercheurs de Microsoft et publié dans un document intitulé « BrowseRank: Letting Web Users Vote for Page Importance« , la méthode peut s’avérer utile pour un moteur de recherche.

Résumé de la publication

Dans les algorithmes des moteurs de recherche, l’une des méthodes permettant de déterminer la popularité et le taux de confiance des pages est déterminée à partir de l’analyse des liens. A titre d’exemple, il est possible de citer le PageRank (détermine la popularité des pages pour Google) ou encore le TrustRank (détermine le taux de confiance des pages pour Yahoo). Malheureusement, ces algorithmes peuvent être tirés à leurs avantages par les webmasters/référenceurs, grâce à une bonne gestion du netlinking. De ce fait, ces algorithmes peuvent être faussés.

L’idée principale du BrowseRank consiste à récupérer des données à partir de la navigation d’internautes. Ces données, qui peuvent être récupérées grâce à une barre d’outils sur un navigateur, ne sont pas nécessairement nombreuses. Dans la publication, uniquement trois données sont utilisées: l’URL de la page visitée, le moment de la visite et le type de visite (si le visiteur à suivis un lien où s’il a entré l’adresse directement dans le navigateur).

Récolte des données utiles au BrowseRank

Récolte des données utiles au BrowseRank

Les tests expérimentaux ont montrés que le BrowseRank est plus profitable que le PageRank et le TrustRank pour à la fois déterminer la popularité des pages et également combattre le web spam.

Opinion

Idée

Le principe est une excellente idée qui pourrait, en théorie, déterminer plus facilement l’importance et la qualité d’une page. Toutefois, il semblerait intéressant de s’intéresser aux nombreux cas particuliers qui nécessitent probablement une adaptation de l’algorithme. Voici une petite liste de points qui seraient intéressant à analyser:

Choix éthique

Une telle idée peut aisément poser des soucis de confidentialités des données. Les internautes ne souhaitent pas forcément que leur historique soit enregistré et analyser. Pourtant, force est de constaté qu’il n’y a pas eu de grandes polémiques à ce sujet. De mon point de vue, l’anonymat des données est à conservé au maximum.

Malheureusement, il est peut-être intéressant d’identifier l’endroit d’où proviennent les données pour personnaliser les résultats de recherche. A titre d’exemple, il est peut être judicieux de classer les données selon l’origine géographique du visiteur pour ensuite adapter le positionnement des résultats dans le moteur de recherche selon la localisation du visiteur.

Top 20 des sites web

Des tests expérimentaux ont été réalisés pour comparer les trois célèbres algorithmes que sont le PageRank, le TrustRank et le BrowseRank. Un top 20 des sites web à été effectué pour chacun des algorithmes01:

Top 20 des sites web (PageRank, TrustRank et BrowseRank)

Top 20 des sites web (PageRank, TrustRank et BrowseRank)

Les tests expérimentaux ont révélés que certains sites de type web 2.0 obtenaient d’excellent score avec le BrowseRank, alors que les algorithmes basés sur le netlinking donnaient souvent d’excellent score à des pages qui proposent de télécharger des logiciels (car beaucoup de personnes mettent en place des liens vers les pages de téléchargement). La publication originale spécifie que cela reflète la réelle intention des utilisateurs. Toutefois, cette réponse facile doit être prise avec des pincettes. Voici une liste de points qui permettent d’éviter de se faire une idée idéaliste du BrowseRank:

Failles envisageables

Failles involontaires

Ce que je définis comme des « failles involontaires » fait référence à des failles possible de l’algorithme.

Failles volontaires

Le terme « failles volontaires » fait références à l’exploitation des failles par les webmasters/référenceurs pour obtenir une bonne position sur le moteur de recherche Bing (moteur de recherche Microsoft). En d’autres terme, il faut s’attendre à de nouvelles techniques SEO (white hat ou black hat) pour profiter de cet algorithme:

Mot de la fin

Il a été vu que le BrowseRank est un algorithme très intéressant qui a un fort potentiel. Toutefois, une grande partie de l’article ci-présent révèle que beaucoup de points seraient très intéressant à étudier. Mais cela n’est pas une grande surprise, un grand moteur de recherche doit forcément effectuer de nombreux tests et prendre en compte de très nombreux cas spécifiques.

Ce qui est sur c’est que le BrowseRank centre ses données sur le visiteur et non plus sur le netlinking. De ce fait, cela remet l’utilisateur au centre du procédé et non la façon dont les webmasters lient les pages entre elles (bien que les webmasters aient un sens plus aigüe des pages de qualité dans leur thématique).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.