Un sitemaps est un protocole, utilisé par les moteurs de recherche, qui liste l’ensemble des pages indexable d’un site web. Le protocole proposé par Google accepte les fichiers XML et texte. Le script proposé sur cet article représente un générateur simpliste pour lister les pages à indexer d’un site web statique.
Présentation
Le script (distribué gratuitement) se base sur un crawler de fichiers internes à un site web. Il se charge de visiter tous les dossiers et de lister les fichiers incluent dans chacun des dossiers. Une option permet d’ignorer certains fichier pour ne pas prendre en compte les fichiers « administrateurs » et certains autres fichiers de votre choix.
Puisque cet outil est basé sur un crawler de fichiers, le sitemap inclura les pages orphelines, c’est à dire les pages non reliées au reste du site par des liens.
Limitation
Ce script n’est pas adapté au site dynamique ou aux sites utilisant de l’URL rewriting. Sachant qu’il se base sur le nom des fichiers, le code ne pourra détecter s’il y a des variables GET envoyées aux pages. Idéalement, le script est à utiliser pour les sites possèdent uniquement des pages XHTML (sans PHP).
Les fichiers « sitemaps » doivent normalement avoir une limite de 50.000 URL et une taille maximum de 10Mo, mais le script actuel ne prend pas en compte cette limite. Cette limite n’a pas été ajoutée car il est assez rare de trouver des sites web statiques de plus de 50.000 URL.
Utiliser
L’utilisation du script est assez simple puisqu’il génère automatiquement le sitemap en XML. La première étape consiste à télécharger le script grâce au lien ci-dessous.
(Fichier compressé. 1,61Ko)
Une fois le fichier téléchargé, il faut le dézipper et le placer à la racine d’un site web. Ensuite, il suffit d’ouvrir le fichier sur un navigateur web pour constater la génération du sitemap XML. Finalement, l’adresse de ce script peut être ajoutée dans Google outils pour les webmasters pour indiquer l’adresse du sitemap à Google.