Crawler de fichiers interne à un site

Les crawlers de fichiers ont un intérêt pour lister rapidement toutes les pages ou images d’un site web. Cela permet d’automatiser la tache qui peut être longue et pénible s’il fallait le faire manuellement. Cet article présente un crawler qui liste tous type de fichier présent sur votre espace d’hébergement.

Présentation

Le script fournit sur cet article est à installer à la racine d’un site web, puis il suffit de l’ouvrir avec un navigateur web pour voir s’afficher la liste de tous les fichiers présent.

Sur le web il existe une multitude de crawler qui fouille sur une page web distante, mais il y a moins de projet (à ma connaissance) qui s’installe directement sur le serveur d’un site et qui liste les fichiers en interne du site. Cela possède l’avantage de pouvoir lister les pages et fichiers orphelins (qui ne sont pas utilisée ou liée au site web).

Type d’utilisation envisageable:

  • Chercher un dossier ou fichier
  • Générer automatiquement le sitemap du site ou le plan du site. Pas besoin de mettre à jour ce plan du site puisqu’il est généré automatiquement à chaque fois.

    Si ce script est adapté, il peut tout aussi bien générer un sitemap de pages web ou un sitemap d’images

  • En adaptant le script, il est possible d’ouvrir toutes les pages PHP d’un coup. Cela peut être utile pour faire des recherches ou modifications sur toutes les pages d’un site en même temps.

    Par exemple, ce script peut être utilisé si vous avez 500 pages, que vous modifier l’URL d’une de ces pages et que vous souhaitez mettre à jour toutes les pages web sur lesquels est présent l’ancienne URL

Télécharger

Le lien ci-dessous permet de télécharger le script. Une fois téléchargé, il suffit de le dézipper et de le placer à la racine de votre site.

(Fichier compressé. 2,01Ko)

J’ai l’intention dans les prochains jours de donner des exemples d’utilisation et des modifications possible de ce script.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.