Crawler de fichiers interne à un site

Les crawlers de fichiers ont un intérêt pour lister rapidement toutes les pages ou images d'un site web. Cela permet d'automatiser la tache qui peut être longue et pénible s'il fallait le faire manuellement. Cet article présente un crawler qui liste tous type de fichier présent sur votre espace d'hébergement.

Présentation

Le script fournit sur cet article est à installer à la racine d'un site web, puis il suffit de l'ouvrir avec un navigateur web pour voir s'afficher la liste de tous les fichiers présent.

Sur le web il existe une multitude de crawler qui fouille sur une page web distante, mais il y a moins de projet (à ma connaissance) qui s'installe directement sur le serveur d'un site et qui liste les fichiers en interne du site. Cela possède l'avantage de pouvoir lister les pages et fichiers orphelins (qui ne sont pas utilisée ou liée au site web).

Type d'utilisation envisageable:

  • Chercher un dossier ou fichier
  • Générer automatiquement le sitemap du site ou le plan du site. Pas besoin de mettre à jour ce plan du site puisqu'il est généré automatiquement à chaque fois.
    Si ce script est adapté, il peut tout aussi bien générer un sitemap de pages web ou un sitemap d'images
  • En adaptant le script, il est possible d'ouvrir toutes les pages PHP d'un coup. Cela peut être utile pour faire des recherches ou modifications sur toutes les pages d'un site en même temps.
    Par exemple, ce script peut être utilisé si vous avez 500 pages, que vous modifier l'URL d'une de ces pages et que vous souhaitez mettre à jour toutes les pages web sur lesquels est présent l'ancienne URL

Télécharger

Le lien ci-dessous permet de télécharger le script. Une fois téléchargé, il suffit de le dézipper et de le placer à la racine de votre site.

(Fichier compressé. 2,01Ko)

J'ai l'intention dans les prochains jours de donner des exemples d'utilisation et des modifications possible de ce script.

Commentaires

salut
tu sais ce qui serait le top ... c'est un script qui génère l'arborescence en analysant le code source des pages et les liens qui s'y trouvent ...
genre je lui dis analyse http://www.example.com et il me sort le sitemap en crawlant toutes les pages du site et en remontant uniquement les liens liés au domaine ...
parce que ce script va référencer des pages qui ne seraient par exemple que des includes ... pas top ;)

nas - 24 juin 2010 à 11h08

@nas: merci pour ton commentaire. Je suis tout à fait d'accord avec toi, en partant du principe que ce bout de code soit utilisé uniquement dans le but de générer un sitemap. En parlant de ça, j'ai adapté ce code de crawler de fichiers pour faire un générateur automatique de sitemaps. Mais comme je le stipule dans l'article, le script fonctionne uniquement pour les sites statiques.
Ce que tu suggère est judicieux mais du coup il faudrait surement faire un crawler qui fouille les pages du site, directement sur le web (et non à l'intérieur du site). Sinon ça risque d'être compliqué s'il y à des paramètres à l'intérieur dans les URL ou si les URL sont écrit avec du code PHP.

Tony - 24 juin 2010 à 11h49

Trackbacks

[...] script (distribué gratuitement) se base sur un crawler de fichiers internes à un site web. Il se charge de visiter tous les dossiers et de lister les fichiers incluent dans [...]

Ping by Générateur automatique de sitemaps - 24 juin 2010 à 11h34

Désolé, les commentaires sont fermés pour le moment.