Comment connaitre toutes les pages d'un site?

  • Initiateur de la discussion Initiateur de la discussion Nitaky1
  • Date de début Date de début

Welcome!

By registering with us, you'll be able to discuss, share and private message with other members of our community.

SignUp Now!

Nitaky1

Active member
Inscrit
20 Mars 2008
Réponses
1.665
Réactions+
3
Bonjour les zamigos :)

Je cherche comment peut on connaitre toutes les pages d'un site donné par exemple monsite.com ou site.monsite.com, même les pages non indexé par google? y'a t'il un moyen efficace?
Comme :
site.monsite.com/index.php
site.monsite.com/contact.php
site.monsite.com/help.php
etc.

Merci d'avance :)
 
Tu peux construire ton propre crawler ;) Ou utiliser un logiciel comme httrack.
Il y a des limitations:
  • les pages qui ne sont pas linkés quelque part ne seront pas découvertes. Le principe d'un crawler est de partir d'une page, parser le contenu à la recherche d'hyperliens et visiter ces pages de manière récursive
  • les moteurs de recherche comme google respectent généralement les directives robots.txt, donc si le webmaster a décidé d'exclure certaines pages, le moteur en tiendra compte et ne les affichera pas. Tu as donc intérêt à examiner le fichier robots.txt s'il existe ;)
  • il y a aussi le listing de répertoire qui est autorisé sur certains sites (souvent involontairement), ça permet de découvrir des fichiers parfois sensibles. Et donc des fichiers non linkés.
  • de nos jours, les sites sont dynamiques, les pages sont générées à la demande à partir de contenu résident dans une DB, donc même si tu avais accès aux sources en FTP, ça ne t'apprendrait pas grand'chose
En soi, l'indexation de sites est un art, utile à maîtriser pour des audits de sécurité aussi.

Dans ton cas, le mieux serait de tenter le coup avec httrack ou wget. NB: par défaut, ils honorent aussi les directives robots.txt, et il y a des limitations dont il faut être conscient.
 
Hello,

Impossible à ma connaissance. Tu peux faire du prédictif (genre wp-admin.php) pour les CMS les plus utilisés. Ou lire dans le robots.txt si tu es curieux :)

J'utilise robtex de temps en temps
 
Hello hello,

Toutes les solutions déjà données plus recherche si il y a un sitemap et avec l'api de wayback et quelques modif aussi tu peux avoir bcp d'info sur les ressources d'un site.
Et comme l'évoque kate des outils d'audit de sécurité sont capables de faire cela.
 
Dernière édition:
Merci les champions pour vos réponses :)
En réalité je suis un peu nul dans certain niveau technique d'où j'ai pas tout compris malgré mes recherches, ça donne l’impression que c'est possible mais comment? c'est assez compliqué!!!
 
Même avec de bons outils, il n’existe aucun moyen « garanti » de découvrir toutes les pages d’un site, surtout celles qui ne sont pas liées publiquement. C’est d’ailleurs volontaire car la structure interne d’un site fait partie de sa surface d’exposition et n’est jamais totalement ouverte.
 
Retour
Haut