L’inscription est gratuite – avec un accès illimité à toutes les fonctionnalités, outils et discussions. Les comptes premium bénéficient d’avantages comme les bannières publicitaires et la visibilité dans la newsletter. ✅ Les liens en signature sont désormais gratuits pour tous. 🚫 Les contenus générés par IA (LLM) sont interdits : seuls vos avis et expériences personnels sont autorisés – tout manquement peut entraîner la suppression du compte.

Comment connaitre toutes les pages d'un site?

  • Initiateur de la discussion Initiateur de la discussion Nitaky1
  • Date de début Date de début

Nitaky1

New member
20 Mars 2008
1.662
0
0
47
www.nitaky.com
Bonjour les zamigos :)

Je cherche comment peut on connaitre toutes les pages d'un site donné par exemple monsite.com ou site.monsite.com, même les pages non indexé par google? y'a t'il un moyen efficace?
Comme :
site.monsite.com/index.php
site.monsite.com/contact.php
site.monsite.com/help.php
etc.

Merci d'avance :)
 
Tu peux construire ton propre crawler ;) Ou utiliser un logiciel comme httrack.
Il y a des limitations:
  • les pages qui ne sont pas linkés quelque part ne seront pas découvertes. Le principe d'un crawler est de partir d'une page, parser le contenu à la recherche d'hyperliens et visiter ces pages de manière récursive
  • les moteurs de recherche comme google respectent généralement les directives robots.txt, donc si le webmaster a décidé d'exclure certaines pages, le moteur en tiendra compte et ne les affichera pas. Tu as donc intérêt à examiner le fichier robots.txt s'il existe ;)
  • il y a aussi le listing de répertoire qui est autorisé sur certains sites (souvent involontairement), ça permet de découvrir des fichiers parfois sensibles. Et donc des fichiers non linkés.
  • de nos jours, les sites sont dynamiques, les pages sont générées à la demande à partir de contenu résident dans une DB, donc même si tu avais accès aux sources en FTP, ça ne t'apprendrait pas grand'chose
En soi, l'indexation de sites est un art, utile à maîtriser pour des audits de sécurité aussi.

Dans ton cas, le mieux serait de tenter le coup avec httrack ou wget. NB: par défaut, ils honorent aussi les directives robots.txt, et il y a des limitations dont il faut être conscient.
 
Hello hello,

Toutes les solutions déjà données plus recherche si il y a un sitemap et avec l'api de wayback et quelques modif aussi tu peux avoir bcp d'info sur les ressources d'un site.
Et comme l'évoque kate des outils d'audit de sécurité sont capables de faire cela.
 
Dernière édition:
Merci les champions pour vos réponses :)
En réalité je suis un peu nul dans certain niveau technique d'où j'ai pas tout compris malgré mes recherches, ça donne l’impression que c'est possible mais comment? c'est assez compliqué!!!