Forum nom de domaine

Forum nom de domaine (http://www.forumndd.com/)
-   Développement (http://www.forumndd.com/developpement/)
-   -   Comment connaitre toutes les pages d'un site? (http://www.forumndd.com/developpement/11349-connaitre-toutes-pages-dun-site.html)

Nitaky 31/05/2016 13h24

Comment connaitre toutes les pages d'un site?
 
Bonjour les zamigos :)

Je cherche comment peut on connaitre toutes les pages d'un site donné par exemple monsite.com ou site.monsite.com, même les pages non indexé par google? y'a t'il un moyen efficace?
Comme :
site.monsite.com/index.php
site.monsite.com/contact.php
site.monsite.com/help.php
etc.

Merci d'avance :)

kate 31/05/2016 14h37

Re : Comment connaitre toutes les pages d'un site?
 
Tu peux construire ton propre crawler ;) Ou utiliser un logiciel comme httrack.
Il y a des limitations:
  • les pages qui ne sont pas linkés quelque part ne seront pas découvertes. Le principe d'un crawler est de partir d'une page, parser le contenu à la recherche d'hyperliens et visiter ces pages de manière récursive
  • les moteurs de recherche comme google respectent généralement les directives robots.txt, donc si le webmaster a décidé d'exclure certaines pages, le moteur en tiendra compte et ne les affichera pas. Tu as donc intérêt à examiner le fichier robots.txt s'il existe ;)
  • il y a aussi le listing de répertoire qui est autorisé sur certains sites (souvent involontairement), ça permet de découvrir des fichiers parfois sensibles. Et donc des fichiers non linkés.
  • de nos jours, les sites sont dynamiques, les pages sont générées à la demande à partir de contenu résident dans une DB, donc même si tu avais accès aux sources en FTP, ça ne t'apprendrait pas grand'chose
En soi, l'indexation de sites est un art, utile à maîtriser pour des audits de sécurité aussi.

Dans ton cas, le mieux serait de tenter le coup avec httrack ou wget. NB: par défaut, ils honorent aussi les directives robots.txt, et il y a des limitations dont il faut être conscient.

technique 31/05/2016 14h50

Re : Comment connaitre toutes les pages d'un site?
 
Hello,

Impossible à ma connaissance. Tu peux faire du prédictif (genre wp-admin.php) pour les CMS les plus utilisés. Ou lire dans le robots.txt si tu es curieux :)

J'utilise robtex de temps en temps

Didier 03/06/2016 12h15

Re : Comment connaitre toutes les pages d'un site?
 
Hello hello,

Toutes les solutions déjà données plus recherche si il y a un sitemap et avec l'api de wayback et quelques modif aussi tu peux avoir bcp d'info sur les ressources d'un site.
Et comme l'évoque kate des outils d'audit de sécurité sont capables de faire cela.

Nitaky 08/06/2016 18h01

Re : Comment connaitre toutes les pages d'un site?
 
Merci les champions pour vos réponses :)
En réalité je suis un peu nul dans certain niveau technique d'où j'ai pas tout compris malgré mes recherches, ça donne l’impression que c'est possible mais comment? c'est assez compliqué!!!


Fuseau horaire : GMT +1. Il est 22h07.