Comment connaitre toutes les pages d'un site?

Nitaky1 · 31 Mai 2016

Bonjour les zamigos

Je cherche comment peut on connaitre toutes les pages d'un site donné par exemple monsite.com ou site.monsite.com, même les pages non indexé par google? y'a t'il un moyen efficace?
Comme :
site.monsite.com/index.php
site.monsite.com/contact.php
site.monsite.com/help.php
etc.

Merci d'avance

kate · 31 Mai 2016

Tu peux construire ton propre crawler

Ou utiliser un logiciel comme httrack.
Il y a des limitations:

les pages qui ne sont pas linkés quelque part ne seront pas découvertes. Le principe d'un crawler est de partir d'une page, parser le contenu à la recherche d'hyperliens et visiter ces pages de manière récursive
les moteurs de recherche comme google respectent généralement les directives robots.txt, donc si le webmaster a décidé d'exclure certaines pages, le moteur en tiendra compte et ne les affichera pas. Tu as donc intérêt à examiner le fichier robots.txt s'il existe
il y a aussi le listing de répertoire qui est autorisé sur certains sites (souvent involontairement), ça permet de découvrir des fichiers parfois sensibles. Et donc des fichiers non linkés.
de nos jours, les sites sont dynamiques, les pages sont générées à la demande à partir de contenu résident dans une DB, donc même si tu avais accès aux sources en FTP, ça ne t'apprendrait pas grand'chose

En soi, l'indexation de sites est un art, utile à maîtriser pour des audits de sécurité aussi.

Dans ton cas, le mieux serait de tenter le coup avec httrack ou wget. NB: par défaut, ils honorent aussi les directives robots.txt, et il y a des limitations dont il faut être conscient.

technique · 31 Mai 2016

Hello,

Impossible à ma connaissance. Tu peux faire du prédictif (genre wp-admin.php) pour les CMS les plus utilisés. Ou lire dans le robots.txt si tu es curieux

J'utilise robtex de temps en temps

Didier · 3 Juin 2016

Hello hello,

Toutes les solutions déjà données plus recherche si il y a un sitemap et avec l'api de wayback et quelques modif aussi tu peux avoir bcp d'info sur les ressources d'un site.
Et comme l'évoque kate des outils d'audit de sécurité sont capables de faire cela.

Nitaky1 · 8 Juin 2016

Merci les champions pour vos réponses

En réalité je suis un peu nul dans certain niveau technique d'où j'ai pas tout compris malgré mes recherches, ça donne l’impression que c'est possible mais comment? c'est assez compliqué!!!

Rechercher

Rechercher

Comment connaitre toutes les pages d'un site?

Nitaky1

Active member

kate

Super Modérateur

technique

Admin Technique

Didier

New member

Nitaky1

Active member

Discussions similaires

Nous respectons votre vie privée