Salut tout le monde,
Je souhaite vous demander votre avis sur ce qu'on pourrait tirer, selon vous, des fantastiques corpus de requêtes générés quotidiennement par les internautes sur les sites des registrars.
Lorsque j'ai rédigé mon billet sur l'introduction en bourse de Demand Media, j'ai été frappé par un chiffre : sur eNom, deuxième registrar mondial, les internautes « saisissent en moyenne plus de 3 millions de requêtes / jour », des données traitées par Demand Media pour améliorer ses algorithmes de création de contenu.
Or si l'on se base sur une moyenne de 3 mots par requête, pratiquement ça fait déjà un corpus de 10 millions de mots / jour.
J'imagine donc que GoDaddy, qui est trois fois plus gros qu'eNom, doit générer tous les jours un corpus comprenant entre 30 et 40 millions de mots.
Laissons tomber Google avec son milliard de requêtes/jour...
Donc la question que je me pose est la suivante : - que pourrait-on tirer d'un tel corpus ?
D'après vous ?
Demand Media s'en sert pour générer automatiquement les titres qui seront développés par ses "créateurs de contenus"...
Mais je suis sûr que personne n'exploite vraiment les pépites que cache un tel gisement !
Tracer les tendances à un moment donné ? (toujours en donnant pour acquis qu'une large part de ces requêtes sont en phase avec l'actualité)
J'aimerais connaître vos idées sur la question, merci d'avance.
P.S. Pour donner un ordre de grandeur, le corpus de la Banque de données textuelles du Canada (BDTS) est de 50 millions de mots ! Là c'est comme si on en avait un par jour...
Je souhaite vous demander votre avis sur ce qu'on pourrait tirer, selon vous, des fantastiques corpus de requêtes générés quotidiennement par les internautes sur les sites des registrars.
Lorsque j'ai rédigé mon billet sur l'introduction en bourse de Demand Media, j'ai été frappé par un chiffre : sur eNom, deuxième registrar mondial, les internautes « saisissent en moyenne plus de 3 millions de requêtes / jour », des données traitées par Demand Media pour améliorer ses algorithmes de création de contenu.
Or si l'on se base sur une moyenne de 3 mots par requête, pratiquement ça fait déjà un corpus de 10 millions de mots / jour.
J'imagine donc que GoDaddy, qui est trois fois plus gros qu'eNom, doit générer tous les jours un corpus comprenant entre 30 et 40 millions de mots.
Laissons tomber Google avec son milliard de requêtes/jour...
Donc la question que je me pose est la suivante : - que pourrait-on tirer d'un tel corpus ?
D'après vous ?
Demand Media s'en sert pour générer automatiquement les titres qui seront développés par ses "créateurs de contenus"...
Mais je suis sûr que personne n'exploite vraiment les pépites que cache un tel gisement !
Tracer les tendances à un moment donné ? (toujours en donnant pour acquis qu'une large part de ces requêtes sont en phase avec l'actualité)
J'aimerais connaître vos idées sur la question, merci d'avance.
P.S. Pour donner un ordre de grandeur, le corpus de la Banque de données textuelles du Canada (BDTS) est de 50 millions de mots ! Là c'est comme si on en avait un par jour...
Dernière édition: