L’inscription est gratuite – avec un accès illimité à toutes les fonctionnalités, outils et discussions. Les comptes premium bénéficient d’avantages comme les bannières publicitaires et la visibilité dans la newsletter. ✅ Les liens en signature sont désormais gratuits pour tous. 🚫 Les contenus générés par IA (LLM) sont interdits : seuls vos avis et expériences personnels sont autorisés – tout manquement peut entraîner la suppression du compte.

Corpus

jmleray

New member
19 Mars 2008
45
0
0
Salut tout le monde,

Je souhaite vous demander votre avis sur ce qu'on pourrait tirer, selon vous, des fantastiques corpus de requêtes générés quotidiennement par les internautes sur les sites des registrars.
Lorsque j'ai rédigé mon billet sur l'introduction en bourse de Demand Media, j'ai été frappé par un chiffre : sur eNom, deuxième registrar mondial, les internautes « saisissent en moyenne plus de 3 millions de requêtes / jour », des données traitées par Demand Media pour améliorer ses algorithmes de création de contenu.
Or si l'on se base sur une moyenne de 3 mots par requête, pratiquement ça fait déjà un corpus de 10 millions de mots / jour.
J'imagine donc que GoDaddy, qui est trois fois plus gros qu'eNom, doit générer tous les jours un corpus comprenant entre 30 et 40 millions de mots.
Laissons tomber Google avec son milliard de requêtes/jour...
Donc la question que je me pose est la suivante : - que pourrait-on tirer d'un tel corpus ?
D'après vous ?
Demand Media s'en sert pour générer automatiquement les titres qui seront développés par ses "créateurs de contenus"...
Mais je suis sûr que personne n'exploite vraiment les pépites que cache un tel gisement !
Tracer les tendances à un moment donné ? (toujours en donnant pour acquis qu'une large part de ces requêtes sont en phase avec l'actualité)

J'aimerais connaître vos idées sur la question, merci d'avance.

P.S. Pour donner un ordre de grandeur, le corpus de la Banque de données textuelles du Canada (BDTS) est de 50 millions de mots ! Là c'est comme si on en avait un par jour...
 
Dernière édition:
Salut JM,

Au niveau des chiffres je ne suis pas convaincu qu'il s'agisse de requêtes uniques ce qui aurait pour effet de diminuer sensiblement le corpus au moment du dédoublonnage.

Le plus évident pour un registrar pour exploiter ces données c'est de pratiquer le front running comme le faisait Netwoksolutions à une époque mais c'est heureusement illégal. Après je pense que certains s'en servent peut-être pour des outils de suggestion de noms de domaine similaires.
 
Salut JM,

Comme tomsa, le premier champ d'application que je vois est le front running.

Sinon, en essayant de trouver une passerelle avec le second marché, on pourrait imaginer un système par lequel les noms de domaine les plus recherchés chez les registrars soient gratifiés de "points bonus" sur les plateformes de vente sur lesquelles ils sont listés (je pars du principe que les noms de domaine les plus recherchés sont quasiment tous déjà pris et en partie ouvertement proposés à la vente, sans quoi nous ne serions pas là ;))

Exemple :

- un internaute cherche à enregistrer chez 1&1 le nom de domaine voitures.com;

- ce nom de domaine est pris donc non déposable, mais il est en vente sur Sedo;

- via une API, 1&1 transmet l'info à Sedo : "quelqu'un a chercher à enregistrer voitures.com chez nous". Ce n'est pas difficile de faire transiter l'info : 1&1 a déjà une intégration API avec Sedo, qui lui indique de son côté si le nom recherché est en vente chez lui pour qu'1&1 puisse afficher la mention spéciale en conséquence;

- Sedo donne 1 point bonus au nom de domaine en question avec la mention "ce nom de domaine a été recherché 1 fois ce mois-ci 1 registrar de notre réseau partenaire". Inutile de citer lequel, l'intérêt est purement statistique;

Intérêt de la chose ? Ce serait une cote de popularité supplémentaire pour les noms de domaine en vente sur Sedo (ou ailleurs), en plus du nombre de fois où la page d'offre a été vue et du nombre d'offres reçues par un domaine lambda. Les investisseurs auraient donc un indice de popularité supplémentaire à portée de main, et pas des moindres : les domaines les plus recherchés chez les registrars sont quelque part les plus prisés, et donc les plus susceptibles d'attirer des offres pour la revente.

C'est bien parce qu'il fallait absolument trouver quelque chose :D
 
Pas mal cette idée de popularité des domaines, quelques années en arrière tu aurais pu inventer le pagerank :D

Plus sérieusement je trouve l'idée plutôt bonne ;)
 
Merci pour vos réponses. Effectivement, l'idée de Rémy est pleine de bon sens et serait facilement applicable au bénéfice de la pertinence, je suppose.

Mais en fait je m'orientais davantage vers les applications pour le "Contextual Web", et cette déclaration d'Eric Schmidt hier m'a particulièrement frappé :

Schmidt also says Google is focusing on trying to gauge meaning and intent from user searches. “Ultimately, we think we can understand things like what you really meant…. what is the problem you’re really trying to solve?”

Autant dire que les réponses aux questions qu'il se pose sont déjà dans le corpus des requêtes...
 
Salut Jean-Marie !

Lors d'une épidémie de grippe (je ne sais plus si c'était l'aviaire ou la porcine, en tout cas c'était un coquillage), Google avait mis en place un outil qui permettait de constater la progression du virus : une carte indiquait les endroits où les requêtes touchant à la grippe (symptômes, façon de soigner) étaient faites, ce qui laissait présumer les foyers touchés.

Le corpus brut de requêtes ndd a certainement une valeur. Il en prendrait peut-être plus encore en étant enrichi de données permettant de contextualiser ces requêtes (liens entre les IP et les noms les plus demandés, ou autres).
 
Moi aussi :)
Rémy à la tête de Sedo Europe !!!

oui !
j'aime bien l'idée de Rémy. Mais déjà si l'on pouvait depuis l'interface registrar faire une offre pour les domaines pris (ou acheter à prix immédiat), les prix seraient multipliés par 4,94 (source : centreurope.org). Malheureusement, les registrars ne le proposent pas car ça n'est pas dans leur intérêt.
Sinon, pour en revenir à la question de Jean-Marie, je crois que la domaineuse qui peut mettre la main sur une telle base est millionnaire.
 
Mais déjà si l'on pouvait depuis l'interface registrar faire une offre pour les domaines pris (ou acheter à prix immédiat), les prix seraient multipliés par 4,94 (source : centreurope.org). Malheureusement, les registrars ne le proposent pas car ça n'est pas dans leur intérêt.

David, pour ce qui est d'acheter directement chez son registrar les noms de domaine listés à prix fixe sur Sedo, je crois que c'est le principe du SedoMLS : SedoMLS -Sedo.com

Par contre, concernant la possibilité pour l'utilisateur de négocier directement avec le vendeur chez son registrar, faut pas rêver je crois. C'est déjà pas mal quand les registrars intègrent via l'API Sedo la mention "à vendre sur Sedo", comme le faisait par exemple AMEN sur le marché français avant qu'ils ne soient rachetés par Dada Group.