| |
 |
Les systèmes techniques des moteurs de recherche
Eric Guichard
|
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
Modérateurs : Agnès Camus, Eric Guichard
|
Hors Google, point de salut ?
(0 réponses)
Claire Dartois, 6 avr. 2004 14:24 UT
|
|
|
Nota: les flèches jaunes ( ) indiquent de nouveaux messages mis en ligne depuis votre dernière visite.
|
|
 |
| Ecouter un enregistrement de la contribution |
|
|
|
|
|
Aide |
|
Version MP3 S'il ne se passe rien lorsque vous cliquez sur le lien ci-dessus, recliquez dessus avec le bouton droit (PC) ou en maintenant la touche CTRL appuyée (Mac) et choisissez l'option "Enregistrer sous...". Le fichier se téléchargera sur votre ordinateur et vous pourrez l'écouter dans votre lecteur MP3 habituel (Windows Media Player, QuickTime, iTunes...).
Version Flash Pour télécharger la dernière version du lecteur Flash, cliquez ici.
|
|
|
 |
Les moteurs de recherche constituent des systèmes techniques sophistiqués. On distingue l'aspirateur de pages, qui parcourt, de lien en lien, ce qu'il peut du web ; le calculateur de l'importance des pages, lié à la structure en graphe du web; l'indexeur -intégral ou partiel- du contenu des pages; et bien sûr, face émergée de l'iceberg, l'interrogateur, destiné aux usagers que nous sommes.
Au-delà de l'appareillage nécessaire au bon fonctionnement d'un moteur de recherche (réseaux à haut-débit, capacités de mémoire vive et de stockage, et donc multiples algorithmes sans cesse optimisés), le principe du moteur paraît assez simple: peu ou prou, il s'agit de renvoyer une liste des adresses des pages qui contiennent les mots ou les chaînes graphiques recherchées par l'utilisateur.
Mais dans quel ordre produire cette liste? La question se pose avec acuité : même dans le cas d'une requête érudite (ex.: " Nicot langue françoise Richelet "), les pages qui contiennent tous ces mots (dans l'ordre ou le désordre, dans le texte affiché ou caché, etc.) se comptent souvent par centaines. Et plus la question est simple, plus le nombre de pages admissibles est élevé. D'autant qu'à des résultats " légitimes " (dans un contexte à définir), s'ajoutent les pages qui contiennent toutes sortes de mots pour traquer le consommateur, par exemple pour lui vendre de la pornographie : avant d'égarer l'internaute, il faut savoir tromper le moteur de recherche. Et on finit par dénombrer des dizaines de millions de pages qui contiennent des mots-requêtes aussi simples que " Paris " ou "emploi".
L'idée que le moteur Google a proposée avec son algorithme PageRank a été de fonder le tri des réponses sur l'importance relative des pages web entre elles. Il s’agit donc d’établir une sorte de hiérarchie, mettant en avant les pages les plus " reconnues ", les plus légitimes. Reste à calculer automatiquement une telle imitation – nécessairement maladroite – des modalités de la construction de la renommée et de la légitimité.
Cette tentative à la fois décriée et admirée n'est pas le seul exemple d'une modélisation du social par les robots et machines. Au point que, pour les moteurs de recherche, les contraintes techniques apparaissent secondaires face à des contraintes très sociales : de la nécessaire " politesse " de l'aspirateur aux pièges qui lui sont posés, de la réputation du moteur au sein des familles aux détournements que l'on en fait, la liste est longue.
Au point qu'on en oublie parfois les effets intellectuels de ces instruments, et leur inscription dans une histoire fort longue...
|
 |
 |
| |
|
|