Recherche de moteurs

Curieusement, alors qu'il suffit de valider n'importe quelle requête dans un moteur de recherche pour avoir au minimum des centaines de résultats, en écrivant "moteurs de recherche" on obtient aussi une liste, mais peu d'informations sur les outils eux même. Alors, comme j'avais très moyennement envie de bosser aujourd'hui, je me suis perdu volontairement dans les méandres du Net pour comprendre comment fonctionne Google et savoir si quelques concurrents ont survécu à son expansion fulgurante.

En 1993, au néolithique du WWW, le premier moteur de recherche digne de ce nom, indexant des pages entières, s'appelait WebCrawler et fut conçu par Brian Pinkerton, alors étudiant de l'Université de Washington, qui en réalisa, en premier, un desktop programm en interne avant de développer l'application en ligne avec un remarquable succès quasi immédiat. D'ailleurs, les algorithmes de base, bien qu'améliorés, sont toujours implantés en 2005 dans les moteurs de Yahoo, HoBot et ICQ. Bien peu des "search engines" des premières années du Web ont survécu à l'euphorie financière de cette période. Pour en citer quelques-uns, qui se souvient d'Infoseek, Excite ou plus proche de nous, Lycos ?
Cette première génération d'outils traquait l'information demandée avec l'aide de "spiders" (araignées) parcourant les pages, les noeuds et les liens de la toile suivant ce principe :
- un logiciel permet de parcourir le ou les réseaux
- une base de données correspondant aux résultats collectionnés par le robot
- un moteur de recherche grâce auquel l'utilisateur arrive à trouver les éléments de la base de données

Google repose sur une méthode similaire en y ajoutant un système de classement appelé PageRank. Le spider GoogleBot ramène ainsi sur les serveurs Linux de traitement de Google une masse colossale d'informations qui va être analysée dans les moindres détails. À chaque mot ou phrase est en effet associé son type, basé sur le langage HTML. C'est ainsi qu'un mot contenu dans le titre sera jugé plus important que dans le corps du texte. Une échelle de valeurs répertorie les types de mots (titre de la page, titre de paragraphe H1 à H6, gras, italique, etc.). Plus la page est visitée plus elle figurera en bonne position dans la hiérarchie de référencement. C'est un procédé basé sur la popularité du classement non pas sur la pertinence. Par exemple, votre site ne sera identifié par le Googlebot que s’il est cité par des pages déjà bien établies. On est dans une logique de réseau dans le réseau au détriment de la qualité du contenu, qui devient accessoire. En grossissant un peu si vous écrivez sur un sujet, et que le propos est relayé par beaucoup d'autres sites, votre classement PageRank s'en trouvera amélioré. Que vos textes soient du niveau CM2 ou d'une haute teneur littéraire, cela n'aura aucune incidence.
Autre constant, mais qui ne concerne pas que Google: de nombreuses pages ne sont pas identifiables sur le Net. Soit parce que certains sites officiels limitent volontairement l'accès pour filtrer les demandes jugées sensibles concernant des secteurs stratégiques :armées, organisations gouvernementales et laboratoires expérimentaux. Soit dans un but lucratif avec l'obligation payante de s'enregistrer pour avoir accès aux databases désirées : bibliothèques, universités et réseaux intranet de certaines grandes sociétés commerciales.
De toute façon, la progression quasi journalière du nombre de pages crées ne permet pas l'indexation en temps réel de celles-ci (tout au moins avec les outils actuels).
On pourrait avoir la tentation de reprocher à Google ce qui fait l'essence même de sa popularité : être devenu omniprésent et indispensable. Régulièrement des articles de mise en garde du monopole googlien sont publiés ici ou là. Aussi pertinents soient-ils parfois on peut cependant mettre en cause leur intention sous-jacente. Google, au même titre que Micro$oft fait peur par sa puissance et alimente en réaction des interrogations parfois légitimes, mais souvent paranoïaques genre la collusion entre Google et le gouvernement US, sa base de données soi-disant partagée avec des cellules de recherche d'infos de la C.I.A., etc etc. Tout ceci étant largement invérifiable pour l'internaute de base ! On envisage, on suppute, on murmure que... pour le plus grand bénéfice, paradoxalement, du moteur incriminé ! L'instrumentalisation des médias via la rumeur orchestrée est un grand classique de tout gouvernement voulant garder le contrôle et surveiller le flot d'infos en continu du Web.

J'ai testé pour vous les principaux moteurs grand public les plus utilisés et je n'ai pas, à une ou deux exceptions près, constaté de réelle différence en terme de rapidité ou de pertinence. À savoir, certains moteurs sont plus ou moins spécialisés dans des domaines établis et j'ai volontairement exclu les metamoteurs de recherche qui ne vous apporteront rien de plus pour trouver les URLs basiques disponibles à 99 % grâce aux moteurs standards.
Mon choix de taper letitblog.org dans les différents appareils testés n'est pas du tout le fruit d'un quelconque orgueil personnel, mais plutôt une astuce de procédure : mon blog étant volontairement non répertorié ou affilié à un ring car j'ai expurgé le code source de tout metatag visible permettant aux spiderbots de "voir" la structure de mes pages (niveaux 1 et 2). Je ne souhaite pas apparaître dans des annuaires ou des listes qui me sont inconnues afin de rester dans le "Dark Web" selon la formule consacrée. Donc en écrivant l'adresse letitblog.org ce fut un excellent moyen de me rendre compte du nombre d'informations disponibles au sujet de mon blog !
Bon visiblement, il doit rester quelque part une obscure portion de code qui moucharde mon existence, mais je m'en vais de ce pas chercher et killer l'instruction-indic...
Siouplé vous ne connaîtriez pas un bon Code cleaner pour que je puisse rester underground ? Les voies du Web sont décidément bien pénétrables.

Quelques pastiches rigolos ici, ou là, et une version de Google écrite en Klington, qui comme chacun le sait est la langue de Star Treck !

les principaux moteurs de recherche grand public (hors Google et en langue anglaise) :

All the web
Altavista
AOL
Ask Jeeves
Hotbot
MSN search
Positiontech
WebCrawler
Yahoo

les résultats obtenus avec ces moteurs pour la requête "letitblog" (screenshots) :

PS : changement des 10 chansons de LET iT BLOG Radio, ambiance Noir C Noir...

Dim. - Janvier 23, 2005