Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Netsources > Anciens sommaires > Nutch : un moteur de recherche avec accès libre à son code source

Netsources, Numéro de Novembre-Décembre 2003 - n°47


Nutch : un moteur de recherche avec accès libre à son code source

Auteur : Madeleine Wolff-Terroine

 
Linux ferait-il des émules dans le monde des moteurs de recherche ? La situation actuelle va t-elle changer ?

Il n’est sans doute pas nécessaire de rappeler que, s’il y a un an encore, une bonne demi-douzaine d’acteurs jouaient un rôle de premier ordre dans la constellation des outils de recherche, nous ne sommes maintenant plus en face que de trois principaux acteurs, mais quels acteurs : Yahoo – qui a acheté un autre géant – Overture –, au mois de juillet dernier, pour 1,6 milliard de dollars –, Google, auquel personne ne refuse le titre de roi des moteurs, et Microsoft, lui aussi armé de puissants atouts.

Bien sûr, la domination du marché est l’objectif d’une lutte féroce entre ces trois grands. Ce marché est en effet estimé à 2 milliards de dollars aujourd’hui, et devrait procurer des recettes de l’ordre 6 à 8 milliards en 2004. Aussi ces trois combattants veillent-ils ardemment sur leur position dans le domaine, leur propriété intellectuelle et/ou leur capacité d’innovation. Ainsi, plusieurs centaines de docteurs es-sciences travaillent pour Google, Yahoo a déposé plus de 60 brevets et il est évident que Microsoft a une position très avantageuse sur le marché.

Avec ces trois ténors dominant le marché, les probabilités sont faibles de voir apparaître de nouveaux acteurs. L’entreprise paraît si compliquée et si onéreuse que les divers analystes ont estimé à 100 millions de dollars le coût minimal d’entrée sur le marché.

Et pourtant … Verrait-on un nouveau combat de David contre Goliath ?

Nutch est en train de grandir et, avec un moteur en open source, risque d’ébranler le quasi-monopole de nos trois grands.
Ces derniers nous demandent de leur faire confiance, mais nous ne savons pas exactement sur quoi reposent leur indexation et leurs critères de classement des pages. Malgré leurs affirmations, rien ne nous dit que certains facteurs financiers ne jouent pas un rôle dans ces procédures, mais il est impossible de le vérifier puisque nous n’avons pas accès aux algorithmes.

Avec Nutch, c’est au contraire la transparence : le code source accessible signifie que chacun peut librement utiliser, modifier et même faire des profits avec ce moteur, aussi longtemps que l’on s’engage à faire profiter le code-base de ses innovations personnelles. Chacun est donc libre, grâce à cet accès au code source, de l’utiliser pour ses objectifs personnels.

Maintenant ne rêvons pas : comment, sur un plan matériel, cela peut-il devenir réalité ? Ils sont pour le moment une poignée seulement de développeurs : 4 ! Mais ils ont su convaincre les bonnes fées de se pencher sur le berceau de Nutch. Ainsi, Internet Archive (organisme sans but lucratif) et Overture – eh oui Overture – ont financé leur démarrage. Bien que l’enjeu soit gros, il est jouable, si l’on en juge par ceux qui forment le Board des Directeurs, tous gens d’expérience :

- Mitch Kapor, qui a participé à la création de Lotus Development, à la Electronic Frontier Foundation, et maintenant président de l’Open Source Application Foundation ;

- Tim O’Reilly qui préside la société du même nom ;

- Peter Savich, d’Overture Research ;

- Raymie Stata, de l’UCSC ;

- et Doug Cutting, l’un des principaux architectes du moteur Excite, qui dirige techniquement l’ensemble du projet.

Tout cela représente un défi considérable. Pour remporter un succès, le logiciel Nutch doit être capable :

- d’aller chercher plusieurs milliards de pages par mois ;

- de maintenir un index de ces pages ;

- de faire des recherches dans cet index jusqu’à 1 000 fois par seconde ;

- de donner des résultats de recherche de très haute qualité ;

- de fonctionner à un coût minimal.

Nutch, conscient de l’importance du défi, nous demande de l’aider si nous estimons que ce projet mérite d’être soutenu : cette aide, détaillée sur le site de Nutch, peut être un don en argent, mais aussi une participation au développement du logiciel.

En attendant, les choses avancent : un premier test, non accessible au public à cause d’une capacité de hardware insuffisante, portant sur un index de 100 millions de pages, s’est montré encourageant.

Doug Cutting ne veut pas se risquer à donner une date précise pour le lancement de Nutch, mais espère pouvoir au début de l’année 2004…

Attendons … et espérons

www.nutch.org


 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits