Netsources, Numéro de Mars-Avril 2007 - n°67


Exalead : un moteur qui n'en finit plus d'innover

Le moteur de recherche Exalead a fait son entrée dans la cour des grands en octobre 2004 lorsque le site Exalead, qui n’était alors qu’un site vitrine des produits de la société éponyme, s’est transformé en un moteur à part entière, permettant de lancer des requêtes relativement complexes sur un index de près d’un milliard de pages (voir Netsources n°53).
Depuis cette date, le moteur a bien évolué, en s’offrant notamment en octobre 2006 une nouvelle interface beaucoup plus ergomique et en se dotant d’un index de plus de huit milliards de pages (voir Netsources n°63). ...

Auteur : Béatrice Foenix-Riou

Si l’index d’Exalead demeure encore bien inférieur en taille à celui de ses principaux concurrents – Google et Yahoo! annoncent indexer environ 20 milliards de pages –, le moteur a comme atout de disposer de fonctions plus sophistiquées pour affiner sa requête.

On trouve en effet sur la droite de l’écran de résultats un encadré baptisé “la zapette”, qui s’avère vite indispensable pour préciser sa question. Cette zapette permet de restreindre la sélection :
- aux pages contenant (ou excluant) l’un des termes associés proposés – ces termes correspondent aux mots composés et aux expressions qui apparaissent le plus souvent dans les pages pertinentes ; ils sont identifiés grâce à une technologie développée par Exalead et, à notre avis, ils justifient à eux seuls l’utilisation du moteur ;
- aux pages contenant des fichiers multimédia : fils RSS, fichiers audio ou vidéo ;
- selon la langue des documents ;
- selon leur classification dans l’annuaire de l’Open Directory ;
- selon le format de fichier (PDF, Word...) ;
- selon la situation géographique des sites (pour les sites indexés dans Dmoz).

Il faut savoir que par défaut, la zapette ne propose que quelques options limitées (cinq termes associés par exemple au lieu de quinze) ; pour avoir l’intégralité des possibilités, il faut cliquer sur Plus d’options dans le bas de la zapette, ou cocher la case “Toujours déployer la colonne de droite” dans les Préférences.

Poursuivant son développement, Exalead vient de rajouter discrètement plusieurs fonctionnalités.

LES BLOGS ET LES FORUMS DE DISCUSSION AU PEIGNE FIN


Un nouveau critère – “Type de sites” – vient ainsi de faire son apparition dans la zapette et permet de repérer, pour une question donnée, les messages pertinents postés dans les forums de discussion ou les billets publiés dans les blogs.
On notera qu’ici, les résultats issus de blogs et de forums sont détectés automatiquement par le moteur dans les résultats “Web”, grâce à un algorithme basé sur la reconnaissance du contenu. La technique est donc différente de celle de Google par exemple, qui a choisi d’offrir un moteur dédié aux blogs (Blogsearch) et un autre aux forums de discussion (onglet Groupes).

Les résultats – notamment pour les forums – seront différents aussi car, si Google Groupes permet de faire des recherches sur les archives de Usenet et sur les groupes créés avec Google Groupes, Exalead s’intéresse uniquement aux forums sur le Web. C’est d’ailleurs le seul moteur à permettre une recherche spécifique sur ce type de source.

Comme l’indique Exalead, cet outil est utile notamment pour :
- obtenir de l’information très fraîche ;
- trouver des renseignements pertinents sur un produit commercial, sans être inondé de pages de comparateurs de prix et de sites marchands ;
- accéder simplement à des retours d’utilisateurs ;
- identifier des blogs et des forums concernant un sujet particulier.

EXPLORATION DE WIKIPEDIA


Les afficionados d’Exalead auront d’autre part remarqué l’ajout, le 12 avril 2007, d’un onglet supplémentaire au-dessus de la zone de saisie du moteur.
Baptisé Wikipédia (avec la mention bêta) et proposé simultanément avec une version allemande, française, espagnole, italienne et néerlandaise, cet onglet permet “tout simplement” de lancer une requête par mots sur le contenu de l’encyclopédie libre.
 
Et comme l’on pouvait s’y attendre, les possibilités de recherche comme la présentation des résultats sont très éloignées de celles offertes par l’encyclopédie. Tout d’abord, un clic sur l’onglet Wikipédia affiche une zone de saisie avec, en-dessous, les choix Tout Wikipédia (coché par défaut – la requête est alors lancée sur toutes les versions linguistiques de l’encyclopédie) et Français.

Un lien Recherche avancée permet de préciser sa question en indiquant si l’on recherche :
la phrase exacte (guillemets) ;
des mots exclus (opérateur –) ;
des mots “commençant par” (rappelons qu’Exalead est le seul moteur à permettre l’usage de la troncature) ;
- des mots adjacents ; on notera que bizarrement, l’exemple donné – marché NEAR financier – est impropre ; il faudrait soit formuler la requête “marché NEXT financier” (d’après le mode d’emploi d’Exalead), soit parler de “recherche de proximité” (toujours d’après le mode d’emploi, l’opérateur NEAR recherche les termes à moins de 16 mots de distance l’un de l’autre) ;
une expression logique ; on peut alors utiliser une stratégie combinant parenthèses et opérateurs booléens.

La page de résultats affiche, dans sa partie centrale, la liste des articles trouvés dans Wikipédia avec pour chacun, sur la gauche, une vignette de la page. Cette vignette correspond soit à la copie d’écran du document, soit à une image figurant dans la page et jugée représentative du contenu.

Un clic sur cette vignette affiche la version En cache de la page avec, comme c’est le cas sur Google, les mots de la requête surlignés et la date d’indexation.
Les résultats sont classés selon un algorithme mis au point pour tenir compte spécifiquement de ce contenu encyclopédique.

Pour chaque article identifié, le moteur fournit également un extrait pertinent, ainsi que les catégories qui lui sont liées.

Ces catégories sont l’un des principaux atouts de cette recherche encyclopédique. Elles peuvent être de cinq types :
- catégories de Wikipédia ;
- termes associés (à l’instar de ce que l’on obtient lors d’une recherche sur le Web) ;
- noms de personnes ;
- noms de lieux ou d’emplacements géographiques ;
- noms d’organisations.
Chaque article est lié au minimum à un terme dans une catégorie, mais peut être relié à plusieurs termes dans plusieurs catégories.

L’ensemble des catégories identifiées pour les articles pertinents est par ailleurs représenté sous la forme d’un nuage de tags dynamiques, dans la zapette figurant sur la droite de l’écran. Comme c’est le cas dans ce type de représentation, la taille des mots est ici proportionnelle au nombre d’articles auxquels ils sont liés. Chaque mot est enfin d’une couleur fonction de la catégorie à laquelle il appartient. Comme pour les termes associés, un clic sur l’un des mots relance la recherche et modifie le nuage.

Pour afficher ces tags, Exalead utilise trois techniques différentes :
- comme dans la recherche web, les termes associés sont générés automatiquement grâce à une analyse statistico-sémantique des résultats ;
- les noms propres de personnalités, de lieux et d’organisations sont identifiés grâce à la technologie de reconnaissance d’Exalead, qui tient compte à la fois de règles grammaticales, lexicales et du contenu de dictionnaires ;
- les catégories Wikipédia sont extraites directement à partir de chaque article.

On retrouve ici les caractéristiques propres à Exalead : l’importance est donnée non pas au seul classement des résultats – à l’instar de moteurs tels Google – mais aussi (et surtout ?) à leur présentation dans leur contexte. L’objectif d’Exalead est d’accompagner l’internaute, de le guider dans ses choix (en lui suggérant des catégories pertinentes) et de favoriser ainsi la “sérendipité”, qui consiste à trouver quelque chose d'intéressant de façon imprévue, en cherchant autre chose.
Ce type de recherche s’avère particulièrement adapté pour naviguer dans un contenu encyclopédique, tel celui de Wikipédia.

LA RECHERCHE DE CONTENUS DANS LES IMAGES


Le moteur a également annoncé le 19 avril le lancement d’une nouvelle fonctionnalité réellement innovante : la recherche de contenus dans les images.
Encore en version bêta, cette fonctionnalité a été développée avec la collaboration de LTU Technologies, société spécialisée dans les domaines de la recherche et de la reconnaissance d’images.
Elle s’effectue sur un fichier de près d’un milliard d’images. En réalité, c’est près de deux milliards d’images qui ont été indexées puis triées, afin de ne garder que celles disposant d’informations suffisantes pour permettre une telle recherche (Google quant à lui avait annoncé en 2005 disposer d’un index de 2,1 milliards d’images).

Après avoir lancé une requête par mots dans le module Images d’Exalead (grâce à l’onglet figurant au-dessus de la zone de saisie), on affiche dans la partie centrale de l’écran les images pertinentes identifiées, avec pour chacune le titre, la dimension, le poids (Ko), le format (jpeg...) et l’URL.

La droite de l’écran est occupée, comme dans les autres modules, par la zapette permettant d’affiner sa sélection.
On pouvait déjà préciser sa recherche selon la taille de l’image (petite, moyenne, grande ou fonds d’écran), la couleur (couleur, noir et blanc...), l’orientation (paysage ou portrait) et le type de fichier (jpeg, gif, png).

Un nouveau filtre “Visage” est désormais présent et propose de restreindre les résultats aux images contenant des visages.
A titre d’exemple, une recherche sur “Racine” obtient 57 162 résultats, comprenant des portraits de l’écrivain bien sûr, mais aussi des images de racines d’arbres, de bâtiments (dans une rue Racine), d’animaux, etc.
Un clic sur l’option Visage n’obtient plus que 1 415 images, la plupart étant des portraits (de Jean Racine et d’homonymes).
Certes, le système n’est pas infaillible et l’on obtient régulièrement quelques images qui ne contiennent pas de visages.
Mais l’outil – qui est amené à se perfectionner et à s’enrichir avec d’autres filtres dans les mois qui viennent – a le mérite d’être réellement innovant ; la reconnaissance d’images apporte ici une vraie valeur ajoutée à la recherche.

LA RECHERCHE DE VIDEOS


Exalead a enfin lancé le 10 mai un nouveau module de recherche de vidéos  (en version bêta) accessible, comme pour les images, par un onglet spécifique au dessus de la zone de saisie.

Si Google et Yahoo! notamment offrent déjà des modules de ce genre, le principe est ici différent. Exalead en effet n’est pas une plate-forme de partage de vidéos, contrairement à Yahoo! Video et Google Video, qui permettent aux internautes de transférer leurs films sur le site.

Il indexe pour sa part le contenu de plusieurs sites de partage de vidéo – pour le moment : Youtube, Dailymotion, Metacafe, Kewego et iFilm ; d’autres seront ajoutés ultérieurement –, il récupère les données proposées pour chaque film (auteur, date, note, tags, rubriques...) et harmonise l’ensemble, ce qui lui permet d’offrir des possibilités de recherche, de tris et de filtrage relativement complètes, sur près de cinq millions de vidéos.

On notera qu’à l’heure actuelle, Exalead n’a pas encore indexé l’intégralité du contenu de chaque plate-forme.
Il favorise toutefois l’indexation des vidéos récentes, qui sont le plus souvent présentes dans Exalead quelques heures seulement après leur chargement sur une plate-forme.

Après avoir lancé une recherche sur l’ensemble des plates-formes, on peut trier les résultats par pertinence (choix par défaut), mais aussi par fraîcheur, par durée, par popularité (nombre de visualisations) ou encore selon les notes données par les internautes.

La page de résultats affiche, dans sa partie centrale, la liste des documents sélectionnés, avec pour chacun une vignette issue de la vidéo, le titre, un résumé textuel, ainsi que des informations telles que la plate-forme dont il est issu, l’auteur, la durée, la date d’envoi et le score, représenté par des étoiles. En glissant le curseur sur ces étoiles, on ouvre un petit pop-up précisant la note moyenne de la vidéo (sur 10) et le nombre de personnes l’ayant notée, le nombre de visualisations et le nombre de commentaires.

Si l’on choisit l’option “vue détaillée” (proposée dans le haut de l’écran), on affiche en complément, pour chaque vidéo, les mots-clés et les rubriques qui lui sont associés.
En cliquant sur le titre ou sur la vignette, on lance la vidéo, sur la plate-forme dont elle est issue.
Comme pour les autres modules, la zapette figure sur la droite de l’écran et permet d’affiner la requête.
On peut notamment restreindre la sélection aux documents d’une plate-forme donnée, ou selon la durée de la vidéo (moyenne (1-15 mn), courte (> 1 mn) ou longue (> 15 mn).
Un nuage de mots, correspondant aux tags des vidéos (mots-clés) ou à leurs catégories, permet enfin de filtrer la recherche d’un seul clic sur l’ensemble des plates-formes.

POUR INFORMER ET FEDERER LES UTILISATEURS


Si la recherche d’information semble être le thème central des développements d’Exalead – et l’on s’en réjouit –, les utilisateurs ne sont pas pour autant oubliés et deux services leurs sont destinés :

- lancé officiellement le 25 mars, Exablog (http://blog.exalead.fr) est, comme son nom l’indique, le nouveau blog d’Exalead.
Il a comme vocation d’informer les utilisateurs des dernières nouveautés du moteur et de recevoir leurs commentaires. Encore relativement peu fourni, il couvre des sujets comme les nouvelles et futures fonctionnalités, les événements auxquels Exalead s’associe, la vie de l’équipe, etc ;

l’espace feedback (http://feedback.exalead.fr) est quant à lui un espace de dialogue sur le moteur de recherche.
Exalead y invite tous ses utilisateurs à poster contributions et suggestions (après s’être identifiés) et ceux-ci ne se font pas prier, puisque plusieurs milliers de commentaires ont été publiés.

Mais l’originalité réside dans le fait que chacun peut voter pour les suggestions qu’il juge les plus intéressantes ; celles-ci sont alors mises en avant dans l’espace feedback et sont évaluées par l’équipe d’Exalead.
Les utilisateurs ont ainsi leur mot à dire dans l’évolution du moteur, preuve qu’Exalead se positionne de plus en plus comme un moteur “Web 2.0”.

Avec ces nouveautés, Exalead nous montre qu’il entend bien faire sa place dans le monde des outils de recherche. Certes, son objectif est pour le moins ambitieux (voir encadré).

Mais en mettant l’utilisateur au centre de ses développements et en axant ceux-ci sur l’amélioration de la pertinence du moteur et sur l’enrichissement des possibilités de recherche, il risque fort de séduire peu à peu bon nombre de “Googlemaniaques”, qui commencent à se lasser des instabilités de leur moteur préféré et de son désintérêt pour la recherche avancée (voir Netsources n°59)...


EXALEAD EN BREF

L’ingénieur X-Mines François Bourdoncle, l’un des fondateurs de la société Exalead, fait figure de pionnier dans le domaine des moteurs de recherche, puisqu’il participa aux débuts du moteur AltaVista et, plus particulièrement, au projet LiveTopics. C’est d’ailleurs dans les laboratoires de recherche de Digital à Palo-Alto, en Californie, qu’il rencontra Patrice Bertin, avec qui il fonda la société Exalead en septembre 2000.

Basé à Paris (place de la Madeleine), Exalead possède deux filiales (Italie, Etats-Unis), des bureaux de représentation au Royaume-Uni et en Allemagne et est présent via un réseau de revendeurs dans une quinzaine de pays en Europe et dans le monde. La société emploie 80 personnes (dont une soixantaine à Paris), mais l’effectif devrait passer rapidement à 100 personnes.

L’objectif de la société est rien moins que “révolutionner le monde de la recherche en entreprise, en proposant une plate-forme technologique qui centralise toutes les données de l’entreprise et permette aux utilisateurs un accès unifié à toutes ces informations.”

C’est dans ce but que fut développée la plate-forme technologique exalead one:search, pierre fondatrice de l’intégralité de la gamme de produits d’Exalead (parmi lesquels exalead one:enterprise – pour interroger les bases de données, les serveurs d’entreprises, le Web et les PC – et exalead one:websearch, la solution de recherche sur le Web d’Exalead).

En 2001, la société s’adossa à la holding Qualis pour poursuivre son développement. Exalead et son actionnaire annoncèrent d’ailleurs, en janvier 2007, une augmentation de capital de 12 millions d’euros, pour accélérer le développement à l’international d’Exalead et permettre l’enrichissement des fonctionnalités de recherche du moteur.

Exalead participe d’autre part à plusieurs projets européens, dont Quaero, annoncé en 2005 par Jacques Chirac et présenté à l’époque comme un projet pour contrer Google...

Soutenu par l’Agence de l’innovation industrielle, Quaero est destiné à développer des outils intégrés de gestion de contenus multimédias, dont un moteur permettant de rechercher du texte, des images, du son et de la vidéo. Ce devait être initialement un projet franco-allemand, réalisé avec la collaboration d’entreprises européennes (Thomson, France Telecom, Grass Valley Germany...), de PME (Exalead, LTU Technologies, Jouve...) et de différents acteurs de la recherche publique (Limsi-CNRS, lnria, université de Karlsruhe...). Mais le gouvernement allemand s’est retiré du projet en décembre 2006 ; aucune communication sur l’avancement de Quaero n’a été faite depuis.

Le moteur

Exalead annonce indexer aujourd’hui huit milliards de pages (plus exactement 8 027 366 218 pages), mais ce chiffre – qui figure dans le bas de la page d’accueil – n’est pas mis à jour en temps réel !

Les robots du moteur indexent quotidiennement 100 millions de pages et raffraîchissent entre 20 et 40 millions de pages par jour. La totalité de l’index est renouvelée en deux à trois mois.

L’objectif d’Exalead est de s’arroger 3 à 4% du marché de la recherche mondiale d’ici quatre ou cinq ans. Pour le moment, le moteur traite plus de 400 000 pages vues par jour et reçoit environ un million de visiteurs uniques chaque mois ; pour comparaison, Google France a reçu 24 millions de visiteurs uniques en février 2007 et la version française de Wikipédia a enregistré 8 millions de visiteurs.

Comme la plupart des moteurs, Exalead propose des liens sponsorisés qui apparaissent – grâce à un partenariat avec Yahoo! Search Marketing – dans le haut et dans le bas de l’écran. La vente des liens sponsorisés devrait représenter 5 à 8 % du chiffre d’affaires en 2007, et atteindre la moitié ou les deux-tiers à l’horizon 2010-2011. Ces chiffres sont à comparer avec ceux de Google, qui annonce que 98 % de son chiffre d’affaires provient des liens commerciaux (via les programme Adwords et Adsense).