
|
Netsources, Numéro de Janvier-Février 2007 - n°66 Moteurs personnalisables : une nouvelle génération d'outils de recherche WebQui n’a un jour rêvé d’un moteur de recherche Web conçu spécialement pour répondre à des besoins spécifiques ? Ce rêve d’un moteur intégrant uniquement des corpus de qualité, ciblés selon un centre d’intérêt, peut se réaliser en partie grâce à une nouvelle génération d’outils offrant des potentiels riches en matière de personnalisation.
|
Auteur : Véronique Mesguich, Armelle Thomas |
|||||||||||||||||||||||||||||||||||||||||||||
|
Rollyo, basé
sur l’index de Yahoo! (voir Netsources n°62) avait ouvert le bal en
2005, suivi par Eurekster/Swicki, constituant ainsi la première
vague des moteurs personnalisés.
L’année 2006 a vu le lancement par les trois grands moteurs de solutions personnalisables avec, par ordre d’apparition, MSN et ses Live Search Macros en mars (perfectionnées depuis en octobre), suivi par Yahoo! Search Builder en août et enfin par Google Custom Search Engine (CSE) en octobre. Ces moteurs “à créer soi-même” laissent à l’utilisateur une place importante, s’inscrivant ainsi dans la mouvance du Web 2.0 et ses caractéristiques de simplicité, interactivité, personnalisation, réutilisabilité et partage. QU’EST-CE QU’UN MOTEUR SPECIALISE ?Un moteur spécialisé (ou vertical) permet d'effectuer des recherches sur une thématique précise (qu'il s'agisse d'un secteur d'activité, d'un sport, d'un individu, d'un concept) ou sur un type d'information ou de document particuliers (information statistique, juridique ou universitaire, articles, livres, etc.). Différentes technologies peuvent répondre au concept de moteur spécialisé, notamment celles permettant une catégorisation automatique de pages web. Toutefois, nous prendrons ici comme point de départ une sélection manuelle de sites web, intéressant le grand thème choisi. On peut alors procéder de deux manières : • soit on applique à l'ensemble des pages web contenues dans la sélection le process classique d'un moteur – aspiration des contenus et indexation automatique – pour permettre l'interrogation par mots-clés. C'est alors à l'éditeur de prévoir la technologie moteur, le périmètre précis d'indexation en fonction des sites, la fréquence de mise à jour et le tri de pertinence des résultats. Notons que jusqu'à présent, les bons moteurs spécialisés du Web étaient généralement réalisés ainsi, d'où d'ailleurs leur nombre très limité... On peut ici rendre hommage à des outils précurseurs en leur temps, tel Spinoo, le "moteur de recherche de l'éducation", créé dès 1999 par le CNDP avec un "aspirateur" du marché et la technologie moteur Verity, pour scruter quelque 200 sites éducatifs institutionnels français (www.cndp.fr/spinoo) ; • soit on utilise la fonctionnalité ad-hoc d'un moteur généraliste, en limitant les résultats de celui-ci aux pages issues d’une sélection de sites – on notera que les sites du Web invisible, interrogeables uniquement via un formulaire et dont une bonne part du contenu n’est donc pas indexée par le moteur, ne seront pas non plus interrogés par un moteur personnalisable. On travaille en fait sur un sous-ensemble de l'index du moteur, sans qu'il y ait d'indexation plus poussée des sites en question. C'est ici que se situe l'univers des moteurs personnalisés, dont la mise en œuvre, très simple, nécessite néanmoins de respecter quelques étapes méthodologiques. LES ETAPES DE CREATION• Etape 1 : Cerner son besoinQuel sera l'usage de ce moteur personnalisé ? S'agit-il seulement de permettre la recherche sur les pages de son propre site, de se simplifier la vie pour des requêtes récurrentes sur des ensembles de sites connus, de partager ses connaissances, ou de proposer un service à valeur ajoutée à ses visiteurs, ou clients ? Comme toujours, les questions “Pour qui”, et “Pour quoi faire” seront les premières à se poser avant de se lancer et de choisir un outil.Ensuite, on pourra "baptiser" son moteur (rappelons l'importance du choix d'un nom), le décrire en quelques lignes et via quelques mots-clés ou tags, en fonction des outils. • Etape 2 : Opérer sa sélection de sites webIl s'agit ensuite d'identifier, de sélectionner et de valider les sites adéquats, dans l'objectif de la construction d’un moteur spécialisé ; on peut aussi utiliser un répertoire déjà constitué, voire des favoris. Cette sélection devra évoluer dans le temps pour répondre aux changements constants du Web : fermeture de site ou modification des URLs utiles, nouvelles sources... Selon la technologie choisie, des contraintes existent dès cette étape et il faut donc statuer en fonction des objectifs et de l'ampleur du projet : le nombre de sites est parfois limité, la souplesse de choix ou d'exclusion de pages ou de répertoires est plus ou moins grande selon les outils.• Etape 3 : Indiquer sa sélection à l'outil choisiLa saisie se fait manuellement la plupart du temps. L'opération est parfois facilitée : ainsi; pour des imports importants exploitant éventuellement les "patterns" (programme de spécification pour le choix des pages), Google CSE permet d'utiliser des fichiers OPML ou de choisir le format XML.Rollyo quant à lui prévoit l'import direct à partir de bookmarks ou favoris. Notons que Google propose deux options pour la recherche : soit en limitant l'interrogation aux sites sélectionnés, soit en interrogeant son index complet, mais en donnant la priorité aux sites sélectionnés. Yahoo! permet d'ajouter ou d'exclure des mots-clés aux recherches sur le moteur personnalisé et d'intégrer les actualités, dans leur ensemble ou ciblées sur un secteur. MSN avec Live Search Macros (mode "avancé") propose d'enregistrer des requêtes pré-construites avec la syntaxe avancée du moteur, pour filtrer de futures nouvelles requêtes par mots-clés. Dans cette option, on ne rentre pas de liste de sources, mais on utilise l'opérateur “site:” (avec l'opérateur OR s'il y a plusieurs sources), accompagné du reste de l'équation de recherche "préfabriquée". Enfin, le droit à l’erreur est reconnu : Google CSE et Live Search Macros offrent de “tester” la recherche, avant de rendre public le moteur ou la macro créée. • Etape 4 : Choisir le statut du moteur et les options de rechercheLe statut peut être privé ou public (Rollyo). On peut généralement implanter sur son site une fenêtre de recherche, voire les résultats ; on peut aussi parfois aménager le design de son site, disposer de statistiques ou encore accepter les collaborations extérieures (Google Custom Search Engine).Les moteurs ainsi créés pourront éventuellement être intégrés sous forme de widget à une page personnalisable de type Netvibes ou Webwag. BANC D’ESSAI DES MOTEURS PERSONNALISABLESNous avons tenté de comparer les quatre outils majeurs selon plusieurs critères, correspondant à ces différentes étapes.Première constatation : le dernier arrivé dans la famille des moteurs personnalisables, Google Custom Search Engine, apparaît à ce jour comme le plus professionnel et le plus abouti en matière de fonctionnalités, tout en restant très souple dans le paramétrage. Pour autant, le choix de l’outil dépendra avant tout de l'objectif poursuivi, d'autres avantages être décisifs dans la décision. Nous avons utilisé pour ce banc d’essai les critères suivants : périmètre à prendre en compte, limitation ou non du nombre de sites à intégrer, possibilité de modification de l’interface de consultation, d’intégration à un site personnel et éventuels gains financiers. • Périmètre à prendre en comptePour la spécification du "périmètre du Web" à interroger, Google CSE devance très nettement ses concurrents. Or, ce paramétrage est essentiel dès lors que l'on veut créer un moteur spécialisé vraiment pertinent. En effet, les sites web les plus informatifs sont aussi souvent les plus importants en taille et ne pas pouvoir se limiter à un répertoire, voire à quelques pages, est rédhibitoire.Google CSE offre ainsi une large souplesse dans l’ajout ou l’exclusion d’une page ou d’un répertoire, voire des URLs contenant des termes précis. On peut utiliser des “patterns” ou motifs d’URL, afin de cibler la recherche sur un ensemble de pages pré-selectionnées en fonction des besoins – les modalités de création de patterns à partir du caractère wildcard (*) sont exposés page suivante –. On peut également importer en une seule opération un ensemble de flux RSS ou Atom, via un fichier au format OPML. Les trois autres solutions permettent de restreindre le périmètre à un domaine ou à un sous-domaine (par exemple, www.emlv.devinci.fr, sous domaine du site devinci). En revanche, il n’est pas possible – comme ça l’est avec Google CSE – de ne prendre en compte dans un site qu’un répertoire ou sous-répertoire donné. Avec Yahoo! Search Builder, on peut également exclure des sites complets. • Limitation du nombre de sites et modification de l’apparenceLà encore, avantage à Google CSE et Yahoo! Search Builder : le nombre de sites à intégrer dans le moteur est illimité, contrairement à Rollyo (25 sites maximum) ou Live Search Macros (30 sites maximum). Les deux premiers moteurs permettent également d’ajouter un logo et de modifier le choix des couleurs et la présentation générale, ainsi que la langue de l’interface.L’interface administrateur de Yahoo! Search Builder donne en outre accès à des statistiques d’utilisation. • Intégration du moteur sur un site privéLive Search Macros permet de créer une page personnalisée sur le serveur des macros, mais pas d’intégrer la macro sur un site privé, contrairement aux trois autres solutions, qui proposent une intégration sous forme de fenêtre de recherche (iframe). Rollyo permet quant à lui d’intégrer le “Searchroll” personnalisé à une barre d’outil Firefox : l’outil est également disponible sous forme de bookmarklet, permettant de rajouter de nouveaux sites à la volée.• Gain financierGoogle est à ce jour le seul à proposer un “intéressement financier” aux créateurs de moteurs verticaux, qui peuvent alors percevoir une partie des gains sur les clics effectués depuis les publicités “Adwords” apparaissant sur les pages de résultats.Ce qui ne signifie pas pour autant que les autres moteurs personnalisés soient exempts de bandeaux publicitaires ! Rollyo semble d’ailleurs détenir le record du nombre de publicités insérées parmi les pages de résultats… • La simplicité avec Live Search MacrosPour se familiariser avec le principe des moteurs personnalisés, mieux vaut démarrer avec Rollyo ou Live Search Macros : la création sera guidée pas à pas.Sur Live Search Macros, on démarre par la page de création de macros : cliquer sur le bouton “Commencer”, puis suivre les étapes. La macro peut être créée sur un ensemble de pages web (index de MSN Live Search) ou sur les pages Actualités. On doit ensuite saisir les adresses des sites concernés (30 maximum, une par ligne). Un formulaire d’interrogation permet de tester la macro à partir d’une recherche par mots-clés. Une fenêtre de comparaison entre les résultats de la recherche web classique et de la recherche via la macro apparaît à l’écran. Si la macro est satisfaisante, on peut l’enregistrer sur un compte personnalisé, à partir d’une adresse de messagerie (il n’est pas nécessaire de disposer d’une adresse Hotmail). Il ne reste plus ensuite qu’à donner un nom d’identifiant à la macro ; on la retrouvera alors à tout moment sous une adresse de ce type : http://search.live.com/macros/nomdelamacro. • Google CSE à la loupeLa création d’un moteur avec Google CSE s’avère un peu plus sophistiquée.On démarre ici avec la page Google Co-op : Il faut tout d’abord créer un compte personnalisé à partir d’une adresse de messagerie (là encore, il ne s’agit pas nécessairement d’une adresse Gmail), et d’un mot de passe. Ensuite, on remplira le formulaire proposé en indiquant successivement le nom du moteur, sa description en texte libre, quelques mots-clés pour en décrire le contenu, ainsi que la langue de l’interface. On saisira alors les adresses des sites concernés, soit une par une, soit en les important à partir d’une liste de favoris ou d’un fichier OPML. Enfin, on choisira d’afficher ou non des bandeaux publicitaires sur les pages de résultats, selon la vocation commerciale ou non du moteur ainsi créé. - Pour restreindre la recherche : la richesse des URL patterns dans Google CSE Les patterns, ou motifs d’URL, font partie des options les plus intéressantes de Google CSE. On va ainsi pouvoir orienter la recherche, en fonction des besoins, sur tout ou partie d’un site. Il suffit pour cela de saisir les patterns dans le masque “Included sites”, accessible par le lien “Sites” dans le “Control panel”. Il ne reste plus alors qu’à jouer du caractère wildcard pour obtenir toutes sortes de modèles possibles : • recherche sur un site complet : www.bases-publications.com/* (toutes les pages du site Bases Publications) • recherche sur la page d’accueil : www.bases-publications.com (page d’accueil du site Bases Publications) ; • recherche sur un sous-répertoire : www.bases-publications.com/revues/* (toutes les pages du sous-répertoire “revues” dans le site Bases Publications) ; • recherche sur des pages contenant un terme donné dans l’URL : www.bases-publications.com/*netsources (toutes les pages du site Bases Publications contenant le terme Netsources dans l’URL (on peut saisir plusieurs termes en les faisant précéder du caractère *) ; • pages dynamiques contenant un terme donné dans l’URL : www.devinci.fr/info/publics.php?* extérieurs (toutes les pages dynamiques du site de Vinci dont l’URL contient le terme extérieurs). On peut bien entendu utiliser ces mêmes patterns pour exclure des pages du périmètre à prendre en compte, en saisissant les adresses dans le masque “excluded sites”. - Affiner la recherche à partir des labels Il ne faudra pas confondre les patterns avec les labels, que l’on trouvera sous le lien “Refinements” dans le “Control Panel”. Ces “labels” sont en fait un système de “tagging” par des mots-clés prédéfinis, en toutes langues, qui permettront de donner un “coup de projecteur” thématique à une recherche donnée. Google donne accès à une liste de labels classés par thèmes ; dans le secteur de la santé par exemple, on pourra utiliser des labels créés entre autres par la National Library of Medicine, tels que “drug_uses” ou encore “patient_handouts”. Ces labels pourront être associés à une ou plusieurs URLs dans votre moteur personnalisé, de façon à pondérer les résultats d’une recherche selon une thématique transversale. Pour associer un label à une URL il faut, à partir du menu Refinement dans le Panel Control, cliquer sur “Add refinement”. Ensuite, il suffit d’attribuer un nom au label, de cliquer sur Save, puis “Go to the sites tab”. Il ne reste plus qu’à sélectionner les URLs qui seront associées à ce label. Exemple d’application intéressant : utiliser des labels à caractère linguistique (“francophone”, “anglophone”, etc), géographique (pays, région), ou selon la nature des sites. Cette option, absente des possibilités offertes par les moteurs généralistes, fait partie du programme de mutualisation Google Co-op et peut s’apparenter à des techniques documentaires classiques de classification “à facettes”. - Enrichissement contributif du moteur Mieux encore : un fonctionnement en mode collaboratif est également possible. Les moteurs verticaux créés via Google CSE peuvent être enrichis via des contributions externes et des suggestions de sites, si l’on a autorisé cette option lors de la création du moteur. • S’inspirer d’exemple de moteurs déjà créés…Afin d’élargir le périmètre des recherches, pourquoi ne pas s’inspirer de réalisations déjà existantes ? Rollyo propose d’explorer les “Searchrolls”, bouquets de sources composés par des utilisateurs, sur tous les sujets. Il en est de même pour MSN, avec la LiveSearch Macros Gallery. Le Custom Search Guide associé à Google CSE présente lui aussi un annuaire thématique de moteurs personnalisés, avec en début 2007 environ 250 réalisations inscrites.A l’heure actuelle, on peut remarquer une forte proportion de réalisations d’origine anglo-saxonne. L’ALA (American Library Association a ainsi créé un moteur incluant 125 sites de bibliothèques, sous le nom de “Librarian’s E-library”. Parmi ces moteurs créés par des internautes, une grande partie concerne des sujets à caractère “grand public” : musique, loisirs, voyages, mode… Certains moteurs, cependant ont été créés dans une optique plus professionnelle. A titre d’exemples, on peut citer, pêle mêle, un moteur sur le droit constitutionnel français créé par Stéphane Cottin à partir d’une vingtaine de sites juridiques, ou encore un moteur spécialisé en intelligence économique, comprenant plus de 60 sites, dont de nombreux blogs… Google CSE dispose également d’un blog officiel, en anglais, où l’on pourra dénicher trucs et astuces avancés. Cette nouvelle gamme de moteurs ciblés peut aussi, tout simplement, offrir des moyens originaux de “sourcing”, à savoir d’identification et de sélection de sites de qualité dans un secteur donné. En effet, les sites ou rubriques de sites choisis apparaissent, soit clairement (pour Rollyo, par exemple), soit tout au moins dans les résultats des requêtes effectuées sur ces moteurs. • Le modèle économiqueSelon le site SEO Straight Talk, les moteurs verticaux vont se développer de plus en plus et Google souhaite prendre une part de ce marché, les créateurs de moteurs spécialisés jouant un rôle d’intermédiaire.Les moteurs verticaux pourraient occuper d’ici un an jusqu’à 2 % du marché. Rappelons qu’aux Etats-Unis, selon les chiffres fournis par Nielsen, la part de marché de Google en décembre 2006 était de 50,8 %, contre 23,6 % pour Yahoo! et 8,4 % pour MSN Live Search. En France, selon le baromètre 1ere Position Xiti, Google dominait encore largement le marché en janvier 2007, avec 87 % du trafic des moteurs, suivi de loin par Yahoo (4 %), Voila (2,4 %) et MSN Live Search (2,3 %). UNE QUATRIEME GENERATION DE MOTEURS DE RECHERCHE WEB ?La concurrence exacerbée entre les trois géants actuel (Google, Yahoo!, MSN) va-t-elle se prolonger à travers cette nouvelle race d’outils de recherche ? Ces nouvelles possibilités vont-elles toucher le grand public, ou bien rester l’apanage de professionnels de l’information et d’internautes curieux adeptes du “do it yourself” ? Les moteurs d’origine française, Exalead et Voila – ce dernier affichant une orientation 2.0 avec sa nouvelle interface – vont-ils également succomber à la mode des solutions personnalisables ? Les solutions de plus en plus nombreuses et parfois redondantes (nous n’avons pas évoqué dans cet article Eurekster/Swiki ou encore Pssdir) sont-elles toutes amenées à perdurer ? S’il est encore un peu tôt pour répondre à ces questions, on peut d’ores et déjà considérer cette nouvelle famille comme la “quatrième génération” des moteurs de recherche Web. Faisant suite à une génération de moteurs ou méta-moteurs aux fonctionnalités innovantes apparus depuis les années 2000 (Exalead, Kartoo, Mozbot), suite au succès des moteurs “deuxième génération” et à la rupture qu’a constitué l’arrivée de Google, en 1998, détrônant ainsi la première génération “historique” (Lycos, Altavista). Ceci étant, les options de personnalisation ne concernent pas que les moteurs classiques, loin s’en faut. Les formidables développements autour des flux de diffusion aux formats RSS ou Atom nécessitent de plus en plus d’options personnalisées, pour éviter de se noyer dans un volume d’information trop abondant. Des applications professionnelles ciblées apparaissent : avec l’interface Libworm, on peut ainsi interroger plus de 1 000 flux RSS créés par des professionnels de l’information. Le tout nouveau service Yahoo Pipes, lancé en février 2007, permet quant à lui de reformater et de mixer sous forme de “mashup” des flux RSS, afin de créer de nouveaux services répondant à un besoin précis : par exemple, un filtre pour éliminer des éléments contenant tel ou tel mot-clé, ou encore placer un système de surveillance des prix sur le site E-bay. LA MORT DE LA RECHERCHE ?Lors du dernier salon Online à Londres, le britannique Phil Bradley annonçait, non sans un certain goût de la provocation, “la mort de la recherche” (death of search), pour nuancer très vite son propos et dévoiler les tendances d’évolution des moteurs. Bradley mettait ainsi l’accent sur des solutions de recherche personnalisables, créées par des individus ou des collectivités et disponibles sur tous types de terminaux, y compris les mobiles. On attend également beaucoup du futur moteur désigné actuellement sous le nom de code Wikiasari et lancé par Jimmy Wales, fondateur de Wikipedia. Ce moteur aura recours aux mêmes logiciels libres que la célèbre encyclopédie, ainsi qu’à un réseau humain ou “communauté de confiance” qui validera les résultats de la recherche. Quoiqu’il en soit et quelles que soient leurs perspectives d’avenir, ces moteurs personnalisables ont au moins pour les professionnels de l’information le mérite de mettre au cœur du système la sélection des sources et des mots-clés, illustrant ainsi la convergence actuelle entre les outils et les sources et le rôle de plus en en plus actif des utilisateurs. En bref, à vous de jouer maintenant ! QUELQUES CRITERES DE CHOIX SUR LES QUATRE OUTILS MAJEURS
A CONSULTER POUR ALLER PLUS LOIN• Solutions personnalisables - www.rollyo.com - http://builder.search.yahoo.com - http://search.live.com/macros - www.google.com/coop - http://swicki.eurekster.com (solution de recherche “communautaire” - www.pssdir.com “Personal Search Syndication”, permet de créer des filtres de recherche personnalisés • Annuaires de moteurs personnalisés - www.customsearchguide.com (moteurs créés via Google CSE) - www.rollyo.com/explore.html (Searchrolls créés avec Rollyo) - http://gallery.live.com, rubrique Macros (macros créées avec LiveSearch) • Exemples de moteurs personnalisés - Moteur droit constitutionnel français : www.google.com/coop/cse?cx=012977174311700543344%3Axaf1_umv5tg - Moteur expérimental intelligence économique : www.googlinside.com/Ressources/moteur.html • Les slides de Phil Bradley (Conférence Online 2006) peuvent être consultées à l’adresse suivante : www.slideshare.net/Philbradley/online-conference-2006-the-death-of-search. LES AUTEURSVéronique Mesguich, directrice de l’INFOthèque du Pôle universitaire Léonard de Vinciet Armelle Thomas, consultante indépendante dirigeant le cabinet Inforizon, sont les co-auteurs de l’ouvrage “Net recherche : le guide pratique pour mieux trouver l’information utile”, publié aux Editions ADBS (2ème édition à paraître en mars 2007) |
||||||||||||||||||||||||||||||||||||||||||||||