Netsources, Numéro de Septembre-Octobre 2005 - n°58


Pluie d'innovations chez Yahoo!

Décidément, Yahoo! ne cesse de faire parler de lui. S’il a été au centre des débats cet été, suite à son annonce – quelque peu controversée – du triplement de la taille de son index (voir Netsources n°57), il a également lancé ces derniers mois plusieurs services innovants, histoire de prendre une certaine avance sur ses concurrents...

Auteur : Béatrice Foenix-Riou

TRADUCTION A LA VOLEE


Ainsi, le moteur a lancé en août dernier, sur son interface allemande (www.yahoo.de), la première version-test d’un système de traduction automatique prometteur.

Le principe était simple : lorsque l’option Yahoo! Suche Translator! (figurant sous la zone de saisie) était cochée, le moteur traduisait automatiquement la requête de de l’allemand vers l’anglais et le français, lançait la recherche sur l’index de Yahoo! dans les trois langues, puis traduisait en allemand les titres et descriptions des pages en anglais et en français ; l’ensemble des pages identifiées était ensuite classé par pertinence, avec indication du langage d’origine.

Après quelques mois de tests, Yahoo! a annoncé sur son blog avoir élargi le service à plusieurs pays.

Yahoo! France s’est ainsi enrichi en octobre d’une option Recherche multilingue (bêta) qui permet, selon les mêmes principes, de traduire une recherche en français vers l’anglais, l’allemand, l’espagnol et l’italien.
Là encore, les pages identifiées dans les diverses langues sont traduites en français – tout au moins les titres et descriptions – et classées par pertinence ; une mention précise, face au titre, la langue du document original.

On peut alors, au choix, afficher la page dans sa langue originale ou lui préférer la version traduite par Yahoo! Il suffit dans ce cas de cliquer sur son titre. Un système d’onglets permet ensuite de naviguer sur le site, qui est alors traduit au fur et à mesure ; il arrive néanmoins que Yahoo! rencontre des difficultés et affiche le message “Nous n'avons pas réussi à traduire cette page”.

Pour illustrer l’intérêt de ce service, Yahoo! indique clairement, dans le haut de l’écran, le nombre de résultats obtenus avec la requête en français et avec la recherche multilingue. On notera que ce système fonctionne également sur les modules Images et Video.

Bien sûr, la traduction est faite de façon automatique – le système utilise la technologie Systran –, ce qui donne quelquefois des résultats pour le moins baroques.

A la requête “web invisible” par exemple, la première page identifiée est la page d’accueil de l’excellent site Invisible-web.net de Gary Price et Chris Sherman (voir Netsources n°34), rebaptisé pour l’occasion net d'Invisible-Web, la description proposée étant “Le site est conçu pour être un compagnon au livre, le Web invisible : La conclusion des moteurs de recherche cachés de ressources d'Internet ne peut pas voir by Chris Sherman et prix de Gary.”

Plus amusant encore, la phrase de remerciements des auteurs à Free Pint, pour l’hébergement de leur site (Many thanks to Free Pint for hosting this site), est traduite par “Beaucoup de grâce à la pinte libre d'accueillir cet emplacement.”...
Et l’on multiplierait les exemples à l’envi...

Mais qu’importe. Les limites de la traduction automatique sont connues depuis longtemps. Il n’en demeure pas moins que si les traductions peuvent prêter à sourire, elles permettent en général de découvrir des pages qui peuvent s’avérer très pertinentes et d’en comprendre globalement le sens. C’est là un atout important. A chacun ensuite de faire traduire les pages de son choix.

Reste que le lancement de ce service – en version bêta – est peut-être un peu prématuré. On aimerait par exemple pouvoir intervenir dans le choix des langues à traduire, comme dans leur classement (en choisissant par exemple un tri selon la langue d’origine...).

Yahoo! a sans doute voulu prendre ses concurrents de vitesse, en occupant le premier un créneau qui risque de se révéler porteur dans les mois à venir, eu égard aux développements de la recherche sur le Web.

YAHOO! MINDSET

http://mindset.research.yahoo.com


En mai 2005, Yahoo! a lancé dans ses laboratoires le service Yahoo! Mindset, qui permet à l’utilisateur d’influer sur le classement des résultats, en indiquant au moteur s’il souhaite obtenir une majorité de sites commerciaux ou au contraire de documents informationnels.

Concrètement, une recherche sur l’interface Yahoo! Mindset affiche une page de résultats presque identique à la page classique, à ceci près que le haut de l’écran contient une réglette avec à ses deux extrêmités shopping et researching. La position que l’on choisit pour le curseur permet de jouer sur le classement des résultats.

Devant l’URL de chaque résultat, on trouve par ailleurs un pictogramme symbolisant la réglette, qui indique en couleur dans quelle partie se situe la page. Yahoo! précise également, entre parenthèses, le classement qu’aurait eu la page si le curseur n’avait pas été utilisé.

L’idée est intéressante, même s’il est souvent difficile de classer certains sites – à titre d’exemple, où doivent se situer les nombreux magazines professionnels qui offrent à la fois articles d’information et possibilité d’achat en ligne ?

Elle se rapproche de la recherche personnalisée de Google, lancée en mars 2004 dans ses laboratoires (voir Netsources n°51http://labs.google.com/personalized), qui classe les résultats selon des domaines d’intérêt indiqués préalablement par l’internaute.

YAHOO! AUDIO

http://audio.search.yahoo.com


Yahoo! a lancé en août un moteur de recherche qui permet de localiser des fichiers audio sur le Web. Plus de 50 millions de fichiers sont indexés, issus de différentes sources :
• les sites Web crawlés par Yahoo! ; dans ce cas, les fichiers sont le plus souvent en accès libre ;
• les différentes banques de données spécialisées sur le sujet – telles iTunes, PassAlong, Rhapsody... – qui permettent de télécharger les fichiers de façon payante ; Yahoo! fonctionne alors comme un métamoteur ;
• et les soumissions directes des internautes.

Les documents audio comprennent à la fois des musiques, des interviews, des chansons, des émissions, des sons... mais aussi des podcasts (fichiers audio qui utilisent un flux RSS).

La page de résultats affiche les documents qui répondent à la requête, avec pour chacun leur titre, un lien vers les sites qui permettent leur téléchargement et le nom de l’album dont est tiré le titre. Il est quelquefois possible d’écouter un extrait gratuitement... Un clic sur le nom de l’artiste affiche la liste de ses albums, ainsi que les premiers résultats issus des modules Web, Images et News de Yahoo!.

On peut affiner les résultats en limitant la sélection aux seuls podcasts, ou encore en précisant le format du fichier (RAM, MP3, MIDI...), la durée (moins ou plus d’une minute) ou la source (Web ou services audio). On peut la restreindre aux artistes, musiques ou albums.

YAHOO! & L’OPEN CONTENT ALLIANCE


Alors que les polémiques liées à Google Print vont bon train, Yahoo! a annoncé en octobre la création du consortium Open Content Alliance (OCA), en partenariat avec des entreprises et organismes de renom, tels The Internet Archive, Adobe et Hewlett Packard Labs, les universités de Californie et de Toronto, les archives nationales anglaises, l’éditeur O’Reilly, etc.

L’objectif de ce consortium est de proposer aux internautes un accès libre à un large fonds numérisé – comprenant à la fois livres, périodiques, mais aussi fichiers audio et vidéo –, tout en respectant la délicate question des droits d’auteur.
Le fonds sera alimenté notamment par les partenaires du consortium, numérisé essentiellement par Yahoo! et HP et hébergé par Internet Archive. Il sera indexable par tous les moteurs de recherche.

Si ce projet ressemble à celui de Google, il en diffère par un point essentiel : la numérisation des ouvrages et périodiques ne se fera qu’après accord des ayants droits. Avant toute numérisation, ces derniers devront indiquer l’étendue de la diffusion, les restrictions éventuelles, etc.  Un “pied de nez” à Google, qui a choisi une méthode fort différente pour son partenariat avec les bibliothèques, puisqu’il a entrepris la numérisation des fonds de certaines bibliothèques sans accords préalables avec les éditeurs, laissant à ces derniers le soin de refuser éventuellement la numérisation de leurs ouvrages.

Le troisième “concurrent” de Google, Microsoft, a quant a lui annoncé qu’il lancerait en 2006 le service MSN Book Search – permettant là encore de chercher dans le texte de documents numérisés – et qu’il ralliait dans le même temps le consortium OCA. MSN a d’autre part signé peu après un accord direct avec la British Library pour la numérisation de 100 000 ouvrages, qui seront disponibles via MSN Book Search...

La numérisation des livres semble bien être le prochain cheval de bataille des moteurs !