
|
Netsources, Numéro de Juillet - Août 2003 - n°45 Pas de vacances pour Google... |
Auteur : Béatrice Foenix-Riou |
|
Google nous surprendra toujours !
Alors que nous regrettions, dans le dernier numéro de Netsources, un certain laisser-aller dans le contrôle qualité du moteur – nous avions remarqué deux mois auparavant des dysfonctionnements qui perduraient lors de l’utilisation des opérateurs avancés intitle:, inurl:..., voir article “Google : quand les “data centers” n’en font qu’à leur tête”* –, nous avons eu la bonne surprise, quelques jours après la parution de Netsources, de découvrir que les problèmes avaient été identifiés et réglés*... Mieux encore, on peut se demander si les équipes de Google ont pris des vacances, au regard de la quantité et de la diversité des améliorations et nouveautés lancées au cours de l’été. Que l’on en juge... LA RECHERCHE DE SYNONYMESGoogle a lancé au début du mois d’août un nouvel opérateur qui, s’il n’est pas totalement convaincant dans son mode de fonctionnement, peut apporter une aide efficace à la formulation de certaines recherches. En saisissant le symbole tilde (~) – que l’on obtient, sur PC, avec la commande AltGr+2+espace et, sur Mac, avec la commande alt+n+espace – directement devant un mot (sans espace entre le symbole et le mot), on lance la recherche sur ce mot et ses synonymes. A titre d’exemples, une recherche avec aviation ~accidents identifie des pages contenant aviation crashes, aviation injuries, aviation fatalities, aviation accident... ; on peut aussi élargir la recherche en précisant ~aviation ~accidents, et l’on obtient alors aircraft crashes, flight crashes, pilot crashes, etc. Comme à son habitude, Google reste très discret sur la technologie employée. Marissa Mayer, Product Manager chez Google, a toutefois expliqué à Gary Price (www.resourceshelf.com) que la technologie et le thésaurus utilisés étaient développés en interne, et constituaient un prolongement du service Google Sets, actuellement en phase de test dans les laboratoires de Google (labs.google.com/ sets, voir Netsources n°42). On notera que la recherche de synonymes ne fonctionne actuellement que sur les pages Web en anglais (on obtient des résultats peu probants sur les pages en français...). Les quelques tests effectués amènent cependant certains commentaires : - cet opérateur élargit en fait la requête aux synonymes d’un mot, mais aussi à ses différentes variantes (singulier/pluriel, formes conjuguées...) ; il peut ainsi faire office, dans une moindre mesure, de troncature ; une requête avec flour ~mill identifie par exemple des pages contenant flour milling, flour miller ou flour mills... - l’opérateur peut être accolé à un ou plusieurs des mots de la requête, mais ne peut être utilisé pour une expression (mots entre guillemets) ; dans ce dernier cas, il est tout simplement ignoré par Google, qui recherche l’expression exacte ; - la recherche de synonymes peut être combinée avec une requête sur un champ particulier ; intitle:~aviation retrouve par exemple les pages contenant les mots aviation, air, airlines, airport, aerospace... dans le titre ; idem avec les opérateurs allintitle:, inurl: ou allinurl:... En revanche, si l’on combine la recherche d’un synonyme dans le titre ou l’URL et celle d’un mot dans la page, la requête ne semble pas comprise correctement ; - on peut avoir des doutes certains sur la façon de fonctionner de cet opérateur ou, tout au moins, sur le nombre de réponses donné par Google : souvent en effet, on obtient moins de résultats lorsque le mot est précédé du symbole que lorsqu’il ne l’est pas... bizarre façon d’élargir la recherche... (ex.: aviation accidents : 447 000 pages ; aviation ~accidents : 249 000 pages...) ; - en tout état de cause, cet opérateur peut être utile pour identifier d’autres mots-clés, qui permettront de mieux formuler sa question. Une façon astucieuse de mettre en évidence les synonymes est de combiner dans la même requête le symbole tilde et l’opérateur SAUF (–). Une recherche sur “search engines” ~guide -guide affiche ainsi dans les premiers résultats des pages contenant les mots “search engines” et tutorial, tips, help, manual... GOOGLE ACTUALITES ENFIN LANCE (news.google.fr)Les afficionados de Google l’auront sans doute remarqué : l’interface de Google.fr s’est enrichi début août d’un onglet supplémentaire au-dessus de la zone de saisie. Baptisé Actualités, cet onglet permet de lancer une requête par mots sur les dépêches et actualités indexées par Google, et est en fait la version francophone – encore en phase Beta – du service Google News, accessible lui depuis près d’un an, directement via news.google.com ou par l’onglet News de la page d’accueil de Google.com (voir Netsources n°40). Pour alimenter ce module, plus de 500 sources d’actualités francophones dans le monde sont indexées quotidiennement par un robot spécifique. Parmi les sources prises en compte, on trouve bien sûr des fils d’agences de presse (Reuters, AFP, AP...), des quotidiens et magazines français (Le Monde, Les Echos, Libération, Le Progrès, Dernières Nouvelles d’Alsace, Le Nouvel Observateur, Le Figaro, Investir...), mais aussi des titres belges (Le Vif, Le Soir...), luxembourgeois (Tageblatt...), canadiens (Le Devoir...), de différents pays d’Afrique – du Bénin (Le Matinal...) à la Côte d’Ivoire (Le Matin, Notre Voie...), en passant par le Sénégal (Le Soleil...) –, etc. Des articles sont également issus de sites Web offrant des actualités (Boursorama, Agrisalon.com, Kompass, FirstInvest, Voila.fr ...). La page d’accueil – générée automatiquement toutes les cinq minutes environ – affiche des liens vers les principales actualités, classées dans les catégories À la une, International, France, Economie, Science/ Tech, Sports, Culture, Santé. Les articles sont choisis de façon totalement automatique, sans aucune intervention humaine, par des algorithmes informatiques prenant en compte plusieurs facteurs, comme la fréquence selon laquelle ils apparaissent sur d'autres sites du Web. Sophistication intéressante : les titres et photos concernant un même sujet sont regroupés, ce qui permet de comparer instantanément le traitement d’une actualité selon les organismes et les sources. On peut bien sûr lancer une requête par mots sur l’ensemble des articles indexés, avec des possibilités proches de celles de la recherche sur le Web ; mais certaines bizarreries demeurent. Ainsi, les opérateurs intitle: et allintitle: semblent fonctionner correctement, quand inurl: donne des résultats aléatoires ; à titre d’exemple, inurl:tf1 identifie bien des articles issus du site tf1.fr mais inurl:libération recherche libération n’importe où dans la page... L’opérateur site: quant à lui n’est pas accepté. Ces dysfonctionnements sont peut-être dus à la jeunesse du service, encore en version Bêta. Pour chaque article identifié, Google indique le titre (avec un lien vers l’article sur le site de l’éditeur), la source, la date d’indexation – qui n’est pas forcément identique à la date de publication – et un extrait de l’article contenant les mots de la requête. Nous avons voulu comparer les résultats de Google Actualités à ceux de son concurrent direct AlltheWeb (module News), l’un des rares services de ce type couvrant la presse francophone. Yahoo! Actualités offre bien un service similaire, mais il est en grande partie réalisé à partir des dépêches AFP, AP, Reuters – complétés par quelque sites – et n’indexe pas les sites de presse ; nous l’avons donc écarté de la comparaison. Les tests sur AlltheWeb ont été faits sur l’ensemble des articles indexés (l’antériorité est d’une semaine), en limitant les résultats aux articles en français. Sur Google Actualités, nous avons utilisé le choix Tri par date (par défaut, les résultats sont classés par pertinence) et nous avons compté les documents publiés depuis une semaine ; les articles sont en effet conservés un mois sur Google Actualités, ce qui est un autre atout du service. Les quelques tests effectués ont donné systématiquement la palme à Google, qui devançait largement AlltheWeb quant au nombre de résultats, aussi bien pour des requêtes comme canicule raffarin pelloux (70 résultats contre 25) que pour pechiney baotou (18 contre 4) ou korzeniowski (22 contre 13). Cela étant, chacun des services proposait des articles que l’on ne trouvait pas dans l’autre (issus de sources comme Midi Libre, L’Est Républicain ou TF1 pour AlltheWeb, et de Ouest France, Libre Belgique, Le Figaro, Le Progrès, Le Nouvel Obervateur ou World Socialist pour Google). Le nombre de résultats est par ailleurs à nuancer, car : - on trouve de très nombreux doublons – sur Google Actualités notamment – dus à la reprise d’un même article par plusieurs sites (article de Firstinvest.com sur Le Figaro.fr, Le Point.fr... ; dépêche de Reuters sur Libération.fr, Europe1.fr, Kompass.fr, Boursorama.com, etc.) ; - sur Google Actualités (mais sur AlltheWeb également) les résultats peuvent offrir un nombre relativement important d’articles inaccessibles, du fait du déplacement de l’article dans une zone réservée aux abonnés (Dernières Nouvelles d’Alsace...), d’un lien qui amène sur la page d’accueil du site et non sur l’article lui-même, etc. Au total, Google Actualités présente donc un certain nombre de faiblesses, (presque) incontournables dans ce type de service. Il serait dommage de bouder pour autant une telle source, qui n’a pas vocation à concurrencer des agrégateurs – accessibles sur abonnement – comme Pressed, Europresse ou Diva-Presse. Google Actualités offre à l’internaute la possibilité d’accéder gratuitement aux articles récents de la presse francophone, et c’est une richesse indéniable. Seul regret : la grille de recherche avancée, lancée il y a peu sur la version américaine de Google News (voir Netsources n°44), n’est pas encore proposée ici. Espérons qu’elle sera ajoutée quand le service ne sera plus en phase Bêta. GOOGLE NEWS ALERTS : UNE AVANCE DECISIVE (www.google.com/newsalerts)Nous annoncions dans le dernier numéro de Netsources le lancement de la recherche avancée sur le module Google News (news.google.com), version améri-caine de Google Actualités, qui donne accès à des dépêches et articles issus de 4 500 sources en anglais dans le monde. Cette amélioration était en fait proposée en guise d’apéritif... Début août en effet, Google a lancé le service Google News Alerts, actuellement offert en version Bêta (www.google.com/newsalerts).Ce service donne à l’internaute la possibilité d’enregistrer sa requête, et d’être prévenu par mail dès que de nouveaux articles pertinents sont indexés par Google. Il est de même type que Google Alert (www.googlealert.com, voir Netsources n°42), qui permet quant à lui de surveiller les nouvelles pages Web indexées par le moteur sur un sujet donné. Mais contrairement à Google Alert, qui est un applicatif conçu et réalisé par un étudiant du Technion (l’Institut de Technologie d’Israël), dans le cadre des API – bibliothèque de scripts pour des programmeurs, leur permettant de développer de nouvelles fonctionnalités en utilisant l'index de Google –, Google News Alerts est développé quant à lui par l’équipe de Google, dans ses laboratoires de recherche (labs.google.com). La mise en place d’une alerte sur le module News est on ne peut plus simple : depuis la grille de Google News Alerts, il suffit d’indiquer le ou les mots que l’on souhaite surveiller ainsi que la fréquence à laquelle on souhaite recevoir l’alerte (une fois par jour ou à chaque indexation d’une dépêche pertinente), en précisant bien sûr son adresse e-mail. Une fois l’alerte enregistrée, une demande de confirmation est envoyée à l’adresse mail indiquée ; il faut alors cliquer sur le lien Validation pour activer l’alerte. Et l’on reçoit ensuite par courriel l’annonce des nouveaux documents pertinents, avec pour chacun son titre, la source, un extrait de l’article et un lien vers le texte intégral de l’article sur le site de l’éditeur. Bien sûr, si une même dépêche est reprise dans plusieurs articles, le courriel donne la liste des doublons... Il est possible d’enregistrer 50 alertes pour une adresse e-mail. En revanche, contrairement à Google Alert, il est impossible de modifier une alerte ; on ne peut que les supprimer ou les créer... On notera que l’alerte peut bien sûr se faire sur un mot-clé, mais aussi sur une requête plus sophistiquée. On peut saisir celle-ci directement dans la zone de saisie, avec les différents opérateurs (intitle:, inurl:...) ; en cas de doutes, on peut aussi formuler sa question dans la grille de recherche avancée de Google News puis, après avoir cliqué sur Google Search, copier la syntaxe qui apparaît sur la page de résultats et la coller dans la grille Google News Alerts. Seule limite : le service d’alerte n’est offert aujourd’hui que pour la version améri-caine des Google News ; espérons qu’il soit rapidement mis en place pour la version française ! Avec Google News Alerts, le moteur prend une avance décisive sur ses concurrents (AltaVista, AlltheWeb...), qui offrent des modules d’actualités très proches du sien, mais qui ne proposent pas – du moins pas encore – de service d’alerte ; Yahoo! News offre quant à lui un service d’alerte, mais les sources surveillées sont infiniment moins nombreuses (57 sources). Espérons que cette avancée de Google donne des idées aux autres moteurs. UN INDEX DE SECOURS POUR GOOGLE ?Greg Notess a mis en évidence que lors de certaines recherches effectuées sur Google, on pouvait obtenir quelques résultats contenant l’indication Supplemental Result écrit en vert, à gauche du lien Cached ( http://www.searchengineshowdown.com/newsarchive/000713.shtml). Dans les pages d’aide du site Google.com (www.google.com/help/interpret.html), on trouve l’explication de cette indication : “Google augments results for difficult queries by searching a supplemental collection of web pages. Results from this index are marked in green as "Supplemental."” Pour le moment, ces Supplemental Results n’apparaissent que lorsque la recherche est effectuée depuis le site en anglais Google.com. Quel peut être cet index complémentaire ? Le canadien Marc Duval écrit dans son site Dsi Info (www.dsi-info.ca) que cette nouvelle banque de données pourrait être issue de la base des Google Answers (le service question-réponse payant lancé par Google il y a un an environ). Curieusement toutefois, on a pu constater lors de nos tests que si cette mention Supplemental Result apparaît uniquement depuis des recherches via Google.com, les pages censées être identifiées via un index complémentaire s’affichent aussi (le plus souvent en dernière position) lors de recherches depuis Google.fr, mais sans cette mention ... Bizarre, vous avez dit bizarre ? * Greg Notess avait également signalé, sur son site Search Engine Showdown, que les opérateurs intitle: et inurl: ne fonctionnaient plus sur Google depuis le 27 mai ; il a annoncé le 16 août que ces problèmes semblaient résolus. Une page “Google Inconsistencies” est d’ailleurs dédiée au signalement – et au suivi de l’évolution – des bugs rencontrés ( www.searchengineshowdown.com/features/google/inconsistent.shtml) |
|