
|
Bases, Numéro de Juillet-Août 2006 - n°229 200 ans d'archives sur Google NewsCela fait plusieurs années déjà que des moteurs de recherche – généralistes (Google, Yahoo!, MSN...) ou spécialisés (Topix, NewsNow...) – permettent à l’internaute de suivre l’actualité de la presse francophone et internationale (voir Bases n°203). Grâce à un robot spécifique, ces outils indexent en effet un grand nombre de sites d’actualité ; ils offrent la possibilité de retrouver aisément les articles qui contiennent les mots de la requête, puis de les visualiser en texte intégral sur le site de l’éditeur. Ils complètent même souvent leur offre par un service d’alerte par mail ou flux RSS, prévenant l’internaute de l’indexation de nouveaux articles pertinents. ... |
Auteur : Béatrice Foenix-Riou |
|
Bien sûr, ces services ne remplacent pas la consultation
d’agrégateurs de presse tels Pressedd, Europresse, Factiva ou
LexisNexis. Ils possèdent en effet plusieurs limites :
- leurs possibilités de recherche sont généralement basiques et, dans tous les cas, infiniment moins sophistiquées que celles des agrégateurs ; - l’antériorité se limite le plus souvent à un mois environ, même si certains sites, tels Topix.net, conservent leurs articles pendant un an ; - l’indexation est faite de façon non rigoureuse et non exhaustive ; le robot n’indexera pas forcément toutes les éditions d’un titre, ni tous les articles d’une édition ; - la visualisation du texte intégral n’est pas toujours possible et les liens peuvent être cassés. De nombreux titres proposent en effet un accès libre à leurs articles en texte intégral pendant quelques jours – période au cours de laquelle ils sont indexés par le robot –, avant de les classer dans des archives réservées aux abonnés. Lorsque c’est le cas, le lien proposé par le moteur aboutit alors à un message d’erreur. L’intérêt de ces services pour suivre l’actualité d’un domaine est indéniable et les internautes leur ont en général réservé un bon accueil ; les éditeurs de presse en revanche ont quelquefois réagi violemment à l’indexation de leurs articles, même si les moteurs n’affichaient que les premières lignes de l’article et que leur consultation se faisait systématiquement sur le site de l’éditeur. Le moteur Google en particulier a suscité l’ire des éditeurs. En France, plusieurs journaux – et notamment Le Monde, Libération, Le Figaro, La Tribune, L'Express, Les Echos –, rassemblés au sein du Geste (Groupement des éditeurs de services en ligne), ont ainsi demandé officiellement en 2003 leur retrait de Google News ; la plupart ont finale-ment choisi de revenir, mais dans un cadre contrôlé et maîtrisé. L’AFP quant à elle s’est montrée plus vindicative, en attaquant le moteur en justice en mars 2005 (elle réclame 17,5 millions de dollars de dommages et intérêts ; le procès est actuellement en cours). La situation est ici complexe car, suite à la plainte de l’AFP, Google a rapidement supprimé de son index les dépêches émanant de son site ; mais il reprend quelquefois celles-ci quand elles sont proposées sur un site abonné au fil de presse... Et les éditeurs français ne sont pas les seuls à être soucieux du respect du droit d’auteur. L’AMJ (l’Association mondiale des journaux, qui regroupe 18 000 titres) a ainsi annoncé au début de l’année 2006 son intention de réclamer des dédommagements à Google – et aux autres moteurs de ce type – pour l’exploitation des contenus de leurs titres. Bref, les relations entre Google et les éditeurs étaient jusqu’ici pour le moins tendues, que ce soit d’ailleurs dans le cadre du service Google News comme dans celui de Google Books... Le moteur a donc créé un bel effet de surprise en annonçant le 5 septembre dernier le lancement du service Google News Archive Search, réalisé cette fois-ci en étroite collaboration avec les éditeurs. NEWS ARCHIVE SEARCH : 200 ANS D’ARCHIVESQu’est-ce que News Archive Search : tout simplement, la possibilité de lancer des recherches dans les archives de certaines sources, offrant jusqu’à 200 ans d’antériorité ! Jusqu’ici en effet, on ne pouvait retrouver sur les différentes interfaces de Google News que des articles publiés depuis au maximum un mois. Désormais, Google News propose, sous la zone de saisie de l’interface américaine uniquement, un lien News archive search. Celui-ci permet d’explorer jusqu’à 200 ans d’archives, pour un nombre limité de sources avec lesquelles Google a conclu un partenariat. Participent notamment à ce projet des titres de presse comme Washington Post, The Wall Street Journal, The New York Times, The Guardian, Time Magazine, BBC News, des encyclopédies telle Britannica Encyclopedia, mais aussi des agrégateurs comme Factiva, LexisNexis, HighBeam Research et Thomson Gale. L’accès aux archives varie selon les sources et dépend du choix unique de l’éditeur : il est gratuit pour certaines et payant pour d’autres, avec le plus souvent un système de pay-per-view pouvant s’effectuer en ligne. Quelques sites – tels l’Encyclopedia Britannica ou Newspapers Archive – ne disposent cependant que d’une offre d’abonnement avec consommation illimitée ; mais on peut penser que Google leur proposera rapidement son nouveau service de paiement électronique Google Checkout... On signalera que pour son service News Archive Search, le moteur précise clairement qu’il ne prend aucune commission sur les transactions – contrairement à ce qu’il fait sur Google Video, où il perçoit 30 % du chiffre d’affaires généré. Concrètement, la recherche sur News Archive Search se fait depuis une interface spécifique, accessible depuis le lien précité (sous la zone de saisie de Google News) ou directement à l’adresse http://news.google. com/archivesearch. La page de résultats diffère légèrement de la page de résultats classique de Google, en ce sens que si la partie centrale est bien occupée par la liste des articles sélectionnés, d’autres informations figurent ici dans une colonne sur la gauche. On y trouve tout d’abord une sorte de classement “historique” des articles. Sous la mention All Dates, Google indique différentes dates ou périodes, qui sont considérées comme importantes pour la requête – les plus importantes sont d’ailleurs mises en évidence par des flèches. Ces périodes sont générées automatiquement et sont fonction des résultats. Une requête sur “universal exposition” paris affichera ainsi les périodes : 2000s, 1899-1900, 1890-1898, 1888-1889, 1870s, Before 1870 – les articles les plus anciens remontent à 1867 –, quand la requête al qaeda proposera 2006-2005, 2004, 2003, 2002, 2001. Toujours dans la colonne de gauche, Google indique les titres des cinq publications qui couvrent le mieux le sujet. On peut bien sûr cliquer sur le nom d’une publication pour afficher la liste des articles publiés. La partie centrale de l’écran offre quant à elle la liste des articles sélectionnés, avec pour chacun leur titre, le prix, la source, la date de publication et un extrait contenant les mots de la requête. Les articles sont classés par défaut par pertinence ; celle-ci est calculée, d’après Google, de façon à ce que les articles/ événements les plus intéressants d’un point de vue historique apparaissent en premier (sont pris en compte dans ce calcul le texte intégral de l’article, la source, le nombre de citations de l’événement, la façon dont il a été décrit, etc.). En haut des résultats, le lien Show timeline permet de classer l’ensemble des articles par ordre chronologique (les plus anciens en premier). D’autres informations originales sont également proposées et ont pour objectif d’aider l’internaute dans sa sélection. Tout d’abord, et comme c’est déjà le cas sur Google News, les articles publiés au cours d’une même période et qui couvrent le même sujet sont regroupés sous l’article jugé le plus important ; pour ceux-ci, sont indiqués uniquement leur titre, la source et le prix. Cette “clustérisation” permet d’avoir une meilleure perspective de la couverture d’un sujet. On trouve également sous certains articles le lien All n related (n étant le nombre d’articles) ; un clic sur ce lien affiche des articles pouvant concerner le même sujet, mais avec des points de vue ou des approches différents. Enfin, un lien Related web page permet d’identifier des pages Web sur des thèmes proches. L’intérêt est qu’ici, Google ne se contente pas de lancer la recherche sur le Web avec les mots de la requête, mais il construit une stratégie avec les mots les plus fréquents dans le ou les articles du groupe – pour les articles isolés néanmoins, il se contente souvent d’utiliser le titre et l’année de publication de l’article. En matière de recherche, le lien Advanced archive search donne accès à une grille permettant – outre les classiques fonctions OR, AND, NOT – de limiter sa requête aux articles gratuits ou payants (en choisissant le cas échéant une tranche de prix), aux articles parus pendant une période donnée, dans une source donnée, ou écrits dans une langue donnée. 35 langues sont proposées dans un menu déroulant. Si les articles en anglais sont en large majorité – et sont pour le moment les seuls à avoir une antériorité très importante –, nous avons néanmoins constaté la présence d’un nombre non négligeable d’articles dans les autres langues. Pour le français par exemple, une recherche sur le mot “France” a identifié 496 000 articles, issus de publications canadiennes comme Canoë ou Le Devoir ou françaises comme La Tribune, Le Nouvel Observateur, etc. Mais nous ne savons pas dans quelle mesure l’on peut se fier à ce chiffre qui est sans doute, comme souvent sur le Web, très approximatif. D’autant que l’affichage des réponses est limité. Quelle que soit la question et le nombre de résultats, nous n’avons jamais pu afficher plus de 500 documents environ (sur le Web, l’affichage est limité aux 1 000 premiers résultats). Cela étant, les réponses obtenues soulèvent d’autres interrogations. Nous avons en effet pu visualiser gratuitement des articles du quotidien La Tribune et du magazine Nouvel Observateur, publiés depuis 2000 pour le premier et depuis 2003 pour le second, alors que ces mêmes articles sont en accès restreint sur leur site*. Est-ce un choix délibéré de l’éditeur pour promouvoir son service, sachant que la couverture de ces titres sur News Archive Search reste très partielle ? Est-ce qu’un système de pay-per-view va prochainement faire son apparition ? Est-ce que les éditeurs vont adopter ici des politiques de distribution spécifiques, comme le fait Factiva ? L’agrégateur ne propose en effet sur News Archive Search qu’une partie de son offre (uniquement les articles en anglais d’une sélection de sources), mais le prix des articles est sensiblement inférieur à celui qu’il pratique sur son serveur (1,50 $ l’article sur News Archive Search, contre 2,95 $ l’article sur Factiva.com). Factiva justifie cette différence par le fait que sur Google, l’offre est moins complète et les possibilités de recherche moins sophistiquées. Bref, le service démarre tout juste et cherche encore ses marques. Pour Google, l’objectif est de permettre à un internaute de retrouver les articles les plus pertinents concernant un événement historique ou une personnalité, avec la possibilité de suivre l’évolution d’un sujet de manière temporelle. Ce n’est pas exactement le positionnement choisi par les agrégateurs, et les risques de concurrence sont donc faibles. Reste que Google a un appétit d’ogre, et qu’il faudra surveiller son expansion sur ce point... *Comme pour Google News, les articles en texte intégral sont hébergés sur le site de l’éditeur, et non sur les machines de Google ; le moteur ne possède qu’une copie pour l’indexation. |
|