Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Netsources > Anciens sommaires > Actualité chargée pour Google

Netsources, Numéro de Novembre-Décembre 2004 - n°53


Actualité chargée pour Google

Auteur : Béatrice Foenix-Riou

 
Le moins que l’on puisse dire est que Google fait parler de lui ces temps-ci.
Lancement, en version bêta, de Google Print, de Google Scholar, de Google Local, de Google Suggest, de Google Desktop, de la nouvelle version de Google Groups... Les annonces fleurissent, souvent discrètement et l’on a vite fait de laisser passer une information, qui pourtant peut se révéler précieuse pour certaines recherches...

Pour notre dernier numéro de l’année 2004, nous avons donc souhaité dresser un rapide panorama des principales nouveautés lancées ou annoncées ces derniers mois par le moteur préféré des internautes.

GOOGLE SUGGEST


Google propose depuis le 9 décembre dans ses laboratoires (http://labs.google.com) un outil – en version bêta – baptisé Google Suggest. Cet outil, qui ressemble comme un frère à la version internationale du moteur, possède une différence importante avec ce dernier. Lorsque l’on saisit un mot dans la zone de recherche, on affiche en temps réel et au fur et à mesure de la saisie des lettres, dans une petite fenêtre, dix mots ou expressions commençant par ces lettres, avec en regard le nombre de résultats qu’une requête avec eux obtient sur Google.

Le service ne fonctionne théoriquement qu’en anglais, mais des tests en français montrent des résultats tout à fait corrects. Ainsi, une requête avec “moteur”, obtient comme suggestions moteur de recherche, moteur, moteurs de recherche, moteur rotatif, moteur recherche, moteur électrique, moteur electrique, moteur diesel, moteur rotatif à chambre circulaire et moteurs de recherches. Il suffit alors de glisser le curseur sur le terme de son choix pour lancer la requête sur Google.

On notera que si les mots sont suggérés en temps réel, le résultat affiché est presque systématiquement inférieur au nombre de pages effectivement identifiées lorsque la requête est lancée sur Google.
Certes, on est loin ici de la technologie d’Exalead, mais cet utilitaire permet néanmoins d’affiner ses requêtes en connaissance de cause et de gagner du temps en lançant directement une recherche sur un mot composé, sans avoir à saisir la totalité des termes...

GOOGLE DOUBLE SON INDEX EN QUELQUES HEURES...


Microsoft a lancé le 11 novembre son nouveau moteur de recherche, avec un index annoncé de 5 milliards de pages Web. Et il a ainsi eu le privilège convoité d’être, pendant quelques heures du moins, le moteur de recherche ayant l’index le plus important du Web.

Làs, cette suprématie n’a duré que quelques heures. La riposte de Google en effet ne s’est pas fait attendre et les internautes attentifs ont rapidement remarqué que le nombre de pages Web recensées par Google – nombre clairement indiqué dans le bas de sa page d’accueil – était passé brusquement de 4,2 milliards de pages à 8,1 milliards (8 058 044 651 pages si l’on veut être précis).

Alors, info ou intox ? Difficile à dire...

Les robots de Google étaient certes très actifs depuis quelques temps, mais les résultats obtenus sur les recherches tests  récurrentes que nous effectuons n’ont pas pour autant doublé – mêmes s’ils ont réellement augmenté !
Il est vrai que le chiffre de 4,2 milliards de pages, encore indiqué le 11 novembre, avait vraisemblablement besoin d’être revu à la hausse, puisqu’il se trouvait là depuis ...  février 2004, date à laquelle Google était passé de 3 083 324 652 pages à 4 285 199 774 pages !

GOOGLE DESKTOP SEARCH CHERCHE SUR LE WEB ... ET SUR VOTRE PC


La recherche sur le Web ne suffit plus aux moteurs. Pour attirer toujours plus d’internautes et les fidéliser, les outils rivalisent dans les services offerts, qu’ils concernent la géolocalisation (avec Google Local, Yahoo! Local...), la personnalisation, etc. (voir Netsources n°52).

La dernière course en date est celle du “desktop search”, à savoir la recherche d’informations sur le disque dur des utilisateurs. Le principe de ces logiciels téléchargeables est de même type que la fonction “Rechercher un fichier” de Windows.

Sauf qu’au lieu d’examiner tous les fichiers du disque dur à chaque demande de l’utilisateur, ces logiciels les indexent au fur et à mesure de leur création ou modification après avoir, lors de l’installation, indexé la totalité du disque dur ; ceci permet à chacun de retrouver un document sur son PC – fichier ou courriel – de façon quasi-instantanée.
Bien évidemment, ces outils proposent à l’internaute de rechercher un document sur son disque dur ... ou sur le Web.

Copernic a été l’un des premiers outils à se lancer dans la course, avec Copernic Desktop Search. Il a rapidement été suivi par les principaux moteurs, à savoir Google, MSN et AskJeeves. AOL et Yahoo! sont attendus pour le début de l’année, ainsi qu’Exalead... On notera que selon les outils, il s’agit d’un logiciel dédié à la recherche sur le PC, ou d’une fonctionnalité proposée dans la classique barre d’outils.

Lancé en octobre dernier en version bêta, Google Desktop Search (http://desktop. google.com) a connu quelques déboires, peu après sa sortie. L’emploi du logiciel – qui effectue des recherches à la fois sur le PC et sur le Web – génèrerait en effet l’envoi à Google d’un certain nombre de données, concernant les recherches de l’utilisateur ; or, une faille de sécurité permettrait à des pirates d’intercepter ces données et, plus grave, de s’introduire sur les ordinateurs....

Après une levée de boucliers légitime des utilisateurs – et des experts de la sécurité, très inquiets de l’installation de tels logiciels sur des réseaux d’entreprises – la situation semble se calmer. Google vient d’annoncer que la faille découverte venait d’être corrigée. Cela étant, comme ce fut le cas pour Google GMail (voir Netsources n°51), le moteur aura peut-être du mal à faire oublier la mauvaise presse des débuts...

GOOGLE SCHOLAR / POUR LES ETUDIANTS ET LES CHERCHEURS...


Lancé le 18 novembre dans les laboratoires de Google et, dans le même temps, avec une adresse “en propre” (http://scholar. google.com), Google Scholar est sans aucun doute un magnifique cadeau de Noël pour les étudiants et les chercheurs.

A l’inverse de son  grand frère Google Web, qui indexe la somme faramineuse de 8 milliards de pages, mais qui ne s’encombre pas de critères qualitatifs quant à la sélection de ces pages, Google Scholar a choisi d’avoir une couverture “verticale” du Web : ses robots se contentent d’indexer les documents issus de quelques sites soigneusement sélectionnés pour leur valeur ajoutée et leur intérêt pour le monde universitaire et de la recherche.

Autrement dit, impossible d’obtenir sur Google Scholar des résultats issus de sites marchands ou de sites personnels... Pour le moment également, le service offre l’agréable surprise de ne pas afficher de liens sponsorisés.

On trouve essentiellement des articles scientifiques, des thèses, des ouvrages, des preprints, des rapports techniques, des comptes-rendus de congrès et autres travaux académiques en tous genres.
Pour indexer ces documents (ou simplement les référencer), Google a donc conclu de nombreux partenariats avec des éditeurs publics et privés, des bibliothèques, des universités, des revues open access... afin de rendre visible ce qui jusqu’ici appartenait souvent au Web invisible...

L’interface de Google Scholar ressemble à s’y méprendre à celle de Google Web, à ceci près que sous la zone de saisie, se trouve l’accroche “Stand on the shoulders of giants”... La page de résultats présente quelques différences avec la version Web : les documents identifiés sont ici des articles (ou des conférences...) et non des pages Web et l’on trouve donc, sous chaque titre, le nom du ou des auteurs, un extrait pertinent, la source et la date de publication, ainsi que la ou les URLs permettant d’y accéder. Le type de document enfin est souvent indiqué, par exemple [book], [citation], [pdf]...

Plus original sur le Web est la mention Cited by xx, xx étant le nombre de documents indexés dans Google Scholar citant l’article en question ; en cliquant sur cette mention, on affiche la liste des articles citant le document.

L’accessibilité aux documents eux-mêmes est ensuite très variable. Selon les cas, les résultats peuvent par exemple donner accès à un article en texte intégral au format PDF ou, si l’article par exemple est issu d’une revue en accès réservé, à un résumé de l’article, accompagné de sa référence bibliographique. Des liens permettent alors de se connecter au site de l’éditeur et d’acheter le document, ou de s’abonner.

Quant aux possibilités de recherche, elles étaient basiques au lancement du service. Heureusement, celui-ci s’est étoffé à la fin de l’année d’une grille de recherche avancée, permettant notamment de restreindre la requête selon le nom de l’auteur (opérateur author:), le nom de la publication et, surtout, l’année de publication. Ce dernier critère est d’autant plus utile que Google Scholar classe les résultats en fonction de leur “pertinence” ; celle-ci est calculée à partir d’un subtile mélange entre des critères comme la présence du texte intégral, la notoriété de l’auteur et de la publication, ainsi que le nombre de citations. Cela a pour conséquence que les premières pages de résultats contiennent un grand nombre de documents très cités et souvent en accès libre, mais souvent aussi très anciens... Sinon, les principaux opérateurs utilisés sur Google Web (opérateurs booléens OR, NOT, opérateurs site:, intitle: et filetype:) peuvent aussi être employés sur Google Scholar.

Au total, Google Scholar rendra indiscutablement de nombreux services aux étudiants et aux chercheurs. Mais il est indiniment moins sophistiqué qu’un service comme Scopus, lancé en novembre dernier par Elsevier.

Ce service en effet, qui intègre notamment le moteur de recherche scientifique Scirus (www.scirus.com), contient les références bibliographiques avec résumé et indexation d’articles issus de 14 000 publications de 4 000 éditeurs, ainsi que le texte intégral de 167 millions de pages Web, l’ensemble couvrant les domaines scientifique, technique, médical et des sciences sociales. Accessible uniquement par un abonnement annuel, Scopus permet d’effectuer des recherches sur un fonds plus large que celui de Google Scholar, en combinant des critères beaucoup plus complexes (info.scopus.com). On ne peut cependant pas exclure que Google Scholar ne morde un peu sur la clientèle de Scopus...

GOOGLE PRINT S’INTERESSE AUX BIBLIOTHEQUES UNIVERSITAIRES


Nous avions présenté dans le dernier numéro de Netsources le nouveau service Google Print – encore en version bêta –, lancé officiellement par Google à l’occasion de la Foire du Livre de Francfort, en octobre dernier. Rappelons que ce service a pour vocation de numériser des ouvrages et des périodiques, puis de fournir aux internautes, lors de recherches par mots sur le moteur, les titres de quelques ouvrages – actuellement trois, en haut de la liste des résultats, sous la mention Book results for.... Il suffit alors de cliquer sur le titre pour obtenir des informations complémentaires sur l’ouvrage (extraits, table des matières, biographie de l’auteur...) et des liens vers les revendeurs spécialisés (Amazon.com...) (voir écran).

L’initiative était donc louable, mais le volume de Google Print – et par conséquent son intérêt – restait bien en deça de celui de services similaires (Amazon.com et son service Search inside the book, FindArticles.com...).

Google vient de donner un nouvel élan à son projet en annonçant, le 14 décembre dernier, qu’il venait de signer un accord avec cinq bibliothèques prestigieuses, aux termes duquel le moteur allait numériser au moins 15 millions d’ouvrages, issus des collections de ces bibliothèques !

Les bibliothèques concernées sont celles des universités de Stanford et du Michigan – qui fournissent l’essentiel de leurs collections –, d’Oxford (pour ses livres du 19ème siècle), d’Harvard, ainsi que la Bibliothèque publique de New York (pour des documents rares).

Google remettra à chaque bibliothèque une copie des ouvrages numérisés et permettra aux internautes d’effectuer en accès libre des recherches sur le texte intégral de l’ensemble de cette collection. La page de résultats contiendra, comme pour les résultats classiques, des extraits des pages pertinentes. Lorsque le livre scanné sera tombé dans le domaine public, Google proposera un lien vers le texte intégral numérisé de l’ouvrage. Dans le cas contraire, il donnera des informations complémentaires sur l’ouvrage et offrira un lien vers les bibliothèques publiques – pour l’emprunt du livre – et vers des librairies en ligne – pour l’acheter.

Le coût estimé de cette scannérisation – effectuée par Google à ses frais – est d’environ 10 $ par volume, soit 150 millions de dollars pour cette opération  !

Quant au temps nécessaire pour venir à bout de ce programme, il est à l’échelle du projet : le travail de numérisation des sept millions d’ouvrages de la seule bibliothèque du Michigan pourrait prendre six ans !

Le rêve de Larry Page et Sergey Brin – les deux fondateurs de Google – d’organiser le monde de l’information et de le rendre accessible à tous sur le Net, est un rêve qui coûte cher ! Nul doute toutefois que Google a bien étudié le projet et a prévu son retour sur investissement...

On notera cependant que si le projet de Google est l’un des plus importants, c’est loin d’être le seul de ce type.
L’organisme The Internet Archive par exemple (www.archive.org, voir Netsources n°47), qui conserve déjà les anciennes versions de 30 milliards de pages Web, a annoncé en décembre – quelques jours avant l’annonce de Google – qu’il avait entrepris de numériser un million d’ouvrages, en collaboration avec des bibliothèques de cinq pays.

Et l’idée ne date pas d’hier ! C’est en effet en ... 1971 que Michael Hart a pour ainsi dire “inventé” l’eBook en lançant le Project Gutenberg (www.gutenberg.org). Ce site offre un accès libre et gratuit au texte de plus de 12 000 livres appartenant au domaine public, rédigés dans 25 langues ..


 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits