Les dernières statistiques le prouvent sans ambiguïté :
lorsque l’internaute interroge aujourd’hui un outil de recherche,
il choisit un moteur dans près de 99 % des cas et Google près de
trois fois sur quatre...
La requête étant alors lancée sur le texte intégral de plus de
quatre milliards de pages Web, il est plus que jamais indispensable
de formuler sa question de façon aussi précise que possible, pour
obtenir rapidement des informations pertinentes et ne pas être noyé
sous le nombre des résultats.
Comment formuler sa requête ? Comment tirer parti des fonctions
avancées des moteurs ? Comment identifier rapidement quelques
ressources de référence ?
Autant de points que nous aborderons dans cet article, en prenant
pour illustration la résolution d’une question concrète
“Quelle est le bilan de la politique française en matière
d’énergie éolienne ? Le marché s’est-il développé, ou a-t-il été
freiné par les divers mouvements de contestation
?”.
Il va de soi que nous ne tenterons pas de répondre à cette question
de façon exhaustive. Le but de cet article n’est pas de fournir un
rapport sur le sujet, mais d’indiquer des pistes que l’internaute
pourra suivre à loisir.
De la même façon, il va sans dire que les méthodologies indiquées
ici ont pour objectif d’illustrer les combinaisons possibles entre
les diverses fonctions avancées des moteurs.
Pour répondre à cette question, de nombreuses autres méthodes
peuvent cependant être adoptées et identifier d’autres documents
pertinents...
Utiliser une stratégie en entonnoir sur un moteur
De prime abord, l’utilisation d’un moteur pour répondre à une telle
question semble le bon choix. Nous cherchons ici à identifier
différents types de documents (rapports, bilans, articles...) qui,
pour la plupart, sont susceptibles d’être indexés par un moteur de
recherche. Il faut néanmoins garder à l’esprit qu’il sera utile, en
complément, de repérer et d’interroger des sources du Web invisible
(banques de données sur l’énergie, l’environnement, titres de
presse...), non indexées par les moteurs.
Sur un moteur donc, nous conseillons en général d’adopter une
stratégie “en entonnoir” : plutôt que de commencer directement par
une requête sophistiquée et très précise, nous effectuons en
premier lieu quelques tests préliminaires, pour avoir une idée
globale du nombre de pages concernant le domaine.
Ici, le sujet est vaste et les sources qui en parlent sont
multiples ; des premiers tests avec des requêtes comme
“énergie éolienne”, ou
éoliennes et
politique montrent qu’il y a
pléthore d’informations (respectivement 30 800 et 15 400 pages sur
Google). La difficulté va donc être de trier les résultats et de
séparer le bon grain de l’ivraie...
Mais comment affiner la recherche ?
S’il est indispensable d’affiner la question pour obtenir un nombre
de résultats “gérable”, il est dans le même temps dangereux de
multiplier les mots-clés, car l’on risque alors de supprimer des
documents très pertinents ne contenant pas tous les mots ; dans la
mesure du possible, il ne faut donc inscrire dans la requête que
les mots qui doivent obligatoirement être présents dans les
documents recherchés. La restriction doit s’effectuer par un autre
biais.
Ici, le seul mot “indispensable” est
éolienne, qui se trouve dans 70
900 pages !
Une phase de réflexion est par conséquent nécessaire, pour bien
identifier les types de documents que l’on souhaite obtenir et les
sources susceptibles de les offrir...
Il ressort d’une brève analyse que l’investigation peut se faire en
suivant plusieurs pistes :
- des données générales sur la politique française en matière
d’énergie éolienne pourront sans nul doute être trouvées sur
différents sites officiels français (ministère de l’industrie, de
l’écologie et du développement durable, Sénat...) ;
- les informations sur les mouvements de contestation en revanche
devront être identifiées par une autre stratégie : des mots-clés
spécifiques pourront être ajoutés, et les sites associatifs
notamment constitueront une source à privilégier ;
- des pages de liens sur le sujet offriront peut-être un panorama
des sites de référence du domaine ;
- d’autres sites enfin pourront être identifiés grâce aux
annuaires...
La première piste suivie dans cet article sera celle des sites
officiels français.
Certes, il est facile d’identifier sur Google (ou sur un annuaire)
l’URL des différents sites ministériels concernés et de les
interroger un par un. Mais la démarche est longue et
fastidieuse.
Pour ce type de requête, il faut sans hésiter utiliser l’opérateur
site:, qui permet de restreindre la recherche à un nom de domaine
ou à un site particulier. Pour limiter la question aux sites
gouvernementaux français, on peut ainsi ajouter site:gouv.fr aux
mots-clés.
Sur Google, la question
éolienne
site:gouv.fr obtient 660 résultats (on est loin des 70 900
pages...). Mais elle n’est pas satisfaisante.
On peut en fait l’affiner encore ... et l’élargir.
Pour répondre à notre question, les informations doivent être
récentes. Un bilan des années 2000 nous est en effet inutile.
Comme il est impossible de limiter la recherche selon la date de
création du document, il faut utiliser une astuce : partir du
postulat que les bilans, rapports, etc. indiqueront une date dans
leur texte et ajouter à la stratégie
2003 OR 2004.
On obtient alors 552 pages.
Par ailleurs, le mot-clé choisi ici (éolienne) n’est pas
“suffisant”. Dans une recherche de ce type, il est indispensable
d’inclure dans la requête les diverses variations du mot et
notamment les formes pluriel et singulier, Google n’identifiant que
les pages contenant les occurrences exactes du mot-clé.
Comme le moteur ne permet pas l’utilisation de la troncature –
c’est là sa principale lacune – la requête devra donc être :
éolienne OR éoliennes OR éolien 2003 OR
2004 site:gouv.fr.
On obtient 852 pages – soit 300 pages de plus qu’avec le seul
mot-clé éolienne.
Les premiers résultats laissent présager de nombreuses réponses
pertinentes, parmi lesquelles :
• L'éolien en France
: une montée en puissance
... Fin 2003, le parc éolien
était de 239 MW. ... correspond à l’implantation sur terre
d'environ 2000 éoliennes, puisqu’une éolienne moderne a une
...
www.industrie.gouv.fr/energie/renou/eolien-enquete04.htm
• Nouveautés de
l'espace énergies
... Principaux résultats
d'enquête sur la situation de l'éolien en France ... de l'énergie
en 2000, la Commission européenne (DGTREN) en 2003. DGEMP, juin
2004. ...
www.industrie.gouv.fr/energie/nouveautes/se_nouv.htm
A cette étape, on peut bien sûr affiner la stratégie de différentes
façons.
- On peut ajouter des mots-clés, tels que
France (pour enlever les pages
concernant uniquement des expériences régionales) ou encore
bilan...
éolienne OR éoliennes OR éolien
france bilan 2003 OR 2004 site:gouv.fr obtient ainsi 340
résultats, dont les premiers sont :
• Les énergies renouvelables en France : les principaux
résultats ...
Les énergies renouvelables en
France : les principaux résultats ... de bois 1,9 %,
l’éolien, le biogaz ... de la
production d’électricité éolienne (342 GWh ...
www.industrie.gouv.fr/energie/renou/textes/se_bilan.htm
• [PDF] Bilan
énergétique de la France en 2003
... le principal fournisseur de
la France, avec une ... d’origine nucléaire, 11% hydraulique ou
éolienne et 11 ... L’électricité hydraulique (hors éolien) a pâti
...
www.industrie.gouv.fr/energie/statisti/pdf/
bilan-2003.pdf.
- On peut également limiter la recherche à certains types de
fichiers, pour repérer plus aisément les rapports et bilans. Il
suffit d’utiliser l’opérateur filetype: suivi de l’extension du
fichier souhaité.
Dans notre cas par exemple, pour identifier les seuls documents PDF
et Word, il faut ajouter à la stratégie
filetype:pdf OR
filetype:doc.
Ces diverses formulations montrent que s’il est relativement facile
d’identifier rapidement quelques documents de référence sur le
sujet, cette identification n’a rien de rigoureux, car elle dépend
fortement des mots-clés choisis. Or, à l’exception des variantes du
mot “éolienne”, le choix d’un mot comme bilan relève plus de
l’intuition que de la méthode...
L’internaute doit-il donc multiplier les tests (en remplacant par
exemple bilan par statistiques ou rapport...), comparer les
résultats sur plusieurs moteurs ? Toutes ces stratégies peuvent –
ou doivent selon les cas – être tentées...
A titre d’exemple, nous avons comparé la même requête
éolienne OR éoliennes OR éolien france
bilan 2003 OR 2004 site:gouv.fr sur Google et sur Yahoo!
Les opérateurs sont les mêmes, mais il faut sur Yahoo! utiliser les
parenthèses pour relier les mots concernés par OR : (eolienne OR
eoliennes OR eolien) france bilan (2003 OR 2004)
site:gouv.fr.
Nous avons obtenu 340 réponses sur Google et ... 28 sur Yahoo! ;
celà étant, ce dernier sous-estime fortement le nombre total de
pages, car il ne semble pas compter dans le résultat les pages
rassemblées sous les liens “Plus de résultats sur ce site”.
340 contre 28... Est-il nécessaire de comparer les réponses ?
Incontestablement : oui.
L’article sur
Ranking.thumbshots.com
(voir Netsources n°49) l’avait laissé entendre et l’on en a ici la
démonstration...
Si la couverture globale des deux moteurs est sensiblement
équivalente, leur algorithme de classement est fort différent, ce
qui a pour conséquence que le taux de recouvrement des 100 premiers
résultats est en général de l’ordre de 20 %. En outre, les
résultats “communs” aux deux moteurs peuvent avoir un classement
très différent chez l’un et chez l’autre.
Ainsi, on remarque sur Yahoo!, en 8ème position :
• Quelles
perspectives pour les énergies renouvelables en France pour 2010 et
au-delà ? (PDF)
C’est donc, plus largement, une
problématique de développement durable. ... Avril 2003 Quelles ...
le bilan est ... l’éolien, n’est pas comme certains le laissent
entendre, une «rente indue» : dans les conditions de ressources
éoliennes rencontrées en France...
www.debat-energie.gouv.fr/site/pdf/
ademeperspectivesEnR.pdf
Ce document – un rapport PDF de 18 pages, datant d’avril 2003 – est
placé en 34ème position sur Google, soit sur la 4ème page de
résultats...
De la même façon, le document
• Quatrième table
ronde - Quelle place pour les éoliennes et l'hydraulique -
Rennes
... 05 mai 2003 ... l’éolien n’a
pas augmenté ce taux, ce qui constitue un facteur rassurant. En
France, un travail est à faire pour expliquer au public les fermes
éoliennes ...
www.debat-energie.gouv.fr/site/
actu_hors_arbo_437.php
qui contient le texte intégral des interventions lors d’une
table-ronde sur le sujet, apparaît en 3ème position sur Yahoo! et
en 47ème place sur Google (5ème page de résultats)...
On peut donc se demander, plutôt que de consulter par exemple les
six premières pages de résultats sur Google (mais hélas, les
internautes dépassent rarement les deux premières pages de
résultats), s’il ne serait pas préférable de regarder les trois
premières pages de Google et les trois premières de Yahoo!...
En savoir plus sur les mouvements de contestation
Pour obtenir des informations sur les mouvements de contestation,
on peut par exemple utiliser dans sa stratégie, en complément des
mots-clés éolien, éolienne et éoliennes, des mots comme opposition
ou défense – pour centrer sur ces mouvements –, ainsi que des
termes comme paysage ou environnement – puisque c’est sur ce plan
que portent en général les discordes –, tout en limitant bien sûr
les réponses avec une date, ici 2004.
La requête
éolienne OR éoliennes
OR éolien 2004 opposition OR défense paysage OR
environnement sur Google obtient 6 270 résultats, ce qui
montre la place accordée au sujet...
La façon la plus simple d’affiner la sélection dans ce cas est de
rechercher certains mots – les plus importants – dans le titre du
document. Dans notre exemple, les mots-clés éolien, éolienne...
seront donc recherchés dans le titre et les autres dans le texte
des pages. On notera au passage le paradoxe de Google : cette
stratégie n’est possible que via sa recherche simple, puisque sa
grille de recherche avancée ne permet pas de combiner les requêtes
sur plusieurs champs...
Depuis la page d’accueil, la requête doit donc être formulée
intitle:éolienne OR
intitle:éoliennes OR intitle:éolien 2004 opposition OR défense
paysage OR environnement. Cette requête obtient 712
résultats.
Bizarrement cependant, certaines des pages sélectionnées n’ont pas
le mot éolienne, éoliennes ou éolien dans le titre :
•
Discours et communiqués
... Collectivités locales.
Défense. Développement économique - Recherche. ... Archives...
Communiqués. 4 juillet 2004 Eoliennes : refus de permis de
construire;
www.auvergne.pref.gouv.fr/
discours_communiques/index.php
• Semestre 2 - 1999/2000
... de défense de
l'environnement. F. MARILLIER (Greenpeace). 13 - 14. jeudi 13 mai
2004 (13h30 - 16h45). Soutenance des projets d'EIPR - groupes
"eolien" / "essence ...
www.mines.inpl-nancy.fr/wwwenv/
formation/planS2.htm -
Le mot-clé figure certes dans la page (ou dans l’URL) mais n’est
pas présent dans la balise Title.
Pourtant, la requête a bien été interprétée par le moteur, puisque
le simple fait de rajouter l’opérateur intitle: a fait chuter le
nombre de réponses de 6 270 à 712...
Et la relative complexité de la requête n’est pas en cause : une
simple recherche sur
intitle:éolien obtient également
quelques pages qui ne contiennent pas le mot éolien dans la balise
title...
• Greenpeace France - Campagne Energie et Climat
... Eolien. Le vent a ... pleine
expansion. Le grand éolien off-shore (à quelques centaines de
mètres des côtes ) est aussi prometteur. En ...
www.greenpeace.fr/campagnes/energie/eolien.htm
Bizarre autant qu’étrange...
Nous n’avons pas, à cette date, élucidé le mystère. Peut-être
y-a-t-il un bug sur certains data-centers de Google, comme cela fut
le cas il y a tout juste un an. Nous avions remarqué en effet (voir
Netsources n°44,
“Google : quand les
“data-centers” n’en font qu’à leur tête...”) des
dysfonctionnements lors de l’utilisation des opérateurs intitle:,
allintitle, inurl: et allinurl:. Les problèmes ont perduré près de
deux mois, avant d’être réglés...
Quoiqu’il en soit, la stratégie permet d’identifier des sites de
référence sur le sujet, tel que
www.eoliennes.net, qui se définit
comme
“Le site de référence en ce
qui concerne les éoliennes et l'énergie éolienne en France”,
avec comme accroche
“Non à
l'éolien qui défigure, Oui à l'éolien dans les zones
industrielles”....
On y trouve notamment des actualités sur le sujet, un “dossier
gigantesque” (50 pages Word) pour faire le point sur les éoliennes,
des commentaires sur des articles parus dans Le Monde, Libération,
les communications d’associations...
Comme on le voit, les moteurs de recherche permettent de répondre
en partie à la question, pour peu que l’on prenne le temps de
réfléchir à la formulation, de tester différents mots-clés, de
comparer les résultats de plusieurs moteurs, etc.
Mais d’autres sources peuvent aider l’internaute dans sa
quête.
Les annuaires pourront ainsi identifier rapidement des sites
spécialisés sur le sujet.
Pour un sujet relativement large comme les éoliennes, il est
important d’interroger des annuaires, qui permettront le cas
échéant d’identifier rapidement des sites centrés sur le sujet – de
tels sites peuvent être noyés parmi les résultats sur Google, s’ils
possèdent peu de “back links”.
Nous avons choisi d’interroger l’Open Directory (
www.dmoz.org) – même si sa couverture
française est moins importante que celle de Yahoo! France – car la
soumission des sites y est toujours gratuite et l’on y trouve par
conséquent un plus grand nombre de sites associatifs et de sites
personnels.
Le plus simple pour une requête de ce type est d’utiliser la
recherche par mots sur les noms et descriptions des sites.
Pour bien formuler sa stratégie, il faut prendre en compte deux
éléments : les recherches sur Dmoz se font sur l’occurrence exacte
des mots (un détail qui a son importance !) et il est possible
d’utiliser la troncature comme les opérateurs booléens. Pour être
aussi complète que possible, la requête devra donc être
éolien* OR eolien*.
L’Open Directory identifie 28 sites et 5 catégories ; ces dernières
sont en fait celles qui recensent au moins un site pertinent, et
non celles qui contiennent le(s) terme(s) de la requête, comme
c’est le cas en général sur les annuaires.
Le premier résultat concerne le site www.eoliennes.net, identifié
précédem-ment sur Google.
Le second réserve une bonne surprise :
2. Suivi Eolien - Tableau de bord du suivi de production des
parcs éoliens en France. Annuaire des acteurs, actualités et
forum.
-- http://www.suivi-eolien.com
World: Français: Régional:
Europe: France: Commerce et économie: Energie et environnement
(3)
Ce site extrêmement riche propose notamment des données de
production et de développement, disponibles selon différents
critères : géographique, depuis la liste alphabétique des
exploitants ou via un tableau de synthèse des puissances
installées.
Les acteurs industriels de l’éolien sont par ailleurs recensés et
classés en quatre catégories : exploitants, maîtres d’oeuvres,
bureaux d’études, constructeurs...
Une rubrique Actualités enfin informe sur les nouveaux entrants,
les développements, les manifestations...
Bref, une mine d’informations sur le sujet, difficile à
identifier sur un moteur (d’autant qu’à la requête
link:www.suivi-eolien.com – pour connaître les pages pointant vers
le site –, Google n’identifie que 16 pages !).
On notera que ce site n’est recensé ni dans l’annuaire de Yahoo!,
ni dans celui d’AOL...
Parmi les autres résultats, on trouve quelques autres sites
susceptibles de fournir des informations pertinentes, mais aucun
n’est aussi centré sur le sujet que les deux premiers.
Trop de réponses dans un moteur et trop peu dans un annuaire ?
Pensez aux pages de liens !
Les pistes suivies jusqu’ici, si elles répondaient en partie à la
question, donnaient d’une façon générale trop de réponses lorsque
les requêtes étaient posées à un moteur et pas assez lorsqu’un
annuaire était interrogé.
Dans cette situation, il est intéressant de tenter d’identifier des
“pages de liens” (ou bookmarks, signets...) susceptibles de
recenser des ressources pertinentes.
Pour ce faire, une astuce consiste à interroger un moteur, en
partant du postulat que de nombreuses pages de liens contiennent le
mot liens (ou lien, bookmark, signet...) dans le titre et/ou dans
l’URL.
La requête sera donc, sur Google :
éolien OR éolienne OR éoliennes
intitle:liens OR inurl:liens. On obtient 794 réponses.
Si l’on veut être plus précis, on peut aussi affiner avec
intitle:éolien OR intitle:éolienne OR
intitle:éoliennes intitle:liens OR inurl:liens. 285 pages
sont identifiées et les premières semblent tout à fait
pertinentes...
On le voit, si le hasard, la chance ou l’intuition ont une place
importante dans les bons résultats d’une recherche sur le Net,
connaître les fonctionnalités des outils ainsi que certains “trucs
et astuces” demeure un pré-requis précieux...