Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Netsources > Anciens sommaires > Formuler sa stratégie ... au gré du vent

Netsources, Numéro de Mai-Juin 2004 - n°50


Formuler sa stratégie ... au gré du vent

Auteur : Béatrice Foenix-Riou

 
 Les dernières statistiques le prouvent sans ambiguïté : lorsque l’internaute interroge aujourd’hui un outil de recherche, il choisit un moteur dans près de 99 % des cas et Google près de trois fois sur quatre...

La requête étant alors lancée sur le texte intégral de plus de quatre milliards de pages Web, il est plus que jamais indispensable de formuler sa question de façon aussi précise que possible, pour obtenir rapidement des informations pertinentes et ne pas être noyé sous le nombre des résultats.

Comment formuler sa requête ? Comment tirer parti des fonctions avancées des moteurs ? Comment identifier rapidement quelques ressources de référence ?
Autant de points que nous aborderons dans cet article, en prenant pour illustration la résolution d’une question concrète “Quelle est le bilan de la politique française en matière d’énergie éolienne ? Le marché s’est-il développé, ou a-t-il été freiné par les  divers mouvements de contestation ?”.

Il va de soi que nous ne tenterons pas de répondre à cette question de façon exhaustive. Le but de cet article n’est pas de fournir un rapport sur le sujet, mais d’indiquer des pistes que l’internaute pourra suivre à loisir.

De la même façon, il va sans dire que les méthodologies indiquées ici ont pour objectif d’illustrer les combinaisons possibles entre les diverses fonctions avancées des moteurs.

Pour répondre à cette question, de nombreuses autres méthodes peuvent cependant être adoptées et identifier d’autres documents pertinents...

Utiliser une stratégie en entonnoir sur un moteur


De prime abord, l’utilisation d’un moteur pour répondre à une telle question semble le bon choix. Nous cherchons ici à identifier différents types de documents (rapports, bilans, articles...) qui, pour la plupart, sont susceptibles d’être indexés par un moteur de recherche. Il faut néanmoins garder à l’esprit qu’il sera utile, en complément, de repérer et d’interroger des sources du Web invisible (banques de données sur l’énergie, l’environnement, titres de presse...), non indexées par les moteurs.

Sur un moteur donc, nous conseillons en général d’adopter une stratégie “en entonnoir” : plutôt que de commencer directement par une requête sophistiquée et très précise, nous effectuons en premier lieu quelques tests préliminaires, pour avoir une idée globale du nombre de pages concernant le domaine.

Ici, le sujet est  vaste et les sources qui en parlent sont multiples ; des premiers tests avec des requêtes comme “énergie éolienne”, ou éoliennes et politique montrent qu’il y a pléthore d’informations (respectivement 30 800 et 15 400 pages sur Google). La difficulté va donc être de trier les résultats et de séparer le bon grain de l’ivraie...

Mais comment affiner la recherche ?

S’il est indispensable d’affiner la question pour obtenir un nombre de résultats “gérable”, il est dans le même temps dangereux de multiplier les mots-clés, car l’on risque alors de supprimer des documents très pertinents ne contenant pas tous les mots ; dans la mesure du possible, il ne faut donc inscrire dans la requête que les mots qui doivent obligatoirement être présents dans les documents recherchés. La restriction doit s’effectuer par un autre biais.

Ici, le seul mot “indispensable” est éolienne, qui se trouve dans 70 900 pages !
Une phase de réflexion est par conséquent nécessaire, pour bien identifier les types de documents que l’on souhaite obtenir et les sources susceptibles de les offrir...

Il ressort d’une brève analyse que l’investigation peut se faire en suivant plusieurs pistes  :
- des données générales sur la politique française en matière d’énergie éolienne pourront sans nul doute être trouvées sur différents sites officiels français (ministère de l’industrie, de l’écologie et du développement durable, Sénat...) ;
- les informations sur les mouvements de contestation en revanche devront être identifiées par une autre stratégie : des mots-clés spécifiques pourront être ajoutés, et les sites associatifs notamment constitueront une source à privilégier ;
- des pages de liens sur le sujet offriront peut-être un panorama des sites de référence du domaine ;
- d’autres sites enfin pourront être identifiés grâce aux annuaires...

La première piste suivie dans cet article sera celle des sites officiels français.


Certes, il est facile d’identifier sur Google (ou sur un annuaire) l’URL des différents sites ministériels concernés et de les interroger un par un. Mais la démarche est longue et fastidieuse.
Pour ce type de requête, il faut sans hésiter utiliser l’opérateur site:, qui permet de restreindre la recherche à un nom de domaine ou à un site particulier. Pour limiter la question aux sites gouvernementaux français, on peut ainsi ajouter site:gouv.fr aux mots-clés.

Sur Google, la question éolienne site:gouv.fr obtient 660 résultats (on est loin des 70 900 pages...). Mais elle n’est pas satisfaisante.
On peut en fait l’affiner encore ... et l’élargir.

Pour répondre à notre question, les informations doivent être récentes. Un bilan des années 2000 nous est en effet inutile.
Comme il est impossible de limiter la recherche selon la date de création du document, il faut utiliser une astuce :  partir du postulat que les bilans, rapports, etc. indiqueront une date dans leur texte et ajouter à la stratégie 2003 OR 2004.
On obtient alors 552 pages.

Par ailleurs, le mot-clé choisi ici (éolienne) n’est pas “suffisant”. Dans une recherche de ce type, il est indispensable d’inclure dans la requête les diverses variations du mot et notamment les formes pluriel et singulier, Google n’identifiant que les pages contenant les occurrences exactes du mot-clé.

Comme le moteur ne permet pas l’utilisation de la troncature – c’est là sa principale lacune – la requête devra donc être : éolienne OR éoliennes OR éolien 2003 OR 2004 site:gouv.fr.
On obtient 852 pages – soit 300 pages de plus qu’avec le seul mot-clé éolienne.

Les premiers résultats laissent présager de nombreuses réponses pertinentes, parmi lesquelles :

L'éolien en France : une montée en puissance
... Fin 2003, le parc éolien était de 239 MW. ... correspond à l’implantation sur terre d'environ 2000 éoliennes, puisqu’une éolienne moderne a une ...
www.industrie.gouv.fr/energie/renou/eolien-enquete04.htm

Nouveautés de l'espace énergies
... Principaux résultats d'enquête sur la situation de l'éolien en France ... de l'énergie en 2000, la Commission européenne (DGTREN) en 2003. DGEMP, juin 2004. ...
www.industrie.gouv.fr/energie/nouveautes/se_nouv.htm

A cette étape, on peut bien sûr affiner la stratégie de différentes façons.

- On peut ajouter des mots-clés, tels que France (pour enlever les pages concernant uniquement des expériences régionales) ou encore bilan...

éolienne OR éoliennes OR éolien france bilan 2003 OR 2004 site:gouv.fr obtient ainsi 340 résultats, dont les premiers sont :

• Les énergies renouvelables en France : les principaux résultats ...
Les énergies renouvelables en France : les principaux résultats ... de bois 1,9 %,
l’éolien, le biogaz ... de la production d’électricité éolienne (342 GWh ...
www.industrie.gouv.fr/energie/renou/textes/se_bilan.htm

[PDF] Bilan énergétique de la France en 2003
... le principal fournisseur de la France, avec une ... d’origine nucléaire, 11% hydraulique ou éolienne et 11 ... L’électricité hydraulique (hors éolien) a pâti ...
www.industrie.gouv.fr/energie/statisti/pdf/ bilan-2003.pdf.

- On peut également limiter la recherche à certains types de fichiers, pour repérer plus aisément les rapports et bilans. Il suffit d’utiliser l’opérateur filetype: suivi de l’extension du fichier souhaité.

Dans notre cas par exemple, pour identifier les seuls documents PDF et Word, il faut  ajouter à la stratégie filetype:pdf OR filetype:doc.

Ces diverses formulations montrent que s’il est relativement facile d’identifier rapidement quelques documents de référence sur le sujet, cette identification n’a rien de rigoureux, car elle dépend fortement des mots-clés choisis. Or, à l’exception des variantes du mot “éolienne”, le choix d’un mot comme bilan relève plus de l’intuition que de la méthode...

L’internaute doit-il donc multiplier les tests (en remplacant par exemple bilan par statistiques ou rapport...), comparer les résultats sur plusieurs moteurs ? Toutes ces stratégies peuvent – ou doivent selon les cas – être tentées...

A titre d’exemple, nous avons comparé la même requête éolienne OR éoliennes OR éolien france bilan 2003 OR 2004 site:gouv.fr sur Google et sur Yahoo!
Les opérateurs sont les mêmes, mais il faut sur Yahoo! utiliser les parenthèses pour relier les mots concernés par OR : (eolienne OR eoliennes OR eolien) france bilan (2003 OR 2004) site:gouv.fr.

Nous avons obtenu 340 réponses sur Google et ... 28 sur Yahoo! ; celà étant, ce dernier sous-estime fortement le nombre total de pages, car il ne semble pas compter dans le résultat les pages rassemblées sous les liens “Plus de résultats sur ce site”.

340 contre 28... Est-il nécessaire de comparer les réponses ?
Incontestablement : oui.

L’article sur Ranking.thumbshots.com (voir Netsources n°49) l’avait laissé entendre et l’on en a ici la démonstration...

Si la couverture globale des deux moteurs est sensiblement équivalente, leur algorithme de classement est fort différent, ce qui a pour conséquence que le taux de recouvrement des 100 premiers résultats est en général de l’ordre de 20 %. En outre, les résultats “communs” aux deux moteurs peuvent avoir un classement très différent chez l’un et chez l’autre.

Ainsi, on remarque sur Yahoo!, en 8ème position :

Quelles perspectives pour les énergies renouvelables en France pour 2010 et au-delà ?  (PDF)
C’est donc, plus largement, une problématique de développement durable. ... Avril 2003 Quelles ... le bilan est ... l’éolien, n’est pas comme certains le laissent entendre, une «rente indue» : dans les conditions de ressources éoliennes rencontrées en France...
www.debat-energie.gouv.fr/site/pdf/ ademeperspectivesEnR.pdf

Ce document – un rapport PDF de 18 pages, datant d’avril 2003 – est placé en 34ème position sur Google, soit sur la 4ème page de résultats...

De la même façon, le document

Quatrième table ronde - Quelle place pour les éoliennes et l'hydraulique - Rennes 
... 05 mai 2003 ... l’éolien n’a pas augmenté ce taux, ce qui constitue un facteur rassurant. En France, un travail est à faire pour expliquer au public les fermes éoliennes ...
www.debat-energie.gouv.fr/site/ actu_hors_arbo_437.php

qui contient le texte intégral des interventions lors d’une table-ronde sur le sujet, apparaît en 3ème position sur Yahoo! et en 47ème place sur Google (5ème page de résultats)...

On peut donc se demander, plutôt que de consulter par exemple les six premières pages de résultats sur Google (mais hélas, les internautes dépassent rarement les deux premières pages de résultats), s’il ne serait pas préférable de regarder les trois premières pages de Google et les trois premières de Yahoo!... 

En savoir plus sur les mouvements de contestation


Pour obtenir des informations sur les mouvements de contestation, on peut par exemple utiliser dans sa stratégie, en complément des mots-clés éolien, éolienne et éoliennes, des mots comme opposition ou défense – pour centrer sur ces mouvements –, ainsi que des termes comme paysage ou environnement – puisque c’est sur ce plan que portent en général les discordes –, tout en limitant bien sûr les réponses avec une date, ici 2004.

La requête éolienne OR éoliennes OR éolien 2004 opposition OR défense paysage OR environnement sur Google obtient 6 270 résultats, ce qui montre la place accordée au sujet...

La façon la plus simple d’affiner la sélection dans ce cas est de rechercher certains mots – les plus importants – dans le titre du document. Dans notre exemple, les mots-clés éolien, éolienne... seront donc recherchés dans le titre et les autres dans le texte des pages. On notera au passage le paradoxe de Google : cette stratégie n’est possible que via sa recherche simple, puisque sa grille de recherche avancée ne permet pas de combiner les requêtes sur plusieurs champs...

Depuis la page d’accueil, la requête doit  donc être formulée intitle:éolienne OR intitle:éoliennes OR intitle:éolien 2004 opposition OR défense paysage OR environnement. Cette requête obtient 712 résultats.

Bizarrement cependant, certaines des pages sélectionnées n’ont pas le mot éolienne, éoliennes ou éolien dans le titre :
Discours et communiqués
... Collectivités locales. Défense. Développement économique - Recherche. ... Archives... Communiqués. 4 juillet 2004 Eoliennes : refus de permis de construire;
www.auvergne.pref.gouv.fr/ discours_communiques/index.php

• Semestre 2 - 1999/2000
... de défense de l'environnement. F. MARILLIER (Greenpeace). 13 - 14. jeudi 13 mai 2004 (13h30 - 16h45). Soutenance des projets d'EIPR - groupes "eolien" / "essence ...
www.mines.inpl-nancy.fr/wwwenv/ formation/planS2.htm -

Le mot-clé figure certes dans la page (ou dans l’URL) mais n’est pas présent dans la balise Title.
Pourtant, la requête a bien été interprétée par le moteur, puisque le simple fait de rajouter l’opérateur intitle: a fait chuter le nombre de réponses de 6 270 à 712...

Et la relative complexité de la requête n’est pas en cause : une simple recherche sur intitle:éolien obtient également quelques pages qui ne contiennent pas le mot éolien dans la balise title...
• Greenpeace France - Campagne Energie et Climat
... Eolien. Le vent a ... pleine expansion. Le grand éolien off-shore (à quelques centaines de mètres des côtes ) est aussi prometteur. En ...
www.greenpeace.fr/campagnes/energie/eolien.htm

Bizarre autant qu’étrange...

Nous n’avons pas, à cette date, élucidé le mystère. Peut-être y-a-t-il un bug sur certains data-centers de Google, comme cela fut le cas il y a tout juste un an. Nous avions remarqué en effet (voir Netsources n°44, “Google : quand les “data-centers” n’en font qu’à leur tête...”) des dysfonctionnements lors de l’utilisation des opérateurs intitle:, allintitle, inurl: et allinurl:. Les problèmes ont perduré près de deux mois, avant d’être réglés...

Quoiqu’il en soit, la stratégie permet d’identifier des sites de référence sur le sujet, tel que www.eoliennes.net, qui se définit comme “Le site de référence en ce qui concerne les éoliennes et l'énergie éolienne en France”, avec comme accroche “Non à l'éolien qui défigure, Oui à l'éolien dans les zones industrielles”....
On y trouve notamment des actualités sur le sujet, un “dossier gigantesque” (50 pages Word) pour faire le point sur les éoliennes, des commentaires sur des articles parus dans Le Monde, Libération, les communications d’associations...

Comme on le voit, les moteurs de recherche permettent de répondre en partie à la question, pour peu que l’on prenne le temps de réfléchir à la formulation, de tester différents mots-clés, de comparer les résultats de plusieurs moteurs, etc.

Mais d’autres sources peuvent aider l’internaute dans sa quête.

Les annuaires pourront ainsi identifier rapidement des sites spécialisés sur le sujet.


Pour un sujet relativement large comme les éoliennes, il est important d’interroger des annuaires, qui permettront le cas échéant d’identifier rapidement des sites centrés sur le sujet – de tels sites peuvent être noyés parmi les résultats sur Google, s’ils possèdent peu de “back links”.

Nous avons choisi d’interroger l’Open Directory (www.dmoz.org) – même si sa couverture française est moins importante que celle de Yahoo! France – car la soumission des sites y est toujours gratuite et l’on y trouve par conséquent un plus grand nombre de sites associatifs et de sites personnels.

Le plus simple pour une requête de ce type est d’utiliser la recherche par mots sur les noms et descriptions des sites. 
Pour bien formuler sa stratégie, il faut prendre en compte deux éléments : les recherches sur Dmoz se font sur l’occurrence exacte des mots (un détail qui a son importance !) et il est possible d’utiliser la troncature comme les opérateurs booléens. Pour être aussi complète que possible, la requête devra donc être éolien* OR eolien*.

L’Open Directory identifie 28 sites et 5 catégories ; ces dernières sont en fait celles qui recensent au moins un site pertinent, et non celles qui contiennent le(s) terme(s) de la requête, comme c’est le cas en général sur les annuaires.

Le premier résultat concerne le site www.eoliennes.net, identifié précédem-ment sur Google.
Le second réserve une bonne surprise :

2. Suivi Eolien - Tableau de bord du suivi de production des parcs éoliens en France. Annuaire des acteurs, actualités et forum.
-- http://www.suivi-eolien.com  
World: Français: Régional: Europe: France: Commerce et économie: Energie et environnement (3)

Ce site extrêmement riche propose notamment des données de production et de développement, disponibles selon différents critères : géographique, depuis la liste alphabétique des exploitants ou via un tableau de synthèse des puissances installées.
Les acteurs industriels de l’éolien sont par ailleurs recensés et classés en quatre catégories : exploitants, maîtres d’oeuvres, bureaux d’études, constructeurs...
Une rubrique Actualités enfin informe sur les nouveaux entrants, les développements, les manifestations...

Bref, une mine d’informations sur le sujet,  difficile à identifier sur un moteur (d’autant qu’à la requête link:www.suivi-eolien.com – pour connaître les pages pointant vers le site –, Google n’identifie que 16 pages !).
On notera que ce site n’est recensé ni dans l’annuaire de Yahoo!, ni dans celui d’AOL...

Parmi les autres résultats, on trouve quelques autres sites susceptibles de fournir des informations pertinentes, mais aucun n’est aussi centré sur le sujet que les deux premiers.

Trop de réponses dans un moteur et trop peu dans un annuaire ? Pensez aux pages de liens !


Les pistes suivies jusqu’ici, si elles répondaient en partie à la question, donnaient d’une façon générale trop de réponses lorsque les requêtes étaient posées à un moteur et pas assez lorsqu’un annuaire était interrogé.
Dans cette situation, il est intéressant de tenter d’identifier des “pages de liens” (ou bookmarks, signets...) susceptibles de recenser des ressources pertinentes.

Pour ce faire, une astuce consiste à interroger un moteur, en partant du postulat que de nombreuses pages de liens contiennent le mot liens (ou lien, bookmark, signet...) dans le titre et/ou dans l’URL.
La requête sera donc, sur Google : éolien OR éolienne OR éoliennes intitle:liens OR inurl:liens. On obtient 794 réponses.
Si l’on veut être plus précis, on peut aussi affiner avec intitle:éolien OR intitle:éolienne OR intitle:éoliennes intitle:liens OR inurl:liens. 285 pages sont identifiées et les premières semblent tout à fait pertinentes...

On le voit, si le hasard, la chance ou l’intuition ont une place importante dans les bons résultats d’une recherche sur le Net, connaître les fonctionnalités des outils ainsi que certains “trucs et astuces” demeure un pré-requis précieux...








 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits