moteur de recherche : outil automatisé d'indexation et de recherche des ressources du web visible (exemple : Google, Exalead)
métamoteur : outil de recherche qui va interroger simultanément les index d'autres moteurs de recherche, des annuaires et sites spécialisés. Ensuite il réparti ces résultats dans son interface en éliminant les doublons des résultats pour en fournir une présentation structurée à l'utilisateur (exemple: Ixquick, Copernic)
web visible ou surfacique : ensemble des pages web indexées par les moteurs de recherche
web invisible ou caché : ensemble des pages web qui ne sont pas indexées par les moteurs de recherche (exemple : bases de données demandant une authentification)
annuaire thématique (ou répertoire) : présente l'information sous forme de hérarchie (exemple: les signets de la BNF)
liens naturels : liens qui apparaissent sur la page de résultat du moteur de recherche. Il sont issus de la collecte des données par le robot collecteur (indexation automatique)
liens commerciaux (ou payant ou promotionnel) : liens qui apparaissent sur la page de résultat du moteur de recherche, bien souvent en première position. Il sont issus de l’achat des mots clefs aux enchères par des entreprises. L’effet pervers de l’achat de mots clés aux enchères est de générer de la désinformation
requête : recherche formulée à partir de mots clés dans un moteur se recherche sous forme déquation de recherche plus ou moins construite afin d'obtenir des résultats
lien hypertexte : système de renvois permettant de passer directement d'une partie d'un document électronique à une autre ou d'un document à d'autres documents
limitation : catégorie ou critère permettant d'affiner les résultats de recherche
pertinence : est un des critères d'affichage des résultats de recherche : il s'agit de l'adéquation des résultats au critère de recherche (place du mot dans le document, fréquence d'occurrence, correspondance d'expression, proximité des termes)
popularité: est un des critères d'affichage des résultats de recherche. C'est une méthode basée sur la co-citation. Elle s'appuie sur le nombre de liens pointant sur les pages, et l'importance des sites pointant vers les résultats de recherche.
Pour en savoir plus sur les limitations d'une recherche, et notamment sur la manière de limiter le bruit sur Google, consultez le guide Elaborer une stratégie de recherche d'information: Les limitations de FORM@DOCT.
Contrairement aux catalogues de bibliothèques, il est très rare qu'une requête aussi mal formulée soit-elle génère du silence. Les résultats liés à cette requête se comptent par milliers, voire centaines de milliers de pages, ce qui explique qu'au premier abord Google ne déçoit jamais. Il en va autrement quand on lit les résultats classés en tête : si la requête à la base a été mal formulée, il est rare que ceux-ci soient pertinents.
1.Savoir que de nombreux outils remplacent l'espace entre les mots saisis dans le moteur de recherche par un ET (opérateur par défaut). Lorsque des mots clés sont saisis les uns à la suite des autres, ils sont implicitement reliés de manière automatique par un « et » et les moteurs recherchent les 2 termes ensemble dans les documents
2. Eviter les "mots vides" et utiliser la recherche sur des expressions entre guillemets ("").
Essayez sur Google les requêtes suivantes :
Moralité : les mots vides [devant la] font un écrémage important mais peu pertinent. On appelle mot-vide tout mot remplissant une fonction grammaticale (article, préposition) mais dont le contenu sémantique est faible, voire nul.
essayez maintenant :
-> Les mots vides et les "" sont pertinents quand on cherche un titre
La recherche sur les expressions est aussi fréquemment utilisée par les enseignants pour détecter les plagiat
3. Passer d'une requête sur le web à une requête sur un site en particulier (recherche sur le nom de domaine ou url)
Essayez sur Google la requête : exécutions homosexuels
On obtient 132 000 résultats, sources de qualité variable
Essayez maintenant sur la recherche en mode avancée de Google : exécution homosexuels site ou domaine :gouv.fr
On obtient 1410 résultats renvoyant à des documents officiels
Ainsi, si l'on veut obtenir des documents officiels, d'institutions ou de sites ressources dans nos résultats il est possible de le spécifier au moteur de recherche en lui indiquant le nom de domaine utilisé par ces institutions pour qu'il cible sa recherche.
Exemple : Rechercher des pages du site de l'université de Rennes 2 préciser : univ-rennes2.fr , des pages du site d'un Ministère, indiquer : .gouv.fr ou encore des pages d'un site ressource tel que Hypothèses, spécifier : hypotheses.org
4. Utiliser les parenthèses pour structure la requêter que vous construisez (cf. exemple 5.)
5. Elargir une requête en utilisant le booléen OR
Internet ne reposant pas sur un vocabulaire contrôlé, Il est necessaire de prendre en compte plusieurs mots pour un concept
ex (Google) : ( jeunes OR adolescents ) ( travail OR emplois ) ; noter que le AND est toujours implicite
autres exemples : web OR Internet : techniquement, ce n'est pas la même chose, mais pour les journalistes ça revient souvent au même.
6. Spécifier une requête par langue (pour des recherches terminologiques sur des mots étrangers par exemple)
Si l'on veut faire une étude sur le mot "litost", intraduisible en français, sans spécifier de langue, on va se retrouver avec des résultats en tchèque surtout. Pour obtenir des résultats en français, il faut sélectionner "français" dans la liste des langues de la recherche avancée.
Cette option concerne la langue des documents quel que soit leur pays d'origine
7. Spécifier l'origine des pages
Pour préciser le pays de publication de la page, compléter le champ "region" de la recherche avancée
8. Chercher des images libres de droit (pour les réemployer dans un blog, par exemple)
ex : Google recherche avancée [images] : afficher toutes les images : réutilisation autorisée
Aurige : 16 résultats
Il devient courant que des auteurs demandent aux Internautes de retirer de leurs sites les photos qui leur appartiennent, demandes
parfois assorties de menaces de procédures juridiques. Ce type de recherche accessible en mode avancé vous évitera ces désagréments.
Si une photo n'est pas libre de droit et qu'il vous faut néanmoins l'utiliser, demandez par mail l'autorisation à son auteur en précisant que vous citerez son nom et renverrez le lecteur, par un lien sous l'image, vers son site, son blog ou son compte Flickr. Ces démarches ne sont pas vaines, et les personnes privées y répondent favorablement la plupart du temps.
9. Faire une requête pertinente sur le titre de la page
Les mots apparaissant dans le titre d'une page web (zone "title" dans le code source du document web, affichés au sommet de la fenêtre du navigateur) sont ceux que l'auteur a retenus comme pertinents pour qualifier le contenu de la page. Une recherche portant sur cette zone de titre (ex : Google, interface avancée, zone Emplacement : « dans le titre de la page »), a donc de bonnes chances d'augmenter la pertinence des résultats. Si au contraire, on recherche le mot « n'importe où dans la page », il suffira que le mot soit présent quelque part dans la page pour être repéré, même s'il en est question de façon tout à fait annexe.
En effet, une recherche portant sur le texte de la page ne garantit pas que le mot corresponde au sujet principal du document, il est simplement présent dans le texte.
Cette option concerne la langue des documents quel que soit leur pays d'origine
En effet, une recherche portant sur le texte de la page ne garantit pas que le mot corresponde au sujet principal du document, il est simplement présent dans le texte.
Pour comprendre les enjeux du classement des résultats (ranking) il faut savoir qu’il existe deux grandes méthodes de classement des résultats par les moteurs de recherche. Ils sont bien souvent combinés par les outils :
• le tri par indice de pertinence : calculs statistiques sur la fréquence d’apparition et la localisation des termes de la requête dans une page web)
• le tri par popularité : indice de popularité, indice de clic. Ce système utilise la nature hypertextuelle du web, c'est-à-dire la prise en compte des liens entre sites, considérés comme des liens de parenté sémantique (modèle de Google dès 1998). Ce critère n’est pas académique, universitaire, ni scientifique.
La présentation des résultats est également soumise à de forts enjeux.
Il existe deux types de liens :
• Les liens naturels : issus de la collecte des données par le robot collecteur
• Les liens commerciaux (payants ou promotionnels) : issus de l’achat des mots clefs par des entreprises, souvent aux enchères (principale source de financement de Google)
L’effet pervers de l’achat de mots clés aux enchères est de généré de la désinformation. En effet, dans certaines situations (marée noire, émeutes de 2005) des sites « non alarmistes » arrivaient dans les 1er résultats à cause de l’achat de mots cléfs alors que les usagers du moteur de recherchent voulaient obtenir de l’information factuelle que les évènements.. « Oil spill » (marée noire) => en 2010 redirigeait vers une vidéo diffusée par la firme sur YouTube « émeutes banlieues » => en 2005 ramenait vers le site UMP « perquisition » => en 2010 (pendant l’affaire Bettencourt) ramenait vers le site UMP
Wikipedia est une encyclopédie qui a le mérite d'être collaborative, gratuite, que tout un chacun utilise fréquemment, par ailleurs, elle est très réactive, et il ne s'agit nullement de la proscrire dans les études universitaires. Au contraire, il faut apprendre à bien l'utiliser et aussi connaître ses limites (validité de l'information ou encore information partielle). Il est conseillé, comme toujours, de recouper ses sources et de se donner les moyens d'obtenir une information la plus complète possible pour se forger un avis critique.
Les avertissements. Présents en tête de certaines pages, ils signalent que les éditeurs de l'encyclopédie estiment le contenu de la page sujet à controverse ou en cours de restructuration massive, par exemple.
La date de création. L'onglet "historique", en tête de page, permet de vérifier si l'article a été créé récemment et s'il a été modifié récemment.
Les débats. L'onglet "discussion" permet de relire les débats qui ont eu cours entre les éditeurs de l'encyclopédie. Il permet de voir si il y a des désaccords majeurs ou des doutes sur les sources utilisées par l'article."
Dans l'onglet "discussion", les auteurs justifient souvent leurs modifications en fournissant les explications nécessaires.
(Sources : Le Monde.fr 17 mars 2010, Comment les étudiants utilisent-ils wikipedia ? ,
Alan Rocke, Du bon usage de wikipedia. La Jaune et le Rouge, n° 653, mars 2010 Conseils d'un contributeur à ses pairs)
Savoir repérer et exploiter les articles de qualité de l'encyclopédie qui font l'objet d'une lecture attentive, d'une exigence sur la citation des source, d'une évaluation de la part de la communauté et de spécialistes dans la matière. Cette démarche est suivie par de nombreux pays dont la France qui répertorie ses articles de qualité de la manière suivante :
Contenus de qualité : http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Contenus_de_qualit%C3%A9
Bons contenus : http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Bons_contenus
Un moteur de recherche est composé de 3 modules autonomes :
Possibilité de filtrage des résultats (variables selon les outils) :
Tous les moteurs de recherche ne présentent pas les résultats selon la même logique. Les résultats sont affichés soit par critère de pertinence, soit par critère de popularité.
Google scholar est le moteur de recherche scientifique de Google. Il vous permet de limiter votre recherche à des documents qui sont hébergés sur des serveurs d'institutions scientifiques (universités, instituts, laboratoires) en tant qu'archives ouvertes (accessibles gratuitement à n'importe quel internaute). Cet outil vous permet de résoudre en partie le problème de l'évaluation des sources qui se pose dès que vous faites une recherche sur Internet.