Cet article donne un certain nombre de techniques destinées à faciliter la recherche :
- D’informations précises à partir de critères spécifiques fournis sur le moteur de recherche de Google.
- Avec le moteur de recherche Shodan, de vulnérabilités d'appareils divers connectés à Internet.
Les moteurs de recherche sont indispensables pour trouver des informations sur le Web. Ils collectent des données sur les milliards de pages présentes sur le web et proposent souvent plusieurs milliers de pages en résultat.
1 - Le moteurs de recherche de Google
Cet article présente deux moteurs de recherche particuliers Google et Shodan.
- Google est le moteur généraliste le plus utilisé, il représente plus de 90% des parts de marchés.
- Shodan est un moteur particulier qui s'intéresse aux vulnérabilités des appareils connecté à Internet.
Il existe de nombreux moteurs de recherche qui permettent d’obtenir des résultats similaires à ceux de Google, ils se distinguent par des particularités qui leur sont propre (écologie, respect de la vie privée, spécialisation sur des thèmes de recherche, …). Voici une liste non exhaustive des moteurs les plus connus :
- Bing : le moteur de Microsoft, c’est le 2ème moteur après Google en France
- Yahoo! : moteur de recherche complet avec des fonctions spécifiques
- Qwant : Moteur de recherche français qui met en avant la protection des données
- DuckDuckGo : Une autre moteur de recherche qui respecte votre vie privée
- StartPage: moteur utilisant Google mais qui protège votre vie privée
- Lilo : un moteur de recherche qui investit dans des projets solidaires, ou écologiques
- Shodan : le moteur de recherche des hackers !
- Quora : un moteur qui ressemble à une encyclopédie
- Yippy : moteur qui classe les résultats en dossier selon les besoins
- Ecosia : Un moteur de recherche allemand qui plante des arbres
Les algorithmes des moteurs de recherche comme ceux de Google sont complexes car ils doivent tenir compte de nombreux facteurs comme la pertinence du contenu des pages, la qualité et la popularité des sites examinés, la pertinence des mots-clés et d'autres facteurs susceptibles de fournir les meilleurs résultats possibles aux requêtes des utilisateurs. Ils peuvent tenir compte notamment de :
- la localisation de l'internaute
- l’ordre des mots
- la répétition des mots qui impacte les résultats.
Google ne tient pas compte des accents et de la casse, il ne fait pas de différence entre les majuscules et les minuscules. Par exemple créée est identique à creee ou encore bOnjouR est équivalent à Bonjour.
De plus en plus ces algorithmes utilisent l'intelligence artificielle pour comprendre et répondre aux requêtes des internautes et ils sont mis à jour régulièrement pour :
- Améliorer la qualité des résultats de recherche.
- Lutter contre les tentatives de manipulations de classement.
- Améliorer la vitesse et l'efficacité du système en vue de fournir les meilleurs résultats de recherche en temps réel.
1.1- Fonctionnement d'un moteur de recherche comme Google
Le fonctionnement d'un moteur de recherche peut être résumé en 5 étapes :
- Le crawl : Les moteurs de recherche utilisent des robots d'exploration de sites (appelés Googlebots chez Google) pour parcourir les pages web et collecter des informations sur leur contenu. Les algorithmes suivent des liens entre les pages pour explorer le web et trouver de nouveaux sites et pages.
- L'indexation : Les informations sont extraites des pages parcourues et sont stockées et indexées dans une grande base de données qui est appelée le référentiel ou l'index du moteur de recherche.
- La recherche : Lorsqu'un internaute effectue une recherche, l'algorithme du moteur de recherche utilise les informations sur les requêtes et les termes de recherche pour trouver les pages les plus pertinentes dans son index de données. Les algorithmes sont conçus pour comprendre le contexte et les nuances de la requête de l'utilisateur et fournir les résultats les plus pertinents possibles.
- Le classement : Lors de la recherche, le moteur utilise un algorithme qui va trier les pages web trouvées dans son index en fonction de leur pertinence pour la requête. Ce classement se base sur des centaines de facteurs (pertinence du contenu de la page et des mots-clés, qualité et popularité du site, qualité et quantité des liens vers une page, expérience utilisateur, ….).
- L'affichage des résultats : Les résultats pertinents sont affichés sur l'écran de l'utilisateur. Les résultats de recherche incluent en général le titre de la page, un court résumé et un lien vers la page concernée. D'autres facteurs sont pris en compte comme la pertinence spécifique pour la requête afin de déterminer l'ordre d'affichage des résultats. Des informations sur l'utilisateur (l'historique de recherche, localisation, …) permettent aussi de personnaliser les résultats de recherche.
Tous les moteurs de recherche fonctionnent à peu près de la même façon, ils peuvent avoir des spécificités comme la confidentialité des données recueillies, l'absence de publicité, l'écologie. Le moteur de recherche de Google, lancé en 1998, est l'un des outils les plus populaires et les plus utilisés en raison de la qualité de ses résultats de recherche et de fiabilité cependant il est connu pour tracer les activités des utilisateurs.
1.2 - L'architecture technique du moteur de Google
L'architecture technique d'un moteur de recherche utilise une infrastructure de serveurs pour gérer les requêtes de recherche et les opérations de stockage de données. L'architecture de serveurs est conçue pour gérer d'énormes charges et pour assurer une grande disponibilité et rapidité des services proposés.
Les serveurs sont regroupés en centres de données et sont dispersés géographiquement à travers le monde. Ces centres de données sont connectés par des réseaux à très haut débit pour permettre la distribution des charges de travail et la disponibilité des services en cas de panne dans un des centres de données.
Chaque serveur exécute une partie des tâches de recherche telles que la collecte de données, l'analyse des informations, l'indexation, la recherche d'informations, l'affichage des résultats, … Les algorithmes de classement sont exécutés sur plusieurs serveurs en parallèle pour optimiser les performances et assurer la rapidité des requêtes et des réponses.
Des technologies de virtualisation rationalisent l'utilisation des ressources de serveur et facilitent la gestion de l'infrastructure. La virtualisation permet l'optimisation de l'utilisation des ressources existant et facilite le déploiement et l'ajout de nouveaux serveurs.
2 - Les recherches sur Google
Il existe en gros deux méthodes pour affiner les recherches sur le moteur de Google :
- la recherche avancée qui correspond à une recherche graphique
- l'utilisation d'opérateurs qui ressemble à une écriture de requêtes en ligne de commande.
Nous allons nous concentrer sur l'utilisation des opérateurs.
Avant de lancer une recherche il est souhaitable de réfléchir à son ciblage (où rechercher l'information) et à sa formulation (l'ordre des mots a une importance) pour obtenir les résultats les plus cohérents possible et éviter des milliers de pages en réponse que l'on ne pourra pas traiter. En premier lieu vous pouvez consulter sur cette page quelques conseils et astuces simples de la part de Google pour faciliter les recherches.
2.1 - Personnaliser les paramètres de recherche dans Google
Pour personnaliser les paramètres de recherche, il faut cliquer sur "Paramètres" en bas à droite de la page d’accueil de Google puis choisir "Paramètres de recherche". Dans la page qui s'ouvre ou peut paramétrer quelques éléments comme :
- Les Filtres SafeSearch permettent d'éviter l'affichage de contenus inappropriées
- Le nombre de résultats par page qui pas influencer la rapidité du chargement et de l'affichage des pages
- Les paramètres de région et de langue pour par exemple modifier la langue utilisée avec Google
- Activer ou non l’historique des activités
- Choisir comment afficher les résultats
Dans recherche avancée on peut ajouter de nombreux critères pour affiner ses recherches.
2.2 – La recherche avancée
Pour accéder à la recherche avancée, il faut encore cliquer sur "Paramètres" en bas à droite de la page d’accueil de Google puis choisir cette fois-ci "Recherche avancée". Dans la page qui s'ouvre ou peut on peut renseigner plusieurs champs qui permettront d'affiner la requête. Ces champs correspondent à des critères que l'on va examiner dans la suite de cet article.
2.3 - Exemples de techniques de recherches courantes
Voici quelques conseils et commandes les plus courantes pour améliorer les résultats de recherche sur Google.
- Utiliser des guillemets pour une recherche de phrase exacte : en entourant une requête de guillemets, on peut rechercher une phrase exacte. Par exemple, "Comment fonctionne un moteur de recherche" donnera des résultats qui comprennent exactement cette phrase.
- Utiliser le signe moins pour exclure des termes : le signe moins (-) devant un mot indique à Google de ne pas inclure les pages qui contiennent ce mot dans les résultats. Par exemple, "moteur de recherche -Google" donnera des résultats qui comprennent "moteur de recherche", mais sans le mot "Google".
- Utilisez le symbole "site:" pour limiter les résultats à un site spécifique : le symbole "site:" suivi d'un nom de domaine permet de limiter les résultats de recherche à un site spécifique. Par exemple, "Comment fonctionne un moteur de recherche site:openai.com" donnera des résultats qui comprennent "Comment fonctionne un moteur de recherche" sur le site openai.com.
- Utiliser le symbole "filetype:" pour rechercher des fichiers spécifiques : le symbole "filetype:" suivi d'un format de fichier permet de limiter les résultats de recherche aux fichiers de ce type. Par exemple, "moteur de recherche filetype:pdf" donnera des résultats comprenant des fichiers PDF sur le sujet "moteur de recherche".
- brassens file type mp3 ou "brassens" file type mp4 donne des fichiers audio et vidéos de Brassens.
Ces astuces sont de nature à aider à l'affinement des résultats d'une recherche et à trouver plus rapidement l'information recherchée. Il est toujours important de se rappeler que les algorithmes de Google sont en constante évolution, alors il est utile de vérifier régulièrement s'il existe de nouvelles astuces et commandes qui peuvent améliorer les résultats d'une recherche.
2.4 - Rechercher des images
Il est aussi possible de lancer une recherche à partir d'une image afin de trouver sur le Web son origine ou d'autres images associées.
Pour cela il faut d'abord importer l'image.
- Sur images.google.com ou sur la page d'accueil du moteur de Google ou encore sur n'importe quelle page de résultats de recherche d'images, cliquer sur l'icône de recherche par image symbolisée par une icône d'appareil photo.
- Cliquer sur "Importer un fichier" puis sélectionner un fichier correspondant à une image enregistrée sur votre ordinateur.
Il est également possible de coller un lien web (URL) pour effectuer la recherche d'une image située sur un site Web, pour cela :
- Sur le site Web correspondant, cliquer avec le bouton droit sur une image, puis sélectionner Copier l'adresse de l'image.
- Sur images.google.com ou sur n'importe quelle page de résultats de recherche d'images, cliquer sur l'icône de recherche par image .
- Cliquer sur "Coller l'URL de l'image" et coller l'URL précédemment copiée dans le champ de recherche.
- Cliquer sur "Recherche par image".
On peut aussi rechercher des images sur Google, de la même manière qu'on recherche des sites Web. Consulter par exemple des images de villes, ou trouver des images pour illustrer un document.
- Aller sur images.google.com ou cliquer en haut à droite de la page d'accueil du moteur de google sur "Images".
- Rechercher un mot ou une expression, tous les résultats seront des images.
2.5 – Filtrer les résultats de recherche
Il est possible de filtrer et de personnaliser les résultats des recherches pour trouver plus facilement ce que l'on recherche (par exemple rechercher des sites mis à jour au cours des dernières 24 heures ou des photos d'une certaine couleur). Le filtrage des résultats de recherche ne change pas les paramètres de recherche éventuellement modifiés tels que décrits dans le § 2.1.
- Pour ajouter ou supprimer des filtres depuis un ordinateur il faut lancer une recherche depuis la page d'accueil de recherche Google.
- Sous le champ de recherche et au-dessus des résultats affichés, pour sélectionner un type de résultat précis, cliquer sur Shopping, Images, Maps, actualités ...
- Pour afficher des types de résultats supplémentaires, cliquer sur "Plus".
- Cliquer sur outils donne accès à des filtres supplémentaires (la liste peut varier selon la recherche et les filtres déjà appliqués).
2.6 - Les recherches avancées sur Google
Les opérateurs constituent un outil puissant de recherche. Ils permettent d'affiner les résultats et d'optimiser une recherche. Les deux tableaux ci-après décrivent les opérateurs de base et les opérateurs avancés avec des exemples de requêtes utilisant ces opérateurs.
- Les opérateurs de base sont : +,-,~,.,*, "’’’’,|,OU
- Les principaux opérateurs avancés sont : Allintext:, allintitle:, allinurl:, bphonebook:, cache:, filetype:, define:, info:, intext:, intitle:, inurl:,link:, phonebook:, related:, rpphonebook:, site:, numrange:, daterange:
2.7 - Les Opérateurs de base de Google
Opérateur |
Description |
Exemples |
+ |
inclusion forcée d’un mot commun. Google ignore par défaut les mots communs (exemple : où, comment, chiffre, lettre singulière, etc.) |
Elise +l’ |
- |
exclut un terme de recherche |
François -Hollande recherche tous les françois en excluant les pages contenant Hollande |
“ ” |
Recherche exacte. Utiliser les guillemets au début et à la fin d’une expression pour une recherche exacte
|
“Robert Masse” Robert masse sans guillemets “ ” obtient 309,000 résultats, mais “robert masse” avec guillemets “ ” obtient seulement 927 résultats, réduisant de 99% les résultats qui ne sont pas pertinents |
~ |
recherche de synonyme |
~nourriture , affiche tous les résultats qui s’associent à la nourriture, aux recettes, à la nutrition et à toutes autres informations connexes à ce terme |
. |
Recherche toutes les possibilités avec un caractère simple « wildcard » : |
m.trix, affiche tous les résultats de : M@trix, matrix, metrix ... |
* |
Recherche toutes les possibilités avec n’importe quel mot « wildcard » |
m*trix, affiche tous les résultats comprenant des mots ou lettres entre m et trix. |
2.8 - Les Opérateurs avancés de Google
Opérateur |
Description |
Exemples |
site: |
Site: Domain_name. Permet de trouver seulement les pages Web du domaine spécifié. Si on recherche un site spécifique, on obtient généralement la structure Web du domaine. |
site:https://www.club-informatique-clayes-sous-bois.fr
|
filetype: |
Filetype : extension_type Permet de trouver les documents contenant des extensions spécifiques. Les extensions supportées sont : HyperText Markup Language (html) , Microsoft PowerPoint (ppt), Adobe Portable Document Format (pdf), Microsoft Word (doc) , Adobe PostScript (ps), Microsoft Works (wks, wps, wdb) , Lotus 1-2-3 , Microsoft Excel (xls), (wk1, wk2, wk3, wk4, wk5, wki, wks, wku), Microsoft Write (wri), Lotus WordPro (lwp) , Rich Text Format (rtf) , MacWrite (mw) ,Shockwave Flash (swf) , Text (ans, txt) …. On peut aussi rechercher des fichiers asp, php et cgi, à condition que le texte soit compatible. |
Budget filetype: xls |
intitle: |
intitle:search_term. Permet de trouver le terme de recherche à l’intérieur du titre d'une page Web |
intitle:‘’club informatique’’ intitle:Index.of “parent directory” intitle:index.of + "mp3" + "madonna" |
allintitle: |
allintitle:search_term1 search_term2 search_term3 Permet de trouver de multiples termes de recherche qui inclut tous ces mots à l’intérieur du titre d’une page Web. Ces opérateurs sont particulièrement utiles pour trouver des listes de répertoire. Cet opérateur ne peut pas être combiné avec d'autres opérateurs. |
allintitle:intelligence artificielle Permet de rechercher dans le titre d'une page tous les termes indiqués. |
Inurl: |
Inurl:search_term. Permet de trouver le terme de recherche dans l’adresse Web d’un document
|
inurl:cgi-bin inurl:livres |
Allinurl : |
allinurl:search_term1 search_term2 search_term3 Permet de trouver de multiples termes de recherche dans l’adresse Web d’un document |
allinurl:cgi-bin password allinurl:livres cabu
|
intext: |
intext:search_term. Permet de trouver un terme de recherche dans le corps du texte d’un document |
intext:Administrator login intext:dupond bijoutier |
allintext: |
allintext:search_term1 search_term2 search_term3. . Permet de trouver de multiples termes de recherche dans le corps du texte d’un document |
allintext:Administrator login allintext:dupond bijoutier |
cache:
|
cache:URL. Permet de trouver l’ancienne version dans la mémoire tampon de Google. Parfois, même après la mise à jour d’un site, l’ancienne information peut être trouvée dans la mémoire tampon |
cache:www.gosecure.com |
<number1>..<number2> |
<number1>..<number2>. Permet d’effectuer une recherche avec une série de numéro en spécifiant deux numéros, séparés par deux points, sans espaces. Ne pas oublier de spécifier une unité de mesure ou tout autre indicateur de ce que la série de numéro représente |
voiture €500..1000 DVD player $250..350 |
daterange: |
daterange: <start_date>-<end date>. Permet de trouver les pages Web pour une période comprise entre deux dates start_date & end date. Utilisez la date Julienne. La date Julienne est calculée à partir du nombre de jours depuis le 01 janvier 4713 ac. Par exemple la date Julienne pour le 01 août 2201 est 2452122 |
2004.07.10=2453196 2004.08.10=2453258 Représente en date julienne: 2453196-2453258 |
link: |
link: URL. Permet de trouver des pages Web possédant un lien de l’URL spécifiée |
link:www.club-informatique-clayes-sous-bois.fr link:lesclayessousbois.fr |
related: |
related: URL. Permet de trouver des pages Web similaires à la page Web spécifiée |
related:google.com donne une liste de sites similaires à google.com (sites de recherche) |
Info: |
info:URL. Présente certaines informations que Google possède au sujet de cette page Web |
info:gosecure.ca |
define: |
define: search_term. Permet de fournir une définition des mots recueillis à partir de diverses sources en ligne
|
define:sécurité des réseaux
|
OR AND |
Ces opérateurs permettent d'afficher les résultats incluant l'une ou l'autre (OU) ou l'une et l'autre (AND) des recherches | voiture "hybride" OR "essence" |
around(x) |
around(x) permet de rechercher les pages web intégrant deux termes séparés par au maximum x mots. | les voitures AROUND(8) "de la marque Peugeot" |
(motclé1 OR motclé2) motclé3 |
Les parenthèses permettent de prioriser les opérateurs booléen OR et d'afficher les articles relatifs au premier mot clé 1 et au mot clé 3 ou au mot clé 2 et au mot clé 3. |
(voiture OR camion) hybride |
2.9- Exemples de recherches simples
Voici quelque exemples qui utilisent des opérateurs pour des recherches simples :
- Rechercher un mot sur les réseaux sociaux : insérer @ devant le mot, il sera recherché sur les principaux réseaux sociaux. Exemple : @facebook.
- Rechercher un prix :insérer $ devant un nombre. Exemple : appareil photo $400 (€400 fonctionne, mais $u £ donnent des résultats en euros si votre page est paramétrée pour la France).
- Rechercher un hashtag :insérer # devant un mot. Exemple : #throwbackthursday.
- Exclure des mots d'une recherche : insérer - devant le mot à exclure. Exemple : vitesse jaguar -voiture.
- Rechercher une correspondance exacte : mettre le mot ou l'expression entre guillemets. Exemple : "la plus petite voiture".
- Rechercher des mots inconnus avec des caractères génériques : placer un * dans un mot ou une expression dans lesquels on souhaite insérer n'importe quel mot. Exemple : la voiture la plus * pourra donner des résultats contenant la voiture la plus chère, la voiture la plus neuve, la voiture la plus rapide, ......
- Rechercher dans une plage de nombres : insérer .. entre deux nombres. Exemple : appareil photo $50..$100.
- Associer des requêtes : insérez OR entre chaque requête de recherche. Exemple : la voiture la plus louée OR vendue pour trouver la voiture la plus vendue ou la plus louée.
- Rechercher un site spécifique : insérer site: devant un site ou un nom de domaine. Exemple : site:youtube.com ou site:.gov.
- Rechercher des sites associés : insérer related: devant une adresse Web spécifique. Exemple : related:lemonde.fr.
- Obtenir des informations sur un site : insérez info: devant l'adresse du site.
- Consulter la version en cache d'un site proposée par Google : insérez cache: devant l'adresse du site recherche dans les caches de Google (anciennes versions d'un site).
L'utilisation de ces symboles et opérateurs permettent d'obtenir des résultats plus précis. La recherche Google ignore généralement les signes de ponctuation quand ils ne sont pas inclus dans un opérateur de recherche.
Attention : Il ne faut pas d'espace entre le symbole ou le mot et votre terme de recherche. Par exemple site:lemonde.fr est correct mais site: lemonde.fr est incorrect.
2.10 - Exemples de recherches utilisant des critères avancés
- Salaire : salaire filetype: xls site: gouv.fr
- Paie : intitle: Paie intext: brut filetype: xls site: fr. Cette requête recherche des fichiers Excel avec le mot "paie" dans le titre et le mot "brut" dans le contenu, sur des sites Web ayant l'extension ".fr".
- Information financière : filetype: xls “checking account” “credit card” - intext:
- intitle: “Index of” finances.xls : Cette requête recherche des répertoires avec le mot "Index of" dans leur titre et le fichier "finances.xls" dans leur contenu.
- Boîte de courriel personnelle : intitle: index.of inurl: Inbox (mit mailbox) : Cette requête recherche des répertoires avec le titre "index.of" et le mot "Inbox" dans leur URL. L'expression (mit mailbox) dans cette requête indique que le résultat recherché doit avoir le mot "mailbox" dans son contenu.
- Fichiers confidentiels : filetype: pdf inurl: gouv.fr « ne pas diffuser »
- Fichiers confidentiels : “not for distribution” confidential filetype: pdf
- Recherches de mots de passe : recherche des noms de fichier bien connus pour des mots de passe dans des UR. Recherche des fichiers de connexion de la base de données ou des fichiers de configuration pour trouver un mot de passe et un nom d’utilisateur. Recherche un fichier de nom d’utilisateur spécifique pour un produit spécifique, voici quelques exemples de requêtes :
-
- inurl: etc inurl: passwd
- intitle: “Index of..etc” passwd
- inurl: admin.pwd filetype: pwd
- filetype: inc dbconn
-
- filetype:inc inc intext: setcookie -cvs -examples -sourceforge -site: php.net recherche des fichiers avec l'extension "inc" qui contiennent le mot "setcookie" en excluant les fichiers contenant les mots "cvs", "examples", "sourceforge" et le site Web "php.net".
- Voici la liste des principaux formats pris en compte :
- Adobe Flash (.swf)
- Format de document portable Adobe (.pdf)
- Adobe PostScript (.ps)
- Format Web Autodesk Design (.dwf)
- Google Earth (.kml, .kmz)
- Format GPS eXchange (.gpx)
- Hancom Hanword (.hwp)
- HTML (.htm, .html, autres extensions de fichiers)
- Microsoft Excel (.xls, .xlsx)
- Microsoft PowerPoint (.ppt, .pptx)
- Microsoft Word (.doc, .docx)
- Présentation OpenOffice (.odp)
- Feuille de calcul OpenOffice (.ods)
- Texte OpenOffice (.odt)
- Format de texte enrichi (.rtf)
- Graphiques vectoriels à échelle variable (.svg)
- TeX/LaTeX (.tex)
- Texte (.txt, .text, autres extensions de fichiers)
- Code source de base (.bas)
- Code source C/C++ (.c, .cc, .cpp, .cxx, .h, .hpp)
- Code source C# (.cs)
- Code source Java (.java)
- Code source Perl (.pl)
- Code source Python (.py)
- Langage Wireless Markup (.wml, .wap)
- XML (.xml)
- index of /images" recherche des fichiers et sous-répertoires à l'emplacement /images sur le site Web. Le mot-clé "Index of" est utilisé pour rechercher des répertoires sur un site Web. Il peut être utilisé pour montrer tous les fichiers et sous-répertoires disponibles à un emplacement donné sur un site Web.
- index of cgi-bin ou index of /administrator peuvent donner accès à des répertoires ou des fichiers sensibles mal protégés.
- lien:https://www.club-informatique-clayes-sous-bois.fr trouve les sites qui contiennent un lien vers le site https://www.club-informatique-clayes-sous-bois.fr. Cette requête renverra tous les sites qui contiennent un lien vers le site spécifié.
- Jean Dupond email cherche tous les sites contenant le nom spécifié et incluant également le mot "email".
- Jean Dupond email site:fr cherche tous les sites contenant le nom spécifié et incluant le mot "email" uniquement sur des sites Web français.
- Recherche d'images : on peut effectuer une recherche d'images en utilisant l'opérateur "image:" suivi de la requête. Exemple image:chiens donne des images de chiens.
- intitle:index.of + "mp3" + "nougaro" permet de trouver des chansons du chanteur (Claude) Nougaro au format mp3.
- brassens file type mp3 ou "brassens" file type mp4 permet de trouver des chansons et des vidéos du chanteur (George) Brassens (formats mp3 et mp4).
2.11. - Autres exemples de recherches avancées :
2.11.1 - Recherche dans une plage de dates
Commande: daterange:[XXXXX-XXXXX]
-
L’opérateur daterange donnera les résultats d'une recherche dans une plage de dates. Les dates doivent être au format "Julian" c'est à dire avec l'année et le nombre de jours depuis le début de cette année.
-
Exemple : basket daterange:2459945-2460310 affichera ce qui concernera les documents relatifs au basket (sport et chaussures entre le 1 er janvier et le 31 décembre 2023). Ce site Calendrier Julien: Convertisseur permet de convertir des dates à ce format.
-
Cette commande n'est cependant pas très précise car elle ne concerne que la date d'indexation de Google. Cela veut dire que si un document est mis en ligne à une certaine date et indéxé à une autre date c'est cette dernière date qui sera prise en compte. Il vaudra lieux utiliser la recherche avancée par date pour avoir un résultat plus fiable.
2.11.2 - Recherche entre deux années spécifiques
- commande :
[année1]..[année2]
- L'opérateur de entre 2 années applique une plage d’années dans un requête.
- Exemple tennis 2021..2022 renverra les résultats des recherche de tennis publiés entre 2021 et 2022.
2.11.3 - Trouver une personne sur les réseaux sociaux
- Commande :
[name] site:twitter.com | site:facebook.com | site:linkedin.com
- Cette opérateur permet d'atteindre une personne particulière sur les réseaux sociaux. Il faut bien sûr connaitre son nom.
- Exemple : dupond site:twitter.com | site:facebook.com | site:linkedin.com
2.11.4 - Trouver des phrases exactes avec une recherche approximative
Commande : mot-clé1 AROUND(X) mot-clé2
- On cherche parfois des citations ou des phrases dont on ne se souvient pas de la formulation exacte. Cette commande aide à les retrouver. L'opérateur Arround(X) AROUND(X) définit la distance maximale entre 2 mots clés dans une expression. La valeur de X spécifie le nombre de mots maximum pouvant séparer les 2 mots clés.
- Exemple : sanglots around(5) bercent permet de retrouver le poème de Paul Verlaine.
Toutes ces commandes peuvent aider à affiner les résultats d'une recherche et à trouver plus rapidement les informations recherchées. Il est utile d'essayer différentes combinaisons de mots-clés et d'opérateurs pour trouver de meilleurs résultats.
Vous pourrez trouver d'autres opérateurs et exemples sur ce blog semrushs.com.
Avertissement : certaines recherches peuvent vous permettre d'accéder à des sites vulnérables ou à des documents confidentiels. Ce n'est pas parce que vous trouvez une clé d'entrée que vous avez le droit de pénétrer sans autorisation dans une maison ou un lieu qui ne vous appartient pas. Il en est de même sur le Web. Se maintenir volontairement et naviguer sur un site Web protégé ou bien télécharger des documents privés est illégal. En cas d'intrusion involontaire prévenez le propriétaire de la faille en mettant en copie des autorités comme la CNIL ou l'ANSSI pour prouver votre bonne foi.
2.11 - Protéger ses informations contre Google
Connaitre les opérateurs des requêtes d'un moteur de recherche peut aider à mieux protéger ses données personnelles ou son site web. Voici quelques recommandations simples.
- Ne garder aucune information ou autres données sensibles sur le Web et utiliser des systèmes d'authentification et de chiffrement solides.
- Désactiver les répertoires de navigation.
- Tester votre site Web, votre nom ou votre société avec Google.
- Le cas échéant retirer votre site de l’index de Google via ce lien : http://www.google.com/remove.html
- Paramétrer le fichier robots.txt de votre site Web contre les moteurs, spiders Web, crawlers via ce lien http://www.robotstxt.org
3 - Le moteur de recherche Shodan
Shodan est un moteur de recherche qui a été conçu pour explorer le cyberespace. Contrairement à d'autres moteurs de recherche classiques comme Google, qui cherchent des informations sur le Web public, Shodan s'intéresse aux appareils connectés à Internet, tels que les serveurs, les caméras de sécurité, les thermostats et les imprimantes.
Ce moteur permet notamment de trouver des vulnérabilités sur toutes sortes d'appareils connectés à internet (ports ouverts, mots de passe faibles ou inexistants, ...).
3.1 - Fonctionnement de Shodan
Shodan collecte des informations sur ces appareils en scannant régulièrement les adresses IP publiques. Le moteur de recherche stocke ensuite les informations recueillies dans une base de données qui peut être consultée par les utilisateurs.
Les utilisateurs peuvent effectuer des recherches en utilisant des mots-clés pour trouver des informations spécifiques sur les appareils connectés, telles que le type de système d'exploitation utilisé, la version du logiciel, les ports ouverts et les services en cours d'exécution.
Shodan est souvent utilisé par les professionnels de la sécurité informatique pour trouver des vulnérabilités potentielles dans les systèmes connectés à Internet. Cependant, l'accès à ces informations sensibles peut aussi être utilisé à des fins malveillantes.
3.2 - Infrastructure technique Shodan
Shodan utilise de nombreux serveurs pour traiter les requêtes des utilisateurs et stocker les informations collectées sur les appareils connectés à Internet. Le nombre exact de serveurs de Shodan et leur architecture précise sont confidentiels, cependant comme pour les moteurs de recherche classiques on peut penser que l'infrastructure de Shodan est conçue pour gérer des charges de travail importantes relatives à la collecte et à l'analyse des données des appareils connectés.
3.3 - Requêtes Shodan
Il existe plusieurs façons d'effectuer une recherche sur Shodan :
- Utiliser le site Web de Shodan : on accède à Shodan via le lien: https://www.shodan.io/ . La requête est à saisir sur la barre de recherche en haut de la page.
-
Utiliser l'API de Shodan : pour effectuer des recherches avancées, l'utilisation l'API de Shodan se fait via une application qui envoie des requêtes HTTP sur l'API de Shodan. Le site Web de Shodan contient la documentation détaillée de l'API.
-
Utiliser un outil en ligne de commande : Shodan propose un outil en ligne de commande appelé "shodan cli" qui permet d'effectuer des recherches depuis un terminal. Cet outil peut être installé sur un ordinateur via la commande pip install shodan.
En utilisant un de ces moyens, on peut effectuer des recherches sur Shodan et trouver des informations sur les appareils connectés à Internet, tels que des serveurs web, des routeurs, des périphériques de sécurité, etc. Les résultats de recherche incluent des informations telles que l'adresse IP, le port, le système d'exploitation, le nom d'hôte, les services en cours d'exécution, etc. Les commandes de recherche de Shodan permettent d'affiner les résultats de recherche en utilisant des critères spécifiques.
Note : pour utiliser Shodan il vaut mieux mieux créer un compte pour avoir un accès à des requêtes intéressantes. On peut créer un compte gratuitement mais les requêtes proposées sont limitées et plutôt restreinte. Seul un compte payant permettra d'utiliser toute la puissance de Shodan.
Exemple de résultats d'une requête, on trouve des adresse IP avec des vulnérabilités en cliquant sur les liens associés.
3.4 - Exemples de requêtes Shodan
Voici quelques exemples de commandes de recherche de Shodan :
- Recherche de ports spécifiques : pour trouver des appareils qui utilisent un port spécifique, utiliser la commande suivante : "port:80". Exemple : "port:8080" trouvera des appareils utilisant le port 8080.
- Recherche de systèmes d'exploitation spécifiques : pour trouver des appareils qui utilisent un système d'exploitation spécifique, utiliser la commande os. Exemple "os:windows". "os:linux" trouvera des appareils utilisant un système d'exploitation Linux.
- Recherche de pays spécifiques : pour trouver des appareils qui sont situés dans un pays spécifique, utiliser la commande country:. Exemple "country:FR". "country:US" trouvera des appareils situés aux États-Unis.
- Recherche de sous-réseaux spécifiques : pour trouver des appareils qui sont dans un sous-réseau spécifique, utiliser la commande suivante : "net:192.168.1.0/24". Exemple : "net:10.0.0.0/8" trouvera des appareils dans le sous-réseau 10.0.0.0/8.
- Sous-réseaux exclus : pour exclure des appareils dans un sous-réseau spécifique des résultats d'une recherche, utiliser la commande suivante : "-net:192.168.1.0/24". Exemple : "-net:10.0.0.0/8" exclura les appareils dans le sous-réseau 10.0.0.0/8 des résultats de recherche.
- Trouver des webcams mal protégées aux États-Unis : utiliser la commande suivante : "country:US webcamxp". "country:US" permet de restreindre les résultats de la recherche aux États-Unis et "webcamxp" est une chaîne de recherche qui correspond à certaines webcams mal protégées qui utilisent le logiciel WebcamXP.
- Vérifier la sécurité de son adresse IP : utiliser la commande : "ip:{votre adresse IP}". Cette commande permettra de trouver tout appareil ou service associé à votre adresse IP publique. Les résultats peuvent inclure des informations sur les systèmes d'exploitation, les ports ouverts, les services en ligne, etc. Ceci permet de connaitre et de corriger des vulnérabilités éventuelles de vos appareils.
Les exemples précédents sont des commandes de base de recherche de Shodan. Il existe de nombreuses autres commandes pour affiner les recherches, les informations sur ces commandes sont sur le site web de Shodan.
Voici par exemple ce que donne la requête country:US webcamxp
Attention : Shodan ne garantit pas la sécurité des appareils affichés (il peut y avoir un piège avec des malwares), de plus il est interdit de se connecter ou d'interagir avec des appareils sans autorisation explicite. Toute intrusion non autorisée peut entraîner des plaintes et des poursuites judiciaires.
3.5 - Différences entre Google et Shodan
Shodan et Google sont donc deux moteurs de recherche très différents en termes de fonctionnement et d'objectifs.
- Google est un moteur de recherche général qui permet aux utilisateurs de trouver des informations sur le web en utilisant des mots-clés et des requêtes. Il cible des informations textuelles, telles que des articles de blog, des pages de produits, des encyclopédies en ligne, etc.
- Shodan : Shodan est un moteur de recherche qui se concentre sur les périphériques connectés à Internet, tels que les serveurs, les caméras de sécurité, les équipements industriels, etc. Au lieu de se concentrer sur les pages web, Shodan parcourt les protocoles de communication utilisés par les appareils connectés pour trouver et indexer des informations sur leur configuration et leur fonctionnement.
En termes de fonctionnement, Google utilise des algorithmes complexes pour classer les pages web en fonction de leur pertinence pour les requêtes de l'utilisateur, tandis que Shodan utilise des algorithmes de reconnaissance de signatures pour identifier les périphériques connectés à Internet.
En conclusion, le but de Google est de fournir des informations à l'utilisateur, tandis que le but de Shodan est de fournir des informations sur les périphériques connectés à Internet aux entreprises, aux gouvernements et aux chercheurs en sécurité informatique en vue d'améliorer la sécurité des systèmes connectés à Internet.
Article publié le 11/01/2019 sous le titre Optimiser ses recherches Web et mis à jour les 9/02/2023 et le 26/11/2023.