Lors de nos navigations sur internet, il arrive parfois que l’on ait besoin d’enregistrer une page web intéressante pour la conserver sous un format de fichier courant (texte ou pdf) afin de la consulter plus tard hors connexion ou de l’envoyer à un ami par email.
Cependant un fichier html, bien que lisible avec un simple éditeur de texte, contient beaucoup d’informations (liens, tags, balises, mises en pages, images…). Ces informations rendent la lecture de la page quasiment impossible avec un simple éditeur.
Pour avoir une idée, dans Firefox, vous pouvez afficher le code de la page web en cours en allant dans le menu Outils -> Développement Web et en cliquant sur « Outils de développement » ou « code source de la page ».
Vous verrez que le texte de la page, malgré la couleur syntaxique, est difficile à trouver au milieu de tous les ces liens et balises.
Ainsi un fichier html est conçu pour être lisible qu’à travers un navigateur ou autre logiciel compatible, capable d’analyser le code afin d’afficher correctement les informations.
La plupart des navigateurs permettent d’enregistrer une page Web au format Html avec seulement deux options : Page web complète ou Page web HTML uniquement.
- L’option Page web, complète va enregistrer la totalité de la page avec ses images, sa présentation (fichiers ccs) , les fichiers java scripts (fichiers js). Dans l’emplacement de votre ordinateur en enregistrant une page sous ce format vous obtiendrez un fichier html dont le nom est celui de la page donnée par le site avec un répertoire commençant par le même nom et se terminant par « _fichiers ». Ce dossier contient des fichiers (photos, javascript, css).
Ci-après un extrait du contenu du répertoire des fichiers.
- Cette page peut être visualisée ou l’ouvrant dans un navigateur internet (en général menu « Fichier » puis « Ouvrir un fichier ».
- Ce format permet de visualiser la page et ses images exactement comme avec une connexion internet. Cependant si vous pouvez la consulter à loisir sur votre ordinateur avec ou sans connexion internet, vous ne pouvez pas l’envoyer par mail à cause du répertoire et des nombreux fichiers contenus.
- L’option Page web, HTML uniquement va enregistrer la page mais sans ses images. Cependant, avec une connexion internet active, les images se chargeront via les liens et la page apparaitra normalement.
Ci-après, un extrait de l’affichage de la page web, enregistrée avec l’option HTML uniquement. Les images n’apparaissent pas. Si la connexion internet est active les images s’afficheront. Elles ne sont pas dans la page html mais se chargent automatiquement grâce aux liens enregistrés dans la page.
Pour enregistrer ou convertir des pages HTML en fichier texte ou en pdf il n’existe pas beaucoup de solutions simples. Tous les navigateurs en effet ne le permettent pas ou n’offrent pas toutes ces possibilités, du moins sans ajout de plugins complémentaires.
- Mozilla Firefox permet nativement d’enregistrer un page Web en fichier texte mais pas en pdf (faire menu « Fichier » puis « Enregistrer sous… » et choisir le type : « Fichiers texte ».
- Opéra permet nativement d’enregistrer un page Web en format pdf mais pas en texte (faire un clic droit de souris sur la page et choisir « Enregistrer en pdf … ». La page pdf s’enregistre dans votre répertoire de téléchargements par défaut.
Si vous n’utilisez pas un de ces navigateurs, il vous reste la solution de chercher et d’installer le plugin adéquat (s’il existe), ou bien de faire un simple copier / coller de la page dans le bloc note ou dans un traitement de texte comme Word ou Libre Office.
Une autre possibilité est d’imprimer la page dans un fichier au format pdf d’Adobe ou xps de Microsoft. Dans ce cas vous ne maîtriserez pas toujours la mise en page.
Une autre solution pour obtenir un fichier texte est d’utiliser des programmes spécialisés. Le logiciel portable et gratuit « HTMLAsText » de chez Nirsoft (que vous pouvez obtenir en cliquant sur ce lien : HTMLAsText) fait très bien le travail. Il supprime les tags et balises des fichiers Html et ne garde que le texte.
Vous pouvez convertir un simple fichier ou plusieurs fichiers en lots se trouvant dans un même répertoire. Vous pouvez paramétrer la mise en page souhaitée. Cet outil est très pratique si vous avez beaucoup de fichiers à convertir, comme par exemple ceux d’un site Web aspiré à l’aide du logiciel HTTrack .
HTMLAsText permet de convertir des fichiers html en texte.
Pour convertir plusieurs fichiers d’un répertoire, activez le bouton radio « Convert Multiple Files ». La case « Scan Subfolder » (scanner les sous-répertoires) s’active, il suffit de la cocher ensuite.
Les autres options concernent la mise en page du fichier de sortie (nombre de caractères par ligne, caractères délimitant les cellules des tableaux, …).
Ci-dessous, extrait de la page web du site, traduite en texte par HTMLAsText.