Httrack est un logiciel qui permet d'aspirer le contenu d'un site web et de l’enregistrer sur votre ordinateur afin de pouvoir le consulter hors ligne. Il permet en même temps d’enregistrer les images, des vidéos et autres documents présents sur le site en question.

1 - Installation et lancement de HTTRACK

Vous pouvez télécharger HTTRACK sur ce site ou sur le site de l’éditeur.

Lancez le fichier téléchargé pour l’installation, celle-ci ne pose pas de problèmes particulier. Une première  fenêtre s’ouvre et vous invite à choisir la langue d'utilisation.

Choisissez la langue, cliquez sur OK et au lancement de Httrack, cliquez sur le bouton Suivant.

Nommez votre projet de capture de site Web et choisissez le chemin d’enregistrement de la capture. Par défaut Httrack propose C:\Mes sites web. Évitez cependant des noms de chemin avec des accents, des caractères spéciaux et mêmes des espaces, avec certains sites des erreurs de téléchargement peuvent avoir lieu.

 

Cliquez sur Suivant.

Dans le cadre adresse Web entrez ou copiez/collez l'adresse du site à aspirer. Vous pouvez entrer l’adresse de la racine du site ou un sous-dossier qui vous intéresse (par exemple https ://www.exemple.com ou https ://www.exemple.com/page_x).

Vérifiez que pour Action, on ait bien 'Copie automatique de site(s) Web'.

Cliquez sur Suivant.

Si vous désirez capturer le site avec les options par défaut, cliquez sur le bouton Terminer. HTTRACK va aspirer toutes les pages de l’adresse renseignée avec tous les fichiers présents. Les liens extérieurs éventuels du site seront ignorés.

Vous pouvez préciser le comportement du logiciel à la fin de l’opération (déconnexion ou arrêt de l’ordinateur) en cochant les options correspondantes.

 

Le fenêtre suivante s’ouvre et vous montre l’avancement des téléchargements.

Vous pouvez sauter le téléchargement d’un fichier en cours en cliquant sur le bouton « Passer » concerné.

Le téléchargement peut être très long selon le volume, le contenu du site à aspirer et le taux de transfert. Aussi, avant d'aspirer un site, il est conseillé de visiter préalablement ce site pour estimer son importance, examiner sa structure, ses liens extérieurs, la nature de ses contenus : images, vidéos, documents, fichiers zip, ….

 

Pendant l’aspiration vous pouvez cliquer sur un des téléchargements en cours pour ouvrir un fenêtre vous donnant des informations détaillées sur les fichiers en cours de téléchargement.

Attendez la fin des téléchargements ou cliquez sur Annuler pour arrêter l’aspiration. Httrack termine les téléchargements en cours avant de s’arrêter. Cliquez sur le bouton Terminer de la fenêtre ci-après pour fermer Httrack. Vous pourrez continuer l’aspiration du site ultérieurement en relançant Httrack.

 

Avant d'appuyer sur terminer, vous pouvez cliquer sur le bouton «Voir le fichier d’erreur » pour afficher les erreurs de téléchargements.

 

Les erreurs sont souvent dues à des mécanismes de protection du site. Certains sites protégés ne pourront être aspirés que partiellement ou pas du tout. Vous obtiendrez des erreurs lorsque Httrack tentera d’accéder à des zone protégées (par exemple accès privatif ou répertoire protégé par mot de passe). Parfois certains accès de Httrack seront considérés par le site comme des tentatives d’exécution d’attaques dites xss. En général ces erreurs ne vous empêcheront pas d’aspirer les parties publiques et intéressantes d’un site.

La résolution des autres erreurs demandera probablement des connaissances techniques et dépendra souvent des paramétrages du poste de travail réalisant la capture (activation de java script, présence de flash Player, paramètres du pare feux, bloqueur de publicité etc. …). La documentation d’aide (en anglais) de Httrack donne des pistes de résolution.

2 – Reprendre l’aspiration d’un site

Pour reprendre l’aspiration d’un site, relancez Httrack.

Dans la fenêtre principale, dans « Nom du projet » sélectionnez dans la liste déroulante le projet concerné.

Dans la zone info l’adresse URL du site s’affiche.

Vérifiez que dans la zone chemin de base, le chemin indiqué indique bien le bon chemin d’enregistrement du site.

 

Cliquez sur Suivant.

Dans la fenêtre suivante, dans action choisissez dans la liste déroulante l’option : * Reprendre une copie interrompue.

Vous pouvez ici rajouter des liens et modifier des options.

Cliquez sur Suivant puis sur Terminer pour reprendre et compléter l’aspiration du site.

3 – Consulter un site aspiré

Pour consulter un site aspiré, ouvrez le gestionnaire de fichiers de Windows et allez dans le répertoire de téléchargement que vous avez paramétré dans Httrack.

Dans notre exemple, il s’agit du répertoire D:\Captures_Sites_Web\ClubInfo

Cliquez sur le fichier index.html.

 

Votre navigateur s’ouvre et affiche la page suivante.

 

 Cliquez sur Club informatique, puis dans la page suivante qui s’affiche sur le lien « www.club-informatique-clayes-sous-bois.fr/index.php/fr/qui-sommes-nous.html « correspondant au téléchargement demandé à Httrack.

 

La page téléchargée s’affiche.

Dans la zone d’adresse du navigateur vous pouvez vérifier que vous êtes bien sur votre PC et non pas sur internet (file:///D:/Captures_Sites_Web/ClubInfo/Club%20Informatique/www.club-informatique-clayes-sous-bois.fr/index.php/fr/qui-sommes-nous.html).

Vous pouvez naviguer sur le site comme si vous étiez sur Internet. Vérifiez toujours dans la zone d’URL de votre navigateur que vous êtes bien sur votre PC (celle-ci doit commencer par : file:///D:/Captures_Sites_Web/ClubInfo.

Si vous n’avez pas téléchargé le site entièrement et que vous êtes connecté à Internet, il est possible qu’un des liens vous ramène sur le site Internet. Dans ce cas l’URL du navigateur commencera par : » https://www.club-informatique-clayes-sous-bois » dans notre exemple

Si vous n’êtes pas connecté à Internet le lien sera inactif, il ne se passera rien. Éventuellement le navigateur pourra vous indiquer que le lien est inaccessible.

 

4 – Récupérer des fichiers du site aspiré

Ouvrez votre explorateur de fichiers dans le répertoire d’aspiration du site.

La structure du site téléchargé par Httrack ne correspond pas à l’architecture du site sur le serveur. Les pages codées en PHP (code de programmation du site ) ont été traduites en page html par Httrack. De plus on voit que certains répertoires correspondent à des sites extérieurs qui sont référencés dans le site web aspiré.

Vous pourrez ainsi récupérer des pages Web qui ne sont pas sur le site téléchargé.

Naviguez dans les différents répertoires pour récupérer des images ou des fichiers téléchargés. Cette recherche peut être assez fastidieuse car l’arborescence des dossiers peut être profonde et assez complexe. Utilisez un logiciel de recherche de fichiers ou la recherche de Windows pour par exemple afficher les images PNG (recherche avec *.png).

Configurer les options de Httrack, vous permettra le cas échéant de mieux cibler les fichiers recherchés et réduire la complexité du téléchargement.

 

5– Paramétrages de Httrack

Les paramétrages les plus importants consistent à la mise en place de règles de filtrage et de limites de captures.

Lors de la création d’un projet ou de la mise à jour d’une copie de site, cliquez sur le bouton « Définir les options » pour ouvrir la fenêtre de réglage des options.

 

5.1– Règles de filtrage

Choisissez l’onglet « Règles de filtrage ».

 

Par défaut tout va être aspiré par Httrack.

Si vous souhaitez exclure certains fichiers dans votre capture entrez un ’-‘ devant l’extension de fichier.

  • Par exemple -*.zip -*.mkv ne téléchargera pas les fichiers zip et les vidéos de type mkv.
  • Pour inclure des fichiers il suffit de faire la même chose mais de mettre un ‘+’ à la place du moins.

 

Les 3 cases à cocher permettent d'inclure ou d'exclure, les 3 séries de fichiers concernés : images / zippés / vidéos.
vous pouvez les modifier ou en rajouter une fois inclus dans la petite fenêtre.

En cliquant sur les boutons Liens à inclure ou Liens à exclure, vous pouvez définir des règles sur les dossiers ou liens en utilisant des + - *, en excluant ou en incluant le cas échéant certains mots.

Si par exemple dans le site aspiré il existe un dossier divers que vous souhaitez ignorer, saisissez : -*/divers/*

Important

  • Liens à inclure et à exclure sont prioritaires par rapport aux règles précédentes des fichiers.
  • Vous ne devez pas exclure les fichiers de base de type htm html css jpeg jpg gif.
  • En cliquant sur Options dans la barre de menus, vous pouvez enregistrer vos options ou rétablir les options par défaut.

5.2– Limites de capture

Dans la fenêtre des options, sélectionnez l’onglet ‘Limites’.

Profondeur maximale : règle le niveau de profondeur d'aspiration du site. Par défaut (vide) le niveau est infini.

Profondeur extérieure maximale : règle la profondeur d’aspiration pour les sites externes au site aspiré (liens). Par défaut (0) les sites externes ne sont pas aspirés. Si vous mettez 1, seule la 1ère page de ces sites sera aspirée.
Taille maximale des fichiers HTM : règle la taille maximale des fichiers html aspirés.
Taille maximale des autres fichiers :  règle la taille maximale des fichiers autres que html aspirés. Ce réglage évite de télécharger de trop gros fichiers.
Taille maximale du site : limite le volume du site aspiré.

Suspendre après la copie de : après la taille maxi indiquée, Httrack se mettra automatiquement en pause et vous demandera de poursuivre ou non.
Temps de capture maximal :  permet de limiter la durée de l’aspiration (en secondes).

Taux maximal :  limite le débit.
Nb. Max. convexions/secondes : limite le nombre de connexions simultanées par seconde (10 par défaut si rien n’est indiqué).
Nombre max. de liens : limite le nombre maximum de liens analysés. Par défaut 100 000 liens, descendre en dessous, sauf cas particuliers n’est pas conseillé et risque d’être insuffisant.

5.3– Autres réglages des autres onglets

En général, il ne sera pas nécessaire de modifier les autres onglets sauf cas particulier et si vous savez ce que vous faites.

5.4– Autres réglages

Lors de la création d’un projet ou de la mise à jour d’une copie de site, dans la rubrique ‘Action’ vous pouvez choisir plusieurs options Copie automatique de site(s), reprendre une copie interrompue , télécharger des fichiers spécifiques (par exemple n’aspirer que les images d’un site), mettre à jour une copie existante (après la mise à jour d’un site aspiré), etc…

 

Aucun commentaire