Manuels
Modérateur : Politburo
- rogeroge
- Fonctionne à 9600 bauds
- Messages : 4250
- Enregistré le : 14 mai 2010 21:41
- Localisation : Entre Nancy et Bercy : à Torcy
Re: Manuels
Je viens de tester à l'instant ce que j'appelle une "POMPE de SITE WEB".
Le mieux est de traiter un exemple en cherchant un manuel du HP-97.
Voici un site :
https://www.manualslib.com/manual/1003157/Hp-Hp-97.html
Soit on fait une copie d'écran de chaque page et c'est fastidieux
Soit un utilise une pompe...
Voici la pompe que j'ai installée : HTTrack Website Copier:
https://www.httrack.com/page/1/fr/index.html
Je l'installe, la francise, et réponds au mieux à des questions.
J'ai choisi de tout reverser dans un répertoire comme Document\ESSAI POMPAGE MANUEL HP-97
Au bout de deux minutes, tout est terminé et je consulte le répertoire.
Il faut fouiller et faire le ménage et comme par enchantement le manuel du HP-97 apparaît (1993 k).
Voilà où il apparaît sur mon disque dur : (le reste n'est que littérature pour l'instant)
C:\Users\......\Documents\ESSAI POMPAGE MANUEL HP-97\www.decadecounter.com\vta\pdf
Attention : Lors de cette recherche, le logiciel me demande de supprimer certains accès (vides)
qui n'ont rien à voir avec ma recherche : NE RIEN SUPPRIMER ! Dans ma situation, il s'agit entre autres
d'accès à AUTODESK/AUTOCAD dont j'ai une licence d'exploitation pour encore 2 ans et que je ne tiens pas à perdre.
Le mieux est de traiter un exemple en cherchant un manuel du HP-97.
Voici un site :
https://www.manualslib.com/manual/1003157/Hp-Hp-97.html
Soit on fait une copie d'écran de chaque page et c'est fastidieux
Soit un utilise une pompe...
Voici la pompe que j'ai installée : HTTrack Website Copier:
https://www.httrack.com/page/1/fr/index.html
Je l'installe, la francise, et réponds au mieux à des questions.
J'ai choisi de tout reverser dans un répertoire comme Document\ESSAI POMPAGE MANUEL HP-97
Au bout de deux minutes, tout est terminé et je consulte le répertoire.
Il faut fouiller et faire le ménage et comme par enchantement le manuel du HP-97 apparaît (1993 k).
Voilà où il apparaît sur mon disque dur : (le reste n'est que littérature pour l'instant)
C:\Users\......\Documents\ESSAI POMPAGE MANUEL HP-97\www.decadecounter.com\vta\pdf
Attention : Lors de cette recherche, le logiciel me demande de supprimer certains accès (vides)
qui n'ont rien à voir avec ma recherche : NE RIEN SUPPRIMER ! Dans ma situation, il s'agit entre autres
d'accès à AUTODESK/AUTOCAD dont j'ai une licence d'exploitation pour encore 2 ans et que je ne tiens pas à perdre.
Modifié en dernier par rogeroge le 13 janv. 2021 10:35, modifié 1 fois.
Il faut être fou pour venir sur ce site mais encore plus fou pour ne pas y revenir !
Re: Manuels
Oui c'est ce que j'avais fait, ça marche très bien HTTrack
Anecdote marrante (ou pas) : j'avais essayé de pomper hpcalc.org pour récupérer rapidement toutes les applis HP 48, mais Eric Rechlin a pensé à tout, et il a un script pour détecter ça : j'avais donc été banni temporairement du site
Même en réglant HTTrack pour y aller doucement, en changeant son "user agent" (pour se faire passer pour un browser normal), et d'autres optimisations pour être le + discret possible, à chaque fois je me faisais choper
Tout ça pour au final me rendre compte qu'il proposait un torrent pour récupérer tout son site facilement, en fait
Anecdote marrante (ou pas) : j'avais essayé de pomper hpcalc.org pour récupérer rapidement toutes les applis HP 48, mais Eric Rechlin a pensé à tout, et il a un script pour détecter ça : j'avais donc été banni temporairement du site
Même en réglant HTTrack pour y aller doucement, en changeant son "user agent" (pour se faire passer pour un browser normal), et d'autres optimisations pour être le + discret possible, à chaque fois je me faisais choper
Tout ça pour au final me rendre compte qu'il proposait un torrent pour récupérer tout son site facilement, en fait
? Apple, Atari, Canon, Casio, ????????????, HP, Psion, Sharp, Tandy... même TI.
Re: Manuels
J'utilise aussi HTTrack pour pomper des sites (ou des parties). Il est très puissant mais il faut se plonger dans ses paramètres pour bien l'exploiter.
Il faut aussi faire très attention, sur certain site il y a des protections contre ce genre de programme et on peut se faire bloquer l'accès (blocage adresse IP). En gros si on télécharge trop rapidement ou trop en même temps. Il y a des options dans HTTrack pour régler tout ça.
Perso je le fais tourner sur mon NAS avec des options assez "pépère" (1 connexion, réduction de la vitesse de téléchargement, temps d'attente entre chaque) pour ne pas me faire bannir, ça prends beaucoup plus de temps mais sur le NAS qui est h24/24 je m'en fous.
Ma ligne de commande :
L'avantage aussi de HTTrack c'est que l'on peut mettre à jour un site que l'on a déjà pompé, ça ne permet de ne prendre que ce qui est nouveau.
Il faut aussi faire très attention, sur certain site il y a des protections contre ce genre de programme et on peut se faire bloquer l'accès (blocage adresse IP). En gros si on télécharge trop rapidement ou trop en même temps. Il y a des options dans HTTrack pour régler tout ça.
Perso je le fais tourner sur mon NAS avec des options assez "pépère" (1 connexion, réduction de la vitesse de téléchargement, temps d'attente entre chaque) pour ne pas me faire bannir, ça prends beaucoup plus de temps mais sur le NAS qui est h24/24 je m'en fous.
Ma ligne de commande :
Code : Tout sélectionner
httrack "https://leSite/" -O "/mnt/share/httrack/leSite" -w -r20 -%e0 -A100000 -%c1 -c1 -s0 -v -f -p3 -D -d
Commodore (64/128/Amiga), HP (28/41/48/50/71/75/200/Prime) et autres (Ti, Canon X07, Psion, Casio, Palm, Thomson, Exl, Amstrad)
- pir2
- Fonctionne à 9600 bauds
- Messages : 4647
- Enregistré le : 31 oct. 2006 15:08
- Localisation : 67310 Westhoffen
- Contact :
Re: Manuels
J'avais fais cette transformation HTML -> PDF pour quelques manuels HP-41 à partir de ce site il me semble, je vais voir comment j'ai fait (et ce que j'ai fait exactement, c'était pourtant récent mais je ne sais déjà plus ...)
- bernouilli92
- Fonctionne à 14400 bauds
- Messages : 5266
- Enregistré le : 21 nov. 2012 13:03
- Localisation : Ile de France
Re: Manuels
Sinon, cela peut aussi être fait manuellement en sauvant chaque page au format pdf et ensuite en modifiant chaque page pour virer les flèches en bas et les autres liens.
Je l'ai fait pour la page 27 du manuel de la HP15, voici le résultat :
https://www.dropbox.com/s/80sog5x8xprgd ... 7.pdf?dl=0
On obtient un fichier pdf propre avec des polices vectorielles.
Après c'est beaucoup de boulot car il faut retravailler chaque page.
Je l'ai fait pour la page 27 du manuel de la HP15, voici le résultat :
https://www.dropbox.com/s/80sog5x8xprgd ... 7.pdf?dl=0
On obtient un fichier pdf propre avec des polices vectorielles.
Après c'est beaucoup de boulot car il faut retravailler chaque page.
HP, Casio, Sharp, Psion, quelques TI et divers autres
Re: Manuels
J'ai fait quelques tests aussi, avec le manuel de la HP-67 de greendyk : https://archived.hpcalc.org/greendyk/hp67
Une 1ère difficulté du truc est que tout est contenu dans des iframes : une pour le menu de gauche, puis une pour la partie droite qui contient à son tour 2 iframes dont une qui contient la page à proprement parler (par exemple la page 41 du manuel est accessible directement ici : https://archived.hpcalc.org/greendyk/hp ... tents.html)
J'ai testé quelques convertisseurs HTML -> PDF en ligne : la plupart n'arrivent tout simplement pas à s'y retrouver dans les iframes et produisent un PDF vide
Celui-ci par contre a récupéré une page de test sans souci, en gardant le menu intact et les liens aussi... mais comme on ne peut lui donner en entrée qu'une seule URL de page et qu'il n'a pas prévu de suivre les liens pour trouver les autres pages tout seul et produire un PDF avec tout le site (c'est ce qu'on cherche), il faudrait se taper les pages une par une
En plus il est payant si on veut débloquer ses paramètres de mise en page (indispensable car une page web s'affiche différemment selon le "viewport" du client, càd en gros les caractéristiques de l'écran sur lequel on la visualise, et donc il faut indiquer au convertisseur de quelle façon on veut que la page soit affichée : portrait ou paysage, niveau de zoom, taille virtuelle en pixels du "viewport" de visualisation, etc., sinon par défaut ça génère un PDF dans un format tout pourri et avec une partie du contenu coupé).
Par contre il y a d'autres convertisseurs en ligne qui sont gratuits ET proposent quelques paramètres pour optimiser la mise en page : je les ai testés mais en leur donnant cette fois l'URL directe d'une page (donc sans le menu de l'iframe de gauche), et ça marche très bien (https://www.web2pdfconvert.com et https://www.sejda.com/fr/html-to-pdf par exemple).
Tout ça c'est bien beau, mais tant qu'on ne pourra que générer chaque page séparément, on aura au mieux un joli PDF avec tout le texte en vectoriel et une mise en page respectée (j'ai essayé avec 3 pages, pas de souci pour les rassembler dans un seul PDF, sur Mac par exemple ça se fait nativement dans l'OS ), mais on n'aura pas les liens dynamiques entre les pages et l'index... à moins que ça ne soit faisable manuellement dans Acrobat, si j'ai bien compris ?
Une 1ère difficulté du truc est que tout est contenu dans des iframes : une pour le menu de gauche, puis une pour la partie droite qui contient à son tour 2 iframes dont une qui contient la page à proprement parler (par exemple la page 41 du manuel est accessible directement ici : https://archived.hpcalc.org/greendyk/hp ... tents.html)
J'ai testé quelques convertisseurs HTML -> PDF en ligne : la plupart n'arrivent tout simplement pas à s'y retrouver dans les iframes et produisent un PDF vide
Celui-ci par contre a récupéré une page de test sans souci, en gardant le menu intact et les liens aussi... mais comme on ne peut lui donner en entrée qu'une seule URL de page et qu'il n'a pas prévu de suivre les liens pour trouver les autres pages tout seul et produire un PDF avec tout le site (c'est ce qu'on cherche), il faudrait se taper les pages une par une
En plus il est payant si on veut débloquer ses paramètres de mise en page (indispensable car une page web s'affiche différemment selon le "viewport" du client, càd en gros les caractéristiques de l'écran sur lequel on la visualise, et donc il faut indiquer au convertisseur de quelle façon on veut que la page soit affichée : portrait ou paysage, niveau de zoom, taille virtuelle en pixels du "viewport" de visualisation, etc., sinon par défaut ça génère un PDF dans un format tout pourri et avec une partie du contenu coupé).
Par contre il y a d'autres convertisseurs en ligne qui sont gratuits ET proposent quelques paramètres pour optimiser la mise en page : je les ai testés mais en leur donnant cette fois l'URL directe d'une page (donc sans le menu de l'iframe de gauche), et ça marche très bien (https://www.web2pdfconvert.com et https://www.sejda.com/fr/html-to-pdf par exemple).
Tout ça c'est bien beau, mais tant qu'on ne pourra que générer chaque page séparément, on aura au mieux un joli PDF avec tout le texte en vectoriel et une mise en page respectée (j'ai essayé avec 3 pages, pas de souci pour les rassembler dans un seul PDF, sur Mac par exemple ça se fait nativement dans l'OS ), mais on n'aura pas les liens dynamiques entre les pages et l'index... à moins que ça ne soit faisable manuellement dans Acrobat, si j'ai bien compris ?
? Apple, Atari, Canon, Casio, ????????????, HP, Psion, Sharp, Tandy... même TI.
- pir2
- Fonctionne à 9600 bauds
- Messages : 4647
- Enregistré le : 31 oct. 2006 15:08
- Localisation : 67310 Westhoffen
- Contact :
Re: Manuels
J'ai retrouvé, je l'avais fait pour le lecteur de codes barres de la 41, résultat ici, c'est le principe de bernouilli92, mais automatisé (quelques ajustements à faire à la fin quand même, dont la mise en page avant impression en pdf).
Je vais essayer avec d'autres ce soir (j'ai tout sur mon pc perso)
Je vais essayer avec d'autres ce soir (j'ai tout sur mon pc perso)
Re: Manuels
Bonjour,
On peut aussi faire (uniquement pour les manuels scannés en JPG, pas ceux où l'on peut sélectionner le texte) :
Pour l'url il faut s'arrêter juste avant le n° de la page et dans la boucle for mettre la valeur finale (ici 94)
En lançant le script on a toutes les images les unes sous les autres, reste plus qu'à imprimer en PDF
On peut aussi faire (uniquement pour les manuels scannés en JPG, pas ceux où l'on peut sélectionner le texte) :
- Un clic droit - Code source de la page et regarder en haut l'adresse de l'image, du type <link rel="preload" href="https://static-data2.manualslib.com//pd ... 7_1_bg.jpg"
- On regarde combien il y a de pages en tout (par exemple 94)
- Clic droit sur la page - Inspecter ou Examiner (suivant le navigateur), on clique sur Console et on colle le code :
Code : Tout sélectionner
var url = "https://static-data2.manualslib.com//pdf5/101/10032/1003157-hp/images/hp97_";
document.body.innerHTML="";
for (var i=1; i<=94; i++){
document.body.innerHTML += "<img src='"+ url + i+ "_bg.jpg'</img><br>"
}
En lançant le script on a toutes les images les unes sous les autres, reste plus qu'à imprimer en PDF
Re: Manuels
C'est là qu'on voit l'importance de la mise en page, car ici le rendu est équivalent à l'affichage du site sur un grand écran ou avec un gros zoom arrière, du coup le texte est assez petit et les pages sont presque à moitié videspir2 a écrit : ↑14 janv. 2021 11:48 J'ai retrouvé, je l'avais fait pour le lecteur de codes barres de la 41, résultat ici, c'est le principe de bernouilli92, mais automatisé (quelques ajustements à faire à la fin quand même, dont la mise en page avant impression en pdf).
Je vais essayer avec d'autres ce soir (j'ai tout sur mon pc perso)
? Apple, Atari, Canon, Casio, ????????????, HP, Psion, Sharp, Tandy... même TI.
Re: Manuels
Bon j'ai testé un peu Acrobat : il permet de pomper tout un site web et d'en faire un PDF directement, avec conservation des liens entre les pages (et si une page n'a pas été récupérée dans le PDF, le lien pointe vers son URL)
Par contre il offre peu de paramètres de mise en page, et bien sûr il récupère les pages du site qui ont le menu à gauche, comme un utilisateur lambda (toujours avec l'exemple particulier de https://archived.hpcalc.org/greendyk/hp67/), donc on se retrouve avec ce menu sur chaque page du PDF... ça pourrait être sympa, sauf que ça ajoute de la largeur à toutes les pages, ce qui n'arrange pas leur aspect en mode portrait (la plupart des pages sont à moitié vides)
Et aussi, le PDF final généré par Acrobat va apparemment (j'ai arrêté avant d'avoir généré tout le manuel) peser au moins 100 Mo (contre moins de 20 Mo pour le site pompé en local) . En effet sur le site, le menu de gauche contient une seule petite image de spirale répétée pour recréer les spirales du manuel: une bonne astuce pour alléger la page web, sauf que Acrobat lui ne s'embête pas et crée une image unique pour chaque page, comme une sorte de capture de l'image totale de la spirale d'après la petite spirale répétée. Donc ça pèse une tonne.
On pourrait retirer ces images sur chaque page, car Acrobat permet de modifier finement tous les éléments du PDF, on pourrait aussi améliorer certaines coupures de pages, etc. Mais c'est un travail énorme évidemment.
En bonus, comme il suit les liens HTML selon leur ordre d'apparition dans les pages, il ne récupère pas les pages dans l'ordre de lecture Donc il faudrait se taper la réorg des pages pour avoir qquechose de cohérent.
D'un autre côté, avec des sites de conversion en ligne on peut transformer en masse plusieurs pages "simples" sans le menu de gauche (comme https://archived.hpcalc.org/greendyk/hp ... tents.html), et obtenir un PDF sympa et assez propre: avec https://www.sejda.com/fr/html-to-pdf par exemple j'arrive à avoir un PDF par page (qu'on peut concaténer ensuite) bien mis en page, et pour les pages qui sont très longues (comme celle-ci) on peut avoir rendu sans aucune marge, ce qui fait que sur un appareil qui peut afficher les pages successives d'un PDF en mode "fluide" (comme un smartphone), on peut visualiser un contenu découpé sur plusieurs pages sans se rendre compte qu'il est coupé.
Par contre les liens restent d'origine, càd qu'ils pointent vers le site web. Donc énorme travail si on voulait les modifier dans Acrobat pour les faire pointer vers d'autres pages du PDF.
En fait il faudrait partir d'une version pompée du site, modifier les fichiers HTML pour en faire une version light sans le menu de gauche (donc en corrigeant tous les liens dans les pages), et utiliser Acrobat pour faire un PDF d'après ces nouveaux fichiers
J'essaierai de creuser cette piste
? Apple, Atari, Canon, Casio, ????????????, HP, Psion, Sharp, Tandy... même TI.
- bernouilli92
- Fonctionne à 14400 bauds
- Messages : 5266
- Enregistré le : 21 nov. 2012 13:03
- Localisation : Ile de France
Re: Manuels
Avec quelle version de Acrobat tu arrives à créer un pdf à partir d'un site web?
Après pour créer un pdf à partir d'un site web, il faudrait pouvoir préciser la largeur de la feuille, pour éviter d'avoir des pages pdf qui ne correspondent pas du tout à leur équivalent papier.
Après pour créer un pdf à partir d'un site web, il faudrait pouvoir préciser la largeur de la feuille, pour éviter d'avoir des pages pdf qui ne correspondent pas du tout à leur équivalent papier.
HP, Casio, Sharp, Psion, quelques TI et divers autres
Re: Manuels
C'est Acrobat Pro DC 2020.
Yes on peut régler les paramètres des pages, bon de toute façon après on peut imprimer un peu comme on veut au final, en jouant sur le zoom, ou en mettant plusieurs pages par feuille, etc.
J'ai testé vite fait le coup de générer un PDF à partir des pages HTML locales pompées et modifiées pour qu'elles ne contiennent que des liens vers les pages "simples" sans le menu de gauche, et ça marche bien. Par exemple, si on a 2 pages :
- A.html qui contient un lien vers B.html
- B.html
Acrobat génère bien un PDF avec 2 pages : la 1ère correspond à A.html et le lien pointe bien vers la 2ème (qui correspond donc à B.html).
Et si une page HTML déborde sur 2 pages dans le PDF, les liens sont bien décalés pour pointer vers les bons contenus.
Donc c'est pas mal, je vais essayer de faire qqchose de propre avec ça.
Yes on peut régler les paramètres des pages, bon de toute façon après on peut imprimer un peu comme on veut au final, en jouant sur le zoom, ou en mettant plusieurs pages par feuille, etc.
J'ai testé vite fait le coup de générer un PDF à partir des pages HTML locales pompées et modifiées pour qu'elles ne contiennent que des liens vers les pages "simples" sans le menu de gauche, et ça marche bien. Par exemple, si on a 2 pages :
- A.html qui contient un lien vers B.html
- B.html
Acrobat génère bien un PDF avec 2 pages : la 1ère correspond à A.html et le lien pointe bien vers la 2ème (qui correspond donc à B.html).
Et si une page HTML déborde sur 2 pages dans le PDF, les liens sont bien décalés pour pointer vers les bons contenus.
Donc c'est pas mal, je vais essayer de faire qqchose de propre avec ça.
? Apple, Atari, Canon, Casio, ????????????, HP, Psion, Sharp, Tandy... même TI.
-
- Fonctionne à 1200 bauds
- Messages : 650
- Enregistré le : 21 sept. 2009 21:56
- Localisation : Metz
Re: Manuels
Salut !Gege34 a écrit : ↑13 janv. 2021 10:31 J'utilise aussi HTTrack pour pomper des sites (ou des parties). Il est très puissant mais il faut se plonger dans ses paramètres pour bien l'exploiter.
Il faut aussi faire très attention, sur certain site il y a des protections contre ce genre de programme et on peut se faire bloquer l'accès (blocage adresse IP). En gros si on télécharge trop rapidement ou trop en même temps. Il y a des options dans HTTrack pour régler tout ça.
Perso je le fais tourner sur mon NAS avec des options assez "pépère" (1 connexion, réduction de la vitesse de téléchargement, temps d'attente entre chaque) pour ne pas me faire bannir, ça prends beaucoup plus de temps mais sur le NAS qui est h24/24 je m'en fous.
Ma ligne de commande :L'avantage aussi de HTTrack c'est que l'on peut mettre à jour un site que l'on a déjà pompé, ça ne permet de ne prendre que ce qui est nouveau.Code : Tout sélectionner
httrack "https://leSite/" -O "/mnt/share/httrack/leSite" -w -r20 -%e0 -A100000 -%c1 -c1 -s0 -v -f -p3 -D -d
Moralement, ca dit quoi ??
Re: Manuels
Que si le site disparait demain (ce qui arrive bien trop souvent), j'en ai une copie chez moi, et je ne reprends pas tout le site mais des parties qui m'intéresse.
Commodore (64/128/Amiga), HP (28/41/48/50/71/75/200/Prime) et autres (Ti, Canon X07, Psion, Casio, Palm, Thomson, Exl, Amstrad)