Manuels

Ici, on fait dans le petit, le LCD qui déchire sa race, on y cause même calculatrices quand on est en manque !

Modérateur : Politburo

Répondre
Avatar de l’utilisateur
rogeroge
Fonctionne à 9600 bauds
Fonctionne à 9600 bauds
Messages : 3827
Inscription : 14 mai 2010 21:41
Localisation : Entre Nancy et Bercy : à Torcy

Re: Manuels

Message par rogeroge » 13 janv. 2021 11:03

Je viens de tester à l'instant ce que j'appelle une "POMPE de SITE WEB".
Le mieux est de traiter un exemple en cherchant un manuel du HP-97.
Voici un site :
https://www.manualslib.com/manual/1003157/Hp-Hp-97.html

Soit on fait une copie d'écran de chaque page et c'est fastidieux
Soit un utilise une pompe...

Voici la pompe que j'ai installée : HTTrack Website Copier:
https://www.httrack.com/page/1/fr/index.html

Je l'installe, la francise, et réponds au mieux à des questions.
J'ai choisi de tout reverser dans un répertoire comme Document\ESSAI POMPAGE MANUEL HP-97

Au bout de deux minutes, tout est terminé et je consulte le répertoire.
Il faut fouiller et faire le ménage et comme par enchantement le manuel du HP-97 apparaît (1993 k).
Voilà où il apparaît sur mon disque dur : (le reste n'est que littérature pour l'instant)
C:\Users\......\Documents\ESSAI POMPAGE MANUEL HP-97\www.decadecounter.com\vta\pdf

Attention : Lors de cette recherche, le logiciel me demande de supprimer certains accès (vides)
qui n'ont rien à voir avec ma recherche : NE RIEN SUPPRIMER ! Dans ma situation, il s'agit entre autres
d'accès à AUTODESK/AUTOCAD dont j'ai une licence d'exploitation pour encore 2 ans et que je ne tiens pas à perdre.
Dernière édition par rogeroge le 13 janv. 2021 11:35, édité 1 fois.
Il faut être fou pour venir sur ce site mais encore plus fou pour ne pas y revenir !

Avatar de l’utilisateur
Danny
Fonctionne à 1200 bauds
Fonctionne à 1200 bauds
Messages : 471
Inscription : 28 déc. 2013 17:34

Re: Manuels

Message par Danny » 13 janv. 2021 11:20

Oui c'est ce que j'avais fait, ça marche très bien HTTrack :)

Anecdote marrante (ou pas) : j'avais essayé de pomper hpcalc.org pour récupérer rapidement toutes les applis HP 48, mais Eric Rechlin a pensé à tout, et il a un script pour détecter ça : j'avais donc été banni temporairement du site :mrgreen:
Même en réglant HTTrack pour y aller doucement, en changeant son "user agent" (pour se faire passer pour un browser normal), et d'autres optimisations pour être le + discret possible, à chaque fois je me faisais choper :pirat:

Tout ça pour au final me rendre compte qu'il proposait un torrent pour récupérer tout son site facilement, en fait :lol:
Casio fx-702P, 3900p, 7000G, 6000G, 6500G, 6800G, 8500G, 9900GC, 9950GB +, Graph 100+ USB
HP 35, 45, 65, 21, 25, 67, 33E, 41C, 41CX, 20S, 42S, 28S, 32S, 32SII, 48SX, 48S, 48G, 48GX, 50g, 35s, Prime
Sharp EL-9000

Avatar de l’utilisateur
Gege34
Fonctionne à 2400 bauds
Fonctionne à 2400 bauds
Messages : 1370
Inscription : 03 oct. 2014 11:19
Localisation : 31

Re: Manuels

Message par Gege34 » 13 janv. 2021 11:31

J'utilise aussi HTTrack pour pomper des sites (ou des parties). Il est très puissant mais il faut se plonger dans ses paramètres pour bien l'exploiter.
Il faut aussi faire très attention, sur certain site il y a des protections contre ce genre de programme et on peut se faire bloquer l'accès (blocage adresse IP). En gros si on télécharge trop rapidement ou trop en même temps. Il y a des options dans HTTrack pour régler tout ça.
Perso je le fais tourner sur mon NAS avec des options assez "pépère" (1 connexion, réduction de la vitesse de téléchargement, temps d'attente entre chaque) pour ne pas me faire bannir, ça prends beaucoup plus de temps mais sur le NAS qui est h24/24 je m'en fous.
Ma ligne de commande :

Code : Tout sélectionner

httrack "https://leSite/" -O "/mnt/share/httrack/leSite" -w -r20 -%e0 -A100000 -%c1 -c1 -s0 -v -f -p3 -D -d
L'avantage aussi de HTTrack c'est que l'on peut mettre à jour un site que l'on a déjà pompé, ça ne permet de ne prendre que ce qui est nouveau.
Du Commodore (64/128/Amiga), De la HP (28/41/48/50/71/75/200/Prime) et quelques autres trucs (Ti, Canon X07, Psion, Casio, Palm, Thomson, Exl)

Avatar de l’utilisateur
pir2
Fonctionne à 9600 bauds
Fonctionne à 9600 bauds
Messages : 4566
Inscription : 31 oct. 2006 16:08
Localisation : 67310 Westhoffen
Contact :

Re: Manuels

Message par pir2 » 13 janv. 2021 12:19

J'avais fais cette transformation HTML -> PDF pour quelques manuels HP-41 à partir de ce site il me semble, je vais voir comment j'ai fait (et ce que j'ai fait exactement, c'était pourtant récent mais je ne sais déjà plus ...)
Image
Image

Avatar de l’utilisateur
bernouilli92
Fonctionne à 9600 bauds
Fonctionne à 9600 bauds
Messages : 4461
Inscription : 21 nov. 2012 14:03
Localisation : Ile de France

Re: Manuels

Message par bernouilli92 » 14 janv. 2021 11:12

Sinon, cela peut aussi être fait manuellement en sauvant chaque page au format pdf et ensuite en modifiant chaque page pour virer les flèches en bas et les autres liens.
Je l'ai fait pour la page 27 du manuel de la HP15, voici le résultat :

https://www.dropbox.com/s/80sog5x8xprgd ... 7.pdf?dl=0

On obtient un fichier pdf propre avec des polices vectorielles.
Après c'est beaucoup de boulot car il faut retravailler chaque page.
HP, Casio, Sharp, Psion, quelques TI et divers autres

Avatar de l’utilisateur
Danny
Fonctionne à 1200 bauds
Fonctionne à 1200 bauds
Messages : 471
Inscription : 28 déc. 2013 17:34

Re: Manuels

Message par Danny » 14 janv. 2021 12:33

J'ai fait quelques tests aussi, avec le manuel de la HP-67 de greendyk : https://archived.hpcalc.org/greendyk/hp67
Une 1ère difficulté du truc est que tout est contenu dans des iframes : une pour le menu de gauche, puis une pour la partie droite qui contient à son tour 2 iframes dont une qui contient la page à proprement parler (par exemple la page 41 du manuel est accessible directement ici : https://archived.hpcalc.org/greendyk/hp ... tents.html)

J'ai testé quelques convertisseurs HTML -> PDF en ligne : la plupart n'arrivent tout simplement pas à s'y retrouver dans les iframes et produisent un PDF vide :mrgreen:

Celui-ci par contre a récupéré une page de test sans souci, en gardant le menu intact et les liens aussi... mais comme on ne peut lui donner en entrée qu'une seule URL de page et qu'il n'a pas prévu de suivre les liens pour trouver les autres pages tout seul et produire un PDF avec tout le site (c'est ce qu'on cherche), il faudrait se taper les pages une par une :o
En plus il est payant si on veut débloquer ses paramètres de mise en page (indispensable car une page web s'affiche différemment selon le "viewport" du client, càd en gros les caractéristiques de l'écran sur lequel on la visualise, et donc il faut indiquer au convertisseur de quelle façon on veut que la page soit affichée : portrait ou paysage, niveau de zoom, taille virtuelle en pixels du "viewport" de visualisation, etc., sinon par défaut ça génère un PDF dans un format tout pourri et avec une partie du contenu coupé).

Par contre il y a d'autres convertisseurs en ligne qui sont gratuits ET proposent quelques paramètres pour optimiser la mise en page : je les ai testés mais en leur donnant cette fois l'URL directe d'une page (donc sans le menu de l'iframe de gauche), et ça marche très bien (https://www.web2pdfconvert.com et https://www.sejda.com/fr/html-to-pdf par exemple).

Tout ça c'est bien beau, mais tant qu'on ne pourra que générer chaque page séparément, on aura au mieux un joli PDF avec tout le texte en vectoriel et une mise en page respectée (j'ai essayé avec 3 pages, pas de souci pour les rassembler dans un seul PDF, sur Mac par exemple ça se fait nativement dans l'OS 8)), mais on n'aura pas les liens dynamiques entre les pages et l'index... à moins que ça ne soit faisable manuellement dans Acrobat, si j'ai bien compris ?
Casio fx-702P, 3900p, 7000G, 6000G, 6500G, 6800G, 8500G, 9900GC, 9950GB +, Graph 100+ USB
HP 35, 45, 65, 21, 25, 67, 33E, 41C, 41CX, 20S, 42S, 28S, 32S, 32SII, 48SX, 48S, 48G, 48GX, 50g, 35s, Prime
Sharp EL-9000

Avatar de l’utilisateur
pir2
Fonctionne à 9600 bauds
Fonctionne à 9600 bauds
Messages : 4566
Inscription : 31 oct. 2006 16:08
Localisation : 67310 Westhoffen
Contact :

Re: Manuels

Message par pir2 » 14 janv. 2021 12:48

J'ai retrouvé, je l'avais fait pour le lecteur de codes barres de la 41, résultat ici, c'est le principe de bernouilli92, mais automatisé (quelques ajustements à faire à la fin quand même, dont la mise en page avant impression en pdf).

Je vais essayer avec d'autres ce soir (j'ai tout sur mon pc perso)
Image
Image

Avatar de l’utilisateur
Schraf
Fonctionne à 300 bauds
Fonctionne à 300 bauds
Messages : 88
Inscription : 05 mars 2020 21:45
Contact :

Re: Manuels

Message par Schraf » 14 janv. 2021 12:54

Bonjour,

On peut aussi faire (uniquement pour les manuels scannés en JPG, pas ceux où l'on peut sélectionner le texte) :
  • On regarde combien il y a de pages en tout (par exemple 94)
  • Clic droit sur la page - Inspecter ou Examiner (suivant le navigateur), on clique sur Console et on colle le code :

Code : Tout sélectionner

var url = "https://static-data2.manualslib.com//pdf5/101/10032/1003157-hp/images/hp97_";
document.body.innerHTML="";

for (var i=1; i<=94; i++){
  document.body.innerHTML += "<img src='"+ url + i+ "_bg.jpg'</img><br>"
}
Pour l'url il faut s'arrêter juste avant le n° de la page et dans la boucle for mettre la valeur finale (ici 94)
En lançant le script on a toutes les images les unes sous les autres, reste plus qu'à imprimer en PDF

Avatar de l’utilisateur
Danny
Fonctionne à 1200 bauds
Fonctionne à 1200 bauds
Messages : 471
Inscription : 28 déc. 2013 17:34

Re: Manuels

Message par Danny » 14 janv. 2021 14:33

pir2 a écrit :
14 janv. 2021 12:48
J'ai retrouvé, je l'avais fait pour le lecteur de codes barres de la 41, résultat ici, c'est le principe de bernouilli92, mais automatisé (quelques ajustements à faire à la fin quand même, dont la mise en page avant impression en pdf).

Je vais essayer avec d'autres ce soir (j'ai tout sur mon pc perso)
C'est là qu'on voit l'importance de la mise en page, car ici le rendu est équivalent à l'affichage du site sur un grand écran ou avec un gros zoom arrière, du coup le texte est assez petit et les pages sont presque à moitié vides :)
Casio fx-702P, 3900p, 7000G, 6000G, 6500G, 6800G, 8500G, 9900GC, 9950GB +, Graph 100+ USB
HP 35, 45, 65, 21, 25, 67, 33E, 41C, 41CX, 20S, 42S, 28S, 32S, 32SII, 48SX, 48S, 48G, 48GX, 50g, 35s, Prime
Sharp EL-9000

Avatar de l’utilisateur
Hobiecat
Fonctionne à 9600 bauds
Fonctionne à 9600 bauds
Messages : 3329
Inscription : 06 sept. 2011 14:57
Localisation : Normandie

Re: Manuels

Message par Hobiecat » 14 janv. 2021 15:19

pir2 a écrit :
14 janv. 2021 12:48
c'est le principe de bernouilli92,
Je ne pensais pas voir de la mécanique des fluides sur ce forum. :mrgreen:

Avatar de l’utilisateur
Danny
Fonctionne à 1200 bauds
Fonctionne à 1200 bauds
Messages : 471
Inscription : 28 déc. 2013 17:34

Re: Manuels

Message par Danny » 14 janv. 2021 18:19

Hobiecat a écrit :
14 janv. 2021 15:19
pir2 a écrit :
14 janv. 2021 12:48
c'est le principe de bernouilli92,
Je ne pensais pas voir de la mécanique des fluides sur ce forum. :mrgreen:
:D

Bon j'ai testé un peu Acrobat : il permet de pomper tout un site web et d'en faire un PDF directement, avec conservation des liens entre les pages (et si une page n'a pas été récupérée dans le PDF, le lien pointe vers son URL) 8)
Par contre il offre peu de paramètres de mise en page, et bien sûr il récupère les pages du site qui ont le menu à gauche, comme un utilisateur lambda (toujours avec l'exemple particulier de https://archived.hpcalc.org/greendyk/hp67/), donc on se retrouve avec ce menu sur chaque page du PDF... ça pourrait être sympa, sauf que ça ajoute de la largeur à toutes les pages, ce qui n'arrange pas leur aspect en mode portrait (la plupart des pages sont à moitié vides) :|
Et aussi, le PDF final généré par Acrobat va apparemment (j'ai arrêté avant d'avoir généré tout le manuel) peser au moins 100 Mo (contre moins de 20 Mo pour le site pompé en local) 8O. En effet sur le site, le menu de gauche contient une seule petite image de spirale répétée pour recréer les spirales du manuel: une bonne astuce pour alléger la page web, sauf que Acrobat lui ne s'embête pas et crée une image unique pour chaque page, comme une sorte de capture de l'image totale de la spirale d'après la petite spirale répétée. Donc ça pèse une tonne.
On pourrait retirer ces images sur chaque page, car Acrobat permet de modifier finement tous les éléments du PDF, on pourrait aussi améliorer certaines coupures de pages, etc. Mais c'est un travail énorme évidemment.
En bonus, comme il suit les liens HTML selon leur ordre d'apparition dans les pages, il ne récupère pas les pages dans l'ordre de lecture :mrgreen: Donc il faudrait se taper la réorg des pages pour avoir qquechose de cohérent.

D'un autre côté, avec des sites de conversion en ligne on peut transformer en masse plusieurs pages "simples" sans le menu de gauche (comme https://archived.hpcalc.org/greendyk/hp ... tents.html), et obtenir un PDF sympa et assez propre: avec https://www.sejda.com/fr/html-to-pdf par exemple j'arrive à avoir un PDF par page (qu'on peut concaténer ensuite) bien mis en page, et pour les pages qui sont très longues (comme celle-ci) on peut avoir rendu sans aucune marge, ce qui fait que sur un appareil qui peut afficher les pages successives d'un PDF en mode "fluide" (comme un smartphone), on peut visualiser un contenu découpé sur plusieurs pages sans se rendre compte qu'il est coupé.
Par contre les liens restent d'origine, càd qu'ils pointent vers le site web. Donc énorme travail si on voulait les modifier dans Acrobat pour les faire pointer vers d'autres pages du PDF.

En fait il faudrait partir d'une version pompée du site, modifier les fichiers HTML pour en faire une version light sans le menu de gauche (donc en corrigeant tous les liens dans les pages), et utiliser Acrobat pour faire un PDF d'après ces nouveaux fichiers :idea:
J'essaierai de creuser cette piste :geek:
Casio fx-702P, 3900p, 7000G, 6000G, 6500G, 6800G, 8500G, 9900GC, 9950GB +, Graph 100+ USB
HP 35, 45, 65, 21, 25, 67, 33E, 41C, 41CX, 20S, 42S, 28S, 32S, 32SII, 48SX, 48S, 48G, 48GX, 50g, 35s, Prime
Sharp EL-9000

Avatar de l’utilisateur
bernouilli92
Fonctionne à 9600 bauds
Fonctionne à 9600 bauds
Messages : 4461
Inscription : 21 nov. 2012 14:03
Localisation : Ile de France

Re: Manuels

Message par bernouilli92 » 14 janv. 2021 19:26

Avec quelle version de Acrobat tu arrives à créer un pdf à partir d'un site web?
Après pour créer un pdf à partir d'un site web, il faudrait pouvoir préciser la largeur de la feuille, pour éviter d'avoir des pages pdf qui ne correspondent pas du tout à leur équivalent papier.
HP, Casio, Sharp, Psion, quelques TI et divers autres

Avatar de l’utilisateur
Danny
Fonctionne à 1200 bauds
Fonctionne à 1200 bauds
Messages : 471
Inscription : 28 déc. 2013 17:34

Re: Manuels

Message par Danny » 14 janv. 2021 21:18

C'est Acrobat Pro DC 2020.
Yes on peut régler les paramètres des pages, bon de toute façon après on peut imprimer un peu comme on veut au final, en jouant sur le zoom, ou en mettant plusieurs pages par feuille, etc.

J'ai testé vite fait le coup de générer un PDF à partir des pages HTML locales pompées et modifiées pour qu'elles ne contiennent que des liens vers les pages "simples" sans le menu de gauche, et ça marche bien. Par exemple, si on a 2 pages :
- A.html qui contient un lien vers B.html
- B.html
Acrobat génère bien un PDF avec 2 pages : la 1ère correspond à A.html et le lien pointe bien vers la 2ème (qui correspond donc à B.html).
Et si une page HTML déborde sur 2 pages dans le PDF, les liens sont bien décalés pour pointer vers les bons contenus.
Donc c'est pas mal, je vais essayer de faire qqchose de propre avec ça.
Casio fx-702P, 3900p, 7000G, 6000G, 6500G, 6800G, 8500G, 9900GC, 9950GB +, Graph 100+ USB
HP 35, 45, 65, 21, 25, 67, 33E, 41C, 41CX, 20S, 42S, 28S, 32S, 32SII, 48SX, 48S, 48G, 48GX, 50g, 35s, Prime
Sharp EL-9000

casuffitdeschanel
Fonctionne à 1200 bauds
Fonctionne à 1200 bauds
Messages : 614
Inscription : 21 sept. 2009 21:56
Localisation : Metz

Re: Manuels

Message par casuffitdeschanel » 15 janv. 2021 19:18

Gege34 a écrit :
13 janv. 2021 11:31
J'utilise aussi HTTrack pour pomper des sites (ou des parties). Il est très puissant mais il faut se plonger dans ses paramètres pour bien l'exploiter.
Il faut aussi faire très attention, sur certain site il y a des protections contre ce genre de programme et on peut se faire bloquer l'accès (blocage adresse IP). En gros si on télécharge trop rapidement ou trop en même temps. Il y a des options dans HTTrack pour régler tout ça.
Perso je le fais tourner sur mon NAS avec des options assez "pépère" (1 connexion, réduction de la vitesse de téléchargement, temps d'attente entre chaque) pour ne pas me faire bannir, ça prends beaucoup plus de temps mais sur le NAS qui est h24/24 je m'en fous.
Ma ligne de commande :

Code : Tout sélectionner

httrack "https://leSite/" -O "/mnt/share/httrack/leSite" -w -r20 -%e0 -A100000 -%c1 -c1 -s0 -v -f -p3 -D -d
L'avantage aussi de HTTrack c'est que l'on peut mettre à jour un site que l'on a déjà pompé, ça ne permet de ne prendre que ce qui est nouveau.
Salut !

Moralement, ca dit quoi ??

😞😞

Avatar de l’utilisateur
Gege34
Fonctionne à 2400 bauds
Fonctionne à 2400 bauds
Messages : 1370
Inscription : 03 oct. 2014 11:19
Localisation : 31

Re: Manuels

Message par Gege34 » 15 janv. 2021 20:41

casuffitdeschanel a écrit :
15 janv. 2021 19:18
Salut !

Moralement, ca dit quoi ??

😞😞
Que si le site disparait demain (ce qui arrive bien trop souvent), j'en ai une copie chez moi, et je ne reprends pas tout le site mais des parties qui m'intéresse.
Du Commodore (64/128/Amiga), De la HP (28/41/48/50/71/75/200/Prime) et quelques autres trucs (Ti, Canon X07, Psion, Casio, Palm, Thomson, Exl)

Répondre

Revenir vers « Tous les Pockets »