Retour : Page Principale > sommaire aide > sommaire aide logiciels
Fil de discussion sur la numérisation et OCRisation de documents
forum numérisation, février-mars 2013
Contributeurs : David Mercier, Serge Forestier, Jean-Claude Bonnin, Daniel Mathieu, Benoit Bock, Paul Fabre
Paul FABRE
Merci pour cette contribution. Le document est maintenant disponible en ligne ici :
http://www.tela-botanica.org/page:ouvrages_monographie#monographie_nationale D'autre part, si j'ai bien compris votre message au sujet des Scrinia, il me semble que vous maîtrisez bien la procédure OCR qui permet de sélectionner le texte dans un pdf. Pouvez-vous nous indiquer votre méthode ? Est-ce possible avec un logiciel libre ?
Jean-Claude BONNIN
A ma connaissance il n'est pas possible dans le même temps de transformer tous les fichiers JPG en PDF, de les réunir en un seul document et les passer en OCR avec un logiciel libre.
Serge FORESTIER
Bonsoir,Quelques éléments de réponse à vos questions. J'utilise le logiciel Foxit PhantomPDF qui permet de transformer en une seule passe les fichiers JPG en PDF, permettant de créer un seul document PDF, sur lequel il ne reste plus qu'à lancer l'OCR. Je viens de l'essayer sur le premier lot de fichier JPG ( Scrinia1891(v.10)) et cela ne m'a demandé que quelques minutes pour passer de 22 fichiers JPG à un seul fichier PDF OCRisé de 55 Mo. Foxit PhantomPDF n'est pas un logiciel libre, mais, son prix n'est pas exorbitant (114 USD). Plus d'informations : http://www.foxitsoftware.com/PDF_Editor/
Il me reste cependant un petit point à creuser : quelques pages (4 ou 5) refusent, pour l'instant, la reconnaissance de caractères. Il s'agit peut-être d'un problème de qualité du rendu du scan initial. Je regarderai cela d'un peu plus près demain et je vous tiens au courant.
Serge FORESTIER
Le premier fichier " Scrinia1891(v.10)" est disponible sous forme PDF + OCR. Il pèse 57 Mo. Comment puis-je le mettre à disposition ?
David MERCIER
il faut mettre le document dans le porte-document du projet (onglet "Documents" en haut de la page). Il faut aller à Ouvrages numérisés <http://www.tela-botanica.org/page:liste_projets?id_projet=66&act=documents&id_repertoire=14745> > Magnier, Charles <http://www.tela-botanica.org/page:liste_projets?id_projet=66&act=documents&id_repertoire=17598> > Magnier, C., 1882-1896 - Scrinia Florae Selectae <http://www.tela-botanica.org/page:liste_projets?id_projet=66&act=documents&id_repertoire=17599>
Par contre, le fichier fait 57 Mo, alors que les autres font 1 à 6 Mo. Même si il y a l'OCR en plus, je pense qu'il faut alléger le fichier. Ou au mois essayer. Je faisais un passage à 1 bit par pixel (blanc/noir) ce qui allégeait énormément, mais demandais une gestion du seuil assez fine (seuil de luminosité à définir manuellement, où le pixel bascule du noir au blanc).
Seul le volume n°1 est resté volumineux car l'impression autographiée (écriture manuscrite imprimée) était de mauvaise qualité, et il fallait que je garde beaucoup de définition et de nuance de gris pour que ça reste lisible.
Daniel MATHIEU
Avec le logiciel Adobe Acrobate Pro il y a une fonction “réduire la taille” qui est assez efficace. L’avez vous essayée ?
David MERCIER
j'ai regardé les fichiers : l'OCR est vraiment très intéressant pour extraire du texte ! Et le texte est redressé, ce qui est très agréable pour la lecture. Super !
Par contre, il est vrai que mes photos étaient prises un peu larges, et on voit parfois mes doigts sur le côté... Est-ce qu'il existerait une fonction sur le logiciel d'OCRisation, pour recadrer automatiquement les parties textes (avec 1 cm de marge autour), et éliminer le reste des marges ? Cela serait le top : le texte serait aligné d'une page à l'autre pour une lecture plus agréable, et ça permettrait d'alléger les pdf sans perdre en définition.
En gardant la couleur et avec l'OCR, je pense qu'on peut quand même se permettre 0,5 Mo / page, même si à 800 pixels (0,25 Mo / page, pour le fascicule 10) ça reste lisible.
Les fascicules 12 et 13 avec couleur et sans OCR, donc réalisés avec un autre logiciel, sont à 0,2 Mo / page, tout en gardant une qualité visuelle très bonne. Assez étonnant !
Le fascicule 11 (1892) est Ă 0,75 Mo / page, ce qui est peut-ĂŞtre un peu trop ?
Le fichier déposé sous "Magnier, C., 1881-1892 - Scrinia Florae Selectae, p. 198-228 - (Liste méthodique des espèces)" est en fait le fascicule 11.
Le fichier relatif à la liste méthodique 1881-1892, a été très probablement publié en 1891 et serait en fait à nommer ainsi :"Magnier C., 1891 - Scrinia Florae Selectae, p. 198-228 (liste méthodique des espèces, 1882-1891)".
En tout cas, Serge, ce logiciel d'OCRisation est vraiment un plus !
Et bravo à Paul aussi, pour ses pdf très lisibles tout en étant très léger.
A côté, mes fichiers noir et blancs et non redressés sont très rudimentaires, en plus de m'avoir pris un temps fou !
Jean-Claude BONNIN
Sous Adobe Acrobat Pro recadrer, Ă©tendre le cadrage Ă toutes les pages.
Paul FABRE
Merci Serge pour l'info sur Foxit PhantomPDF. Je viens de l'essayer (ils offrent une période d'essai de 30 jours) et en effet le processus d'OCRisation est assez rapide et peu gourmand en mémoire (entre 5 et 10 minutes pour une 40aine de pages et un ajout d'environ 0,3 Mo au poids initial du pdf). Du coup, les trois fascicules que j'avais numérisés sont maintenant OCRisés et en ligne. Une fausse note cependant : il me semble que lorsqu'on ouvre ces pdfs avec acrobat reader, la netteté est moindre...
http://www.tela-botanica.org/page:liste_projets?id_projet=66&act=9&id_repertoire=17599
Concernant la numérisation, j'ai scanné les pages une à une, avec le logiciel Adobe Photoshop CS version 8.0.1, en faisant un aperçu au préalable me permettant de ne sélectionner que la partie texte. Avec une résolution de 150 dpi, j'ai obtenu des images en jpg de 250 à 500 Ko chacune.
Serge FORESTIER
Je viens de jeter un coup d'oeil sur le fascicule 13. La qualité d'image (ouverture du fichier avec Foxit PhantomPDF) est "nickel", avec une excellente lisibilité. Pour votre information, Foxit PhantomPDF permet également de scanner des documents en recadrant les images (fonction "Convert" puis "From scanner"). L'intérêt est de disposer directement d'un fichier PDF. Mais je pense que Adobe Photoshop CS est capable de faire la même chose...
Benoît BOCK
Si vous souhaitez faire de bons pdf, il faut numériser les fichiers sans couleur en TIFF 300 dpi (en noir et blanc) et les pages en couleurs en TIFF 200 dpi, puis créer un pdf avec Adobe Acrobat Pro directement à partir des TIFF. Cordialement
OCR : synthèse sur les logiciels
Fil de discussion sur la numérisation et OCRisation de documents
forum numérisation, février-mars 2013
Contributeurs : David Mercier, Serge Forestier, Jean-Claude Bonnin, Daniel Mathieu, Benoit Bock, Paul Fabre
1. OCRISATION
Paul FABRE
Merci pour cette contribution. Le document est maintenant disponible en ligne ici :
http://www.tela-botanica.org/page:ouvrages_monographie#monographie_nationale D'autre part, si j'ai bien compris votre message au sujet des Scrinia, il me semble que vous maîtrisez bien la procédure OCR qui permet de sélectionner le texte dans un pdf. Pouvez-vous nous indiquer votre méthode ? Est-ce possible avec un logiciel libre ?
Jean-Claude BONNIN
A ma connaissance il n'est pas possible dans le même temps de transformer tous les fichiers JPG en PDF, de les réunir en un seul document et les passer en OCR avec un logiciel libre.
Serge FORESTIER
Bonsoir,Quelques éléments de réponse à vos questions. J'utilise le logiciel Foxit PhantomPDF qui permet de transformer en une seule passe les fichiers JPG en PDF, permettant de créer un seul document PDF, sur lequel il ne reste plus qu'à lancer l'OCR. Je viens de l'essayer sur le premier lot de fichier JPG ( Scrinia1891(v.10)) et cela ne m'a demandé que quelques minutes pour passer de 22 fichiers JPG à un seul fichier PDF OCRisé de 55 Mo. Foxit PhantomPDF n'est pas un logiciel libre, mais, son prix n'est pas exorbitant (114 USD). Plus d'informations : http://www.foxitsoftware.com/PDF_Editor/
Il me reste cependant un petit point à creuser : quelques pages (4 ou 5) refusent, pour l'instant, la reconnaissance de caractères. Il s'agit peut-être d'un problème de qualité du rendu du scan initial. Je regarderai cela d'un peu plus près demain et je vous tiens au courant.
2. REDUCTION DE LA TAILLE DU DOCUMENT
Serge FORESTIER
Le premier fichier " Scrinia1891(v.10)" est disponible sous forme PDF + OCR. Il pèse 57 Mo. Comment puis-je le mettre à disposition ?
David MERCIER
il faut mettre le document dans le porte-document du projet (onglet "Documents" en haut de la page). Il faut aller à Ouvrages numérisés <http://www.tela-botanica.org/page:liste_projets?id_projet=66&act=documents&id_repertoire=14745> > Magnier, Charles <http://www.tela-botanica.org/page:liste_projets?id_projet=66&act=documents&id_repertoire=17598> > Magnier, C., 1882-1896 - Scrinia Florae Selectae <http://www.tela-botanica.org/page:liste_projets?id_projet=66&act=documents&id_repertoire=17599>
Par contre, le fichier fait 57 Mo, alors que les autres font 1 à 6 Mo. Même si il y a l'OCR en plus, je pense qu'il faut alléger le fichier. Ou au mois essayer. Je faisais un passage à 1 bit par pixel (blanc/noir) ce qui allégeait énormément, mais demandais une gestion du seuil assez fine (seuil de luminosité à définir manuellement, où le pixel bascule du noir au blanc).
Seul le volume n°1 est resté volumineux car l'impression autographiée (écriture manuscrite imprimée) était de mauvaise qualité, et il fallait que je garde beaucoup de définition et de nuance de gris pour que ça reste lisible.
Daniel MATHIEU
Avec le logiciel Adobe Acrobate Pro il y a une fonction “réduire la taille” qui est assez efficace. L’avez vous essayée ?
David MERCIER
j'ai regardé les fichiers : l'OCR est vraiment très intéressant pour extraire du texte ! Et le texte est redressé, ce qui est très agréable pour la lecture. Super !
Par contre, il est vrai que mes photos étaient prises un peu larges, et on voit parfois mes doigts sur le côté... Est-ce qu'il existerait une fonction sur le logiciel d'OCRisation, pour recadrer automatiquement les parties textes (avec 1 cm de marge autour), et éliminer le reste des marges ? Cela serait le top : le texte serait aligné d'une page à l'autre pour une lecture plus agréable, et ça permettrait d'alléger les pdf sans perdre en définition.
En gardant la couleur et avec l'OCR, je pense qu'on peut quand même se permettre 0,5 Mo / page, même si à 800 pixels (0,25 Mo / page, pour le fascicule 10) ça reste lisible.
Les fascicules 12 et 13 avec couleur et sans OCR, donc réalisés avec un autre logiciel, sont à 0,2 Mo / page, tout en gardant une qualité visuelle très bonne. Assez étonnant !
Le fascicule 11 (1892) est Ă 0,75 Mo / page, ce qui est peut-ĂŞtre un peu trop ?
Le fichier déposé sous "Magnier, C., 1881-1892 - Scrinia Florae Selectae, p. 198-228 - (Liste méthodique des espèces)" est en fait le fascicule 11.
Le fichier relatif à la liste méthodique 1881-1892, a été très probablement publié en 1891 et serait en fait à nommer ainsi :"Magnier C., 1891 - Scrinia Florae Selectae, p. 198-228 (liste méthodique des espèces, 1882-1891)".
En tout cas, Serge, ce logiciel d'OCRisation est vraiment un plus !
Et bravo à Paul aussi, pour ses pdf très lisibles tout en étant très léger.
A côté, mes fichiers noir et blancs et non redressés sont très rudimentaires, en plus de m'avoir pris un temps fou !
Jean-Claude BONNIN
Sous Adobe Acrobat Pro recadrer, Ă©tendre le cadrage Ă toutes les pages.
Paul FABRE
Merci Serge pour l'info sur Foxit PhantomPDF. Je viens de l'essayer (ils offrent une période d'essai de 30 jours) et en effet le processus d'OCRisation est assez rapide et peu gourmand en mémoire (entre 5 et 10 minutes pour une 40aine de pages et un ajout d'environ 0,3 Mo au poids initial du pdf). Du coup, les trois fascicules que j'avais numérisés sont maintenant OCRisés et en ligne. Une fausse note cependant : il me semble que lorsqu'on ouvre ces pdfs avec acrobat reader, la netteté est moindre...
http://www.tela-botanica.org/page:liste_projets?id_projet=66&act=9&id_repertoire=17599
Concernant la numérisation, j'ai scanné les pages une à une, avec le logiciel Adobe Photoshop CS version 8.0.1, en faisant un aperçu au préalable me permettant de ne sélectionner que la partie texte. Avec une résolution de 150 dpi, j'ai obtenu des images en jpg de 250 à 500 Ko chacune.
Serge FORESTIER
Je viens de jeter un coup d'oeil sur le fascicule 13. La qualité d'image (ouverture du fichier avec Foxit PhantomPDF) est "nickel", avec une excellente lisibilité. Pour votre information, Foxit PhantomPDF permet également de scanner des documents en recadrant les images (fonction "Convert" puis "From scanner"). L'intérêt est de disposer directement d'un fichier PDF. Mais je pense que Adobe Photoshop CS est capable de faire la même chose...
Benoît BOCK
Si vous souhaitez faire de bons pdf, il faut numériser les fichiers sans couleur en TIFF 300 dpi (en noir et blanc) et les pages en couleurs en TIFF 200 dpi, puis créer un pdf avec Adobe Acrobat Pro directement à partir des TIFF. Cordialement