Module OCR 1.1
Description
Ce module permet déclencher un traitement OCR (reconnaissance optique de caractères) lors du dépôt de fichiers PDF sur Jalios Digital Platform.
L'intérêt est de permettre la recherche dans le contenu de tous les fichiers PDF, ainsi que leur traitement automatique par JCapture.
Ce module fait appel a un outil d'OCR en ligne de commande de votre choix. Il a été testé avec ABBYY CLI OCR for Linux et Tesseract OCR
Ce module sert également de base au module AbbyyFineReader , qui utilise spécifiquement le moteur ABBYY FineReader Engine.
Prerequis :
- une installation fonctionnelle d'un outil d'OCR fonctionnant en ligne de commande (par exemple ABBYY CLI OCR for Linux ou Tesseract OCR)
Captures d'écran
Installation
Installation du module
- Installer le plugin via le gestionnaire de module
- Rédemarrez le site
Propriétés du module
OCR activé
jcmsplugin.ocr.enabled.boolean
Active (true, par défaut), ou désactive le module. Permet d'arrêter totalement le support d'OCR sur le site.
Ligne de commande pour OCR
jcmsplugin.ocr.cli-ocr-cmd
Ligne de commande lançant l'outil OCR en ligne de commande. Les chaînes {inputFile} et {outputFile} seront remplacés par les chemins absolus des fichiers d'entrée (PDF image à reconnaître) et sortie (PDF texte + image)
Exemple : /opt/ABBYYOCR11/abbyyocr11 -if {inputFile} -of {outputFile} -f PDF
Classe d'implémentation de traitement OCR
jcmsplugin.ocr.ocr-task-impl
L'implémentation par défaut utilise la ligne de commande.
Cette valeur doit être remplacée si la ligne de commande n'est pas utilisée, par exemple avec le module ABBYY FineReader
Interraction avec d'autres modules
Ce module n'a aucune dépendance obligatoire. Il peut fonctionner de façon autonome lors de l'appel avec OpenAPI (voir ci-dessous). Mais il s'intègre avec d'autres modules, détaillés ci-après.
OpenAPI
L'OCR est déclenché lors de la création (POST) d'un fichier PDF, OpenAPI, par l'ajout d'un paramètre ocr=true
dans le corps de la requête HTTP. Il faut en outre que le module soit activé (voir propriétés du module)
Module JCapture
En conjonction avec le module JCapture :
- un bouton
Reconnaître le texte
apparaît lorsque l'on choisitTraiter avec JCapture
dans JCMS : - Si le client JCapture windows est installé en version ulterieure à la version 1.0.1, un paramètre déclanchant l'OCR est présent :
- Si le client JCapture pour MacOS est installé, un paramètre déclenchant l'OCR est présent :
AddIn Outlook
Si l'addIn Outlook est présent (module Outlook), l'OCR se déclenche au clic sur Ajouter avec JCapture dans JCMS 9...
, dans le menu contextuel d'un fichier.
Le bouton Ajouter
> La pièce jointe avec JCapture...
déclanche l'OCR
Module d'import de documents
Si le module d'import de documents est installé en version ultérieure à 4.0, une option (true
par défaut) est utilisable dans les règles d'un dépôt :
<repository-id>.ocr : true
Si le module est installé en version 4.0 ou antérieure, alors la reconnaissance de caractères est toujours activée pour tous les dépôts. Il est uniquement possible de désactiver le module OCR entièrement (voir propriétés)
Changements
FAQ
ABBYY CLI OCR for Linux est un OCR en ligne de commande pouvant être utilisé avec ce module.
A titre informatif, voici la procédure d'installation si vous êtes en possession d'une licence valide :
- Commencez par télécharger ABBYY CLI OCR for Linux
- Lancez l'installateur et suivez les étapes :
root # ./abbyyocr-11.1.9.622165/abbyyocr.run Verifying archive integrity... All good. Uncompressing ABBYY CLI OCR 11 for Linux........... ABBYY CLI OCR 11 for Linux © 2014 ABBYY Production LLC Directory /opt/ABBYYOCR11 doesn't exist! Do you want to create this directory? (y/n) y Do you accept the license agreement? (y/n) y Installation in progress... Do you want to copy executable files to /usr/local/bin directory? (Login as root is needed.) (y/n) n Do you want to register path to shared libraries of ABBYY CLI OCR 11 for Linux? (Login as root is needed.) (y/n) yNote: sur un environnement de production, il est préférable de choisir "n" et d'ajouter vous-même les fichiers au chemin de libraries partagées
Do you want to install the Licensing Service and activate your ABBYY CLI OCR 11 for Linux license? (Login as root is needed.) (y/n) y
Une fois l'installation terminée, le script d'activation se lance. Choisir Local server :
ABBYY FineReader Engine 11 activation script Select activation type: 1) Local server 2) Remote server 3) Cancel #? 1
Installer le service
FineReader Engine is configured for licensing service located on localhost. Installing licensing service.. Choose service installation type: 1) Install and run service now 2) Run now, but do not install service 3) Skip step, I will manage licensing service manually #? 1
Le service de gestion des licences s'installe :
Adding system startup for /etc/init.d/abbyy-fre11-licensing-service ... /etc/rc0.d/K20abbyy-fre11-licensing-service -> ../init.d/abbyy-fre11-licensing-service /etc/rc1.d/K20abbyy-fre11-licensing-service -> ../init.d/abbyy-fre11-licensing-service /etc/rc6.d/K20abbyy-fre11-licensing-service -> ../init.d/abbyy-fre11-licensing-service /etc/rc2.d/S80abbyy-fre11-licensing-service -> ../init.d/abbyy-fre11-licensing-service /etc/rc3.d/S80abbyy-fre11-licensing-service -> ../init.d/abbyy-fre11-licensing-service /etc/rc4.d/S80abbyy-fre11-licensing-service -> ../init.d/abbyy-fre11-licensing-service /etc/rc5.d/S80abbyy-fre11-licensing-service -> ../init.d/abbyy-fre11-licensing-service Service is registered. Starting ABBYY license service.. succeeded
Choisir d'activer la licence :
Do you want to activate/deactivate/view licenses now?(y/n) y
Choisir de saisir le "serial number" :
License activation wizard - Enter serial number Please enter your serial number Serial number: "" Is serial number valid: no I already have activation file Cancel Go to the next page
Saisissez votre serial number :
License activation wizard - Enter serial number Please enter your serial number Serial number: "SWET-0101-0101-0101-0101-0101" Is serial number valid: yes I already have activation file Cancel Go to the next page
Choisir la méthode de connexion "Internet" :
License activation wizard - Select connection method Please select a connection method Connection method: "Internet" Cancel Go back to the previous page Go to the next page
Choisir Go to the next page pour confirmer l'activation par Internet :
License activation wizard - Send request via internet You are going to send request via internet. Go to next page to continue. Cancel Go back to the previous page Go to the next page
L'activation est confirmée :
License activation wizard - Result Result: Thank you for using ABBYY products. Activation completed successfully. Finish
Vous pouvez maintenant choisir Quit :
ABBYY SDK 11 - License Manager SWET-0101-0101-0101-0101-0101 Activate license Refresh Quit
Selon nos tests, la reconnaissance de caractères sur un fichier par ABBYY FineReader (aussi bien ABBYY CLI OCR (en ligne de commande), que ABBYY FineReader Engine (SDK utilisé par le module AbbyyFineReader ) prend entre 6 et 30 secondes pour des petits documents, selon les paramètres.
Si ce délai est trop long, vous pouvez contourner le problème en :
- désactivant l'OCR dans JCapture Windows ou MacOS, et dans le client Outlook
- après dépôt, déclencher l'OCR manuellement en cliquant sur
Traiter avec JCapture
, puisReconnaître le texte