vendredi 12 juin 2015

La reconnaissance optique des caractères : ou dit OCR


L'OCR

Je parle de cette technologie afin de la démystifier et à ma grande surprise très peu connue encore maintenant. Il y a deux méthodes de reconnaissance qui se sont développées au cours des ans depuis que cette technologie existe, soit les années 1950, mais avant un peu d'histoire…
C'est en en 1950 que David Shepard, un cryptanalyste à l'AFAS (NSA aujourd'hui) décida de construire « Gismo » avec l'aide d'un ami, dans son grenier les soirs et les week-ends. Le brevet numéro fut déposé et Shepard fonda la Intelligent Machines Research et livra les premiers systèmes d'OCR aux entreprises suivantes à partir de 1955 : Reader's Digest, l'Ohio Bell Telephone Company et à l'US Air Force. IBM et bien d'autres entreprises utiliseront, plus tard, ses brevets. 
La poste américaine utilise ce système depuis 1965 et c'est en 1971 que poste Canada emboîte le pas pour lire les codes postaux afin de trier et distribuer le courrier. 
En 1974, Ray Kurzweil, un chercheur, adapte cette technologie et crée un synthétiseur vocal basé sur la technologie de « reconnaissance » permettant aux aveugles de lire des documents enregistrés sur un support informatique… genèse, ici, de la technologie pour la création de documents dit « Accessibles». 
Le prototype financé par Stevie Wonder est finalement présenté en 1976. La commercialisation de la « Reading Machine » eut lieu en 1978 et racheté deux ans plus tard par Xerox. 
source : Internet et recherches personnelles. 

Les deux méthodes OCR ou ROC… 

Maintenant, pourquoi je parle de deux types de reconnaissance :

Méthode 1 : La première permet de numériser un texte-image et de le convertir en document texte modifiable et c'est aussi possible avec des fichiers Excel afin de refaire des tableaux… Logiciels : Omnipage, ABBYY, Readiris sont les plus connus. J'utilise pour ma part ABBYY Fine Reader Express pour Mac. Il appert que les logiciels pour PC sont plus développés que sur Mac.

Méthode 2 : La seconde sera utilisée pour les documents légaux dont la forme doit rester identique, exemple les documents issus d'une cour de justice, des contrats, etc.

Cette méthode ne s'utilise qu'avec Adobe Acrobat. En effet, adobe Acrobat DC permet de numériser un texte mais sans changer sa nature il ajoute des caractères vectoriels au texte et permet ainsi de faire de la recherche dans le texte sans détruire la forme légale du document. Logiciel : Adobe Acrobat Pro DC


Tayaout-Nicolas | Formateur agréé + photographe professionnel





Aucun commentaire:

Enregistrer un commentaire