OCR


OCR est l’acronyme de Optical Character Recognition, une expression anglaise qui peut être traduite par reconnaissance optique de caractères. La notion est utilisée en informatique pour désigner une procédure qui permet à un texte d’être scanné par un scanner. Ce que l’OCR rend possible, c’est que, lorsqu’un texte passe à travers un certain dispositif, le système reconnaît les caractères comme faisant partie d’un alphabet. De cette façon, le document numérisé peut être édité avec un traitement de texte, puisqu’il n’est pas stocké en tant qu’image.

De cette façon, l’OCR facilite la tâche de nombreuses personnes.

Si quelqu’un scanne un livre avec l’intention de faire un résumé, grâce à l’OCR vous pouvez interagir avec le texte numérisé à travers un programme comme Microsoft Word, couper, copier et coller n’importe quel mot, quelque chose d’impossible si vous n’effectuez pas un tel processus de reconnaissance, parce que l’ordinateur est incapable de comprendre le texte dans une image. Outre l’avantage évident de stocker un texte en tant que tel et non en tant qu’image, il y a une différence de poids considérable: les images peuvent prendre beaucoup plus d’espace disque que les textes, et cela doit être pris en compte si vous voulez faire scanner des livres entiers.

Bien sûr, il n’est pas toujours conseillé à l’ordinateur d’effectuer l’OCR, surtout s’il n’ a pas l’intention d’éditer le contenu. Il est curieux qu’une seule application puisse changer la capacité d’un ordinateur de façon aussi radicale, mais c’est ce qui se passe dans tous les cas: alors que les processeurs modernes peuvent être très efficaces, surtout s’ils sont combinés avec les mémoires et les disques de dernière génération, rien n’est utile sans les programmes appropriés, de sorte qu’une seule machine peut passer d’être inutile à extrêmement avancé simplement par le logiciel que vous avez. Le cas de l’OCR est très particulier, car il donne à l’ordinateur une compétence fondamentale pour la plupart des humains: la lecture.

Il convient de mentionner que ce n’est pas une tâche facile pour aucun de nous deux, bien que dans notre cas, nous apprenons généralement à le faire dès un très jeune âge, de sorte que nous acquérons une grande habileté, même lorsque nous devons faire face à une calligraphie difficile à comprendre. Malgré les progrès de la technologie, l’OCR fait encore face à un certain nombre de défis. Il est par exemple très difficile de faire reconnaître un texte manuscrit par un système numérique. Le processus rencontre souvent des inconvénients lors de la segmentation des différentes unités de texte. La même chose se produit lorsque les mots semblent trop rapprochés.

D’autres défauts d’OCR peuvent se produire lorsqu’il n’ y a pas assez de contraste entre les mots et l’arrière-plan. Supposons qu’un texte écrit en lettres noires est imprimé sur une feuille de papier gris: le processus d’OCR peut ne pas être capable de distinguer les lettres des mots. N’oublions pas que, tout comme une action apparemment simple comme marcher dans la rue nécessite une série d’actions complémentaires pour éviter les obstacles et protéger notre intégrité, la lecture d’un texte imprimé est le résultat de plusieurs tâches de reconnaissance simultanées, que nous réalisons presque inconsciemment, mais qui nous demandent du travail.

Confronté à un texte, notre propre système OCR est responsable de la recherche et de la reconnaissance du titre, de l’identification des paragraphes, des signes de ponctuation, des espaces entre les mots et les abréviations, entre autres, ainsi que de la compréhension des polices trop ornementales ou dépouillées et de la complétion des informations dans les régions qui ont subi une usure quelconque, comme une tache d’encre ou un morceau de papier manquant.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *