Ottico Caratteri Riconoscimento per l'italiano







26/11/2022

Si prega di aggiungere questa pagina ai segnalibri.



Ottico Caratteri Riconoscimento (OCR) è la conversione elettronica o meccanica di immagini di testo digitato, scritto a mano o stampato in testo codificato a macchina, sia da un documento scansionato, da una foto di un documento, da una foto di scena (ad esempio, il testo su cartelli e cartelloni pubblicitari in un paesaggio fotografia), o dal testo dei sottotitoli sovrapposto a un'immagine (ad esempio: da una trasmissione televisiva).

Ampiamente utilizzato per inserire dati da documenti cartacei stampati – che si tratti di passaporti, fatture, estratti conto bancari, ricevute informatizzate, biglietti da visita, posta, stampe di dati statici o qualsiasi altra documentazione adeguata – è un metodo comune per digitalizzare testi stampati in modo che possano essere modificato elettronicamente, ricercato, archiviato in modo più compatto, visualizzato in linea e utilizzato in processi automatici come il calcolo cognitivo, la traduzione automatica e l'OCR text-to-sp (estratto) è un sottocampo di studio sul riconoscimento di modelli che comprende l'intelligenza artificiale e visione artificiale.

Le versioni precedenti richiedevano una formazione con fotografie di singoli personaggi e lavoravano su un singolo carattere tipografico alla volta. Sono ora ampiamente disponibili sistemi avanzati in grado di fornire un elevato grado di precisione di identificazione per la maggior parte dei caratteri tipografici, così come i sistemi che accettano una serie di formati di file di immagini digitali come input. Alcuni sistemi sono in grado di replicare l'output formattato il più simile possibile alla pagina originale, inclusi grafica, colonne e altri componenti non testuali.