OCR perfetto con tesseract

tesseract – command line OCR tool

…così inizia il manuale di tesseract.

Tesseract è un motore di OCR (Optical Character Recognition) libero, o per meglio dire “liberato”.  Sviluppato dalla Hewlett-Packard tra il 1985 e il 1995, è stato abbandonato a se stesso per i successivi 10 anni, fino a quando nel 2005 ne è stato rilasciato il codice sorgente con una licenza libera. La licenza in questione è la Apache License, Version 2.0, che la FSF considera “a free software license, compatible with version 3 of the GPL“.

Questo ha suscitato un nuovo interesse verso questo affascinante motore che attualmente viene sviluppato nientemeno che da Google.

Punto di forza

è considerato uno dei più accurati motori OCR attualmente disponibili, con il vantaggio non indifferente che essendo free software è accessibile e utilizzabile da tutti. Supporta molte lingue: Italiano, Inglese, Francese, Tedesco, Spagnolo, etc.

Installazione:

In stile debian, con un singolo comando è possibile installare tesseract e i language file che ci intereaasano.

# aptitude install tesseract-ocr tesseract-ocr-ita

File di input

L’immagine di input che può provenire ad esempio da una scansione di un documento può essere un bitmap (.bmp) o meglio ancora un tiff (.tif). Nessuna restrizione sul colore anche se devo dire che ho trovato che lavora meglio su file in scala di grigi e ritoccati in modo da avere il maggior contrasto possibile tra testo e sfondo senza però che si perda di definizione.
Con GIMP queste ottimizzazioni si fanno in un batter d’occhio!

Portare in scala di grigi: Immagine -> Modalità -> Scala di grigi…

Modifica della soglia:  Strumenti -> Colore -> Soglia…

Utilizzo

Ancora più banale… Sia input.tif il file di input, si specifica con -l la lingua nella quale è scritto il documento (di default: eng) a scelta tra quelle che abbiamo installato:

$ tesseract input.tif output -l ita

Nell’esempio sopra il programma avrà generato nella directory di lavoro un file di testo output.txt contenente l’OCR della nostra scansione.

Questo è l’utilizzo più banale di questo formidabile motore OCR.

happy debian, happy hacking

2 risposte a “OCR perfetto con tesseract

  1. L’ho installato e provato solo che il file risultante e’ sempre vuoto. Per quale motivo?

    Grazie.

  2. borlongioffei

    ciao,
    inizia analizzando quali possono essere le cause di questo comportamento:

    1) hai installato i pacchetti giusti?

    2) hai usato la giusta sintassi?

    3) hai usato un giusto formato di immagine? (ho notato che tesseract è abbastanza bastardo da accettare con riserva determinati tipi di file: ad esempio i file tiff devono avere l’estensione .tif con ua sola “f”! Tiff risulta comunque il miglior formato utilizzabile, possibilmente in scala di grigi)

    4) il file immagine che dai in pasto a tesseract è ben leggibile, con il testo ben allineato in righe e formato da una sola colonna?

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...