OCR con openSUSE 11.2

13 risposte [Ultimo messaggio]
Ritratto di GiulioGG
GiulioGG
(Monster)
Offline
Monster
Iscritto: 26/05/2009
Messaggi: 291

Ho letto che ci sarebbero programmi in grado di leggere addirittura la scrittura a mano, per contro ho letto e sentito dire che non ci sarebbero ancora programmi in grado di leggere con sicurezza neppure i comuni caratteri di stampa, neppure disponendo di un buon scanner. C'e' qualcuno che voglia darmi chiarimenti sull'argomento, dati alla mano ?
Grazie e cordiali saluti.

Ritratto di capejeaspaje
capejeaspaje
(Geek)
Offline
Geek
Iscritto: 08/07/2007
Messaggi: 112

Provo a fornirti qualche chiarimento anche se non ho dati alla mano. Laughing
Tutti i programmi OCR funzionano tramite il riconoscimento dei caratteri, ovviamente!
Non esistono a priori programmi del genere infallibili, ossia che riconoscono i caratteri stampati senza margine di errore. Ciò per tutta una serie di motivi che vanno dalla risoluzione dei caratteri stampati sul foglio scannerizzato dalle impurità che lo scanner rileva sulla carta, dalla risoluzione con la quale vengono scannerizzate le pagine ecc...
Esistono tuttavia una serie di programmi OCR più o meno affidabili, cioè in grado di "riconoscere e distinguere" un'impurità della carta da un puntino sopra la lettera i, ciò comporta un'affidabilità maggiore o minore del programma OCR rispetto ad altri che di norma però non supera mai il 95% dei caratteri riconosciuti durante la scansione.
Per il restante 5% c'e' bisogno della "mano dell'uomo", ossia si fa in modo che un particolare carattere non riconosciuto dal programma venga determinato istruendo il software a riconoscerlo come una specifica lettera rispetto ad un altra (pensa ad esempio quanta poca differenza ci possa essere tra una lettera i e una lettera Loser. In questo caso abbiamo bisogno di "istruire" il software dicendogli che quando trova una caratte a forma di elle ma formata da un trattino e un punto la deve riconoscere come una lettera i. A tal proposito diversi programmi hanno al loro interno un "dizionario" di questi pseudo caratteri, che serviranno appunto, nelle successive scansioni, al riconoscimento dello stesso tipo di carattere associandolo alla consonante o vocale corretta.
Il numero di questi pseudo caratteri nel "dizionario" non avviene in maniera automatica ma è l'utilizzatore del pc o del programma di scansione che alimenta il flusso di caratteri che verranno riconosciutoi dal sistema attraverso la correzione a mano del testo scannerizzato.
Detto ciò anche la scrittura a mano puo' essere riconosciuta da uno scanner e dal suo programma OCR basta "semplicemente" istruirlo inserendo volta per volta i vari caratteri scannerizzati nel "dizionario" del programma di OCR.

Ritratto di robyrom
robyrom
(Geek)
Offline
Geek
Iscritto: 24/10/2007
Messaggi: 183

Di ocr ottimi ce ne sono: io da anni uso fine reader che mi sembra validissimo, certo molto dipende dalla qualità della scansione e a volte anche dal tipo di font utilizzato a stampa. Purtroppo sotto linux non ho mai trovato nulla di appena soddisfacente per cui temo dovrai rivolgerti a a windows per questo servizio. ciao
robyrom

robyrom

Ritratto di ivosperi
ivosperi
(Geek)
Offline
Geek
Iscritto: 19/12/2007
Messaggi: 101

Ho cercato anche io qualche ocr che funzioni bene sotto linux ma i risultati purtroppo sono stati molto scarsi se qualcuno ne trova ditelo anche a me
ciao

Ritratto di Caig
Caig
(Junior)
Offline
Junior
Iscritto: 09/11/2009
Messaggi: 46

E Tesseract? Quando l'avevo provato funzionava bene, molto molto più affidabile di gocr o ocrad. Purtroppo non supporta però il riconoscimento del layout e stili.

Ritratto di capejeaspaje
capejeaspaje
(Geek)
Offline
Geek
Iscritto: 08/07/2007
Messaggi: 112

Io vorrei sapere, visto che siamo in argomento, che fine ha fatto kooka, un ottimo ocr a mio avviso, presente fino alla versione 3.5 di KDE.
Sapete se è stato fatto un fork di questo pacchetto? Oppure il progetto è stato abbandonato?

Ritratto di Caig
Caig
(Junior)
Offline
Junior
Iscritto: 09/11/2009
Messaggi: 46

Kooka è da molto tempo non più mantenuto (infatti non è + in kdegraphics), avevo sentito( letto Smile ) qualcosa riguardo al porting in KDE4, ma non mi risulta nulla al riguardo. Di fatto è sostituito dall'agile Skanlite che però effettivamente manca di funzionalità OCR (Kooka si interfacciava con gocr, ocrad e un altro engine). Al riguardo puoi votare questa idea su KDE Brainstorm.
Questa pagina cita inoltre un altro interessante engine OCR (cuneiform).

Ritratto di GiulioGG
GiulioGG
(Monster)
Offline
Monster
Iscritto: 26/05/2009
Messaggi: 291

Caig scrive: ...KDE Brainstorm.
Questa pagina cita inoltre un altro interessante engine OCR (cuneiform).

Re: Ho installato una versione di cuneiform dotata di una utile interfaccia grafica, però è ancora molto povero di funzionalità OCR, in particolare manca ancora della fondamentale capacità di "imparare" a riconoscere i caratteri: è prevedibile un suo sviluppo... esponenziale che lo renda veramente utilizzabile ? (non sono riuscito a trovare un indirizzo per contattare i suoi sviluppatori).

Ritratto di Caig
Caig
(Junior)
Offline
Junior
Iscritto: 09/11/2009
Messaggi: 46

Personalmente utilizzo Tesseract. Definivo interessante Cuneiform perché mi risulta abbia il supporto per stili e layout. Quella micro interfaccia grafica a dir poco minimale dovrebbe essere un prodotto esterno, non fa altro che visualizzare l'output del programma vero e proprio. Ritornando a Cuneiform non penso sia più sviluppato da chi (guarda caso) l'ha rilasciato. La speranza è che possa trovare qualche capace volenteroso, Tesseract ha avuto la fortuna di essere riesumato e supportato nello sviluppo da Google.

Ritratto di Mirko
Mirko
(Guru)
Offline
Guru
Iscritto: 19/12/2005
Messaggi: 1602

Io invece vorrei sapere se c'è un ocr capace di trasformare in testo i lavori di xournal Smile

Ritratto di Caig
Caig
(Junior)
Offline
Junior
Iscritto: 09/11/2009
Messaggi: 46

CellWriter ...? Niente libertà di scrittura tipo xournal però. Sarei curioso anch'io di sapere se c'è qualche valido engine per il riconoscimento della scrittura. Non nutro speranze però Sad