grep e file MS *.docx

2 risposte [Ultimo messaggio]
Ritratto di karla
karla
(Geek)
Offline
Geek
Iscritto: 10/12/2006
Messaggi: 95

Ciao a tutti!

Non riesco a cercare stringhe di testo all'interno di file in formato "docx".

Ho trovato riferimenti (in inglese) alle caratteristiche compresse degli attuali standard Microsoft ma nessuna soluzione.

Altri riferimenti all'edizione con Open/Libre Office (che, a me, non crea problemi particolari).

Ma la ricerca con grep (meglio se con un'interfaccia grafica come gnome-search) resta impraticabile.

Ciao

Ritratto di karla
karla
(Geek)
Offline
Geek
Iscritto: 10/12/2006
Messaggi: 95

Ciao a tutti!

Pare che il problema non sia semplice.

Infatti, il problema è medesimo nei sistemi Windows che non installino MS Office 2007-2013.
Il motivo mi pare ben individuato nelle specifiche di PowerGrep:
http://www.powergrep.com/manual/xmpdocx.html
Se può interessare, PowerGrep, con WINE, si installa e funziona sul mio sistema Linux.

Per mia esperienza, ho provato sistemi Windows XP con Office 2000-2003 che malgrado gli aggiornamenti per la compatibilità, sia del sistema sia di Office, non trovano stringhe di testo nei nuovi formati Office malgrado Office (2000-2003) li editi e li salvi nei nuovi formati.

Una situazione che mi pare analoga a Open/Libre Office in sistemi Linux.
E' assai fastidioso che, insieme ad Open/Libre Office, non sia possibile installare le librerie necessarie al sistema per la gestione dei nuovi standard Microsoft.
Tanto fastidioso che un file salvato in formato "docx" da Open/Libre Office non viene più ritrovato (da grep).

Per l'indicizzazione dei dati uso Docfetcher (portable Linux-Windows).
E Docfetcher non ha difficoltà circa i nuovi standard Microsoft (sia in Linux, sia in Windows).

Il problema della compatibilità tra Linux e standard Microsoft mi pare, però, ancor più serio ed esteso.
Per capirsi: in una directory con 100 file di cui 10 contengono la stringa 'linux' grep trova solo 3 riscontri malgrado solamente 2 su 10 siano in formato MS *.docx (Office 2007-2013) e gli altri 8 in foemato MS *.doc. (Office 1997-2003).

Tornando alla domanda, esistono applicativi (linux nativi e senza indicizzazione) per la ricerca di stringhe di testo nei file MS Office?

Ciao

Ritratto di SilverHawk
SilverHawk
(Geek)
Offline
Geek
Iscritto: 31/05/2014
Messaggi: 180

Che io sappia i Docx sono archivi zippati, difficile ottenere buoni risultati con il solo grep.
Zgrep può fare al caso?