Vai al contenuto

OOXML

Office Open XML (OOXML) e lo standard ISO/IEC 29500 utilizzato dalle applicazioni Microsoft Office. Un file .docx e un archivio ZIP contenente file XML che descrivono contenuto, formattazione, stili, Tracked Changes, commenti e metadati del documento.

Comprendere OOXML e essenziale per qualsiasi strumento che voglia modificare documenti Word. La maggior parte degli strumenti AI lavora con testo semplice estratto dai documenti, perdendo formattazione, Tracked Changes, commenti, intestazioni, pie di pagina, stili e definizioni di numerazione. La vera document intelligence richiede di operare a livello OOXML, dove la fedelta completa del documento e preservata.

Un file .docx non e un singolo file ma un archivio ZIP contenente piu file XML organizzati secondo le Open Packaging Conventions (OPC): `word/document.xml` per il contenuto, `word/styles.xml` per le definizioni di formattazione, `word/comments.xml` per le annotazioni, `word/numbering.xml` per le definizioni di elenco, `word/settings.xml` per le proprieta del documento e `[Content_Types].xml` per il manifesto del pacchetto. Le relazioni tra le parti sono definite nei file `.rels`. Le Tracked Changes sono codificate come elementi `<w:ins>` (inserimento) e `<w:del>` (eliminazione) nel documento XML, ciascuno con attributi di autore, timestamp e ID revisione.

La specifica OOXML (ECMA-376 / ISO/IEC 29500) si estende per migliaia di pagine, riflettendo la complessita di rappresentare ogni funzione supportata da Word: tabelle annidate, oggetti incorporati, codici di campo, fonti bibliografiche, dati di stampa unione e firme digitali. Questa complessita spiega perche la maggior parte dei fornitori di automazione documentale evita completamente OOXML, optando per output PDF o estrazione di testo semplice.

DocIQ Sphere opera direttamente su questa struttura XML attraverso un motore OOXML Python specializzato. Quando Sphere effettua una modifica con Tracked Changes, modifica gli elementi XML a livello di run, producendo gli stessi segni di revisione che creerebbe Microsoft Word. Formattazione, numerazione, stili e struttura del documento sono preservati. Il risultato e un file .docx che qualsiasi client Word riconosce come avente Tracked Changes standard, senza perdita di fedelta del documento.

Related Terms

DocIQ Products