Aller au contenu

OOXML

Office Open XML (OOXML) est le format de fichier standard ISO/IEC 29500 utilise par les applications Microsoft Office. Un fichier .docx est une archive ZIP contenant des fichiers XML qui decrivent le contenu, la mise en forme, les styles, le suivi des modifications, les commentaires et les metadonnees du document.

Comprendre OOXML est essentiel pour tout outil pretendant editer des documents Word. La plupart des outils IA travaillent avec du texte brut extrait des documents, perdant mise en forme, suivi des modifications, commentaires, en-tetes, pieds de page, styles et definitions de numerotation. Une veritable intelligence documentaire exige d'operer au niveau OOXML, ou la fidelite complete du document est preservee.

Un fichier .docx n'est pas un fichier unique mais une archive ZIP contenant plusieurs fichiers XML organises selon les Open Packaging Conventions (OPC) : `word/document.xml` pour le contenu, `word/styles.xml` pour les definitions de mise en forme, `word/comments.xml` pour les annotations, `word/numbering.xml` pour les definitions de listes, `word/settings.xml` pour les proprietes du document, et `[Content_Types].xml` pour le manifeste du package. Les relations entre les parties sont definies dans les fichiers `.rels`. Le suivi des modifications est encode sous forme d'elements `<w:ins>` (insertion) et `<w:del>` (suppression) dans le XML du document, chacun portant des attributs d'auteur, d'horodatage et d'identifiant de revision.

La specification OOXML (ECMA-376 / ISO/IEC 29500) couvre des milliers de pages, refletant la complexite de la representation de chaque fonctionnalite Word : tableaux imbriques, objets incorpores, codes de champ, sources bibliographiques, donnees de publipostage et signatures numeriques. Cette complexite explique pourquoi la plupart des fournisseurs d'automatisation documentaire evitent completement OOXML, optant pour une sortie PDF ou une extraction de texte brut.

DocIQ Sphere opere directement sur cette structure XML via un moteur OOXML Python specialise. Lorsque Sphere effectue une modification avec suivi des modifications, il modifie les elements XML au niveau du run, produisant les memes marques de revision que Microsoft Word. Mise en forme, numerotation, styles et structure du document sont preserves. Le resultat est un fichier .docx que tout client Word reconnait comme ayant un suivi des modifications standard, sans perte de fidelite.

Related Terms

DocIQ Products