Zum Inhalt springen

OOXML

Office Open XML (OOXML) ist das ISO/IEC 29500-Standarddateiformat von Microsoft Office. Eine .docx-Datei ist ein ZIP-Archiv mit XML-Dateien, die Inhalt, Formatierung, Stile, Tracked Changes, Kommentare und Metadaten des Dokuments beschreiben.

OOXML zu verstehen ist unerlässlich für jedes Tool, das Word-Dokumente bearbeiten will. Die meisten AI-Tools arbeiten mit extrahiertem Klartext und verlieren dabei Formatierung, Tracked Changes, Kommentare, Kopf- und Fusszeilen, Stile und Nummerierungen. Echte Dokumentintelligenz erfordert die Arbeit auf OOXML-Ebene, wo die volle Dokumenttreue erhalten bleibt.

Eine .docx-Datei ist kein einzelnes File, sondern ein ZIP-Archiv mit mehreren XML-Dateien nach den Open Packaging Conventions (OPC): `word/document.xml` für den Inhalt, `word/styles.xml` für Formatierungsdefinitionen, `word/comments.xml` für Annotationen, `word/numbering.xml` für Listendefinitionen, `word/settings.xml` für Dokumenteigenschaften und `[Content_Types].xml` für das Paketmanifest. Beziehungen zwischen Teilen werden in `.rels`-Dateien definiert. Tracked Changes sind als `<w:ins>` (Einfügung) und `<w:del>` (Löschung) in der Dokument-XML codiert, jeweils mit Autor, Zeitstempel und Revisions-ID.

Die OOXML-Spezifikation (ECMA-376 / ISO/IEC 29500) umfasst tausende Seiten und spiegelt die Komplexität wider, jede Word-Funktion abzubilden: verschachtelte Tabellen, eingebettete Objekte, Feldfunktionen, Literaturquellen, Serienbriefe und digitale Signaturen. Diese Komplexität ist der Grund, warum die meisten Dokumentautomatisierungsanbieter OOXML ganz vermeiden und stattdessen PDF oder Klartextextraktion nutzen.

DocIQ Sphere arbeitet direkt auf dieser XML-Struktur mittels einer spezialisierten Python-OOXML-Engine. Wenn Sphere eine Bearbeitung mit Tracked Changes vornimmt, modifiziert es die XML-Elemente auf Run-Ebene und erzeugt dieselben Revisionsmarkierungen wie Microsoft Word. Formatierung, Nummerierung, Stile und Dokumentstruktur bleiben erhalten. Das Ergebnis ist eine .docx-Datei, die jeder Word-Client als Standard-Tracked-Changes erkennt, ohne Verlust der Dokumenttreue.

Related Terms

DocIQ Products