PDF/A-Dokumente in ein Archivsystem überführen

In diesem konkreten Fall hatte ein Kunde die Anforderung, PDF/A-Dokumente, die mit webPDF erzeugt wurden, anschließend automatisiert in ein Archivsystem zu überführen und den Dokumenten dabei eine Reihe von Metadaten mitzugeben.
Die Dateien lagen zunächst in vielen unterschiedlichen Formaten vor und sollten in PDF/A umgewandelt sowie mit Metadaten ergänzt werden.
Ziel und Inhalt des Projekts
Die Anforderung des Kunden und Ziel des Projekts war die Entwicklung einer grafischen Anwendung, die nach Auswahl eines Datei- oder IMAP-Ordners die darin enthaltenen Dokumente nach PDF/A (PDF/A-3b) konvertiert. Dabei sollten die Unterordner des gewählten Basisordners in die Konvertierung einbezogen werden und die Ordnerstruktur bei der Ausgabe erhalten bleiben. Die erstellten PDF/A-Dokumente sollten zusätzlich mit Metadaten ergänzt werden, sodass ein nachgelagertes Archivsystem die Dokumente gezielt archivieren kann.
Dazu wurde eine eigene Java-Anwendung (OpenJDK-basiert) mit grafischer Benutzeroberfläche (GUI) entwickelt. Das Programm sollte als „Stand-alone“-Anwendung ohne Installation unter Windows (ab Version 10) oder Linux ausführbar sein und alle notwendigen Ressourcen (z. B. Java) mitbringen. Voraussetzung für das Projekt war die Installation von webPDF, damit die benötigten Webservices für die Konvertierung verfügbar sind.
Details zur Konvertierung
Bei der Konvertierung kann der Benutzer für den Basisordner zwischen einem lokalen Datei- („File-To-PDF“) und einem IMAP-Ordner („IMAP-To-PDF“) wählen. Der Zugriff auf das IMAP-Postfach wird über die Administration festgelegt. Bei der Konvertierung soll die Ordnerstruktur des Basisordners (auch bei IMAP) beibehalten werden. Auch die Datei- und Dokumentnamen sollen beibehalten werden. Doppelte Dateinamen erhalten eine fortlaufende Nummerierung.
Getroffene Einstellungen werden in einer Konfigurationsdatei gespeichert und beim erneuten Start der Anwendung geladen.
Alle Dateien, die sich im gewählten IMAP-/Datei-Ordner und den Unterordnern befinden, werden nach PDF/A-3b konvertiert. Zusätzlich können per Konfiguration bestimmte Datenformate von der Konvertierung ausgeschlossen werden. Wenn Dateien nicht konvertiert werden sollen oder können, wird jeweils ein PDF mit einem Verweis auf die Originaldatei erstellt.
Des Weiteren wurde festgelegt, wie mit Dateianhängen von E-Mails, passwortgeschützten Dateien sowie Bildformaten verfahren werden soll. Bei Letzteren gibt es beispielsweise die Möglichkeit, optional eine OCR-Schrifterkennung durchzuführen.
Individuelle Funktionen
Zusätzlich wurden Details bezüglich Administration, Protokollierung und Metadaten abgestimmt, sodass klar geregelt war, welche Einstellungen für die Administration vorgesehen sind. Für die Protokollierung wurde festgelegt, dass alle (Fehler-)Meldungen in der GUI angezeigt und zusätzlich mit erweiterten Informationen in eine Log-Datei der Anwendung geschrieben werden. So ist sichergestellt, dass diese für Support-Zwecke nutzbar sind.
Bei der Konvertierung sollten zusätzlich Metadaten in den XMP-Block des PDF/A-Dokuments geschrieben werden. Diese Daten sollten teilweise über die GUI eingegeben und teilweise aus dem Dokument selbst bestimmt werden.
Bei weiteren Fragen zu Archivierungsprojekten kontaktieren Sie uns gerne. Wir können auf individuelle Fälle eingehen und erarbeiten dafür passende Lösungen.