Happy Birthday: 25 Jahre PDF

Das wichtigste Datenformat in der heutigen Arbeitswelt - egal ob für Online-Bewerbungen, E-Mail-Archivierung oder Langzeitarchivierung - ist unbestritten das Portable Document Format (PDF).

Das wichtigste Datenformat in der heutigen Arbeitswelt - egal ob für Online-Bewerbungen, E-Mail-Archivierung oder Langzeitarchivierung - ist unbestritten das Portable Document Format (PDF).

Eine sogenannte elektronische bzw. optoelektronisch lesbare Schrift wird als Barcode, Strichcode, Streifencode oder Balkencode bezeichnet. Dabei handelt es sich um lineare Barcodes. Daneben gibt es 2D-Barcodes, die aus unterschiedlich geformten Flächen bestehen und Informationen auf kleinerem Raum enthalten. Ein QR-Code besteht aus einer quadratischen Struktur.

In diesem Beispiel wird die Nutzung des OCR-Webservices von webPDF vorgestellt. Die OCR-Funktionen in webPDF basieren auf Tesseract. Standardmäßig werden die Sprachen Deutsch, Englisch, Französisch, Spanisch und Italienisch unterstützt. Weitere Sprachen lassen sich im Tesseract-Ordner hinzufügen (Näheres dazu in der webPDF-Anleitung).
Nicht unterstützt werden aktuell Sprachen mit einem „Multibyte Character Set“, zum Beispiel Arabisch und verschiedene fernöstliche Sprachen. Die Anwendung des OCR-Webservices ist vor allem bei Dokumenten sinnvoll, die Text enthalten, dieser aber nicht als echter Text eingebettet ist. Für das Extrahieren von normal eingebettetem Text aus PDF-Dokumenten bietet webPDF eine Möglichkeit im Toolbox-Webservice.