Happy Birthday: 25 Jahre PDF

25 Jahre PDF

Das wichtigste Datenformat in der heutigen Arbeitswelt - egal ob für Online-Bewerbungen, E-Mail-Archivierung oder Langzeitarchivierung - ist unbestritten das Portable Document Format (PDF).

Arbeiten mit Barcodes in PDF-Dokumenten

QR-Code Abbildung: Barcodes in PDFs

Eine sogenannte elektronische bzw. optoelektronisch lesbare Schrift wird als Barcode, Strichcode, Streifencode oder Balkencode bezeichnet. Dabei handelt es sich um lineare Barcodes. Daneben gibt es 2D-Barcodes, die aus unterschiedlich geformten Flächen bestehen und Informationen auf kleinerem Raum enthalten. Ein QR-Code besteht aus einer quadratischen Struktur.

How-to: Einsatz des OCR-Webservices von webPDF 7

Minimale technische Voraussetzungen

  • Java version: 7
  • webPDF version: 7
  • wsclient version: 1

Bild Glühbirne: Anleitung - Tutorial

In diesem Beispiel wird die Nutzung des OCR-Webservices von webPDF vorgestellt. Die OCR-Funktionen in webPDF basieren auf Tesseract. Standardmäßig werden die Sprachen Deutsch, Englisch, Französisch, Spanisch und Italienisch unterstützt. Weitere Sprachen lassen sich im Tesseract-Ordner hinzufügen (Näheres dazu in der webPDF-Anleitung).

Nicht unterstützt werden aktuell Sprachen mit einem „Multibyte Character Set“, zum Beispiel Arabisch und verschiedene fernöstliche Sprachen. Die Anwendung des OCR-Webservices ist vor allem bei Dokumenten sinnvoll, die Text enthalten, dieser aber nicht als echter Text eingebettet ist. Für das Extrahieren von normal eingebettetem Text aus PDF-Dokumenten bietet webPDF eine Möglichkeit im Toolbox-Webservice.