Eine sogenannte elektronische bzw. optoelektronisch lesbare Schrift wird als Barcode, Strichcode, Streifencode oder Balkencode bezeichnet. Dabei handelt es sich um lineare Barcodes. Daneben gibt es 2D-Barcodes, die aus unterschiedlich geformten Flächen bestehen und Informationen auf kleinerem Raum enthalten. Ein QR-Code besteht aus einer quadratischen Struktur.
In diesem Beispiel wird die Nutzung des OCR-Webservices von webPDF vorgestellt. Die OCR-Funktionen in webPDF basieren auf Tesseract. Standardmäßig werden die Sprachen Deutsch, Englisch, Französisch, Spanisch und Italienisch unterstützt. Weitere Sprachen lassen sich im Tesseract-Ordner hinzufügen (Näheres dazu in der webPDF-Anleitung).
Nicht unterstützt werden aktuell Sprachen mit einem „Multibyte Character Set“, zum Beispiel Arabisch und verschiedene fernöstliche Sprachen. Die Anwendung des OCR-Webservices ist vor allem bei Dokumenten sinnvoll, die Text enthalten, dieser aber nicht als echter Text eingebettet ist. Für das Extrahieren von normal eingebettetem Text aus PDF-Dokumenten bietet webPDF eine Möglichkeit im Toolbox-Webservice.
In diesem Beispiel wird vermittelt, wie den genutzten Webservices von webPDF Optionen übergeben werden können. Außerdem wird neben dem bekannten Converter-Webservice ein zweiter webPDF-Webservice mit dem Namen Toolbox verwendet.
Dieses Beispiel baut auf dem Blog „How-to: Wie kann man die Webservices von webPDF 7 verwenden" auf. Falls Sie diesen noch nicht kennen, empfehlen wir, zunächst damit zu beginnen. An den Softwareanforderungen ändert sich im Vergleich zum ersten Beispiel-Blog nichts.