How-to: Einsatz des OCR-Webservices von webPDF 7
Minimum technical requirements
-
Java version: 7
-
webPDF version: 7
-
wsclient version: 1

In diesem Beispiel wird die Nutzung des OCR-Webservices von webPDF vorgestellt. Die OCR-Funktionen in webPDF basieren auf tesseract. Standartmäßig werden die Sprachen Deutsch, Englisch, Französisch, Spanisch und Italienisch unterstützt. Sprachen lassen sich im tesseract-Ordner hinzufügen (Näheres dazu in der Anleitung von webPDF). Nicht unterstützt werden momentan Sprachen mit einem „Multibyte Character Set". Dies betrifft zum Beispiel Arabisch und fernöstliche Sprachen. Wie anzunehmen macht die Anwendung des OCR-Webservices vor allem bei Dokumenten Sinn, die Text enthalten, der allerdings nicht als Text eingebettet ist. Zum Extrahieren von normalem Text aus PDF-Dokumenten bietet webPDF eine einfache Möglichkeit im Toolbox-Webservice an.