How-to: Einsatz des OCR-Webservices von webPDF 7
Minimale technische Voraussetzungen
- Java version: 7
- webPDF version: 7
- wsclient version: 1

In diesem Beispiel wird die Nutzung des OCR-Webservices von webPDF vorgestellt. Die OCR-Funktionen in webPDF basieren auf Tesseract. Standardmäßig werden die Sprachen Deutsch, Englisch, Französisch, Spanisch und Italienisch unterstützt. Weitere Sprachen lassen sich im Tesseract-Ordner hinzufügen (Näheres dazu in der webPDF-Anleitung).
Nicht unterstützt werden aktuell Sprachen mit einem „Multibyte Character Set“, zum Beispiel Arabisch und verschiedene fernöstliche Sprachen. Die Anwendung des OCR-Webservices ist vor allem bei Dokumenten sinnvoll, die Text enthalten, dieser aber nicht als echter Text eingebettet ist. Für das Extrahieren von normal eingebettetem Text aus PDF-Dokumenten bietet webPDF eine Möglichkeit im Toolbox-Webservice.