16 Posts getaggt mit "OCR"

Alle Tags anzeigen

How-to: Einsatz des OCR-Webservices von webPDF 7

Minimale technische Voraussetzungen

  • Java version: 7
  • webPDF version: 7
  • wsclient version: 1

Bild Glühbirne: Anleitung - Tutorial

In diesem Beispiel wird die Nutzung des OCR-Webservices von webPDF vorgestellt. Die OCR-Funktionen in webPDF basieren auf Tesseract. Standardmäßig werden die Sprachen Deutsch, Englisch, Französisch, Spanisch und Italienisch unterstützt. Weitere Sprachen lassen sich im Tesseract-Ordner hinzufügen (Näheres dazu in der webPDF-Anleitung).

Nicht unterstützt werden aktuell Sprachen mit einem „Multibyte Character Set“, zum Beispiel Arabisch und verschiedene fernöstliche Sprachen. Die Anwendung des OCR-Webservices ist vor allem bei Dokumenten sinnvoll, die Text enthalten, dieser aber nicht als echter Text eingebettet ist. Für das Extrahieren von normal eingebettetem Text aus PDF-Dokumenten bietet webPDF eine Möglichkeit im Toolbox-Webservice.