PDF-Dokumente mit OCR optimieren

OCR für PDF nutzen? Ist das nicht ein Widerspruch? Das mag man zunächst denken, da PDF-Dokumente ja nun mal per se schon digital sind und die OCR-Technologie (Optical Character Recognition) in erster Linie dafür bekannt ist, dabei zu helfen Papier-Dokumente zu digitalisieren.

OCR kann aber auch dabei helfen, die Arbeit mit PDF-Dokumenten zu erleichtern und ein gutes OCR-Tool sollte ohnehin gescannte, aber auch digital erzeugte oder gemischte Dateien verarbeiten können.

PDF-Dokumente mit OCR editierbar machen

Bestimmte Bearbeitungsfunktionen für PDF-Dokumente werden erst durch den Einsatz der OCR Technik möglich, zu nennen wäre hier unter anderem Textbearbeitung, Volltextsucht, Schwärzung, Extraktion von Tabellen sowie der Vergleich/Abgleich von Dokumenten. Man kann also mit Hilfe der OCR-Technik die Arbeit mit PDFs verbessern, d.h. man nutzt die Technik der optischen Texterkennung nicht nur dafür Dokumente durchsuchbar zu machen, sondern ermöglicht es auch, dass sie editierbar werden. Wenn man OCR, also Optische Zeichenerkennung auf PDF-Dokumente anwendet, dann wandelt man sie in eine vollständig editierbare Kopie der PDF-Datei um.

Warum OCR für PDF-Dokumente nutzen?

Sobald man die Informationen aus dem PDF-Dokument näher analysieren möchte, sie verändern oder wiederverwenden möchte, hat man normalerweise ein Problem denn entweder hat man nur ein gescanntes Dokument, also nur ein Bild und keinen Text oder wenn Text vorhanden ist, ist die Dokumentenstruktur nicht ausreichend zu erkennen. Denn normalerweise enthalten PDF-Dokumente keine Informationen über ihre Dokumentenstruktur.

Und an dieser Stelle kommt dann die OCR-Technik ins Spiel. Sie können mit OCR sichtbar machen, welche Teile des PDF-Dokuments aus Text, Bildern, Linien oder anderen Elemente besteht und wie diese Elemente zueinander in Beziehung stehen. Zusätzlich können Sie mit Hilfe von OCR dann bestimmte Bearbeitungsfunktionen am PDF-Inhalt möglich machen, die vorher nicht so uneingeschränkt möglich waren.

Erst einmal enthält ein PDF von sich aus keine Informationen über Wörter, Zeilen, Absätze oder andere Dokumentelementen, also keine Informationen über die Dokumentenstruktur (Bedeutet das, dass PDF-Dokument nicht von Screen-Readern erfasst, also nicht barrierefrei sein können? Mehr dazu hier…) Da OCR die Struktur des Dokuments erkennen kann, was sonst nicht möglich ist, kann man also einige Aufgaben im Zusammenhang mit PDF-Dokumenten erst mit Hilfe von OCR ermöglichen.

Beispielsweise: Die OCR Technik ermöglicht eine PDF-Bearbeitung auf Absatzebene. Die Textabsätze bleiben bei der Bearbeitung konsistent. OCR kann die entsprechende Markierung erkennen.

Vorteil von OCR:

Die Bearbeitung eines Absatzes in einer digitalen PDF-Datei mit Hilfe von OCR läuft in mehreren Schritten ab. Der Text wird aus der PDF-Datei übernommen, so wie er vorliegt. OCR erkennt die Markierungen. Das ist die Voraussetzung, damit der Absatz ordentlich bearbeitet werden kann. Dann kann der Benutzer mit der Text-Bearbeitung beginnen.

Da das Programm die Struktur der Absätze bereits kennt und nachvollziehen kann, werden die Textänderungen reibungslos durchgeführt. Dies ermöglicht Übergänge von Zeile zu Zeile, einheitliche Zeilen- und Zeichenabstände, die automatische Auswahl der Schriftart, das Ausdehnen oder Verkleinern der Absatzränder entsprechend den Änderungen und so weiter. Alle Bearbeitungen werden dem Benutzer in Echtzeit angezeigt. (Quelle: https://www.pdfa.org/how-ocr-facilitates-digital-transformations-for-pdfs/)

Zusammengefasst kann man sagen: Mit Hilfe von OCR kann man eine digitale Darstellung der Struktur eines PDFs erhalten und somit den Inhalt effektiv analysieren, vergleichen, verändern oder auch extrahieren.

Was macht OCR ganz konkret mit einem PDF?

Folgende Schritte finden statt:

  1. Dokumentenanalyse: Sobald ein Benutzer mit der Bearbeitung beginnt, verarbeitet die Dokumentenanalyse das Rasterbild der Seite und findet die Elemente wie Texte und Bilder
  2. Die Textstücke aus der Dokumentenanalyse werden mit ORC „gelesen“ und in digitalen, editierbaren Text umgewandelt
  3. Anschließend wird eine temporäre Kopie der Seite erstellt, welcher alle erforderlichen Markierungen hinzugefügt werden. Die Teile werden also zusammengesetzt (Synthese), d.h. das gesamte Dokument wird in digitaler Form zusammengeführt, dabei analysiert ein Synthese-System die Parameter und die Reihenfolge der Teile und sucht nach Mustern, um die Dokumentenstruktur wieder herzustellen.

Nach den Arbeitsschritten Analyse und Synthese sowie der richtigen Zuordnung kann der Benutzer den Text editieren. Anschließend wird das PDF aktualisiert. Trotz der Verwendung von OCR ist es für die Bearbeitung nicht erforderlich, das resultierende Dokument als Kopie des Originaldokuments zu erstellen, das durch den Konvertierungsprozess entstanden ist. Da die Bearbeitungen im Originaldokument selbst vorgenommen werden, bleibt alles, was nicht bearbeitet wurde, unverändert erhalten.

Fazit: Es macht Sinn OCR für PDF-Dokumente nutzen

OCR ist sowohl für Scans als auch für digital erzeugte Dokumente sinnvoll, da oftmals der Text in einem digital erzeugten PDF zwar maschinenlesbar ist aber es an viele Strukturinformationen fehlt. Wenn man diese Strukturdetails der digitalen erzeugten Seiten nicht verlieren will, muss man mit einem OCR-Tool arbeiten und kann so unlesbare Schriften mit Unicode-Informationen anreichern oder Texte in eingebetteten Bildern erkennen und zusätzlich fehlende Strukturinformationen erzeugen.

Sie können vor allen Dingen den Workflow rund um Ihre PDF-Dokumente in Ihren Unternehmen deutlich verbessern. Alle Betriebsabläufe, bei denen Sie Ihre Dokumente schnell auffinden und effizient verarbeiten sowie archivieren möchten, können Sie (auch mit webPDF) mit Hilfe von OCR optimieren:

Mehr Infos auf unserer Website: https://www.webpdf.de/pdf-ocr

Oder im Blog:

Quelle:

Tags: