© unsplash/@mbaumi

© unsplash/@mbaumi
Backoffice-Automatisierung

Extrahieren von Informationen aus Tabellen

Hintergrund

Informationen in Dokumenten sind oft in Form von Tabellen enthalten. Beispielsweise erhalten Mieter in Nebenkostenabrechnungen von Vermietern einmal im Jahr eine Übersicht über die Nebenkosten ihrer Wohnung. Die meisten Tabellen enthalten Kerninformationen über die Gesamtkosten für den Mieter, so dass es für eine machine learning Lösung von entscheidender Bedeutung ist, die richtigen Informationen zu extrahieren und ihre Werte zu validieren.

Herausforderungen

Obwohl es sich um eine Standardanwendung für machine learning zu handeln scheint, liegt eine große Herausforderung in der Erkennung und Extraktion tabellarischer Daten. Ohne eine ordnungsgemäße Tabellenerkennung im Vorfeld extrahieren viele OCR-Tools einfach die Fließtextdaten, ohne die tabellarische Struktur der Daten zu erkennen. Daher ist die richtige Kombination aus Tabellenerkennungsalgorithmus und OCR entscheidend, wenn es um die Extraktion tabellarischer Daten geht.

Darüber hinaus können tabellarische Daten als Teil eines Vertrags spezifisch für einen Kunden, eine Kundengruppe oder eine Liste von allgemeinen Bedingungen sein, die für den Kunden gelten können - oder auch nicht. Daher muss die Relevanz der Tabelle im Zusammenhang mit dem gesamten Dokument sorgfältig geprüft werden.

Lösungsansatz

Als erster Schritt wird ABBYY Fine Reader oder Amazon Textract als OCR-Tool empfohlen, die standardmäßig mit einer Tabellenextraktion geliefert werden. Die Leistung der generischen Tools ist jedoch oft nicht ausreichend. Für spezielle Anwendungsfälle kann man sich zusätzliches Wissen zunutze machen, um deutlich bessere Ergebnisse zu erzielen. Dies ist insbesondere dann der Fall, wenn man die Art der Dokumente, mit denen man arbeitet, eingrenzen kann (z.B. nur Rechnungsdokumente).

Maßgeschneiderte Lösungen können auf recht einfachen Techniken zum Abgleich von regulären Ausdrücken/Zeichenketten basieren oder sich ausgefeilter Netzarchitekturen bedienen, wie z.B. Graph Neural Networks (Modellierung geometrischer Beziehungen von z.B. Wortkästen) oder Convolutional Neural Networks (Verwendung des Dokumentenbildes als Input). Oft ergibt eine Kombination verschiedener Ansätze das beste Ergebnis.

Diese Webinare könnten Sie interessieren

Texterkennung (OCR) - Der erste Schritt auf dem Weg zu einer erfolgreichen Implementierung eines NLP-Projekts

In diesem Webinar wenden wir uns dem Thema Texterkennung zu.

Ewelina Fiebig

Machine Learning Scientist

Fabian Gringel

Machine Learning Scientist

Labeling-Tools - Der zweite Schritt auf dem Weg zur erfolgreichen Umsetzung eines NLP-Projekts

Der Erfolg eines NLP-Projekts besteht aus einer Reihe von Schritten von der Datenvorbereitung bis zur Modellierung und Bereitstellung. Da es sich bei den Eingabedaten häufig um gescannte Dokumente handelt, werden bei der Datenaufbereitung zunächst Texterkennungswerkzeuge (kurz OCR) und später auch sogenannte Labeling-Tools eingesetzt. In diesem Webinar werden wir uns mit dem Thema der Auswahl eines geeigneten Kennzeichnungswerkzeugs befassen.

Ewelina Fiebig

Machine Learning Scientist

Fabian Gringel

Machine Learning Scientist

Rekurrente neuronale Netze: Wie Computer lesen lernen

Das Webinar gibt eine Einführung in die Funktionsweise von RNNs und veranschaulicht deren Einsatz an einem Beispielprojekt aus dem Bereich der Legal Tech

Fabian Gringel

Machine Learning Scientist