A table with information
Extrahieren von Informationen aus Tabellen
Hintergrund
Informationen in Dokumenten sind oft in Form von Tabellen enthalten. Beispielsweise erhalten Mieter in Nebenkostenabrechnungen von Vermietern einmal im Jahr eine Übersicht über die Nebenkosten ihrer Wohnung. Die meisten Tabellen enthalten Kerninformationen über die Gesamtkosten für den Mieter, so dass es für eine machine learning Lösung von entscheidender Bedeutung ist, die richtigen Informationen zu extrahieren und ihre Werte zu validieren.
Herausforderungen
Obwohl es sich um eine Standardanwendung für machine learning zu handeln scheint, liegt eine große Herausforderung in der Erkennung und Extraktion tabellarischer Daten. Ohne eine ordnungsgemäße Tabellenerkennung im Vorfeld extrahieren viele OCR-Tools einfach die Fließtextdaten, ohne die tabellarische Struktur der Daten zu erkennen. Daher ist die richtige Kombination aus Tabellenerkennungsalgorithmus und OCR entscheidend, wenn es um die Extraktion tabellarischer Daten geht.
Darüber hinaus können tabellarische Daten als Teil eines Vertrags spezifisch für einen Kunden, eine Kundengruppe oder eine Liste von allgemeinen Bedingungen sein, die für den Kunden gelten können - oder auch nicht. Daher muss die Relevanz der Tabelle im Zusammenhang mit dem gesamten Dokument sorgfältig geprüft werden.
Lösungsansatz
Als erster Schritt wird ABBYY Fine Reader oder Amazon Textract als OCR-Tool empfohlen, die standardmäßig mit einer Tabellenextraktion geliefert werden.
Die Leistung der generischen Tools ist jedoch oft nicht ausreichend. Für spezielle Anwendungsfälle kann man sich zusätzliches Wissen zunutze machen, um deutlich bessere Ergebnisse zu erzielen. Dies ist insbesondere dann der Fall, wenn man die Art der Dokumente, mit denen man arbeitet, eingrenzen kann (z.B. nur Rechnungsdokumente).
Maßgeschneiderte Lösungen können auf recht einfachen Techniken zum Abgleich von regulären Ausdrücken/Zeichenketten basieren oder sich ausgefeilter Netzarchitekturen bedienen, wie z.B. Graph Neural Networks (Modellierung geometrischer Beziehungen von z.B. Wortkästen) oder Convolutional Neural Networks (Verwendung des Dokumentenbildes als Input). Oft ergibt eine Kombination verschiedener Ansätze das beste Ergebnis.