© unsplash/@youxventures

© unsplash/@youxventures
Backoffice-Automatisierung

Extraktion von Entitäten aus Rechnungen und Bestellungen in SAP

Hintergrund

Eingehende Rechnungen und Bestellungen von externen Firmen treffen in einer Vielzahl von Formaten ein. Um die Dokumente weiter zu verarbeiten, müssen die wichtigsten Informationen extrahiert und in die Software des Unternehmens wie z.B. SAP eingegeben werden. Bei Eingangsrechnungen müssen mindestens die Bankkontonummer, der Nettobetrag, die Mehrwertsteuer, der Name des Lieferanten, das Fälligkeitsdatum der Zahlung und das Rechnungsdatum extrahiert werden.

Herausforderungen

Da die Rechnungen und Bestellungen von einer Vielzahl von Lieferanten und Kunden stammen, gibt es keine einheitliche Extraktionsmethode, die angewendet werden kann. Diese Herausforderung ist umso dringlicher, wenn das Unternehmen in verschiedenen Ländern mit unterschiedlichen Sprachen und Formaten tätig ist und eine hohe Anzahl von Kunden oder Lieferanten mit gelegentlichen Bestellungen oder Lieferungen hat. Optical Character Recognition (OCR) und schablonenbasierte Lösungen werden daher - in den meisten Fällen - keine zufriedenstellenden Ergebnisse liefern.

Lösungsansatz

In einem ersten Schritt muss der Dokumentinhalt mit OCR-Bibliotheken wie TesserAct, ABBYY FineReader oder Google Vision API extrahiert werden. Sobald das richtige OCR-Tool ausgewählt ist, muss eine Datenpipeline mit einer hohen Anzahl von Labels ("Ground Truth Data") eingerichtet und ein machine learning (ML) Modell trainiert werden.

Für Informationen innerhalb einer Tabelle muss eine Tabellensegmentierung angewendet werden, um die Position einer Entität innerhalb von Tabellen zu lokalisieren. Für einfache Extraktionsfelder, wie z.B. Daten, könnten z.B. regelbasierte Ansätze ausreichend zuverlässig sein.

Für komplexere Felder sind die Optionen für ML-Algorithmen Random Forest, Naive Bayes Klassifikatoren, TF-IDF- oder LSTM-Algorithmen. Graph Neural Networks sind eine weitere Option zur Abbildung von Beziehungen zwischen Entitäten (wie z.B. Fälligkeitsdatum und Zahlungsdatum). In den meisten Fällen liefert eine Kombination aus regulären Ausdrücken, traditionellen Methoden des maschinellen Lernens und tiefen neuronalen Netzen die besten Ergebnisse.

Passende Case Studies

Natural Language Processing

Rechtliche Überprüfung von Mietverträgen

Mit Hilfe verschiedener Methoden aus dem Bereich NLP entdeckt diese Software Fehler in Verträgen.
Unsere Lösung

Diese Webinare könnten Sie interessieren

Texterkennung (OCR) - Der erste Schritt auf dem Weg zu einer erfolgreichen Implementierung eines NLP-Projekts

In diesem Webinar wenden wir uns dem Thema Texterkennung zu.

Ewelina Fiebig

Machine Learning Scientist

Fabian Gringel

Machine Learning Scientist

Labeling-Tools - Der zweite Schritt auf dem Weg zur erfolgreichen Umsetzung eines NLP-Projekts

Der Erfolg eines NLP-Projekts besteht aus einer Reihe von Schritten von der Datenvorbereitung bis zur Modellierung und Bereitstellung. Da es sich bei den Eingabedaten häufig um gescannte Dokumente handelt, werden bei der Datenaufbereitung zunächst Texterkennungswerkzeuge (kurz OCR) und später auch sogenannte Labeling-Tools eingesetzt. In diesem Webinar werden wir uns mit dem Thema der Auswahl eines geeigneten Kennzeichnungswerkzeugs befassen.

Ewelina Fiebig

Machine Learning Scientist

Fabian Gringel

Machine Learning Scientist

Semantische Suche und Verstehen von natürlichem Text mit Neuronalen Netzen: BERT

In diesem Webinar erhalten Sie eine Einführung in die Anwendung von BERT für die semantische Suche anhand einer realen Fallstudie: Jedes Jahr interagieren Millionen von Bürgern mit Behörden und werden regelmäßig von der dort verwendeten Fachsprache überwältigt. Wir haben das BERT erfolgreich eingesetzt, um mit Hilfe von umgangssprachlichen Abfragen aus Regierungsdokumenten die richtige Antwort zu liefern - ohne dabei Fachbegriffe in den Abfragen verwenden zu müssen.

Konrad Schultka

Machine Learning Scientist

Jona Welsch

Machine Learning Scientist

Rekurrente neuronale Netze: Wie Computer lesen lernen

Das Webinar gibt eine Einführung in die Funktionsweise von RNNs und veranschaulicht deren Einsatz an einem Beispielprojekt aus dem Bereich der Legal Tech

Fabian Gringel

Machine Learning Scientist