Klassifizierung und Informationsextraktion von eingehenden Dokumenten zur Vollständigkeits- und Betrugsprüfung

Use cases

Regierung & Öffentlicher Sektor


Die fortschreitende Digitalisierung der öffentlichen Verwaltung in Deutschland vereinfacht den Zugang zu den öffentlichen Dienstleistungen und schafft Potenzial für eine effizientere Bearbeitung von Angelegenheiten der Bürger:innen. Die manuelle Verarbeitung eingehender Dokumente kann jedoch sehr zeitaufwendig sein und bindet viele personelle Ressourcen. Durch moderne ML- und NLP-Methoden können eingehende Dokumente automatisch kategorisiert, auf betrügerische Merkmale geprüft und dem Fachpersonal zugeordnet werden sowie relevante Informationen aus den Dokumente extrahiert und für nachfolgende Aufgaben aufbereitet werden. Beispielsweise können so Prozesse bei staatlichen Zuschuss- und Förderprogrammen effizienter gemacht werden, indem eingehende Rechnungen der Beantragenden der richtigen Förderkategorie zugeordnet, prüfungsrelevante Felder wie Rechnungsbetrag und -datum extrahiert und Merkmale, die auf eine Fälschung hindeuten, identifiziert werden.

Motivation


Im Zuge der Digitalisierung der öffentlichen Verwaltung wurden bereits viele Services für Angelegenheiten der Bürger:innen über Online-Anwendungen zugänglich gemacht. Die Vorteile sind, dass lange Wartezeiten wegfallen und unvollständige Unterlagen verhindert werden. Allerdings können personelle und zeitliche Engpässe auch bei der Verarbeitung und Prüfung von digital eingereichten Dokumenten entstehen. Dies beinhaltet die formelle Überprüfung, z.B. ob alle erforderlichen Felder und Checkboxen ausgefüllt und Unterschriften korrekt gesetzt wurden, und die inhaltliche Überprüfung, z.B. ob die Nachweise für einen Genehmigungsantrag zur Ausführung ärztlicher Leistungen passend sind. Zusätzlich können Betrugsprüfungen anfallen, z.B. ob Nachweise von bezuschussten oder geförderten Arbeiten gefälscht oder manipuliert sind. NLP- und ML-gestützte Lösungen sind in der Lage, solche Schritte zu automatisieren und zusätzlich personen- und prüfungsrelevante Attribute für weitere Bearbeitungsschritte zu extrahieren, wie das Datum des Antrags und der Name des Antragstellers. Insbesondere moderne LLMs weisen eine hohe Transferierbarkeit auf, sodass verschiedene Antragsverfahren mit unterschiedlichen Modalitäten und Schemata effizient umgesetzt werden können. Die so geprüften Dokumente und extrahierten Informationen können im Anschluss aufbereitet und dem zuständigen Fachverfahren bzw. -personal zugeordnet sowie am richtigen Ort im IT-System gespeichert werden.

Herausforderungen


Für eingehende Dokumente, die einer bestimmten Struktur bzw. Layout folgen, z.B. Antragsdokumente für ein spezifisches Genehmigungsverfahren, bei denen die Eingabefelder und Textboxen immer gleich angeordnet sind, funktionieren oftmals auch regelbasierte Ansätze. Sollen aber verschiedene Genehmigungsverfahren, die über Dokumente in verschiedenen Layouts und Formaten laufen, von einem einzigen ML-Modell abgebildet werden, muss dieses in der Lage sein, die unterschiedlichen sprachlichen und strukturellen Merkmale zu verarbeiten. Bei dem oben erwähnten Prozess zur Prüfung von bezuschussten oder geförderten Arbeiten unterscheiden sich beispielsweise die Layouts der eingereichten Rechnungen und Bescheinigungen in der Regel darin, wie Kosten und Preise dargestellt und angeordnet sind. Mit einem annotierten Datensatz, der verschiedene Strukturen und Terminologien abbildet, kann ein ML-Modell für verschiedene spezifische Verfahren gleichzeitig angepasst werden.

Ein weiterer wichtiger Aspekt bei öffentlichen Dienstleistungen ist, dass auch Dokumente in anderen Sprachen verarbeitet werden müssen. Hier muss sichergestellt werden, dass das ML-Modell mit mehrsprachigen Dokumenten trainiert wurde oder Dokumente durch andere Sprachmodelle übersetzt werden.

Lösungsansätze


Um Texte automatisch klassifizieren zu können, werden neuronale Sprachmodelle verwendet, z.B. BERT oder LLMs wie Llama oder Mistral. Solche Modelle können die semantischen Beziehungen zwischen Wörtern und ihrem jeweiligen Kontext sowie fachspezifischen Terminologie, z.B. der administrativen Sprache, erkennen. Dadurch sind solche Modelle in der Lage, die Textfelder und -abschnitte kontextuell einzuordnen und zu kategorisieren. Durch annotierte Beispieldokumente kann ein Sprachmodell lernen, ob ein Textfeld z.B. eine Unterschrift oder ein Datum enthält.

Für die Textklassifizierung und Informationsextraktion existieren vortrainerte Modelle, die eine hohe Generalisierbarkeit besitzen und teilweise bereits in verschiedenen Sprachen trainiert wurden. Je nach Komplexität des Anwendungsfalls gibt es besondere Methoden und Algorithmen, die diese Modelle mit nur einigen wenigen annotierten Beispieldokumenten anpassen. Für das oben erwähnte Zuschussprogramm könnten etwa weniger als 50 beispielhafte und repräsentative Rechnungen und Bescheinigungen ausreichen, um sie von einem ML-System automatisch verarbeiten und überprüfen zu lassen.