FewTuRe: Few-Shot-Lernen für die Informationsextraktion aus Rechnungen und Belegen


FewTuRe ist ein Forschungsprojekt, das Few-Shot-Learning einsetzt, um die Dokumentenverarbeitung für KMUs zu automatisieren und Daten aus Dokumenten mit minimalem Trainingsaufwand zu extrahieren. In Zusammenarbeit mit der Machine-Learning-Gruppe der HU Berlin und dem Bundesministerium für Bildung und Forschung nutzt dida Transfer Learning und generative KI, um Datenknappheit und komplexe Formate zu bewältigen und eine skalierbare, transparente Lösung für die digitale Transformation zu gewährleisten.

Input

10–20 gelabelte Beispiele semistrukturierter Dokumente

Output

JSON-formatierte Informationen mit Vertrauenswerten

Ziel

KI-gestützte Dokumentenautomatisierung


Ausgangspunkt


Das Ziel dieses Projekts ist es, große Mengen semi-strukturierter Dokumente systematisch, kostengünstig und zuverlässig in digitale Informationen zu überführen – und das mit nur wenigen unternehmensspezifischen Trainingsdaten. In diesem Projekt dreht sich alles um Few-Shot Learning.


Herausforderungen


Die Datenmenge, die einem KMU zur Verfügung steht, ist in der Regel viel kleiner als die von Großunternehmen. Dieses Datendefizit kann die Leistung herkömmlicher ML-Modelle beeinträchtigen, da diese oft große Mengen an Daten benötigen, um eine zufriedenstellende Genauigkeit zu erreichen. Insbesondere die begrenzte Verfügbarkeit solcher Daten stellt eine zentrale Herausforderung bei der Verarbeitung sprachlicher und visueller Informationen dar.

Ein weiteres Problem für ML-Forscher ist die semi-strukturierte Natur der Dokumente: Sie enthalten eine Mischung aus Fließtext, Tabellen und anderen einzigartigen Formatierungen. Da die Herausgeber dieser Dokumente keine einheitlichen Vorlagen verwenden, muss die vorgeschlagene Lösung in der Lage sein, unterschiedliche Versionen desselben Dokumenttyps (z. B. Rechnungen) zu verarbeiten und relevante Felder unabhängig von ihrer Position zu identifizieren.


Lösung / Ansätze


In diesem Projekt werden unter anderem die folgenden Themen untersucht: OCR, Few-Shot-Fine-Tuning, Reinforcement-Modelle und multimodale LLMs.

Normalerweise wird ein Modell zur Informationsextraktion mit einem gelabelten Datensatz trainiert, der zwischen 1.000 und 10.000 Einträgen umfasst. In vielen Fällen fehlen solche Datensätze jedoch – sei es aus Budgetgründen oder aufgrund mangelnder Datenverfügbarkeit. Hier bietet Few-Shot Learning einen vielversprechenden Kompromiss: Die Feinabstimmung eines vortrainierten Modells mit nur minimalen Eingabedaten. Das ultimative Ziel ist es, Modelle zu entwickeln, die mit so wenigen Daten wie möglich (z. B. 10 bis 20 Beispielen) eine hohe Leistung erzielen.


Technischer Hintergrund


Um Erkenntnisse für das Projektziel zu gewinnen, müssen zunächst die Besonderheiten des Anwendungsbereichs untersucht werden. dida hat mit früheren Industriepartnern Kontakt aufgenommen und konnte so proprietäre Daten für die Forschung sichern.

Die Kerntechnologien, die in das Endprodukt integriert werden, umfassen LLMs und Reinforcement-Learning-Modelle – für ein besseres Dokumentenverständnis – sowie generative KI, um die extrahierten Informationen verständlich aufzubereiten.

Um die oben genannten Herausforderungen zu bewältigen, werden wir die folgende Kombination von Techniken einsetzen, um eine Lösung zu entwickeln, die sowohl sicher als auch zuverlässig ist. Few-Shot Learning, wie es von dida implementiert wird, wird die folgenden Erkenntnisse aus der Forschung zu parameter-effizientem Fine-Tuning umfassen:

  1. LoRA (Low-Rank Adaptation) - Um mit einer begrenzten Anzahl von Beispielen die bestmögliche Genauigkeit zu erzielen, verwenden wir LoRA, um die meisten Parameter des vortrainierten Modells einzufrieren und nur eine kleine Anzahl von Parametern anzupassen. Dadurch kann das Modell spezifisches Wissen über Dokumente aufnehmen, ohne bereits erworbene Fähigkeiten zu verlieren.

  1. BitFit - Als zweite Technik setzen wir BitFit ein – eine Methode, die nur die Bias-Terme eines Modells anpasst. Diese Technik hat sich bei kleinen bis mittleren Datensätzen als besonders effektiv erwiesen, da nur unbedingt notwendige Parameter verändert werden, ohne dass ein vollständiges Fine-Tuning erforderlich ist.

  1. Multilinguale LLMs für Transfer Learning - Schließlich setzen wir multilinguale LLMs für Transfer Learning ein. Das Modell wird in der Sprache der vorliegenden Dokumente trainiert und kann dann auf eine andere Sprache übertragen werden, die bereits in seinem Wissensbestand vorhanden ist. Diese Methoden ermöglichen es:

Es ist eine ehrgeizige Herausforderung, mit nur zehn Beispielen eine zufriedenstellende Leistung zu erzielen. Um sicherzustellen, dass unser Modell die erforderlichen Standards erfüllt, werden wir Erklärbarkeitsmethoden in die Lösung integrieren.

  • Die extrahierten Informationen an ihrer ursprünglichen Position im Dokument nachzuvollziehen.

  • Einen Vertrauenswert für jede Vorhersage bereitzustellen.

Damit schaffen wir nicht nur Transparenz über die Entscheidungsgrundlage des Modells, sondern ermöglichen es auch den Endnutzern, die extrahierten Inhalte selbstständig zu überprüfen und ihre Genauigkeit zu bewerten.


Kontakt


Wenn Sie mit uns über dieses Projekt sprechen möchten, kontaktieren Sie uns gerne und wir melden uns im Anschluss für ein unverbindliches Erstgespräch.


Ähnliche Projekte