FewTuRe: Few-Shot Learning für die Informationsextraktion aus Rechnungen und Belegen

Q: Was ist das FewTuRe-Projekt?

FewTuRe ist ein Forschungsprojekt, das Few-Shot-Learning einsetzt, um die Dokumentenverarbeitung für KMUs zu automatisieren und Daten aus Dokumenten mit minimalem Trainingsaufwand zu extrahieren.

Q: Was ist das Ziel des FewTuRe-Projekts?

KI-gestützte Dokumentenautomatisierung.

FewTuRe ist ein Projekt, das Few-Shot Learning einsetzt, um die Dokumentenverarbeitung für KMUs zu automatisieren und Daten aus Dokumenten mit minimalem Trainingsaufwand zu extrahieren. In Zusammenarbeit mit der Machine-Learning-Gruppe der HU Berlin und gefördert vom Bundesministerium für Bildung und Forschung nutzt dida Transfer Learning und generative KI, um Datenknappheit und komplexe Dokumentformate zu bewältigen und eine skalierbare, transparente Lösung für die digitale Transformation zu gewährleisten.

Input

10–20 gelabelte Beispiele semistrukturierter Dokumente

Output

JSON-formatierte Informationen mit Vertrauenswerten

Ziel

KI-gestützte Dokumenten- automatisierung

Ausgangspunkt

Das Ziel dieses Projekts ist es, große Mengen semi-strukturierter Dokumente systematisch, kostengünstig und zuverlässig in digitale Informationen zu überführen – und das mit nur wenigen unternehmensspezifischen Trainingsdaten. In diesem Projekt dreht sich alles um Few-Shot Learning.

Herausforderungen

Die Datenmenge, die einem KMU zur Verfügung steht, ist in der Regel viel kleiner als die von Großunternehmen. Dieses Datendefizit kann die Leistung herkömmlicher ML-Modelle beeinträchtigen, da diese oft große Mengen an Daten benötigen, um eine zufriedenstellende Genauigkeit zu erreichen. Insbesondere die begrenzte Verfügbarkeit solcher Daten stellt eine zentrale Herausforderung bei der Verarbeitung sprachlicher und visueller Informationen dar.

Ein weiteres Problem für ML Scientists ist die semi-strukturierte Natur der Dokumente: Sie enthalten eine Mischung aus Fließtext, Tabellen und anderen einzigartigen Formatierungen. Da die Herausgeber dieser Dokumente keine einheitlichen Vorlagen verwenden, muss die vorgeschlagene Lösung in der Lage sein, unterschiedliche Versionen desselben Dokumenttyps (z. B. Rechnungen) zu verarbeiten und relevante Felder unabhängig von ihrer Position zu identifizieren.

Lösung / Ansätze

In diesem Projekt werden unter anderem die folgenden Themen untersucht: OCR, Few-Shot Fine-Tuning, Reinforcement Learning und multimodale LLMs.

Normalerweise wird ein Modell zur Informationsextraktion mit einem gelabelten Datensatz trainiert, der zwischen 1.000 und 10.000 Einträgen umfasst. In vielen Fällen fehlen solche Datensätze jedoch – sei es aus Budgetgründen oder aufgrund mangelnder Datenverfügbarkeit. Hier bietet Few-Shot Learning einen vielversprechenden Kompromiss: Das Fine-Tuning eines vortrainierten Modells mit nur minimalen Eingabedaten. Das ultimative Ziel ist es, Modelle zu entwickeln, die mit so wenigen Daten wie möglich (z. B. 10 bis 20 Beispielen) eine hohe Leistung erzielen.

Technischer Hintergrund

Um Erkenntnisse für das Projektziel zu gewinnen, müssen zunächst die Besonderheiten des Anwendungsbereichs untersucht werden. dida hat mit früheren Industriepartnern Kontakt aufgenommen und konnte so proprietäre Daten für das Training und die Evaluierung der Modelle sichern.

Die Kerntechnologien, die in das Endprodukt integriert werden, umfassen LLMs und Reinforcement-Learning-Modelle – für ein besseres Dokumentenverständnis – sowie generative KI, um die extrahierten Informationen verständlich aufzubereiten.

Um die oben genannten Herausforderungen zu bewältigen, werden wir die folgende Kombination von Techniken einsetzen, um eine Lösung zu entwickeln, die sowohl sicher als auch zuverlässig ist. Few-Shot Learning, wie es von dida implementiert wird, wird die folgenden Erkenntnisse aus der Forschung zu parameter-effizientem Fine-Tuning umfassen:

LoRA (Low-Rank Adaptation) - Um mit einer begrenzten Anzahl von Beispielen die bestmögliche Genauigkeit zu erzielen, verwenden wir LoRA, um die meisten Parameter des vortrainierten Modells einzufrieren und nur eine kleine Anzahl von Parametern anzupassen. Dadurch kann das Modell spezifisches Wissen über Dokumente aufnehmen, ohne bereits erworbene Fähigkeiten zu verlieren.

BitFit - Als zweite Technik setzen wir BitFit ein – eine Methode, die nur die Bias-Terme eines Modells anpasst. Diese Technik hat sich bei kleinen bis mittleren Datensätzen als besonders effektiv erwiesen, da nur unbedingt notwendige Parameter verändert werden, ohne dass ein vollständiges Fine-Tuning erforderlich ist.

Multilinguale LLMs für Transfer Learning - Die dritte Technik, die aufgrund ihrer Einfachheit erwähnenswert ist, ist der Einsatz von mehrsprachigen LLMs für das Transfer Learning. Wir trainieren ein Modell in der Sprache, die in den Dokumenten verwendet wird, so dass es in einer anderen Sprache, die bereits in der Wissensbasis des Modells vorhanden ist, verwendet werden kann.

Es ist eine ehrgeizige Herausforderung, mit nur zehn Beispielen eine zufriedenstellende Leistung zu erzielen. Um sicherzustellen, dass unser Modell die erforderlichen Standards erfüllt, werden wir Erklärbarkeitsmethoden in die Lösung integrieren. Diese Methoden ermöglichen es

den Nutzer:innen, die extrahierten Informationen bis zu ihrer ursprünglichen Position innerhalb des Dokuments zurückzuverfolgen.
für jede Vorhersage einen Confidence Score bereitzustellen.

Damit schaffen wir nicht nur Transparenz über die Entscheidungsgrundlage des Modells, sondern ermöglichen es auch den Endnutzer:innen, die extrahierten Inhalte selbstständig zu überprüfen und ihre Genauigkeit zu bewerten.

Kontakt

Wenn Sie mit uns über dieses Projekt sprechen möchten, kontaktieren Sie uns gerne und wir melden uns im Anschluss für ein unverbindliches Erstgespräch.

FewTuRe: Few-Shot Learning für die Informationsextraktion aus Rechnungen und Belegen

Ausgangspunkt

Herausforderungen

Lösung / Ansätze

Technischer Hintergrund

Kontakt

Please check the CAPTCHA box.

Thank you, we received your message and will contact you as soon as possible.

Ähnliche Projekte

Informationen aus Kundenanfragen extrahieren

Extraktion numerischer Attribute aus Produktbeschreibungen