Wir sind Experten in der Entwicklung von Informationsextraktionen auf der Grundlage von KI-Modellen, beteiligen uns aktiv an KI-Forschung zur Informationsextraktion und halten regelmäßig Vorträge zu diesem Thema.
Sprechen Sie mit Produktleiter Axel Besinger über Ihre Informationsextraktionsprojekte.
Von OCR zu LLMs: Der Weg zur zuverlässigen Datenextraktion aus komplexen Einzelhandelsdokumenten
Axel Besinger und
Augusto Stoffel (PhD)
23rd May 2025
KI-gestützte Datenextraktion funktioniert – bis sie nicht mehr funktioniert. Bei der Verarbeitung strukturierter Tabellen in Rechnungen, Bestellungen oder Finanzdokumenten erwarten wir, dass OCR, LLMs und Vision-KI Daten zuverlässig extrahieren. Komplexe Dokumente – z. B. verschachtelte Tabellen, unregelmäßige Strukturen und Randfälle – stellen jedoch eine echte Herausforderung für KI-Modelle zur Datenextraktion aus Dokumenten dar. Mit unserer Lösung Smartextract haben wir uns einer realen Kundenherausforderung gestellt: der Automatisierung der Auftragserfassung aus komplexen Auftragsdokumenten und Tabellen für einen deutschen Schuhhändler. OCR und textbasierte LLMs hatten Schwierigkeiten, Vision-LLMs waren inkonsistent. Nur durch umfangreiche Anpassungen konnten die auftretenden Probleme gelöst werden – darunter Segmentierung, Few-Shot-Prompting, Fine-Tuning und sogar die Möglichkeit, ein benutzerdefiniertes Computer-Vision-Modell zu trainieren. In diesem Vortrag zeigen wir, warum Standard-KI-Modelle mit komplexen Tabellen Schwierigkeiten haben und in welchen Fällen Segmentierung hilft. Darüber hinaus zeigen wir Benchmarks von kommerziellen und Open-Source-Modellen und diskutieren die Vor- und Nachteile von OCR, LLMs und Computer-Vision-Modellen.
dida talks
Axel Besinger
Augusto Stoffel (PhD)
Datenextraktion im Zeitalter von LLMs
Axel Besinger und
Augusto Stoffel (PhD)
31st May 2024
In den letzten Jahren hat das Aufkommen von Large Language Models (LLMs) die Landschaft der Datenextraktion verändert. Diese LLMs verfügen über unvergleichliche Textverarbeitungsfähigkeiten und sind mit riesigen Datenmengen vortrainiert, was sie für Aufgaben der Informationsbeschaffung sehr effektiv macht. Traditionelle Methoden wie graphbasierte neuronale Netze und extraktive Modelle wurden jedoch aufgrund ihrer effizienten Ressourcennutzung bevorzugt. Trotzdem stellt sich die Frage: Wie schneiden LLMs im Vergleich zu diesen Modellen bei praktischen Datenextraktionsanwendungen ab? Dieser Vortrag zielt darauf ab, diese Frage zu klären, indem er eine umfassende Untersuchung der Vor- und Nachteile von LLMs im Vergleich zu extraktiven Modellen bietet. Ausgehend von unseren Projekterfahrungen und internen Forschungsergebnissen möchten wir die praktischen Auswirkungen der Verwendung von LLMs für die Datenextraktion erläutern und Einblicke in ihre Wirksamkeit, ihren Ressourcenbedarf und ihre Gesamtleistung in realen Szenarien geben. Durch diese Untersuchung werden die Teilnehmer ein tieferes Verständnis für die Rolle von LLMs in modernen Datenextraktions-Workflows und die Überlegungen, die mit ihrer Implementierung verbunden sind, gewinnen. Link zur Software für Informationsextraktion: smartextract ( https://smartextract.ai )
dida talks
Angela Maennel
Kundenbedürfnisse verstehen mit NLP
Angela Maennel
19th January 2023
In diesem Vortrag geht es um die Vorteile der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) bei der Bereitstellung von Flexibilität gegenüber herkömmlichen restriktiven Online-Eingabemethoden. Er deutet die Freiheit an, die NLP bietet, indem es Freiformtext anstelle von begrenzten Sätzen oder Kontrollkästchen ermöglicht.
dida talks
Jona Welsch
Informationsextraktion mit BERT aus Freiformtexten
Jona Welsch
28th April 2023
Im Mittelpunkt des Vortrags von Jona Welsch steht der Einsatz von Deep Learning-Methoden wie BERT zur Extraktion von Informationen aus unstrukturiertem Text. Ein Projekt mit idealo dient als Fallstudie und zeigt, wie regelbasierte Algorithmen und Deep Learning kombiniert werden können, um Produktbeschreibungen in strukturierte Daten zu verwandeln. Der Vortrag befasst sich auch mit der Erstellung von schwach markierten Trainingsdaten, um den Markierungsprozess zu erleichtern.
dida talks
Augusto Stoffel (PhD)
Graph Neural Networks für die Informationsextraktion mit PyTorch
Augusto Stoffel (PhD)
30th July 2021
In Augusto Stoffels Vortrag stellt er Graph Neural Networks (GNNs) vor, indem er sie mit Convolutional Neural Networks (CNNs) vergleicht. Er beschreibt, wie ein Bild als Graph dargestellt werden kann, um einen natürlichen Übergang zu den Grundlagen der GNN-Architektur zu schaffen. Der Vortrag behandelt dann Python-Implementierungen, insbesondere im PyTorch-Framework, und konzentriert sich auf GNN-Anwendungen bei der Informationsextraktion aus tabellarischen Dokumenten im Bereich NLP.
dida talks
Ewelina Fiebig
Fabian Gringel
Labeling-Tools - Der zweite Schritt auf dem Weg zur erfolgreichen Umsetzung eines NLP-Projekts
Ewelina Fiebig und
Fabian Gringel
26th May 2021
Der Erfolg eines NLP-Projekts besteht aus einer Reihe von Schritten von der Datenvorbereitung bis zur Modellierung und Bereitstellung. Da es sich bei den Eingabedaten häufig um gescannte Dokumente handelt, werden bei der Datenaufbereitung zunächst Texterkennungswerkzeuge (kurz OCR) und später auch sogenannte Labeling-Tools eingesetzt. In diesem Webinar werden wir uns mit dem Thema der Auswahl eines geeigneten Kennzeichnungswerkzeugs befassen.
dida talks
Ewelina Fiebig
Fabian Gringel
Texterkennung (OCR) - Der erste Schritt auf dem Weg zu einer erfolgreichen Implementierung eines NLP-Projekts
Ewelina Fiebig und
Fabian Gringel
26th May 2021
In diesem Webinar widmen wir uns dem Thema Texterkennung und stellen Ihnen vor: Was bedeutet OCR? Anwendungsbeispiel Warum wird OCR benötigt? Welche OCR-Tools gibt es? Wie werden diese Tools bedient? Welches Tool passt auf welche Problemstellung?