Von OCR zu LLMs: Der Weg zur zuverlässigen Datenextraktion aus komplexen Einzelhandelsdokumenten
KI-gestützte Datenextraktion funktioniert – bis sie nicht mehr funktioniert. Bei der Verarbeitung strukturierter Tabellen in Rechnungen, Bestellungen oder Finanzdokumenten erwarten wir, dass OCR, LLMs und Vision-KI Daten zuverlässig extrahieren. Komplexe Dokumente – z. B. verschachtelte Tabellen, unregelmäßige Strukturen und Randfälle – stellen jedoch eine echte Herausforderung für KI-Modelle zur Datenextraktion aus Dokumenten dar. Mit unserer Lösung Smartextract haben wir uns einer realen Kundenherausforderung gestellt: der Automatisierung der Auftragserfassung aus komplexen Auftragsdokumenten und Tabellen für einen deutschen Schuhhändler. OCR und textbasierte LLMs hatten Schwierigkeiten, Vision-LLMs waren inkonsistent. Nur durch umfangreiche Anpassungen konnten die auftretenden Probleme gelöst werden – darunter Segmentierung, Few-Shot-Prompting, Fine-Tuning und sogar die Möglichkeit, ein benutzerdefiniertes Computer-Vision-Modell zu trainieren. In diesem Vortrag zeigen wir, warum Standard-KI-Modelle mit komplexen Tabellen Schwierigkeiten haben und in welchen Fällen Segmentierung hilft. Darüber hinaus zeigen wir Benchmarks von kommerziellen und Open-Source-Modellen und diskutieren die Vor- und Nachteile von OCR, LLMs und Computer-Vision-Modellen.