Datenextraktion im Zeitalter von LLMs


Axel Besinger und Augusto Stoffel (PhD)

In den letzten Jahren hat das Aufkommen von Large Language Models (LLMs) die Landschaft der Datenextraktion verändert. Diese LLMs verfügen über unvergleichliche Textverarbeitungsfähigkeiten und sind mit riesigen Datenmengen vortrainiert, was sie für Aufgaben der Informationsbeschaffung sehr effektiv macht. Traditionelle Methoden wie graphbasierte neuronale Netze und extraktive Modelle wurden jedoch aufgrund ihrer effizienten Ressourcennutzung bevorzugt. Trotzdem stellt sich die Frage: Wie schneiden LLMs im Vergleich zu diesen Modellen bei praktischen Datenextraktionsanwendungen ab? Dieser Vortrag zielt darauf ab, diese Frage zu klären, indem er eine umfassende Untersuchung der Vor- und Nachteile von LLMs im Vergleich zu extraktiven Modellen bietet. Ausgehend von unseren Projekterfahrungen und internen Forschungsergebnissen möchten wir die praktischen Auswirkungen der Verwendung von LLMs für die Datenextraktion erläutern und Einblicke in ihre Wirksamkeit, ihren Ressourcenbedarf und ihre Gesamtleistung in realen Szenarien geben. Durch diese Untersuchung werden die Teilnehmer ein tieferes Verständnis für die Rolle von LLMs in modernen Datenextraktions-Workflows und die Überlegungen, die mit ihrer Implementierung verbunden sind, gewinnen.

Link zur Software für Informationsextraktion: smartextract (https://smartextract.ai)