Semantische Suche und RAG für das Durchsuchen von Dokumentarchiven

Use cases

Regierung & Öffentlicher Sektor


Die fortschreitende Digitalisierung der öffentlichen Verwaltung in Deutschland vereinfacht nicht nur den Zugang zu öffentlichen Services, sondern ermöglicht auch effizientere und modernere interne Arbeitsabläufe. Dadurch werden sowohl die Services für die Bürger:innen als auch Arbeitsplätze in der öffentlichen Verwaltung deutlich attraktiver. Durch semantische Suchmaschinen und Retrieval-Augmented-Generation-Systeme kann die Arbeit mit großen Dokumentarchiven einfacher und weniger zeitintensiv gestaltet werden. Beispielsweise können Bürger:innen die Bestimmungen bei der Gewerbeanmeldung, Kfz-Zulassung und Steuererklärung in einfacher Sprache erfragen. Auch interne Recherchearbeiten werden vereinfacht, z.B. zum Nachfragen, wenn Unklarheiten bei einem Genehmigungsverfahren bestehen, oder bei IT-Problemen.

Motivation


Ein Vorteil der Digitalisierung ist, dass in öffentlichen Institutionen die Informationen zu Prozessen, Sachverhalten, Regelungen etc. in großen digitalen Dokumentarchiven vorliegen. Um diese Datenbanken einfach durchsuchbar zu machen, bedarf es intelligenter Suchmaschinen, die Anfragen und Sachverhalte auf inhaltlicher Ebene analysieren und vergleichen, sodass Bürger:innen und Mitarbeiter:innen die Möglichkeit haben, in eigenen Worten die richtigen Informationen zu finden. Verbesserte Prozesse und Dienstleistung führen wiederum zu mehr Vertrauen in die Zukunftsfähigkeit und Attraktivität staatlicher und öffentlicher Institutionen.

Herausforderungen


Die klassische Stichwortsuche kann für allgemeine Suchanfragen zufriedenstellende Ergebnisse liefern. Werden allerdings Informationen in fachspezifischen Dokumenten gesucht und ist die Anfrage nicht in der korrekten Fachsprache formuliert, sind auf Schlüsselwörtern basierende Suchmaschinen nicht geeignet. Beispielsweise sind die verfügbaren Informationen zur Kfz-Zulassung oder Steuererklärung in komplizierter, administrativer Sprache formuliert, die dem Großteil der Bürger:innen nicht geläufig ist, sodass ein semantischer Abgleich zwischen Fachsprache und frei formulierter Anfrage geschehen muss. Zusätzlich ist die Pflege und der Abgleich mit einer Datenbank an Stichwörtern ressourcentechnisch ineffizient.

Zu diesem Zweck müssen semantische Suchmaschinen die fachspezifische und administrative Sprache der Dokumente verstehen und mit einer Suchanfrage vergleichen können. Dies kann durch die fachspezifische Anpassung von modernen neuronalen Sprachmodellen, wie z.B. LLMs, erreicht werden. Hierfür sind ausreichend viele annotierte Trainingsdaten nötig und das Aufsetzen von intelligenten Dokumentenabfragesystemen.

Lösungsansätze


Zur semantischen Analyse von Suchanfragen werden neuronale Sprachmodelle verwendet, die auf der Transformer-Architektur aufbauen. Diese können anhand der annotierten Trainingsdaten angepasst werden, sodass sie die Ähnlichkeit zwischen Suchanfrage und Fachtexten abbilden. Dadurch sind sie in der Lage, die passende Textstelle bzw. das passende Dokument zu einer Suchanfrage zu finden.

Zusätzlich können große neuronale Sprachmodelle (LLMs) und Retrieval Augmented Generation (RAG) verwendet werden, um eine faktisch korrekte Antwort auf die Suchanfrage zu geben. LLMs sind generisch vortrainierte generative Modelle, die für spezifische Aufgaben ressourcenschonend und dateneffizient optimiert werden können. Mit RAG wird eine zusätzliche intelligente Dokumentenabfragekomponente hinzugefügt, die die Ausgaben des LLMs verbessert. Für den Fall der Kfz-Zulassung wäre es so möglich, mit weniger als 50 Trainingsbeispielen ein fachspezifisches, generatives KI-System zu entwickeln, das neben den passenden Textabschnitten auch eine korrekte, zusammenfassende Formulierung des Inhalts wiedergibt.