Halluzinationen in LLM: Strategien zur Überprüfung


Sevval Gölbasi


Halluzinationen in großen Sprachmodellen (LLMs) beziehen sich auf Fälle, in denen das Modell Informationen generiert, die entweder falsch, unvollständig oder untreu gegenüber der Eingabe sind. Diese Halluzinationen können viele Formen annehmen, von falschen Antworten bis zum Weglassen wichtiger Details. Darüber hinaus ist es wichtig, bei der Bewertung der Modellleistung auch andere Qualitätskriterien zu berücksichtigen, wie z. B. den Tonfall, das Ausmaß an Toxizität, Voreingenommenheit oder sogar Hass.


Methoden zur Erkennung von Halluzinationen


Wahrscheinlichkeitsbasiert

Der wahrscheinlichkeitsbasierte Ansatz, der das MMLU (Massive Multitask Language Understanding) verwendet, funktioniert wie folgt: Das Modell erhält einige Beispiele von Fragen mit den richtigen Antworten, um das Thema zu lernen. Wenn es dann aufgefordert wird, ähnliche Fragen selbständig zu lösen, berechnet es die Wahrscheinlichkeiten für jede mögliche Antwort. Das Modell wählt dann die Antwort mit der höchsten Wahrscheinlichkeit aus. Wenn es die richtige Antwort findet, erhält es einen Punkt.

Doch selbst wenn das Modell die Antwort mit der höchsten Wahrscheinlichkeit auswählt, kann es sich manchmal irren. Hier kommen also die sogenannten Halluzinationen ins Spiel.

$$\text{PPL}(X) = \exp\left\{-\frac{1}{t} \sum_{i=1}^t \log p_\theta\left(x_i \mid x_{<{i}}\right)\right\}$$

Anhand der Perplexität, einer Formel zur Messung der Zuversicht eines Modells, lässt sich feststellen, wie „sicher“ das Modell bei seinen Vorhersagen ist. Einfach ausgedrückt, sagt uns die Perplexität, wie „überrascht“ das Modell von den Daten ist, die es sieht. Ist die Perplexität des Modells niedrig, gibt es wahrscheinlich Antworten mit hoher Konfidenz aus. Ist die Verwirrung hoch, ist das Modell weniger sicher und hat möglicherweise Schwierigkeiten, genaue Antworten zu geben. 

Encoder-basiert

Die Encoder-basierte Erkennung von Halluzinationen hilft zu erkennen, wenn die Vorhersagen eines Modells nicht mit der tatsächlich beabsichtigten Bedeutung übereinstimmen - und so funktioniert es: Das Modell sagt einen Satz voraus (z. B. Paris ist die Hauptstadt von Frankreich“) und wir vergleichen ihn mit dem richtigen Satz (z. B. „Die Hauptstadt von Frankreich ist Paris“). Obwohl diese beiden Sätze dasselbe bedeuten, verwenden sie unterschiedliche Formulierungen.

Um mögliche Halluzinationen zu erkennen, werden beide Sätze durch einen sogenannten Encoder geleitet, der sie in numerische Daten (oder Vektoren) umwandelt. Danach wendet das Modell ein Pooling an, bei dem die numerischen Daten jedes Satzes zu einer einzigen Zusammenfassung oder „gepoolten Darstellung“ kombiniert werden, die die Gesamtbedeutung des Satzes erfasst wird.

Durch den Vergleich dieser Zusammenfassungen prüft das Modell, wie genau seine Vorhersage mit der richtigen Antwort übereinstimmt. Wenn es einen großen Unterschied zwischen den beiden Sätzen gibt, könnte dies ein Zeichen dafür sein, dass das Modell „halluziniert“ hat, d. h. es hat eine Vorhersage gemacht, die nicht wirklich die richtigen Informationen widerspiegelt, auch wenn sie vernünftig klingt. Diese Methode hilft dem Modell, über die wortwörtlichen Übereinstimmungen hinaus zu schauen und sicherzustellen, dass es der beabsichtigten Bedeutung treu bleibt.


Kosinusähnlichkeit

Die Kosinusähnlichkeit ist ein mathematisches Hilfsmittel zum Vergleich der Ähnlichkeit zweier Sätze auf der Grundlage ihrer gepoolten Repräsentationen (d. h. der vom Encoder erstellten numerischen Zusammenfassungen). Nachdem sowohl der vorhergesagte als auch der richtige Satz in Vektoren umgewandelt wurden, misst die Kosinusähnlichkeit, wie ähnlich sich diese beiden Vektoren sind.

Wenn die beiden Sätze in ihrer Bedeutung sehr ähnlich sind, liegt der Kosinusähnlichkeitswert nahe bei 1. Wenn die Sätze sehr unterschiedlich sind, liegt der Wert nahe bei 0. Wenn der Wert beispielsweise 0,9 beträgt, bedeutet dies, dass die Sätze in ihrer Bedeutung fast identisch sind, auch wenn der Wortlaut unterschiedlich ist. 

Ein Nachteil ist jedoch, dass die Kosinusähnlichkeit stark vom Modell abhängt und selbst bei einem hohen Ähnlichkeitswert noch falsche Antworten liefern kann, da das Modell den Kontext oder die tiefere Bedeutung der Sätze möglicherweise nicht vollständig erfasst.


Another technique : BERTscore

BERTScore ist eine Methode zur Messung der Ähnlichkeit zweier Textstücke, indem die Bedeutung der Wörter in ihrem Kontext betrachtet wird. Dabei wird ein Modell namens BERT verwendet, das „kontextuelle Einbettungen“ erstellt - was bedeutet, dass die Art und Weise, wie ein Wort dargestellt wird, von den Wörtern in seiner Umgebung abhängt. 

Zum Beispiel, im Satz „Der Vogel sitzt auf dem Ast“ bezieht sich das Wort „Ast“ - auf einen Zweig eines Baumes, während es in „Die Aufgabe hat mehrere Äste“ für Verzweigungen in einem Entscheidungsbaum oder einer Problemstruktur steht. BERT versteht diese Unterschiede und weist jedem „Ast“ in den jeweiligen Sätzen eine andere Bedeutung zu. BERTScore nutzt diese intelligenten Wortrepräsentationen, um zu vergleichen, wie eng zwei Texte miteinander verwandt sind und ist damit leistungsfähiger als ältere Methoden wie Word2Vec, die jedem Wort nur eine feste Bedeutung zuweisen.

Wie verbessert BERTScore Wortvergleiche mit Kontext?

BERTScore ist fortschrittlicher als die herkömmliche Kosinusähnlichkeit, wenn sie auf einfache Wortdarstellungen wie Word2Vec angewendet wird, da bei der Kosinusähnlichkeit jedes Wort unabhängig vom Kontext eine feste Bedeutung hat. BERTScore hingegen verwendet kontextbezogene Einbettungen von BERT, bei denen sich die Bedeutung jedes Worts je nach dem Satz, in dem es vorkommt, ändert. Im Gegensatz zu Pooling-Techniken, die eine einzige Repräsentation für den gesamten Satz erzeugen, vergleicht BERTScore die Worteinbettungen direkt. Es verwendet immer noch die Kosinusähnlichkeit, wendet sie aber auf Wortebene an, um die kontextabhängige Bedeutung von Wörtern innerhalb von Sätzen zu erfassen, anstatt die Gesamtbedeutung des Satzes zu mitteln.

Figure 2: BERTScore calculation pipeline with importance weighting

Natural Language Inference

NLI (Natural Language Inference) ist eine Aufgabe in der natürlichen Sprachverarbeitung (NLP), bei der es darum geht, die logische Beziehung zwischen zwei Sätzen zu bestimmen. Das Ziel ist es, zu klassifizieren, ob der zweite Satz (Hypothese genannt) in Bezug auf den ersten Satz (Prämisse genannt) eine Folgerung, ein Widerspruch oder neutral ist.

Die Bedeutung dieser Begriffe ist folgendermaßen:

  • Entailment: Die Hypothese folgt logisch aus der Prämisse.

  • Prämisse: „Alle Spielzeuge sind rot.“

  • Hypothese: „Flugzeugspielzeug ist rot.“

Dies ist eine Folgerung, weil die Hypothese aufgrund der Prämisse wahr ist.

  • Widersprüchlichkeit: Die Hypothese widerspricht der Prämisse.

  • Prämisse: „Alle Spielzeuge sind rot.“

  • Hypothese: „Kein Spielzeug ist rot.“

Dies ist ein Widerspruch, weil die Hypothese der Prämisse direkt widerspricht.

  • Neutral: Die Hypothese wird durch die Prämisse weder impliziert noch widerlegt.

  • Prämisse: „Alle Spielzeuge sind rot.

  • Hypothese: „Einige Spielzeuge sind aus Plastik.“

Dies ist neutral, da sich die Hypothese nicht direkt auf die Farbe des Spielzeugs in der Prämisse bezieht.

NLI ist wichtig für Aufgaben wie das Verstehen und Schlussfolgern in natürlicher Sprache und wird häufig in Modellen wie BERT und anderen fortgeschrittenen NLP-Systemen verwendet.


LLM als Bewerter / “Richter”

LLMs können ihre eigenen Antworten bewerten, indem sie sie mit dem Kontext oder den Daten vergleichen, die sie abrufen. Dieser Prozess hilft sicherzustellen, dass die Antworten des Modells genau sind und auf den bereitgestellten Informationen basieren. Wir können die Genauigkeit der Antworten bewerten, indem wir entweder eine Feinabstimmung des Modells vornehmen oder es auffordern, seinen Output zu überprüfen.

Beispielstrategien:

  • Treueprüfungen tragen dazu bei, sicherzustellen, dass die Ausgabe des Modells die ursprünglichen Informationen korrekt wiedergibt, ohne nicht belegte Details hinzuzufügen. Ein Ansatz zur Umsetzung dieses Ziels besteht darin, das LLM aufzufordern, zu bewerten, ob die generierte Antwort faktisch mit dem Abfragekontext übereinstimmt. Zusätzlich kann das Modell Ähnlichkeitsmetriken wie Kosinusähnlichkeit oder BERTScore verwenden, um seine Antwort mit dem abgerufenen Kontext zu vergleichen und signifikante Abweichungen zu markieren. Faktenabgleich ist eine weitere Strategie, bei der das Modell bestimmte Teile des Kontexts „zitiert“, um seine Aussagen zu untermauern. Named-Entity-Checks stellen außerdem sicher, dass die in der Antwort genannten Personen, Orte oder Organisationen mit denen im Kontext übereinstimmen.

  • Die Verfeinerung in mehreren Schritten ist ein weiterer Ansatz, bei dem das Modell seine Antwort schrittweise verfeinert, anstatt die endgültige Antwort auf einmal zu geben. Es beginnt mit einem ersten Entwurf auf der Grundlage der verfügbaren Daten und holt dann mehr Kontext ein, um Lücken zu schließen oder Annahmen zu korrigieren. Nach dem Sammeln zusätzlicher Informationen überarbeitet das Modell seine Antwort, ergänzt fehlende Details und verbessert die Klarheit. Abschließend wird in einem Überprüfungsdurchgang sichergestellt, dass die verfeinerte Antwort mit dem abgerufenen Kontext übereinstimmt. Bei komplexeren Aufgaben kann dieser Prozess zur Erhöhung der Genauigkeit wiederholt werden.


Fazit


Zusammenfassend lässt sich sagen, dass mit der Weiterentwicklung großer Sprachmodelle (LLMs) der Umgang mit Halluzinationen - wenn Modelle falsche oder irreführende Informationen liefern - wichtig ist. Techniken wie wahrscheinlichkeitsbasierte Methoden, Perplexität und kodiererbasierte Erkennungstools bieten wertvolle Ansätze zur Identifizierung dieser Probleme. Fortgeschrittene Methoden wie BERTScore, die den Wortkontext berücksichtigen, bieten ein differenzierteres Verständnis und verbessern die Erkennung von Diskrepanzen. Durch Natural Language Inference (NLI) wird die Fähigkeit der Modelle, logische Beziehungen zwischen Sätzen zu verstehen, weiter verbessert. Darüber hinaus wird durch den Einsatz von LLMs als Selbstbeurteiler oder „Richter“ eine zusätzliche Überprüfungsebene geschaffen, die sicherstellt, dass die Modellantworten sachlich mit dem bereitgestellten Kontext übereinstimmen. Durch die Kombination dieser Techniken können wir die Genauigkeit und Zuverlässigkeit von LLMs verbessern.

Arbeiten Sie aktuell an eigenen LLM-basierten Anwendungen und könnten Unterstützung im Bereich LLM-Evaluation, LLM-Governance gebrauchen? Dann melden Sie sich gerne über unser Kontaktformular für ein unverbindliches Erstgespräch mit unseren ML-Scientists.