© unsplash/@cytonn_photography

© unsplash/@cytonn_photography
Backoffice-Automatisierung

Identifizierung und Validierung von Vertragsklauseln

Hintergrund

Die Identifizierung und Validierung von Vertragsklauseln kann sehr zeitaufwendig sein und erfordert viel Zeit gut ausgebildeter und teurer Anwälte. Vor allem, wenn die Dienstleistung über eine Online-Kundenplattform angeboten wird, auf der der Nutzer seinen Vertrag zur Überprüfung hochladen kann. Der automatisierte Dienst sollte in der Lage sein, die relevanten Klauseln zu identifizieren und die Rechtmäßigkeit dieser Klauseln gegenüber der aktuellen Rechtsprechung zu validieren.

Herausforderungen

Die Verarbeitung von Vertragsdokumenten erfordert in einem ersten Schritt ein geeignetes Werkzeug zur optischen Zeichenerkennung (OCR), um den Text aus hochgeladenen Bildern oder pdf-Dokumenten zu extrahieren. Da diese Daten von den Benutzern hochgeladen werden, kann die Qualität sehr unterschiedlich sein und erfordert eine zusätzliche Nachbearbeitung.

Die Identifizierung des richtigen Absatzes kann auf der Grundlage regulärer Ausdrücke auf der Grundlage von Schlüsselwörtern oder durch Abgleich mit benutzerdefinierten Wörterbüchern erfolgen. Die Analyse von Vertragsklauseln kann automatisiert werden, indem ein machine learning-Modell konfiguriert wird, das in der Lage sein sollte, zentrale und relevante Informationen aus dem identifizierten Absatz und der Klausel zu extrahieren, indem es die Bedeutung von Textpassagen, einzelnen Sätzen und Titeln versteht.

Darüber hinaus müssen Trainingsdaten gesammelt werden, so dass die Klauseln in Vertragsdokumenten mit Informationen über ihre Gültigkeit versehen werden. Da die Gründe für die (Un-)Gültigkeit von Klauseln vielfältig sein können, bedarf es juristischer Kenntnisse im Kennzeichnungsprozess und handwerklicher Besonderheiten und Faustregeln, um den mit der Kundenanfrage befassten Juristen vernünftige Vorschläge auf der Grundlage der neuesten Rechtsprechung zu unterbreiten.

Da sich die Rechtsprechung im Laufe der Zeit ändern kann, z.B. bei der Deckelung der Quadratmetermieten in Berlin, muss der Algorithmus im Laufe der Zeit angepasst werden, um Gesetzesänderungen zu berücksichtigen

Lösungsansatz

Um Informationen aus Dokumenten zu extrahieren, müssen diese mit einem OCR-Tool wie ABBYY FineReader oder Google Cloud Vision digitalisiert werden, die unserer Erfahrung nach für Dokumentenbilder unterschiedlicher Bildqualität am besten geeignet sind.

Die Identifizierung der relevanten Textpassagen kann mit Hilfe eines Natural Language Processing (NLP) Modells erfolgen, das in der Lage ist, die Beziehungen zwischen Wörtern und Sätzen zu lernen. Häufig verwendete Techniken für Textklassifikationsaufgaben sind TF-IDF-Algorithmen, Naive Bayes Klassifikatoren, Word Embedding Verfahren und LSTM-Netzwerke

Passende Case Studies

Natural Language Processing

Rechtliche Überprüfung von Mietverträgen

Mit Hilfe verschiedener Methoden aus dem Bereich NLP entdeckt diese Software Fehler in Verträgen.
Unsere Lösung

Diese Webinare könnten Sie interessieren

Texterkennung (OCR) - Der erste Schritt auf dem Weg zu einer erfolgreichen Implementierung eines NLP-Projekts

In diesem Webinar wenden wir uns dem Thema Texterkennung zu.

Ewelina Fiebig

Machine Learning Scientist

Fabian Gringel

Machine Learning Scientist

Labeling-Tools - Der zweite Schritt auf dem Weg zur erfolgreichen Umsetzung eines NLP-Projekts

Der Erfolg eines NLP-Projekts besteht aus einer Reihe von Schritten von der Datenvorbereitung bis zur Modellierung und Bereitstellung. Da es sich bei den Eingabedaten häufig um gescannte Dokumente handelt, werden bei der Datenaufbereitung zunächst Texterkennungswerkzeuge (kurz OCR) und später auch sogenannte Labeling-Tools eingesetzt. In diesem Webinar werden wir uns mit dem Thema der Auswahl eines geeigneten Kennzeichnungswerkzeugs befassen.

Ewelina Fiebig

Machine Learning Scientist

Fabian Gringel

Machine Learning Scientist

Semantische Suche und Verstehen von natürlichem Text mit Neuronalen Netzen: BERT

In diesem Webinar erhalten Sie eine Einführung in die Anwendung von BERT für die semantische Suche anhand einer realen Fallstudie: Jedes Jahr interagieren Millionen von Bürgern mit Behörden und werden regelmäßig von der dort verwendeten Fachsprache überwältigt. Wir haben das BERT erfolgreich eingesetzt, um mit Hilfe von umgangssprachlichen Abfragen aus Regierungsdokumenten die richtige Antwort zu liefern - ohne dabei Fachbegriffe in den Abfragen verwenden zu müssen.

Konrad Schultka

Machine Learning Scientist

Jona Welsch

Machine Learning Scientist