Machine Learning zur Informationsextraktion aus Verträgen

Hintergrund

Die Identifizierung und Validierung von Vertragsklauseln kann sehr zeitaufwendig sein und erfordert viel Zeit gut ausgebildeter und teurer Anwälte. Vor allem, wenn die Dienstleistung über eine Online-Kundenplattform angeboten wird, auf der der Nutzer seinen Vertrag zur Überprüfung hochladen kann.
Der automatisierte Dienst sollte in der Lage sein, die relevanten Klauseln zu identifizieren und die Rechtmäßigkeit dieser Klauseln gegenüber der aktuellen Rechtsprechung zu validieren.

Herausforderungen

Die Verarbeitung von Vertragsdokumenten erfordert in einem ersten Schritt ein geeignetes Werkzeug zur optischen Zeichenerkennung (OCR), um den Text aus hochgeladenen Bildern oder pdf-Dokumenten zu extrahieren. Da diese Daten von den Benutzern hochgeladen werden, kann die Qualität sehr unterschiedlich sein und erfordert eine zusätzliche Nachbearbeitung.

Die Identifizierung des richtigen Absatzes kann auf der Grundlage regulärer Ausdrücke auf der Grundlage von Schlüsselwörtern oder durch Abgleich mit benutzerdefinierten Wörterbüchern erfolgen. Die Analyse von Vertragsklauseln kann automatisiert werden, indem ein machine learning-Modell konfiguriert wird, das in der Lage sein sollte, zentrale und relevante Informationen aus dem identifizierten Absatz und der Klausel zu extrahieren, indem es die Bedeutung von Textpassagen, einzelnen Sätzen und Titeln versteht.

Darüber hinaus müssen Trainingsdaten gesammelt werden, so dass die Klauseln in Vertragsdokumenten mit Informationen über ihre Gültigkeit versehen werden. Da die Gründe für die (Un-)Gültigkeit von Klauseln vielfältig sein können, bedarf es juristischer Kenntnisse im Kennzeichnungsprozess und handwerklicher Besonderheiten und Faustregeln, um den mit der Kundenanfrage befassten Juristen vernünftige Vorschläge auf der Grundlage der neuesten Rechtsprechung zu unterbreiten.

Da sich die Rechtsprechung im Laufe der Zeit ändern kann, z.B. bei der Deckelung der Quadratmetermieten in Berlin, muss der Algorithmus im Laufe der Zeit angepasst werden, um Gesetzesänderungen zu berücksichtigen

Lösungsansatz

Um Informationen aus Dokumenten zu extrahieren, müssen diese mit einem OCR-Tool wie ABBYY FineReader oder Google Cloud Vision digitalisiert werden, die unserer Erfahrung nach für Dokumentenbilder unterschiedlicher Bildqualität am besten geeignet sind.

Die Identifizierung der relevanten Textpassagen kann mit Hilfe eines Natural Language Processing (NLP) Modells erfolgen, das in der Lage ist, die Beziehungen zwischen Wörtern und Sätzen zu lernen. Häufig verwendete Techniken für Textklassifikationsaufgaben sind TF-IDF-Algorithmen, Naive Bayes Klassifikatoren, Word Embedding Verfahren und LSTM-Netzwerke

Mehr Use Cases in Back Office

Automatische Fragenbeantwortung zu Lebensläufen von Bewerbern

Extrahieren von Informationen aus Tabellen

Extraktion von Entitäten aus Rechnungen und Bestellungen in SAP

Identifizierung und Validierung von Vertragsklauseln

Klassifizierung von PDF Dokumenten

Klassifizierung von Support-Anfragen