Automatische Klassifizierung von PDF-Dokumenten

Hintergrund

Die Klassifizierung von Dokumenten ist oft einer der ersten Schritte bei der Verarbeitung eingehender Dokumente, z.B. pdf-Dateien oder per E-Mail empfangene jpg-Dateien. Für die weitere Bearbeitung und zur Verkürzung der Antwortzeiten müssen die Dokumente je nach Art klassifiziert und idealerweise an den richtigen Bearbeiter weitergeleitet werde

Herausforderungen

Jedes Unternehmen hat seine eigenen Arbeitsabläufe, um Dokumente an den richtigen Beauftragen weiterzuleiten, und die meisten Unternehmen haben ein Ticketsystem, das die Menge der eingehenden Dokumente bewältigt. Die Erstellung und Weiterleitung eines Tickets an einen Beauftragten kann regelbasiert sein (z.B. basierend auf Dokumenttyp, Postleitzahl oder empfangendem E-Mail-Konto) oder manuell erfolgen. Das Extrahieren der relevanten Informationen für die beste direkte Zuordnung kann die Zeit für die Bearbeitung eingehender Dokumente erheblich verkürzen und gleichzeitig die Kunden- und Liefera-ntenbeziehungen verbessern.

Lösungsansatz

Unter der Annahme, dass das Ergebnis der optischen Zeichenerkennung (OCR) von guter Qualität ist, ist die Klassifizierung von Dokumenten eine Standardaufgabe im Bereich machine learning. Während eine breitere Klassifikation, z.B. des Dokumententyps, mit regelbasierten Ansätzen (z.B. Suche nach Schlüsselwörtern wie "Rechnung") implementiert werden könnte, kann eine detailliertere Klassifikation durch das Training von Algorithmen des maschinellen Lernens auf einem gelabelten Datensatz erreicht werden.

Algorithmen, die sich bei Aufgaben der Klassifizierung von Dokumenten als effektiv erwiesen haben, sind Support Vektor Machines, Naive Bayes oder logistische Regression. Diese Algorithmen werden auf vektorisierten Darstellungen von Wörtern und Semantiken wie dem Bag-of-Word-Modell oder TF-IDF trainiert.

Mehr Use Cases in Back Office

Automatische Fragenbeantwortung zu Lebensläufen von Bewerbern

Extrahieren von Informationen aus Tabellen

Extraktion von Entitäten aus Rechnungen und Bestellungen in SAP

Identifizierung und Validierung von Vertragsklauseln

Klassifizierung von PDF Dokumenten

Klassifizierung von Support-Anfragen