Glasses laying on top of physician statements
Informationsextraktion aus Dokumenten des behandelnden Arztes für die Risikoeinschätzung
Hintergrund
Zur Bewertung von Antragstellern für eine Lebensversicherung werden u.a. Krankenakten ausgewertet, da diese viele Anhaltspunkte für eine Risikoeinschätzung liefern. Allerdings liegen die Berichte der behandelnden Ärzte in unterschiedlichen Formaten und Terminologien vor. Sie beinhalten verschiedene medizinische Dokumentationen, wie z.B. Laborergebnisse, Pathologieberichte etc. Das macht es für den zuständigen Underwriter schwierig, die relevantesten Informationen in kurzer Zeit zu finden und somit effizient eine gute Risikoeinschätzung zu geben.
Mit Hilfe einer leistungsfähigen Informationsextraktion, die auf verschiedenste Dokumente zurückgreift, können die relevantesten Stellen problemlos gefunden werden. Auch die Komplexität eines Falls wird ermittelt, dadurch benötigt ein Underwriter weniger Zeit für einfache Fälle. Die komplexeren Fälle können erfahrenen Mitarbeitern zugeordnet werden, wodurch sowohl die Kundenzufriedenheit erhöht als auch die Risikobewertung effizienter gemacht werden können.
Herausforderungen
Der ausschlaggebendste Teil bei Natural Language Processing (NLP) Projekten ist die richtige Wahl des Optical Recognition (OCR) Tools. Es liest die Texte aus den gescannten und/oder fotografierten Dokumente aus, so dass sie von einem Computer analysiert werden können. Allerdings liegen die medizinischen Berichte und Dokumente in unterschiedlichen Arten vor, z.B. handschriftlich und maschinell erzeugte Berichten, oder tabellarisch oder als Fließtext zusammengefasste Informationen. Insbesondere handschriftliche Dokumente stellen aufgrund der Vielfalt an Handschriften immer noch eine große Herausforderung dar.
Im nächsten Schritt folgt ein Machine Learning (ML) Modell, das die digitalisierten Dokumente analysiert und die relevantesten Informationen klassifiziert. Dadurch können die Dokumente abhängig von ihrem medizinischen Informationsgehalt sortiert und durchsucht werden. Dafür wird allerdings ein ausreichend großer Trainingsdatensatz benötigt, in dem die relevanten Informationen markiert ("gelabelt") sind. Das stellt sicher, dass das Modell in der Lage ist, die verschiedenen Input-Formate auszuwerten, damit keine wichtigen Informationen übersehen werden.
Lösungsansatz
Für die Textextraktion aus handgeschriebenen Dokumenten ist das OCR-Tool Google Cloud Vision derzeit die einzige praktikable Option. Liefert das OCR-Tool zufriedenstellende Ergebnisse, können die Textdaten weiter analysiert werden.
Um die Texte klassifizieren zu können, müssen NLP Techniken, wie z.B. Naive Bayes Klassifikatoren, TF-IDF- oder LSTM-Algorithmen, angewandt werden. Sie können die Beziehungen zwischen Wörtern und ihrem jeweiligen Kontext basierend auf medizinischen Fachbegriffen erkennen. Für einfachere Informationsextraktionen dürften zudem auch regelbasierte Ansätze ausreichen. Dadurch können medizinische Fachbegriffe und deren Positionen in den Dokumenten identifziert, sowie das entsprechende medizinische Fachgebiet eines Abschnittes bestimmt werden.
Darüber hinaus kann man auch einen semantischen Suchalgorithmus implementieren, der in der Lage ist, die Bedeutung eines Suchbegriffs zu abstrahieren. Dadurch wird die Navigation durch die Dokumente erheblich erleichert. Dafür kann das von Google entwickelte und vortrainierte BERT-Modell verwendet werden. Dieses spezialisiert man dann auf den konkreten Anwendungsfall, indem es mit den gelabelten Daten trainiert wird. Für die biomedizinische Sprache gibt es außerdem bereits das domänenspezifische BioBERT-Modell, was die Implementierung eines semantischen Suchalgorithmus weiter vereinfacht.