© unsplash/@nci
Informationsextraktion für die Erstellung elektronischer Patientenakten
Hintergrund
Die Digitalisierung des Gesundheitswesens ist eine entscheidende Aufgabe, um Prozesse für wichtige zeitsensible medizinische Entscheidungen zu verbessern und das medizinische Personal von Dokumentationspflichten zu entlasten. Viele Patientenakten sind jedoch immer noch handschriftlich und in nicht standardisierter Form vorhanden, was die Implementierung eines machine learning (ML) Modells motiviert, das in der Lage ist, automatisch digitalisierte und standardisierte Patientenakten zu erstellen.
Herausforderungen
Bei handschriftlichen Aufzeichnungen liegt eine große Herausforderung in der Digitalisierung der handschriftlichen Dokumente und in der Wahl des richtigen OCR-Tools, um genaue digitale Darstellungen der Gesundheitsakten zu erhalten. Bei der OCR stellt die Handschrift jedoch aufgrund der Vielfalt der Handschriften immer noch eine große Herausforderung dar. Eine qualitativ minderwertige Ausgabe des OCR-Tools würde daher jede weitere Verarbeitung verhindern.
Wenn die Akte digital ist, bearbeiten Ärzte viele Informationen in unstrukturierten Formaten wie z.B. Freitext. Darüber hinaus sind Abkürzungen sehr verbreitet, werden aber nicht einheitlich von allen Ärzten verwendet.
Um die Informationen über Fälle zu analysieren und zu visualisieren, müssen diese Freitexteingaben in strukturierte Daten umgewandelt werden.
Lösungsansatz
Für die Textextraktion aus handgeschriebenen Dokumenten ist das OCR-Tool Google Cloud Vision mittlerweile die einzige praktikable Option. Wenn uns die OCR eine ausreichende Qualität liefert, können die erkannten Textdaten wie die digitalisierten Freitexteinträge analysiert werden.
Um die Freitexteinträge aus beiden Quellen zu analysieren, müssen die Texteingaben dem Fall entsprechend kontextualisiert werden und die Einträge mit gemeinsamer Terminologie und Abkürzungen ("Wörterbücher") abgeglichen werden, um strukturierte und maschinenlesbare Daten zu erzeugen. Dazu muss ein gelabelter Datensatz erstellt werden, der auf dem Expertenwissen von Ärzten basiert.
Das ML Modell extrahiert die relevanten Informationen aus den Textdaten mit Hilfe von Natural Language Processing (NLP) Techniken, wie z.B. Word Embedding, Naive Bayes Klassifikatoren und TF-IDF-Algorithmen. Diese Methoden ermöglichen es dem Modell, die Beziehung zwischen Wörtern und Sätzen und die zugrunde liegende Bedeutung zu verstehen, indem es mit den gelabelten Textdaten trainiert wird.
Wenn die Freitext-Eingabedaten strukturiert sind, können sie visualisiert werden, es kann eine explorative Datenanalyse angewandt werden oder es können Beziehungen abgebildet werden, z.B. mit Graph Neural Networks.