© unsplash/@nci

© unsplash/@nci
Gesundheitswesen & Pharma

Informations­extraktion für die Erstellung elektronischer Patienten­akten

Hintergrund

Die Digitalisierung des Gesundheitswesens ist eine entscheidende Aufgabe, um Prozesse für wichtige zeitsensible medizinische Entscheidungen zu verbessern und das medizinische Personal von Dokumentationspflichten zu entlasten. Viele Patientenakten sind jedoch immer noch handschriftlich und in nicht standardisierter Form vorhanden, was die Implementierung eines machine learning (ML) Modells motiviert, das in der Lage ist, automatisch digitalisierte und standardisierte Patientenakten zu erstellen.

Herausforderungen

Bei handschriftlichen Aufzeichnungen liegt eine große Herausforderung in der Digitalisierung der handschriftlichen Dokumente und in der Wahl des richtigen OCR-Tools, um genaue digitale Darstellungen der Gesundheitsakten zu erhalten. Bei der OCR stellt die Handschrift jedoch aufgrund der Vielfalt der Handschriften immer noch eine große Herausforderung dar. Eine qualitativ minderwertige Ausgabe des OCR-Tools würde daher jede weitere Verarbeitung verhindern.

Wenn die Akte digital ist, bearbeiten Ärzte viele Informationen in unstrukturierten Formaten wie z.B. Freitext. Darüber hinaus sind Abkürzungen sehr verbreitet, werden aber nicht einheitlich von allen Ärzten verwendet.

Um die Informationen über Fälle zu analysieren und zu visualisieren, müssen diese Freitexteingaben in strukturierte Daten umgewandelt werden.

Lösungsansatz

Für die Textextraktion aus handgeschriebenen Dokumenten ist das OCR-Tool Google Cloud Vision mittlerweile die einzige praktikable Option. Wenn uns die OCR eine ausreichende Qualität liefert, können die erkannten Textdaten wie die digitalisierten Freitexteinträge analysiert werden.

Um die Freitexteinträge aus beiden Quellen zu analysieren, müssen die Texteingaben dem Fall entsprechend kontextualisiert werden und die Einträge mit gemeinsamer Terminologie und Abkürzungen ("Wörterbücher") abgeglichen werden, um strukturierte und maschinenlesbare Daten zu erzeugen. Dazu muss ein gelabelter Datensatz erstellt werden, der auf dem Expertenwissen von Ärzten basiert.

Das ML Modell extrahiert die relevanten Informationen aus den Textdaten mit Hilfe von Natural Language Processing (NLP) Techniken, wie z.B. Word Embedding, Naive Bayes Klassifikatoren und TF-IDF-Algorithmen. Diese Methoden ermöglichen es dem Modell, die Beziehung zwischen Wörtern und Sätzen und die zugrunde liegende Bedeutung zu verstehen, indem es mit den gelabelten Textdaten trainiert wird.

Wenn die Freitext-Eingabedaten strukturiert sind, können sie visualisiert werden, es kann eine explorative Datenanalyse angewandt werden oder es können Beziehungen abgebildet werden, z.B. mit Graph Neural Networks.

Diese Webinare könnten Sie interessieren

Texterkennung (OCR) - Der erste Schritt auf dem Weg zu einer erfolgreichen Implementierung eines NLP-Projekts

In diesem Webinar wenden wir uns dem Thema Texterkennung zu.

Ewelina Fiebig

Machine Learning Scientist

Fabian Gringel

Machine Learning Scientist

Labeling-Tools - Der zweite Schritt auf dem Weg zur erfolgreichen Umsetzung eines NLP-Projekts

Der Erfolg eines NLP-Projekts besteht aus einer Reihe von Schritten von der Datenvorbereitung bis zur Modellierung und Bereitstellung. Da es sich bei den Eingabedaten häufig um gescannte Dokumente handelt, werden bei der Datenaufbereitung zunächst Texterkennungswerkzeuge (kurz OCR) und später auch sogenannte Labeling-Tools eingesetzt. In diesem Webinar werden wir uns mit dem Thema der Auswahl eines geeigneten Kennzeichnungswerkzeugs befassen.

Ewelina Fiebig

Machine Learning Scientist

Fabian Gringel

Machine Learning Scientist

Semantische Suche und Verstehen von natürlichem Text mit Neuronalen Netzen: BERT

In diesem Webinar erhalten Sie eine Einführung in die Anwendung von BERT für die semantische Suche anhand einer realen Fallstudie: Jedes Jahr interagieren Millionen von Bürgern mit Behörden und werden regelmäßig von der dort verwendeten Fachsprache überwältigt. Wir haben das BERT erfolgreich eingesetzt, um mit Hilfe von umgangssprachlichen Abfragen aus Regierungsdokumenten die richtige Antwort zu liefern - ohne dabei Fachbegriffe in den Abfragen verwenden zu müssen.

Konrad Schultka

Machine Learning Scientist

Jona Welsch

Machine Learning Scientist

Automatisierte Beantwortung von Fragen mit neuronalen Netzen: BERT

In diesem Webinar stellen wir eine auf dem BERT Modell basierende Methode zur automatisierten Beantwortung von Fragen vor.

Mattes Mollenhauer

Machine Learning Scientist

Rekurrente neuronale Netze: Wie Computer lesen lernen

Das Webinar gibt eine Einführung in die Funktionsweise von RNNs und veranschaulicht deren Einsatz an einem Beispielprojekt aus dem Bereich der Legal Tech

Fabian Gringel

Machine Learning Scientist