Mustererkennung in der medizinischen Bildgebung


Matthias Werner


Doctor inspecting X-ray image

Künstliche Intelligenz (KI) und insbesondere Computer Vision versprechen wertvolle Hilfsmittel zur Diagnose von Krankheiten auf der Grundlage medizinischer Bildgebungstechniken zu sein. Für den Menschen dauert es Jahre der akademischen und praktischen Ausbildung, um z.B. die medizinische Diagnose anhand von Röntgenbildern durchzuführen. Wie wir sehen werden, ist es auch eine große Herausforderung für intelligente Algorithmen.

Auf der diesjährigen KIS-RIS-PACS- und DICOM-Konferenz der Medizinischen Fakultät der Universität Mainz trafen sich Forscher aus der Radiologie und angrenzenden Fachgebieten, um den Stand der Technik der KI in ihrem Bereich zu diskutieren. Philipp Jackmuth von der dida war der Referent der Wahl für dieses Thema und hier werden wir die Eckpunkte seines Vortrags diskutieren.


Klassifizierung - Diagnose von Röntgenbildern


Eine der, wenn nicht sogar die älteste medizinische Bildgebungstechnik ist das Röntgen. Der Patient wird einer hochenergetischen elektromagnetischen Strahlung ausgesetzt, die wiederum vom biologischen Gewebe unterschiedlich stark absorbiert wird. Die Partikel, die den Körper des Patienten passieren, werden von einem Bildschirm erfasst, der sich bei Bestrahlung verdunkelt. So können Schwarzweißbilder mit unterschiedlichen Gewebedichten im Körper des Patienten erstellt werden und ermöglichen so dem Arzt einen Blick "nach innen".

Diese Bilder zu interpretieren und darauf aufbauend eine Diagnose zu stellen, ist eine recht knifflige Aufgabe. In Baltruschat et al. 2019 führen die Autoren die Klassifizierung von über 100.000 Röntgenbildern von ca. 30.000 Patienten in die jeweilige Diagnose durch. Es gibt einige Hürden und Entdeckungen, die es wert sind, erwähnt zu werden.

Die Autoren trainierten Klassifikatoren auf Basis der Architekturen ResNet-38, ResNet-50 und ResNet-101 und verglichen die Leistungen. ResNet ist eine sehr erfolgreiche Version eines Deep Neural Networks von Microsoft (He at al. 2015) und die angehängten Zahlen bezeichnen die Anzahl der Schichten im Netzwerk. Darüber hinaus verglichen die Autoren Transferlernen mit und ohne Fine-tuning mit einem von Grund auf neu trainierten Modell sowie verschiedenen Eingabedatenformaten. Transferlernen ist die Praxis, die unteren Schichten eines anderen neuronalen Netzwerks zu verwenden, das auf einem anderen Datensatz trainiert wurde, unter der Annahme, dass die einfachen Funktionen, die von den unteren Schichten gelernt wurden, in beiden Problemstellungen nützlich sind. Die Gewichte dieser Schichten können fixiert oder fein abgestimmt, d.h. zusätzlich auf die neue Aufgabe trainiert werden. Leser, die sich für diese Aspekte interessieren, seien auf das Originalpaper verwiesen; hier möchten wir einige Kernpunkte der Studie hervorheben.

Zwei wichtige Beiträge von Baltruschat et al. 2019 waren 1) die Einbeziehung von Nicht-Bilddaten in den Klassifizierungsprozess, d.h. die Angabe von Alter und Geschlecht des Patienten sowie die Sichtposition (posterior-anterior vs. anterior-posterior, d.h. Patient gegenüber der Strahlenquelle vs. Patient gegenüber der Strahlenquelle) als zusätzlicher Input für das Netzwerk. Und 2) führten die Autoren eine Grad-CAM-Analyse durch (Selvaraju et al. 2016), um Class Activation Maps von einigen der Bilder zu erstellen. Grad-CAM ist ein Verfahren zur Bestimmung der Relevanz von Bildteilen für eine bestimmte Klassifizierung. Nach dem Vorwärtsdurchlauf des Bildes durch das Netzwerk wird der Gradient der Klassifikationsneuronen über Back Propagation in Bezug auf die höchsten Feature Maps, d.h. die Neuronen in der letzten Faltungsschicht, berechnet. Aus diesen Gradienten wird für jede Feature Map in der Ebene ein Relevanzwert berechnet und die Feature Maps werden linear mit diesen Werten gewichtet. Das Setzen aller negativen Werte auf Null ergibt die gewünschten Class Activation Maps.

Schauen wir uns einige Ergebnisse des Papers an. Nachfolgend sehen wir Beispiele für den in Baltruschat et al. 2019 verwendeten Trainingsdatensatz.

In Bild (d) sehen wir einen akuten Pneumothorax. Er ist erkennbar an der dünnen weißen Linie im unteren Drittel der rechten Brust (die rechte Brust ist links im Bild), dem unteren Rand der Lunge, und dem abgesenkten rechten Zwerchfell. Andererseits sehen wir in Bild (c) einen Pneumothorax, der bereits mit einem Brustabfluss behandelt wurde, der an den beiden parallelen Linien auf der rechten Brust zu erkennen ist. Die Tatsache, dass Bilder von behandelten Patienten in die Trainingsdaten aufgenommen werden, wird im Folgenden erläutert.

Das von den Autoren berichtete leistungsstärkste Modell verwendet die zusätzlichen Nicht-Bilddaten, jedoch scheint die Leistungssteigerung durch die Nicht-Bild-Informationen im Vergleich zu anderen Faktoren recht gering zu sein. Es scheint, dass die Zusatzinformationen bereits weitgehend in den Bildern enthalten waren. Intuitiv korrekt erscheint, dass Alter, Geschlecht und Betrachtungsposition aus Röntgenbildern abgeleitet werden können, da die beiden ersteren die Physiologie eindeutig beeinflussen, während die zweite z.B. aus der Position des Herzens in den Bildern abgeleitet werden kann.

Eine Schluss daraus ist, dass man bei der Eingabe zusätzlicher Daten in ein Modell zunächst prüfen sollte, ob diese Informationen tatsächlich konstruktiv zum Entscheidungsprozess beitragen. Hier stellten die Autoren sicher, dass in den Zusatzdaten zumindest einige wertvolle Informationen enthalten sind, indem sie zunächst ein einfaches Multi-Layer Perceptron (MLP) auf diese drei Merkmale trainierten, um die Krankheit vorherzusagen. Während die Leistung des MLP recht gering war, hat es immer noch besser als zufällig abgeschnitten, aber selbst wenn es nicht besser als zufällig abgeschnitten hat, könnten die zusätzlichen Daten in Kombination mit den Originalbildern bei der Lösung der Klassifikationsaufgabe helfen.

Werfen wir einen Blick darauf, was das Modell für die Klassifikationsaufgabe für relevant hält. In der folgenden Abbildung sehen wir die Class Activation Maps aus der Grad-CAM-Analyse von zwei verschiedenen Bildern mit der Bezeichnung "Pneumothorax".

 Grad-CAM analysis of image labeled 'Pneumothorax' with and without chest drain, Baltruschat et al.

Das Problem bei diesen Bildern ist, dass einige der "Pneumothorax"-Bilder Röntgenbilder von Patienten sind, die bereits behandelt wurden. Zur Behandlung des Pneumothorax wird ein Brustabfluss in die Brust des Patienten eingeführt. Der Brustabfluss ist in den Röntgenbildern gut sichtbar und es liegt nahe, dass das Modell den Abfluss als Indikator für einen Pneumothorax verwenden wird.

Die obere Zeile in der Abbildung zeigt die Röntgen-Bilder und Class Activation Maps für einen unbehandelten Patienten. Das Netzwerk scheint den Pneumothorax anhand des akuten Befundes genau zu identifizieren. Die untere Reihe zeigt jedoch die Bilder für einen behandelten Patienten mit einem Brustabfluss. Die Class Activation Map zeigt, dass das Netzwerk ausschließlich auf den Brustabfluss achtet, was bedeutet, dass das Netzwerk den Abfluss als Symptom von Pneumothorax identifiziert. Dies ist ein gutes Beispiel dafür, wie Erklärungsmethoden helfen, sich kritisch mit KI-gemachten Vorhersagen auseinanderzusetzen.

TL;DR: Zusätzliche Nicht-Bildinformationen können die Bildklassifizierung erleichtern. Insbesondere bei der Verwendung der KI zur Diagnose sollten die Trainingsdaten sehr sorgfältig analysiert werden, da das Modell aus falschen Gründen gut funktionieren kann.


Semantische Segmentierung - Lokalisierung von Herzkathetern in 3D-Ultraschallbildern


In Yang et al. 2019 verwendeten die Autoren eine Kombination von U-Net-ähnlichen Fully Convolutional Networks (FCNs), um einen Herzkatheter in 3D-Ultraschallbildern zu segmentieren. Ein U-Net ist ein neuronales Netzwerk, das aus einer Encoder-Decoder-Struktur besteht (Ronneberger et al. 2015). Der Encoder besteht aus einer Reihe von Faltungs- und Pooling-Schichten, der Decoder spiegelt die Struktur des Encoders mit Dekonvolutions- und Up-Sampling-Schichten wider. Skip Connections leiten die Informationen der einzelnen Feature Maps vor dem Pooling an die jeweilige Up-Sampling-Schicht im Decoder weiter. Auf diese Weise kann das Netzwerk die Features bei Bedarf auf mehreren Skalen erlernen und daraus die Segmentierungsmasken berechnen.

Die Herzkatheteruntersuchung beschreibt die Einführung eines Schlauches in die Arterien oder Venen des Patienten, um den Druck im Herzen zu messen, Kontrastmittel lokal einzuspritzen oder andere Untersuchungen durchzuführen. Während dieses Vorgangs muss der Arzt mehrere Röntgenaufnahmen machen, um die Position des Katheters zu überprüfen.

Im Allgemeinen ist es recht schwierig, Echtzeit-3D-Bilder vom inneren Körper zu erhalten, da ausgeklügelte Methoden wie die MRT schwere Maschinen und starke Magnetfelder erfordern. Dies schränkt die Verwendung der MRT als Hilfsmittel bei chirurgischen Eingriffen wie der Herzkatheterisierung ein. Andere Methoden wie CT/X-Ray setzen den Patienten einer hohen Strahlenbelastung aus und sollten mit Vorsicht angewendet werden. Ultraschall hingegen hat grundsätzlich keine Nebenwirkungen und ist sehr schonend. Damit wäre es eine gute Möglichkeit, Ärzten bei der Durchführung von Herzkatheteruntersuchungen zu helfen.

Das Problem ist jedoch die geringe Qualität der Ultraschallbilder im Vergleich zu z.B. Röntgenbildern, was die Anwendung für dieses Verfahren unglaublich schwierig macht. Die Autoren in Yang et al. 2019 tragen dazu bei, Ultraschallbilder nützlicher zu machen, indem sie einen Algorithmus zur Identifizierung von Lage und Größe des Katheters aus 3D-Ultraschallbildern entwickeln.

Da 3D-konvolutionäre neuronale Netze erhebliche Mengen an Trainingsdaten benötigen, versuchen die Autoren, 3D-Informationen zu nutzen, indem sie das relevante Volumen in 2D-Scheiben schneiden. Das neuronale Netzwerk, das sie einsetzen, ist ein FCN, das aus den Faltungsschichten des VGG-16-Netzwerks (Simonyan und Zisserman 2014) besteht, einem weiteren vortrainierten Bildklassifikationsmodell. Als Eingangsdaten nehmen sie ein Volumen aus dem Ultraschall und schneiden es entlang jeder Raumachse. Um 3D-Informationen in den Eingangsdaten darstellen zu können, nehmen sie drei Schichten entlang jeder Achse und ordnen sie den drei Farbkanälen zu. Betrachten Sie zum Beispiel das Volumen, das in 48x48x48x48 Scheiben geschnitten wurde. Mit Padding erhält man 48 3-Kanal-Bilder entlang jeder Achse. Jedes dieser 3-Kanal-Bilder wird durch das FCN geleitet und die resultierenden Feature Maps werden entsprechend ihrer Position im Originalvolumen neu kombiniert. Dieses vorverarbeitete Volumen wird nun mit einer 3D-Faltungsschicht segmentiert. Basierend auf der Tatsache, dass die 2D-Segmentierung in ihrer ursprünglichen räumlichen Form neu kombiniert wird, nannten die Autoren ihre Methode Direction Fused-FCN (DF-FCN).

Zum Vergleich führen die Autoren auch eine Segmentierung ohne Direction Fusion durch, d.h. die 2D-3-Kanalbilder werden von selbst segmentiert und die Segmentierungsmasken werden an ihren ursprünglichen Platz zurückgesetzt, um eine 3D-Segmentierungsmaske zu erhalten. Anstatt also Feature Maps zu erzeugen, sie neu zu kombinieren und auf den fusionierten Maps zu segmentieren, werden die 2D-Bilder direkt zur Segmentierung verwendet und die 2D-Vorhersagen werden neu kombiniert, um die endgültige Voxel-Klassifizierung zu erhalten. Dies ist der FCN-Ansatz, der in der nächsten Abbildung dargestellt ist. Im FCN-Ansatz erhält man drei Vorhersagen für jedes Voxel, eine für jede Raumachse. Die Rekombination der drei Vorhersagen entlang der Achsen erfolgt durch zufällige Auswahl einer der Vorhersagen, d.h. in der letzten Segmentierungsmaske wird ein Voxel mit einer bestimmten Wahrscheinlichkeit basierend auf der Übereinstimmung der einzelnen Vorhersagen entlang jeder Raumachse klassifiziert.

Darüber hinaus verglichen die Autoren ihren Ansatz zu einem Klassifikator mit handgefertigten Merkmalen, d.h. sie erzeugten manuell zusammengestellte Features. Im Gegensatz zu den ML-Ansätzen lernt das Modell die Features nicht automatisch, was ein detailliertes Verständnis des vorliegenden Problems erfordert, an dem es allerdings oft mangelt. Die letzte Methode zum Vergleich ist ein LateFusion Convolutional Neural Network (CNN), bei dem die Voxel entlang der räumlichen Dimensionen geschnitten werden, wie dies im Paper der Fall ist, und jede Scheibe durch ein CNN geführt wird. Die Bilder werden vor der Klassifizierungsschicht zu einem Vektor zusammengefügt, was eine Klassifizierung für den Voxel ergibt, wo sich alle drei Schichten schneiden.

In der folgenden Abbildung sehen wir ein Beispiel für ein Ultraschallbild eines Herzkatheters. Die Autoren verwendeten Schweineherzen für ihre Tests. Das Bild zeigt das Original, das Trainingslabel und die Ergebnisse verschiedener Ansätze zur Segmentierung. 

Wie in der letzten Abbildung zu sehen ist, funktioniert der DF-FCN-Ansatz viel besser als der reine FCN-Ansatz. Die handgefertigte Feature-Methode funktioniert auch recht gut. Die Autoren liefern auch objektive Kennzahlen. Sie vergleichen Precision, Recall, Dice Loss und zwei Lokalisierungsfehler (Skelettfehler und Endpunktfehler). In all diesen Kennzahlen übertrifft der DF-FCN alle anderen Ansätze.

TL;DR: Die Segmentierung von 3D-Bildern ist schwierig und erfordert einige Tricks, um gute Ergebnisse zu erzielen. Allerdings sind bereits viele Schritte zu einer effizienteren Analyse von 3D-Ultraschallbildern unternommen worden.


KI vs. Dr. med.


Bei der Beschäftigung mit dem Thema KI in der Medizin stellt sich fast sofort eine Frage: Wie verhält sich die KI im Vergleich zum durchschnittlichen Arzt? Dies ist ein sensibles und kompliziertes Thema, bei dem es unangemessen wäre, Vorhersagen darüber zu treffen, wie sich das Feld entwickeln wird. Seriöse Aussagen sollten immer den Kontext berücksichtigen, in dem Ärzte ihre Vorhersagen treffen, während sie gleichzeitig die vielen Variablen berücksichtigen, welche die Trainingsdaten für die KI betreffen. Ärzte neigen dazu, bei der Diagnose nicht nur ein bestimmtes Bild, sondern auch die Vorgeschichte und Beschwerden des Patienten zu berücksichtigen. Andererseits muss sichergestellt sein, dass die KI keine unzulässigen "zusätzlichen" Daten verwendet, die in den Messgeräten versteckt sind, z.B. können bestimmte Maschinenmerkmale mit bestimmten Diagnosen korrelieren, wenn der Arzt mehr dieser Fälle in seiner Praxis hatte. Das oben diskutierte Beispiel des "Pneumothorax" ist ein weiteres hervorragendes Beispiel dafür, wie der Algorithmus gelernt hat, seine Arbeit sehr gut zu machen, in einigen Fällen jedoch aus den falschen Gründen. Dies macht einen direkten Vergleich des Arztes mit Computer Vision-Algorithmen sehr schwierig.

TL;DR: Die KI ist bereits recht gut in rein datenbasierten medizinischen Aufgaben tätig, allerdings sollten Vergleiche von Algorithmen und Dr. med.'s mit einem Körnchen Salz durchgeführt werden, da Ärzte ihre Entscheidungen selten nur auf der Grundlage einer bestimmten Art von Daten treffen.