Illegale Minen aus dem Weltraum erkennen


Matthias Werner


Rainforest of borneo

Überall auf der Welt sind Regenwälder und andere Naturlandschaften durch illegalen Bergbau gefährdet, der ehemals artenreiche Gebiete in Ödland verwandelt. Damit lokale Regierungen Gegenmaßnahmen ergreifen können, müssen sie zuerst über die Standorte der illegalen Minen Bescheid wissen. In Ländern, die von riesigen Gebieten nahezu undurchdringlichen Regenwalds bedeckt sind, wie z.B. Brasilien oder Kongo, ist die Beschaffung dieser Informationen ein schwieriges Problem.

In diesem Blog-Beitrag beschreibe ich einen Ansatz zur Erkennung illegaler Minen, der auf Deep Learning und Fernerkundung basiert und den wir entwickelt haben, um die Naturschutzbemühungen von Regierungen und NGOs zu unterstützen. Insbesondere verwenden wir ein U-Net für die semantische Segmentierung, einen Zweig der Computervision.

Im Rahmen des Projekts zur automatischen Erkennung von Kleinbergbau wurden wir auch von Wissenschaftlern des Institute of Mineral Resources Engineering (MRE) der RWTH Aachen unterstützt, die ihr bergbauspezifisches Fachwissen einbrachten. Das Projekt wurde von der European Space Agency (ESA) finanziert.  


Problemstellung


Bei der Analyse der potenziellen Schäden im Zusammenhang mit den verschiedenen Arten des illegalen Bergbaus stellten wir fest, dass sowohl aus Gründen des Umweltschutzes als auch der Sicherheit der Arbeitnehmer handwerkliche und Kleinbergwerke (artisanal and small-scale mines) (ASM) im Gegensatz zu Großbergwerken (large-scale mines) (LSM) am gefährlichsten sind.

Aus offensichtlichen Gründen sind ASMs jedoch weitaus schwieriger zu erkennen als LSMs.  

Gegenwärtig stützen sich Bergbauexperten auf manuelle Untersuchungen mittels Bing Maps und ähnlichen Diensten, um das Ausmaß der ASM-Aktivitäten in einer bestimmten Region abzuschätzen. Da die Analyse der Daten manuell von einem Experten durchgeführt wird, ist es teuer und ineffizient, große Gebiete zu analysieren.

Wir setzten uns folgendes Ziel: Wir wollten eine Deep Learning-Software entwickeln, die ASMs auf Satellitenbildern automatisch identifiziert. Die Software könnte dann zur kontinuierlichen Überwachung von durch illegale Minen gefährdeten Gebieten eingesetzt werden, so dass Regierungen und NGOs sowohl die entdeckten Minen sofort stilllegen als auch systematischere Einblicke in die Prävalenz und Entwicklung des illegalen Bergbaus gewinnen könnten, was dazu beitragen kann, langfristige Gegenstrategien zu implementieren.

Wir beschlossen, unsere Forschung auf Satellitenbilder aus Surinam zu stützen, wo ASMs besonders häufig vorkommen.  

Die Struktur der ASM-Gebiete

 Image taken from M. Heemskerk, E. Negulic and C. Duijves.

ASM verwenden in der Regel eine Abbaumethode, die als "hydraulischer Abbau mit Schleusenkasten" bezeichnet wird:

  1. Die Bergleute lockern den Boden mit Wasser unter hohem Druck auf.

  2. Boden und Wasser werden durch einen Saugschlauch in einen Schleusenkasten gepumpt. Der Schleusenkasten hat Wellen und Gewebe, so dass das Wasser über ihn läuft und die größeren Partikel zurückbleiben.

  3. Der (giftige) Abfall wird in die Umwelt gekippt.

Wichtiger als die Details der Methode ist die Tatsache, dass sie ASMs charakteristische Strukturen und Merkmale verleihen: Sie kommen als Singles (Einzelgruben), Tubes (Röhren) oder Cluster vor und sind vor allem durch das Vorhandensein von Sedimentpools und eine hohe Verdunstungsrate gekennzeichnet.

Diese Eigenschaften ermöglichen es einem neuronalen Netzwerk zu lernen, wie eine ASM auf Satellitenbildern aussieht, bringen aber auch besondere Herausforderungen mit sich: Auf Satellitenbildern können Straßen, Gebäude und Waldlichtungen den ASMs sehr ähnlich sehen.


Der Deep Learning-Ansatz


Wir beschlossen, die Herausforderung als eine semantische Segmentierungsaufgabe anzugehen, d.h. wir wollten ein Modell entwickeln, das für jedes Pixel eines gegebenen Satellitenbildes vorhersagt, ob es zu einer ASM gehört oder nicht.

Zunächst einmal mussten wir einen mit Labels versehenen Bild-Datensatz erstellen.

Daten und Labeling

Zu Trainingszwecken verwendeten wir Bilder des Satelliten Planet Scope:

  • 3-4 Meter Auflösung pro Pixel

  • vier Kanäle: RGB und nahes Infrarot (NIR)

Insgesamt haben wir in ~100 Satellitenbildern ASM-Standorte identifiziert und annotiert. Wegen der Schwierigkeit der Aufgabe mussten die Labels von einem Experten der RWTH Aachen erstellt werden. Da die Originalbilder riesig waren, zerlegten wir sie in kleinere Ausschnitte, bevor wir sie in das Segmentierungsmodell einspeisten, so dass der Trainingsdatensatz aus mehr als 15.000 mit Labels versehenen Bildern mit einer Größe von jeweils 256 x 256 Pixeln bestand.

Um sowohl dem Labeler als auch dem Modell die Arbeit zu erleichtern, berechneten wir aus den vier bereits vorhandenen Kanälen zwei weitere:

Der Normalisierte Differenz-Wasserindex (NDWI) wurde berechnet als 

$$NDWI = \frac{G - NIR}{G + NIR}$$

und hebt Bereiche mit hohem Wassergehalt hervor. Hier bezieht sich $$G$$ auf den Grünkanal aus RGB. Der NDWI wird als fünfter Kanal an die Planet Scope Bilder angehängt.

Der Normalisierte Differenz-Vegetationsindex (NDVI) wurde berechnet als  

$$NDVI = \frac{NIR - R}{NIR + R}$$

und hebt die Vegetation in den Bildern hervor. Wie Sie vielleicht vermuten, ist $$R$$ der Rotkanal von RGB. NDVI wird als sechster Kanal an die Eingabedaten angehängt.

Es stellte sich heraus, dass es für Labeling-Zwecke vorteilhaft ist, eine Graustufendarstellung der NDWI zu fokussieren.

Segmentierungsmodell

Nun mussten wir ein maschinelles Lernmodell entwickeln, das in der Lage ist, die folgende Aufgabe zu erlernen: Aus einem eingegebenen Satellitenbild gibt es eine binäre Maske zurück, die die zu einem ASM-Bereich gehörenden Pixel anzeigt.

Wir entschieden uns für den Einsatz einer hochmodernen, aber inzwischen bereits bewährten tiefen neuronalen Netzarchitektur zur semantischen Segmentierung, dem U-Net.

Sie besteht aus einem Faltungskodierer (der Abwärtspfad auf der linken Seite), gefolgt von einer Dekodierungssequenz von Aufwärtsfaltungen, bis die Eingangsgröße wieder erreicht ist (der Aufwärtspfad auf der rechten Seite). Horizontale Skip-Verbindungen stellen sicher, dass die kodierten globalen Informationen durch detaillierte lokale Informationen ergänzt werden.

Hier sind einige weitere Details über die Netzwerkarchitektur und die von uns verwendeten Hyperparameter:

  • Die Architektur: U-Net mit 3 Rekursionen, 5x5 Kernel und 2x2 Max-Pooling

  • Verlust: smooth Dice loss

  • Optimierer: Adam mit Lernrate 1e-3

  • Batchgröße: 32


Ergebnisse


Wir bewerteten die Vorhersagen des Modells mit einem pixelbasierten F1-Score und beobachteten, dass  

$$F1 ≈ 0.79.$$

Betrachtet man die Beispielbilder, so bedeutet dies, dass ASMs meist recht zuverlässig erkannt werden:

Wir stellten jedoch fest, dass das Modell dazu neigt, kleine Minen (Singles, in der oben festgelegten Terminologie) zu übersehen, da sie Waldlichtungen sehr ähnlich sehen.

Ein weiteres Problem sind Gewässer, insbesondere Buchten, die oft fälschlicherweise als ASMs klassifiziert werden. Auch hier lässt sich der Fehler durch die Form der Buchten erklären, die der Form von Minen ähnelt.


Zusätzliche Erkenntnisse


  • Wir testeten das an Bildern aus dem Regenwald in Surinam trainierte Modell auch an Regionen mit ähnlicher topologischer Beschaffenheit (wie z.B. dem Regenwald im Kongo) und stellten fest, dass die Ergebnisse des Netzwerks mit denen aus Surinam vergleichbar waren. Es lässt sich jedoch nicht gut auf topologisch sehr andersartige Landschaften, wie Wüsten und Gebirgslandschaften, verallgemeinern. Dies ist kaum überraschend, da in diesen Regionen andere Abbaumethoden angewendet werden, was zu anderen visuellen Merkmalen der Minen führt.

  • Wir haben versucht, die Leistung des Modells durch Pretraining zu verbessern. Dies erwies sich als weniger vorteilhaft als erwartet, wahrscheinlich weil sich die nicht auf Fernerkundung ausgelegten Pretraining-Aufgaben zu sehr von der eigentlichen Aufgabe unterscheiden.

  • Wir haben gelernt, die spektrale Informationen nicht zu unterschätzen.