Welche Herausforderungen stellt die Urbanisierung in Städten wie Lagos, Accra und Luanda?

Das schnelle Bevölkerungswachstum (30-55% bis 2030) belastet die Infrastruktur und erschwert die Datenerhebung. Lösungen wie Satellitenbilder und maschinelles Lernen werden genutzt, um die urbane Entwicklung zu überwachen.

Wie hilft U-Net bei der Überwachung des horizontalen urbanen Wachstums?

U-Net wird für die horizontale Segmentierung eingesetzt, um die Ausbreitung der Stadt im Laufe der Zeit anhand von Satellitenbildern zu erkennen und hat sich in verschiedenen Segmentierungsaufgaben als effektiv erwiesen.

Wie unterscheidet sich Im2Height von U-Net bei der Schätzung des vertikalen Wachstums?

Im2Height sagt Höhenkarten durch Regression voraus, wobei Residualverbindungen verwendet werden, im Gegensatz zu U-Net, das Segmentierung durchführt. Es gibt die Höhe in Metern aus Monobildern an.

Satellitengestütztes Monitoring der Verstädterung

Johan Dettmar

12th October 2020

2.6. red: footprint added between May 2013 and January 2019

Die Urbanisierung auf globaler Ebene vollzieht sich in einem immer höheren Tempo. Im Jahr 2008 lebten mehr als 50% der Weltbevölkerung in Städten, und es wird vorhergesagt, dass bis 2050 etwa 64% der Entwicklungsländer und 86% der entwickelten Welt verstädtert sein werden. Dieser Trend stellt eine erhebliche Belastung für die Infrastrukturplanung dar. Die Bereitstellung von sanitären Einrichtungen, Wassersystemen und Verkehrsmitteln bis hin zu angemessenem Wohnraum für mehr als 1,1 Milliarden neue Stadtbewohner in den nächsten 10 Jahren wird eine außerordentliche Herausforderung darstellen.

In einem Forschungsprojekt für das Programm "KI für soziale Auswirkungen" der Europäischen Weltraumorganisation (ESA) untersuchte dida den Einsatz modernster Computer-Vision-Methoden zur zeitlichen Überwachung der Stadtentwicklung von drei schnell wachsenden Städten in Westafrika: Lagos, Accra und Luanda. Es wird erwartet, dass die Bevölkerung dieser Städte bis Ende 2030 um 30-55 % wachsen wird, was bedeutet, dass eine in-situ-Datenerhebung über die Entwicklung dieser Städte angesichts der verfügbaren Ressourcen fast unmöglich ist. Stattdessen haben wir ein Konzept entwickelt, das sich ausschließlich auf Satellitenbilder und maschinelles Lernen stützt.

Urban development of Lagos, Nigeria between 2001 and 2012, images from Google Earth.

Zielstellung

Das Monitoring lässt sich in zwei Teile unterteilen: horizontales Wachstum (Expansion) und vertikales Wachstum (Verdichtung). Beide Aufgaben werden durch die Vorhersage der horizontalen Ausbreitung und der vertikalen Höhe in verschiedenen Zeitschritten in einer Folge von Satellitenbildern erfüllt. Der Wechsel zwischen den einzelnen Vorhersagen kann dann visualisiert und hervorgehoben werden. Beide Aufgaben stellen ihre eigenen Herausforderungen dar, und dieser Post wird versuchen, einige der Techniken hervorzuheben, die zur Erstellung möglichst genauer Vorhersagen verwendet werden..

Modellarchitekturen

Um die Modelle zu trainieren, wird ein überwachtes maschinelles Lernverfahren eingesetzt, d.h. beide Modelle werden mit einer großen Menge an Input-Output-Beispielen gefüttert, von denen sie lernen können.

Die horizontale Segmentierungsaufgabe wird von einem faltenden neuronalen Netz (CNN) namens U-Net übernommen. Es hat sich in verschiedenen Kontexten bewährt, von der semantischen Segmentierung medizinischer Bilder bis hin zu Satellitenbildern, die beide in unseren früheren Blogbeiträgen ausführlich beschrieben wurden und daher hier nicht weiter erläutert werden.

Die Aufgabe der Vertikalschätzung wird von einem ähnlichen, aber in gewisser Weise entscheidend anderen CNN übernommen, nämlich einem CNN namens Im2Height, das ein einzelnes monokulares Bild in eine Höhenkarte umwandeln kann. Die Ähnlichkeit zum U-Net besteht darin, dass beide residuelle Verbindungen zwischen dem Faltungsschritt und dem Entfaltungsschritt verwenden, während Im2Height nur eine residuelle Verbindung zwischen dem ersten und dem letzten Block überträgt und gleichzeitig eine residuelle Verbindung innerhalb jedes Blocks verwendet. Ein weiterer wichtiger Unterschied besteht darin, dass die letzte Schicht, anstatt eine binäre Klassifikation durchzuführen, eine Regressionsaufgabe durchführt, die die Höhe in Metern ausgibt.

Daten

Beide Modelle werden mit Radardaten des TerraSAR-X-Satelliten als Input trainiert. Der Vorteil der Verwendung von Radardaten im Vergleich zu visuellen Spektralbildern besteht darin, dass Wolken und Luftverschmutzung das Bild nicht verdecken, was bedeutet, dass das interessierende Gebiet mit einer höheren zeitlichen Frequenz erfasst werden kann.

TerraSAR-X snapshot of south Lagos, Nigeria. Image by Airbus.

Die Datenvorverarbeitungspipeline ist ein wichtiger Teil dieses Projekts, bei dem Satellitenbilder aus verschiedenen Quellen perfekt aufeinander abgestimmt werden müssen, um eine optimale Leistung beim Training zu erzielen. Die Pipeline enthält zahlreiche Schritte, die im untenstehenden Diagramm beschrieben sind.

Die Zieldaten für die horizontale Aufgabe bestehen aus manuell annotierten binären Masken. Aus diesen Masken wird eine Gewichtskarte berechnet, bei der das Gewicht an jedem Pixel von der Entfernung zur nächsten Grenze abhängig ist. Diese Gewichtungskarte wird verwendet, um korrekte Vorhersagen um Grenzen herum noch stärker hervorzuheben.

Die Zieldaten für die vertikale Schätzungsaufgabe stammen vom TanDEM-X-Satelliten und sind eine 12x12m pro Pixel große Höhenkarte, die unsere drei Städte abdeckt. Um die Aufgabe zu vereinfachen, wird das Modell gebeten, die relative Höhe der Objekte im Bild statt ihrer absoluten Höhe zu schätzen. Das bedeutet, dass das Modell jedes Bild so behandelt, als befinde sich der tiefste Punkt des Bildes in 0 m Höhe über dem Meeresspiegel. Da wir ohnehin nur an der relativen Änderung zwischen verschiedenen Zeitschritten interessiert sind, stellt diese Vereinfachung keine Einschränkung dar. Für Darstellungszwecke fügen wir die Basis jedoch wieder hinzu, sobald eine Vorhersage gemacht wurde.

Ergebnisse

Nachdem das U-Netz zur Vorhersage der horizontalen Ausbreitung trainiert wurde, zeigt es vielversprechende Ergebnisse mit einem F1-Ergebnis auf dem Trainings- und Testsatz von ca. 0,9 bzw. 0,8. Die visuellen Ergebnisse finden Sie in der Galerie unten.

Die Bilder veranschaulichen die Veränderung der städtischen Ausdehnung von Lagos, Nigeria, im Laufe der Zeit. Die Zeitschritte reichen von weiß (2011) bis rot (2019), da immer neuere Vorhersagen gemacht wurden. Die vergrößerten Bilder haben die gleichen Zeitschritte wie in der Legende der Übersicht und heben bestimmte Bereiche der neuen Entwicklungen um Lagos hervor.

Nachdem wir das Im2Height-Modell in zahlreichen verschiedenen Konfigurationen trainiert haben, ziehen wir aus unseren Ergebnissen eine Reihe von Schlussfolgerungen. Das Training mit dem Structural Similarity Index Measure (SSIM) als Verlustfunktion führt zu den besten Ergebnissen unserer Experimente. Auch wenn das Modell an einigen Stellen sehr große Fehler ausgibt, sind diese mit Hilfe einer einfachen Anomalieerkennung als Nachbearbeitungsschritt oft recht leicht vermeidbar. Die Verwendung des SSIM-Verlusts ergab nicht nur die besten SSIM-Ergebnisse (0,5 auf dem Trainingsset, 0,03 auf dem Testset) im Vergleich zur Verwendung des Verlusts des mittleren quadratischen Fehlers (MAE) (0,01 auf dem Trainingsset und 0,001 auf dem Testset), sondern die Beseitigung der Anomalien verbessert auch die Ergebnisse in einem besseren MAE in unseren Experimenten (Training: ±15m, Test: ±18m vs. ±18m bzw. ±21m).

Diese Fehler sind jedoch immer noch zu groß, um kleinere Veränderungen, die über mehrere Jahre hinweg auftreten, sinnvoll zu erkennen (von denen die meisten deutlich unter dieser Fehlergröße liegen dürften). Da sich diese Ergebnisse von der Originalarbeit unterscheiden, möchten wir einige mögliche Gründe für dieses Ergebnis skizzieren: Die geringe Auflösung der Radardaten ist die wahrscheinlichste Quelle dieses Fehlers (5x5m gegenüber 0,7x0,7m in der Originalarbeit), die in Kombination mit dem Mangel an visuellen Hinweisen wie Schatten usw. die Möglichkeit, aus den Daten zu lernen, drastisch reduziert. Unten in der Galerie finden Sie einige visuelle Ausgaben der von Im2Height erstellten Vorhersagen.

Die obigen Bilder zeigen von links nach rechts die absolute Höhe, die Fehlergröße der Vorhersagen und schließlich die vorhergesagte Differenz zwischen 2011 und 2019. Alle Bilder stammen aus Lagos, Nigeria.

Fazit

Das U-Net kann mit TerraSAR-X-Radardaten als Input die horizontale Ausbreitung städtischer Gebiete mit hoher Genauigkeit zuverlässig erfassen. Die Im2Height hingegen konnte mit Radardaten als Input zu diesem Zeitpunkt noch keine befriedigenden Ergebnisse liefern. Wir müssten weiter untersuchen, ob Radardaten auch bei höherer räumlicher Auflösung ausreichend sind oder ob Daten aus dem sichtbaren Spektrum die einzige verfügbare Wahl sind. Darüber hinaus muss weiter untersucht werden, ob es eine Mindestauflösungsschwelle gibt, ab der das Modell unabhängig von der Datenquelle gute Ergebnisse liefern würde. Unabhängig davon, dass diese Machbarkeitsstudie sowohl eine Herausforderung als auch lehrreich war, haben wir neue Erkenntnisse gesammelt, die wir mitnehmen, um dieses und andere Projekte voranzutreiben. Wir möchten der ESA dafür danken, dass sie uns bei der Durchführung dieses Projekts unterstützt und es uns ermöglicht hat, neue Anwendungen innerhalb der Fernerkundung mit Hilfe des maschinellen Lernens zu erforschen.