Hintergrund
Piloten erhalten eine Wettervorhersage, einen sogenannten METAR-Bericht, der die Bedingungen am Zielflughafen beschreibt. Derzeit wird dieser Bericht manuell durch Beobachtungen von erfahrenen Meteorologen am Boden erstellt, aber der DWD bemüht sich, dieses Vorgehen so weit wie möglich zu automatisieren, um den Meteorologen Zeit für andere Aufgaben zu geben. Wir werden uns auf den Abschnitt dieses Berichts konzentrieren, der die konvektiven Wolken betrifft.
Damit ein automatisiertes System zuverlässig und vertrauenswürdig ist, muss es mehrfach redundant sein, und deshalb müssen die Modelle auf unterschiedlichen Datenquellen basieren. Algorithmen, die Radar- und Blitzdaten verwenden, gibt es bereits, und unser Ziel war es hier, ein unabhängiges Modell auf der Grundlage von Meteosat-Daten der zweiten Generation (MSG) bereitzustellen, um diese zu unterstützen. Als solche ist die ML-Komponente des Systems eine semantische Segmentierung der Satellitendaten in drei Klassen: CB, TCU oder keine von beiden.
Herausforderungen
Das Labeling war hier eine große Herausforderung. Die Merkmale von konvektiven Wolken sind äußerst subtil, und es ist selbst für einen geschulten Menschen schwierig, sie in den Daten zu erkennen.
Darüber hinaus gab es auch eine Reihe von technischen Herausforderungen bezüglich der Eingabedaten: Der Satellit kreist über dem Äquator und nimmt ein Bild der gesamten Erdscheibe auf. Damit befindet er sich in einem Winkel von ~20° über der Normalen. Folglich muss das Bild geometrisch transformiert werden, um die richtige Perspektive zu erhalten.
Darüber hinaus haben wir 12 Kanäle: 3 visuelle Kanäle, die sich alle in der Wellenlänge von Rot und nicht von RGB unterscheiden, und 9 Infrarotkanäle. Einer der visuellen Kanäle, der High Resolution Visual (HRV)-Kanal, hat eine dreimal höhere Auflösung als die anderen. Dies stellt uns vor die Wahl: Wir können den HRV-Kanal herunter- oder die anderen Kanäle hochskalieren. Wir entschieden uns für das Hochskalieren der übrigen Kanäle, um sicherzustellen, dass die Feinstruktur im HRV-Kanal erhalten bleibt.
Unsere Lösung
Der Labeling-Prozess wurde mit einem zusammengesetzten Bild des HRV-Kanals mit einem der Infrarotkanäle durchgeführt, die die relevanten Wolken stärker hervortreten ließen. Doch selbst dies reicht nicht in allen Fällen aus, um ein Urteil zu fällen, so dass zur korrekten Kennzeichnung auch externe Daten in Form von Radar- und Bodenbeobachtungen herangezogen wurden. Zusätzlich überprüfte ein Meteorologe alle Beschriftungen, um sicherzustellen, dass sie korrekt waren.
Das Modell selbst ist ein U-Net, das im Rahmen von PyTorch implementiert und mit Adam mit einer Lernrate von einem Zyklus trainiert wurde (one cycle learning rate scheduler).
Es wurden auch umfangreiche Datenaugmentation vorgenommen, um das Beste aus unserem Datensatz herauszuholen.
Genutzte Technologien
Backend: Python, PyTorch, SatPy, OpenCV, Numpy
Infrastructure: GCloud (Training), Git, nevergrad, tensorboard