Wir verwenden zwei Hauptinstrumente: die monokulare Tiefenschätzung und das Segment anything model
1. Monokulare Tiefenschätzung
Für die Tiefenschätzung verwenden wir MonoViT, ein selbstüberwachtes Modell, das auf Vision-Transformern basiert.
Das ursprüngliche Modell wurde mit dem KITTI-Datensatz trainiert, der aus Videos besteht, die in einem Auto aufgenommen wurden; um das Modell für unsere Zwecke besser geeignet zu machen, haben wir es mit den nicht annotierten Daten der Digitalen Schiene Deutschland weitertrainiert (sog. Finetuning).
Für das Finetuning werden zwei Modelle gleichzeitig trainiert: ein Tiefenmodell, das eine Schätzung der Tiefenkarte aus einem einzelnen RGB-Bild berechnet, und ein PoseNet-Modell, das die 3D-Transformation zwischen zwei Bildern in einem Video schätzt.
Bei zwei (in der Regel aufeinanderfolgenden) Bildern A und B aus einem Video verwenden wir die geschätzte Transformation zwischen ihnen, um die aus Bild A erhaltene 3D-Punktwolke und ihre geschätzte Tiefenkarte zu transformieren. Nach der Reprojektion auf die Ansicht von Bild B erhalten wir eine Rekonstruktion von Bild B. Anschließend trainieren wir die Modelle, um diesen Fehler bei der Bildrekonstruktion zu minimieren.
Die Leistung des Modells verbessert sich nach dem Finetuning deutlich.
Vorher: