Der erste Schritt bestand darin, die Automatisierung des Trainingsprozesses in Angriff zu nehmen. Das Team entschied sich für den Einsatz von Vertex AI Pipelines, um diese Aufgabe zu lösen. Damit können die einzelnen Komponenten des Trainingsprozesses als gerichteter Graph entworfen werden, der die Abhängigkeiten zwischen den einzelnen Schritten definiert (siehe Abbildung unten). Der Graph enthält Komponenten, die Python-Code repräsentieren (z. B. train-model und evaluate-model) sowie Platzhalter für Eingabedaten und sogenannte Artefakte (d. h. Daten, die in einem Durchlauf der Pipeline erzeugt werden).
Ein Trainingslauf kann nun einfach als CI/CD-Pipeline auf Basis von Commits zur Codebasis (wie z.B. Änderungen der Modellkonfiguration oder des Trainingsprotokolls) angestoßen werden, während das Datenhandling sowie die Bereitstellung von Rechenressourcen von Vertex AI übernommen werden. Dies ermöglicht einen vollständig transparenten Trainingsprozess, der keine manuelle Verwaltung von Daten und einzelnen VMs zum Trainieren des Modells erfordert.