Datenanreicherung ist eine Technik, die darin besteht, einen Datensatz künstlich zu erweitern, indem neue, vielfältige Datenpunkte aus vorhandenen Daten erstellt werden. Dieser Prozess folgt dem Schritt der Datensammlung und ist für das Training von maschinellem Lernen (ML), insbesondere von Deep-Learning-Modellen, unerlässlich, da sie große und vielfältige Datensätze benötigen, um genaue Vorhersagen treffen zu können. Durch die Anwendung von Transformationen wie Zuschneiden, Drehen, Skalieren oder Spiegeln auf Bilder oder die Verwendung von Methoden wie Synonymersetzung und Rückübersetzung für Textdaten trägt die Datenanreicherung dazu bei, die Fähigkeit des Modells zu verbessern, sich auf unterschiedliche Szenarien zu verallgemeinern.
Datenanreicherung ist eine großartige Methode für Maschinenlernwissenschaftler, die einen datenzentrierten Ansatz beim maschinellen Lernen verfolgen.