© unsplash/@igormiske

© unsplash/@igormiske
Einzelhandel, E-Commerce & Marktplätze

Image Tagging / Erkennung von Produkten in Bildern

Hintergrund

Eine gute Benutzererfahrung im Online-Einzelhandel und E-Commerce hängt stark von der Verfügbarkeit verschiedener Angebote und der leichten Auffindbarkeit der gewünschten Produkte ab. Das Auffinden von Produkten kann besonders schwierig sein, da viele potentielle Käufer ihre Produkte zuerst in Bildern auf Social-Media-Plattformen ohne Informationen über Produktname oder Marke finden. Die Produktsuche des Benutzers hängt dann nur noch von der Beschreibung des Produkts ab und kann zu frustrierenden Ergebnissen führen.

Herausforderungen

Die Produktsuche anhand von Bildern erfordert die Extraktion relevanter Merkmale der Produkte aus den Bildern, z.B. Art, Farbe und Material von Modeartikeln. Die Verwendung eines Machine Learnig (ML) Modells kann diese Image Tagging Aufgaben automatisieren, indem Objekte in den vom Benutzer zur Verfügung gestellten Bildern erkannt werden, z.B. Pullover, Hemd, Lampe usw., und deren Eigenschaften und Merkmale, z.B. Farbe, Material usw., bestimmt werden.

Das Problem besteht darin, einen ausreichend großen Datensatz für das Training zu haben, der die vielen verschiedenen und markenspezifischen Produkttypen und -namen enthält, damit das Modell hilfreiche Informationen liefern kann. Das Ergebnis des Modells wäre dann ein Bild, in dem die einzelnen Produkte getrennt und mit Schlüsselwörtern und Beschriftungen versehen sind.

Lösungsansatz

Image Tagging wird mit einem ML-Modell zur Bildsegmentierung und Objekterkennung in Kombination mit einem ML-Modell zur Multi-Label Klassifizierung durchgeführt. Die Kombination von Convolutional Neural Networks (CNN) und Recurrent Neural Networks (RNN) ist die gebräuchlichste Methode beim Image Tagging.

Neuere Untersuchungen zeigen jedoch auch eine gute Leistung bei der Verwendung von Graph Convolutional Networks (GCN). Während CNNs der Stand der Technik für binäre Bildklassifikationsaufgaben sind, sind RNNs und GCNs in der Lage, die Label-Korrelationen und -Abhängigkeiten zu erfassen.