Erkennung subtiler Events in Videos mit YOLO-in-tim


Ma Li (PhD)

In diesem Vortrag stellen wir eine universelle Modellarchitektur vor, die sich für die Erkennung und Zählung subtiler Ereignisse in Videos eignet. Sie kombiniert ein Convolutional Neural Network (CNN), ein Recurrent Neural Network (RNN) und einen YOLO-Kopf im Zeitbereich. Das Modell kann durchgängig nur mit zeitaufgelösten Labels trainiert werden, ohne dass eine Anpassung oder domänenspezifisches Wissen erforderlich ist. Wir diskutieren mögliche Anwendungsfälle und zeigen experimentelle Ergebnisse sowohl für synthetische Datensätze als auch für Datensätze aus der realen Welt.