Echtzeit Kennzeichen-Erkennung und -Zuordnung

Zuordnung der Ausfahrt eines Fahrzeugs aus einem Parkhaus zur Einfahrt anhand von Kamera-Aufnahmen des Kennzeichens.

Input

Live-Stream von Kennzeichenbildern aus Parkhäusern in ganz Europa

Output

Zugeordnete Besuche (Einfahrt und Ausfahrt), korrigierter Kennzeichen-String und Confidence Score

Ziel

Erhöhung der erkannten Besuche, um die Anzahl abrechenbarer Parkhaus-Sitzungen (Besuche) zu steigern

Motivation

APCOA betreibt als führender europäischer Parkhausbetreiber hunderte Standorte in mehreren Ländern. Kameras an Ein- und Ausfahrten erfassen automatisch Kennzeichenbilder. Die Zuordnung einer Einfahrt zu einer Ausfahrt - d. h. die Erkennung eines vollständigen Besuchs - ist kritisch: Nur erfolgreich zugeordnete Besuche können abgerechnet werden.

Die bisherige Lösung basierte auf OCR-Strings, die von Kameraherstellern bereitgestellt wurden, sowie auf exaktem String-Matching. Die OCR der Hersteller war häufig ungenau, was zu nicht zugeordneten Besuchen führte, die nicht abgerechnet werden konnten, ein vermeidbarer Umsatzverlust.

Herausforderung

Die Aufgabe war vielschichtig und technisch anspruchsvoll:

Kennzeichenbilder mit stark schwankender Qualität: Anschnitte, Verdeckungen, schlechte Beleuchtung und Verschmutzungen
Unterschiedliche Kennzeichenformate und Schriftarten in sechs europäischen Ländern
Echtzeit-Anforderung: Das Matching muss unmittelbar nach jeder Kamera-Beobachtung erfolgen
Hoher, variabler Durchsatz von etwa einer Million Beobachtungen pro Tag
Nicht aufeinanderfolgende Beobachtungen (z. B. AABA-Muster) und fehlende oder fehlerhafte Fahrtrichtungen
Korrekte Bindestrichsetzung als länderspezifische Herausforderung (deutscher Markt)

Lösung

dida hat eine End-to-End-Lösung entwickelt, die die gesamte Pipeline von der Bildverarbeitung bis zur Besuchszuordnung abdeckt. Die Lösung besteht aus drei Kernkomponenten:

1. State-of-the-Art OCR-Modell

Ein OCR-Modell auf Basis einer Transformer-Architektur (TrOCR) wurde speziell für Fahrzeugkennzeichen trainiert. Das Modell nutzt einen Encoder-Decoder-Ansatz mit einem spezialisierten Tokenizer für Zeichen eines Kennzeichens (Ziffern, Buchstaben, Bindestriche). Durch ein iteratives Bootstrapping-Verfahren wurde das Modell auf schwach gelabelten Betriebsdaten trainiert ohne aufwändige manuelle Annotation.

Gleichzeitiges Training auf Metric Learning (Encoder) und Texterzeugung (Decoder)
Kombination aus Cross-Entropy Loss und Triplet Loss für robuste Embeddings
Umgang mit Anschnitten, mehrzeiligen Kennzeichen und unterschiedlichen Bildqualitäten

2. Hierarchischer Matching-Algorithmus

Da OCR-Ergebnisse fehlerbehaftet sein können (z. B. Anschnitte, Verdeckungen), wurde ein Fuzzy-Matching-Ansatz mit domänenspezifischen Heuristiken entwickelt:

Transit-Matching über maximale Cliquen innerhalb zeitlicher Fenster, einschließlich Zeitrestriktionen
Rückwärtsgerichtetes Besuchs-Matching für abgeschlossene Ausfahrten und vorwärtsgerichtetes Matching für abgeschlossene Einfahrten
String-Overlap-Analyse zur Unterscheidung von Kandidaten
Kombinierter Confidence Score aus einem OCR-Term, einem Transit-Term und einem Besuchs-Term

3. Skalierbare Microservice-Architektur

Für den Produktivbetrieb wurde eine eventgetriebene Microservice-Architektur auf einem Kubernetes-Cluster aufgebaut:

Eventgetriebene Architektur mit Message Bus für lose gekoppelte Komponenten
NVIDIA Triton Inference Server mit ONNX-Backend und Dynamic Batching
PostgreSQL-Datenbank zur Synchronisation zwischen zustandslosen Matching-Pods
Infrastructure-as-Code mit Terraform und Terragrunt für Multi-Environment-Deployments

Ergebnisse

Die Lösung wurde erfolgreich in Produktion gebracht und liefert messbare geschäftliche Ergebnisse:

5 % Umsatzsteigerung	Erhöhung der zugeordneten Besuche durch präziseres Matching – direkter Umsatzzuwachs
> 80 % rechtliche Durchsetzbarkeit	Fuzzy-Matches erreichen Confidence-Werte auf dem Niveau exakter Matches und ermöglichen die rechtliche Eintreibung von Parkgebühren
ROI > 10x	Das Verhältnis von zusätzlichem Umsatz zu laufenden Betriebskosten übersteigt den Faktor zehn
< 1 : 500 False-Positive-Rate	Weniger als ein fehlerhaftes Match pro 500 sorgt für hohe Zuverlässigkeit
6 Länder, ~1 Mio. Beob./Tag	Das System ist in sechs europäischen Ländern im Einsatz und verarbeitet täglich etwa eine Million Beobachtungen
Echtzeit	Das Matching erfolgt nahezu in Echtzeit nach jeder Kamera-Beobachtung

Zusammenfassung

Dieses Projekt zeigt, wie eine End-to-End KI-Lösung erheblichen geschäftlichen Mehrwert schaffen kann: Ein eigens entwickeltes Deep-Learning-Modell – kombiniert mit domänenspezifischen Algorithmen und einer robusten Cloud-Infrastruktur – ermöglicht ein zuverlässiges Echtzeit-Matching von Besuchen über hunderte Parkhaus-Standorte in Europa hinweg. Die Lösung verbessert unmittelbar die Umsatzposition des Kunden bei gleichzeitig niedrigen Betriebskosten und ist problemlos auf weitere Märkte und Standorte skalierbar.

Projekt Präsentation

Fabian Dechent präsentierte das Projekt auf der dida conference 2025 und erklärte den Ansatz sowie technische Details.