Bei dida, einem deutschen KI-Dienstleister, haben wir eine klare Meinung zur Datenkennzeichnung:
Es ist am besten, zunächst an einem qualitativ hochwertigen Datenlabelingschema zu arbeiten, also einem System, bei dem die Fachexperten und die Machine Learning Scientists gemeinsam festlegen, welche Aspekte entscheidend zu kennzeichnen sind und welche Details wichtig sind. Sobald das Labelingschema gut definiert ist, beginnen wir bei dida mit dem Labeling: Zuerst unsere ML-Scientists selbst und dann hauptsächlich mit Hilfe unserer internen Werkstudenten. Wir bevorzugen es, Daten intern zu labeln, da wir so mehr Kontrolle über die Qualität haben und das Schema leichter anpassen können.
Nehmen Sie dieses Computer-Vision-Beispiel der Fernerkundung, bei dem vier Personen dasselbe Dach für unsere Dachsegmentierungslösung kennzeichnen: Alle vier Personen erstellten ihre Labels unterschiedlich. Person 1 hat gute Arbeit geleistet. Person 2 hat einige Hindernisse auf den Dächern vergessen. Person 3 hat seine/ihre Labels nicht präzise und nicht mit Kanten gezeichnet und Person 4 hat die Aufgabe völlig verfehlt.