21 Fragen, die wir unseren Kunden stellen: Start eines erfolgreichen ML-Projekts


Emilius Richter


@saycheezestudios

Die Automatisierung von Prozessen mithilfe von Machine Learning (ML) kann die Effizienz eines Systems über menschliche Kapazitäten hinaus steigern und wird daher in vielen Branchen immer beliebter. Doch zwischen einer Idee und einem gut definierten Projekt gibt es einige Punkte, die berücksichtigt werden müssen, um das wirtschaftliche Potenzial und die technische Komplexität des Projekts richtig einzuschätzen.

Gerade für Unternehmen wie dida, die individuelle Workflow-Automatisierungssoftware anbieten, hilft ein gut vorbereitetes Projekt dabei, die Machbarkeit und die technische Gesamtkomplexität der Projektziele schnell einzuschätzen - was es wiederum ermöglicht, Software entwicklen, die den Anforderungen des Kunden gerecht wird. In diesem Artikel besprechen wir, welche Themen im Vorfeld berücksichtigt werden sollten und warum die Fragen, die wir stellen, wichtig sind, um ein erfolgreiches ML-Softwareprojekt zu starten.


Bedeutung der Projektvorbereitung


Eine detaillierte Analyse einer Projektidee hat viele Vorteile für Sie und Ihr Unternehmen, da Sie dadurch ein besseres Verständnis für die Herausforderungen, technischen Anforderungen und möglichen Ergebnisse und damit eine konkretere Skizze des Projekts erhalten als eine lose und wenig greifbare Idee.

 photo of a discussion round

Wenn Sie eine gute Beschreibung und Skizze Ihrer Projektidee haben, haben Sie sich wahrscheinlich schon mit wesentlichen Fragen auseinandergesetzt, z.B. welche wirtschaftlichen Auswirkungen auf mein Unternehmen das Projekt hat und welche Art von Daten verarbeitet werden müssen. Dies ermöglicht Ihnen fruchtbare Diskussionen mit Data Scientists, Entwicklern und ML-Beratern des ML-Softwareanbieters, die sich wiederum auf Basis einer detaillierteren Projektbeschreibung besser vorbereiten können.

Gehen wir also die Fragen durch, die wir unseren Kunden stellen und die Ihnen helfen werden, Ihr Projekt vorzubereiten und Sie einen Schritt näher an die Automatisierung Ihres Workflows mit ML-Software zu bringen.


Business und Workflow


1. Können Sie in wenigen Sätzen eine Beschreibung der allgemeinen Idee geben?

Dies ist wahrscheinlich ein Punkt, mit dem Sie sich bereits beschäftigt haben. Die Frage wird Ihnen einerseits helfen, die wesentlichen Punkte des Projekts herauszuarbeiten und Ihre Projektidee zu abstrahieren. Andererseits gibt uns die Antwort eine grobe und allgemeine Skizze des Projekts und eine Grundlage für weitere Diskussionen.

2. Welche der folgenden Ziele sind im Rahmen des Projekts am wichtigsten zu erreichen?

  • Einsparung von Personalkosten oder Reduzierung des manuellen Aufwands

  • Aktivierung der Mitarbeiter für Tätigkeiten mit höherer Wertschöpfung

  • Erstellung eines standardisierten Produkts zur Kommerzialisierung

  • Wettbewerbsvorteil durch Automatisierung eines Kernprozesses

  • Erstellung eines Machine-Learning-Pilotprojekts im Unternehmen

Natürlich können hier mehrere Punkte auf Ihr Unternehmen zutreffen und auch andere, die nicht aufgeführt sind, aber diese Punkte sind in der Regel die wichtigsten Aspekte von ML-Projekten. Wir stellen diese Frage, um Sie zu ermutigen, genauer zu analysieren, was die Kerngeschäftsziele Ihres Projekts sind, und um mit den Business Owners über die Ziele zu reflektieren. Sie kann uns außerdem eine erste Vorstellung von Ihren Erwartungen an das Projekt und Ihrem Engagement dafür geben.

3. Können Sie den wirtschaftlichen Wert bzw. die Bedeutung einer erfolgreichen Projektumsetzung für Ihr Unternehmen einschätzen?

Die Angabe eines konkreten monetären Wertes, der die Effizienzsteigerung und die wirtschaftlichen Auswirkungen für Ihr Unternehmen erfasst - auch wenn dies anfangs manchmal schwer abzuschätzen ist - ermöglicht es Ihnen, den Return on Investment (ROI) abzuschätzen, der ein gutes Maß für die Rentabilität des Projekts und die Effizienz der Investition ist. Dies gibt eine Vorstellung davon, wie viel Ihr Unternehmen maximal bereit ist, für das Projekt auszugeben, und kann bei internen Diskussionen mit den Business Owners des Projekts hilfreich sein. Diese Auswertung kann auch dazu führen, dass Sie die beteiligten Prozesse und Stakeholder untersuchen und wie sie voneinander profitieren und sich gegenseitig beeinflussen.

4. Wer sind die internen und externen Stakeholder des Prozesses?

Diese Informationen sind hilfreich, um einen Überblick über die Personen, Gruppen, Organisationen usw. zu erhalten, die an der Realisierung des Projekts beteiligt oder davon betroffen sind. So können Gespräche mit allen Beteiligten geführt und ihre Interessen und Erwartungen einbezogen werden, um ein Projekt zu starten, das für alle zufriedenstellend ist. Es hilft auch dabei, die Abteilungen und Personen zu identifizieren, die am meisten von dem Projekt profitieren werden und es daher am ehesten unterstützen werden.

5. Haben Sie bereits Initiativen zur Realisierung des Projekts gestartet?

Bereits gestartete Initiativen können für uns ein sehr guter Ausgangspunkt sein, um zu verstehen, welche Ergebnisse das Projekt liefern soll und wo die technischen Herausforderungen liegen, bevor entscheiden wurde, externe Auftragnehmer anzusprechen. Dies kann helfen, mögliche Erwartungen und die technische Machbarkeit besser einzuschätzen. Es zeigt auch, wie wichtig das Projekt für Ihr Unternehmen ist und dass Sie bereits ein detailliertes Verständnis für das Problem und seine Herausforderungen haben.

6. Erhält der Workflow Eingaben aus dem globalen Prozess?

Einer der wichtigsten Punkte für eine ML-Lösung ist die Zuverlässigkeit und Qualität der Daten. In den meisten Fällen hängen die Eingabedaten für den zu automatisierenden Workflow stark von einem übergeordneten Prozess ab. Diesen Prozess zu verstehen, kann entscheidend sein. Es kann Hinweise auf die Zuverlässigkeit der Trainings- und Testdaten und auf mögliche Schwankungen innerhalb der Produktionsdaten geben.

 photo of an organigram

Dies kann Entscheidungen darüber beeinflussen, welche ML-Modelle am besten geeignet sind, um das Problem zu lösen, und potenzielle Herausforderungen in Bezug auf die zukünftige Unterstützung aufzeigen. Die Einbettung des Workflows in einen globalen Prozess kann auch zu Änderungen der technischen Spezifikationen und Einschränkungen führen, die bei der Verarbeitung der Eingabedaten berücksichtigt werden müssen.

7. Beeinflusst die Ausgabe des Workflows den globalen Prozess und wenn ja, wie?

Der Einfluss auf den globalen Prozess kann wertvolle Erkenntnisse darüber liefern, welche Anforderungen die Workflow-Automatisierung erfüllen muss, z. B. in Bezug auf Antwortzeit, Genauigkeit, Fehlertoleranz, Format usw. Insbesondere wenn nachfolgende Prozesse sicherheitsrelevant oder von qualitativ hochwertigen Daten abhängig sind, beeinflussen diese Informationen die Entscheidung für die am besten geeigneten ML-Modelle und ermöglichen es, Herausforderungen und technische Vorgaben und Einschränkungen zu identifizieren.

8. Welche Schritte des Workflows erfordern eine komplexe Informationsextraktion, -integration und -verarbeitung durch einen menschlichen Experten?

Einige Prozesse, die automatisiert werden sollen, erfordern derzeit die Kontrolle oder Interaktion menschlicher Experten, um eine geringe Fehlerquote und möglicherweise eine bessere Nachvollziehbarkeit zu gewährleisten. Die Automatisierung solcher Schritte des Workflows kann recht komplex sein. Wenn man sich dessen bewusst ist, kann man fortschrittlichere Ansätze erforschen und evaluieren, ob menschliche Kontrolle und Interaktion in den automatisierten Prozess integriert werden können.

9. Wie schwerwiegend sind die Folgen von Fehlern oder des Versagens einiger der Schritte?

Einige Prozesse und Aufgaben sind empfindlich gegenüber Fehlern und Ausfällen, entweder weil sie hochwertige Eingaben erfordern oder sicherheitsrelevant sind. Daher ist es sehr wichtig, diese zu identifizieren, um ihnen besondere Aufmerksamkeit zu schenken und Lösungsansätze zu finden, die sicherstellen, dass diese Prozesse mit guter Performance arbeiten und mit ausreichenden Kontrollmechanismen unterlegt sind. Dies wiederum kann sich auf die technische Machbarkeit auswirken, da einige Leistungsstufen, die zwingend erforderlich sind, mit aktuellen ML-Methoden möglicherweise nicht erreicht werden können.


Technische Aspekte


 photo of glasses lying in front of a laptop screen

Es ist Halbzeit bei unserem Fragebogen. Bisher bezogen sich die Fragen hauptsächlich darauf, die geschäftlichen Ziele und Aspekte genauer zu analysieren und den zu automatisierenden Workflow besser zu verstehen. Die nächsten Punkte beziehen sich auf den technischen Teil des Anwendungsfalls und sollen helfen, die technische Machbarkeit zu bewerten.

10. Was ist der Datentyp?

Dies ist offensichtlich eine wichtige Frage. Wenn wir wissen, mit welcher Art von Daten wir es zu tun haben, z. B. PDF-, TXT-, JPG-, TIFF-, CSV- oder XML-Dateien usw., können wir festlegen, ob wir Computer Vision, Natural Language Processing oder andere Data Science-Techniken einsetzen müssen. Zusammen mit der Beschreibung der Projektidee haben wir vielleicht schon einen Lösungsansatz oder eine ähnliche Fallstudie aus der Vergangenheit, die wir präsentieren können.

11. Wie groß ist der Umfang der verfügbaren Daten?

Die Leistung eines ML-Algorithmus hängt stark von der Menge der verfügbaren Daten ab. Daher können diese Informationen eine erste grobe Schätzung der Leistung liefern, die das Modell erreichen kann. Die Mindestmenge an Daten sollte je nach Anzahl und Verteilung der Klassen etwa 500-2000 Beispiele betragen. Stehen nicht genügend Daten zur Verfügung, kann nach Lösungsansätzen gesucht werden, um den Datenmangel zu überwinden und anhand der Ergebnisse muss bewertet werden, ob das Projekt überhaupt durchführbar ist.

12. Gibt es eine wohldefinierte Ausgabe für einen einzelnen Eingabedatenpunkt?

Diese Frage bezieht sich auf die Aufgabe, die das Modell erfüllen soll, d. h., welche Art von Ausgabe das Modell erzeugen soll. Gängige ML-Aufgaben sind eine Klassifizierung, Segmentierung, Clustering, etc. der Eingabe. In der Regel lässt sich die Antwort bereits grob aus der Projektbeschreibung ableiten, aber die Spezifizierung - idealerweise zusammen mit einigen Beispielausgaben - ist sehr nützlich für die Vorbereitung von Lösungsansätzen und Diskussionen.

13. Wie groß ist die Anzahl der verfügbaren Eingabe - Ausgabe-Datenpaare?

Unter Eingabe-Ausgabe-Datenpaaren verstehen wir gelabelte Daten. Da das Labeling von Daten je nach Datenmenge, Art der Eingabedaten und gewünschter Ausgabe enorm zeitaufwändig sein kann, ist diese Frage für die Abschätzung des Zeitrahmens, der Kosten und des benötigten Personals des Projekts unerlässlich. Wenn nicht genügend Input-Output-Paare zur Verfügung stehen, müssen in den meisten Fällen gelabelte Daten zum Training beschafft werden, entweder durch den Auftraggeber oder den Auftragnehmer. Da dieser Prozess oft zeitaufwendig ist, empfehlen wir, so viele Input-Output-Daten wie möglich zu speichern, bevor Sie sich an ML-Auftragnehmer wenden.

14. Haben Sie ein Maß für die Leistung/Qualität des Workflows?

Wenn der Workflow in einen globalen Prozess eingebettet ist, muss das Modell nicht nur während der Trainings- und Validierungsphase, d. h. bei der Generierung der Ausgabe, gut abschneiden, sondern auch im Hinblick auf nachfolgende Prozesse. Möglicherweise gibt es eine Kennzahl, die bereits für den Workflow verwendet wird und zur globalen Bewertung des Modells herangezogen werden kann. Dies ist bereits bei der Implementierung zu berücksichtigen, um das Modell nachträglich zu optimieren und den Projektfortschritt an die internen Business Owner zu kommunizieren. Diese Metrik kombiniert idealerweise technische und geschäftliche Aspekte. Beispiele für Metriken könnten "% der erkannten Fehler" in einem Fertigungsprozess oder "Anzahl der Minuten für die Bearbeitung eines eingehenden Auftrags" für eine Logistikabteilung sein.

15. Haben Sie eine Vorstellung von der akzeptierten Fehlertoleranz?

Viele Prozesse, die in einen größeren Workflow eingebettet sind, beeinflussen die Leistung nachgeordneter Prozesse und müssen daher innerhalb einer Fehlertoleranz ablaufen. Diese Fehlertoleranz sollte natürlich auch für den automatisierten Prozess gelten. Wenn dies bei Ihrem Projekt der Fall ist, würde uns diese Metrik helfen, die technische Machbarkeit angesichts dieser Fehlertoleranz zu bewerten und mögliche Einschränkungen und Begrenzungen zu identifizieren. Diese Bewertung kann unbefriedigend ausfallen, z.B. in Form von nicht erfüllten Erwartungen oder Leistungswerten, verhindert aber, dass solche Probleme erst dann diskutiert werden, wenn das Projekt bereits begonnen hat. Außerdem können so Erwartungshaltung und technische Machbarkeit in Einklang gebracht werden.

16. Kann die menschliche Qualitätskontrolle in den automatisierten Prozess integriert werden?

Auch wenn Machine-Learning-Modelle in der Lage sind, viele Prozesse mit hoher Genauigkeit zu automatisieren, können die Ergebnisse des Modells manchmal schwer nachvollziehbar sein. Insbesondere bei hochsensiblen Aufgaben, z. B. im Gesundheitswesen, ist nach wie vor eine menschliche Qualitätskontrolle erforderlich. Bei einigen Prozessen kann die Kombination von ML und menschlicher Kontrolle, anstatt sich vollständig auf manuelle oder maschinelle Verarbeitung zu verlassen, entweder sicherer oder effizienter sein.

17. Gibt es eine bestehende Datenpipeline?

Die Datenpipeline ist die Grundlage für die Integration des ML-Modells und seiner Ausgaben in den Workflow, da sie für den Datenfluss verantwortlich ist und die Interaktion mit und den Zugriff auf die Daten ermöglicht. Eine vorhandene Pipeline würde weitere Diskussionen über die notwendigen Datenzugriffspunkte und das Deployment des ML-Modells in das System aufwerfen. Wenn es keine bestehende Pipeline gibt, hat deren Implementierung Auswirkungen auf die Projektplanung und die Kostenabschätzung, die genauer bewertet werden müssen.

18. Wie groß ist die Datenmenge, die in einem bestimmten Zeitraum verarbeitet werden soll?

Diese Frage hilft bei der Bewertung der Systemanforderungen hinsichtlich der Skalierbarkeit des ML-Modells und des Deployments sowie bei der Abschätzung möglicher Hardwareanforderungen und Modellreaktionszeiten. In diesem Schritt wäre der Beitrag Ihres DevOps-Teams erforderlich, damit Sie den DevOps-Vorbereitungsbedarf und die erforderlichen Ressourcen frühzeitig absehen können.

19. Gibt es irgendwelche Hardware-Einschränkungen für die Produktionsumgebung?

Wenn diese Informationen zu Beginn des Projekts oder sogar schon vorher vorliegen, können die Entwickler planen, wie sie mit diesen Einschränkungen bei der Implementierung des Algorithmus umgehen. Darüber hinaus können mögliche Limitierungen, die sich aus den Restriktionen ergeben, frühzeitig abgeschätzt und adressiert werden.

20. Gibt es ein internes IT-Team, das für das Deployment ins Ökosystem verantwortlich ist?

Sicherlich kann sich Ihr externer Auftragnehmer um das erste Deployment und die Integration in die IT-Architektur kümmern, aber es könnte sinnvoll sein, dass die langfristige Wartung vom internen IT-Team des Unternehmens übernommen wird. Selbst für das erste Deployment ist es einfacher, ein internes IT-Team zu haben, das sich mit der IT-Architektur auskennt und für sie verantwortlich ist. Dies sollte jedoch im Voraus geplant und in die Roadmap der IT-Abteilung integriert werden.

21. Gibt es ein internes Data Science Team, das die Betreuung der Algorithmen übernehmen kann?

Einige Machine-Learning-Algorithmen müssen ständig weiterentwickelt und trainiert werden, um neue Daten in die Modellvorhersagen unter der Bedingung ähnlicher Genauigkeit und Recheneffizienz einfließen zu lassen. Wenn dies notwendig ist und es kein internes Data-Science-Team gibt, das dies übernehmen kann, muss vereinbart werden, dass der externe Auftragnehmer die langfristige Pflege und Betreuung der Algorithmen übernimmt.


Fazit


 post-it note with drawing of a lightbulb on it

Maschinelles Lernen ist in der Lage, viele Automatisierungsprobleme zu lösen. Doch der Weg von der Idee bis zur tatsächlichen Umsetzung ist lang, daher gibt es einige Punkte zu beachten, bevor man ein ML-Projekt startet. In diesem Artikel haben wir die Fragen behandelt, die dida seinen potenziellen Kunden stellt. Die Beantwortung dieser Fragen wird Ihnen und Ihrem Unternehmen sowie dem potentiellen ML-Software-Anbieter helfen

  • Ihre geschäftlichen Ziele und Absichten besser zu erkennen,

  • den zu automatisierenden Workflow und seine einzelnen Schritte zu verstehen,

  • die Erwartungen an die Modellleistung und Fehlertoleranz abzuschätzen und

  • wichtige Eigenschaften der Ein- und Ausgabedaten kennenzulernen.

Mit diesen Informationen ist Ihr ML-Software-Anbieter in der Lage

  • die Anforderungen an den Datenfluss und den Einsatz des Modells zu erkennen,

  • die Menge der geeigneten Algorithmen für die weitere Untersuchung einzugrenzen,

  • erste potentielle Lösungsansätze aufzuzeigen und

  • zu entscheiden, welche Projekte der Auftragnehmer in der Vergangenheit umgesetzt hat, die aus technischer Sicht ähnlich sind.

Einige Fragen werden auch in Online-Fragebögen gestellt, die dida für seine potenziellen Kunden vorbereitet hat und die sowohl die wirtschaftlichen als auch die technischen Aspekte des Anwendungsfalls abdecken.

Ich hoffe, dieser Artikel ist ein hilfreicher Leitfaden für die Vorbereitung Ihres ML-Projekts und für die Aufnahme von Gesprächen mit potenziellen ML-Software-Anbietern.