Es gibt zwei primäre Ansätze, um erklärbare KI zu erreichen: intrinsische Erklärbarkeit und post-hoc Erklärbarkeit.
Intrinsische Erklärbarkeit stellt sicher, dass ein KI-Modell von vornherein interpretierbar ist. Beispiele hierfür sind Entscheidungsbäume, lineare Modelle und interpretierbare KI-Architekturen, bei denen Einfachheit und Transparenz im Vordergrund stehen.
Post-hoc-Erklärbarkeit wendet Techniken an, um Black-Box-Modelle nach dem Modelltraining zu interpretieren. Zu diesen Methoden gehören SHAP (Shapley Additive Explanations), LIME (Local Interpretable Model-Agnostic Explanations), kontrafaktische Erklärungen und Layer-wise Relevance Propagation (LRP). Diese Techniken geben Aufschluss darüber, welche Merkmale die Entscheidung eines Modells beeinflusst haben, was transparentere KI-Anwendungen ermöglicht.