Der RL-Prozess umfasst einen Agenten, der mit einer unbekannten Umgebung interagiert, um ein Ziel zu erreichen, geleitet vom Prinzip der Maximierung kumulativer Belohnungen. Der Agent, vergleichbar mit einem Lernenden, nimmt den Zustand der Umgebung wahr und trifft Maßnahmen, um diesen Zustand zu beeinflussen, wobei er Feedback in Form von Belohnungen erhält. Die Hauptelemente eines RL-Systems umfassen den Agenten, die Umgebung, die Richtlinie, der der Agent folgt, und das Belohnungssignal, das er erhält.
Ein entscheidendes Konzept im RL ist die Wertefunktion, die die langfristige kumulative Belohnung eines bestimmten Zustands repräsentiert, im Gegensatz zur unmittelbaren Belohnung. RL-Algorithmen zielen darauf ab, die Richtlinie zu entdecken, die die Wertefunktion maximiert. RL kann grob in modellfreie und modellbasierte Ansätze unterteilt werden. Modellfreie Algorithmen, zu denen wertebasierte Methoden wie SARSA und Q-Learning sowie richtlinienbasierte Methoden wie REINFORCE und DPG gehören, lernen direkt aus Interaktionen, ohne ein explizites Modell der Umgebung zu erstellen. Modellbasierte Algorithmen hingegen bauen ein Modell der Umgebung auf, um die Ergebnisse von Handlungen vorherzusagen, was dem Agenten ermöglicht, seine Strategie effektiver zu planen.