Lehrinhalte
[list]
[*]Überblick über Wahrscheinlichkeitstheorie
[*]Markov-Eigenschaft und Markov-Entscheidungsprozesse
[*]Das Problem des Mehrarmigen Banditen (MAB) und das vollständige Reinforcement Learning (RL) Problem
[*]Taxonomie von MAB-Problemen (z.B. stochastische Rewards vs. adversarial Rewards, kontext-abhängige MAB)
[*]Algorithmen für MAB-Probleme (z.B. Upper Confidence Interval (UCB), Epsilon-Greedy, SoftMax, LinUCB) und ihre Anwendung in cyber-physischen Systemen
[*]Grundlagen der Dynamischen Programmierung und Bellman-Gleichungen
[*]Taxonomie der Lösungsansätze für das vollständige RL-Problem (z.B. Temporal-Difference Learning, Policy Gradient und Actor-Critic)
[*]Algorithmen für das  vollständige RL-Problem (z.B. Q-Learning, SARSA, Policy Gradient, Actor-Critic) und ihre Anwendung in cyber-physischen Systemen
[*]Lineare Funktionsapproximation
[*]Nicht-Lineare Funktionsapproximation
[/list]

Literatur
[list]
[*]Richard S. Sutton and Andrew G. Barto, “Reinforcement Learning: An Introduction”, A Bradford Book, Cambridge, MA, USA, 2018.
[*]Aleksandrs Slivkins, "Introduction to Multi-Armed Bandits", Foundations and Trends in Machine Learning, Vol. 12: No. 1-2, 2019.
[/list]

Voraussetzungen
[list]
[*]Grundkenntnisse in Python oder Matlab
[*]Ingenieursmathematik und Wahrscheinlichkeitstheorie
[/list]

Weitere Informationen
Die Vorlesung findet nicht an allen aufgeführten Terminen statt. Der konkrete Zeitplan wird zu Beginn des Semesters angekündigt.

Online-Angebote
moodle

Semester: SoSe 2022