Digitale Lehre
Informationen zu den Online-Angeboten finden Sie im Moodle-Kurs.
Lehrinhalte
[list]
[*]Überblick über Wahrscheinlichkeitstheorie
[*]Markov-Eigenschaft und Markov-Entscheidungsprozesse
[*]Das Problem des Mehrarmigen Banditen (MAB) und das vollständige Reinforcement Learning (RL) Problem
[*]Taxonomie von MAB-Problemen (z.B. stochastische Rewards vs. adversarial Rewards, kontext-abhängige MAB)
[*]Algorithmen für MAB-Probleme (z.B. Upper Confidence Interval (UCB), Epsilon-Greedy, SoftMax, LinUCB) und ihre Anwendung in cyber-physischen Systemen
[*]Grundlagen der Dynamischen Programmierung und Bellman-Gleichungen
[*]Taxonomie der Lösungsansätze für das vollständige RL-Problem (z.B. Temporal-Difference Learning, Policy Gradient und Actor-Critic)
[*]Algorithmen für das vollständige RL-Problem (z.B. Q-Learning, SARSA, Policy Gradient, Actor-Critic) und ihre Anwendung in cyber-physischen Systemen
[*]Lineare Funktionsapproximation
[*]Nicht-Lineare Funktionsapproximation
[/list]
Literatur
[list]
[*]Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, A Bradford Book, Cambridge, MA, USA, 2018.
[*]Aleksandrs Slivkins, "Introduction to Multi-Armed Bandits", Foundations and Trends in Machine Learning, Vol. 12: No. 1-2, 2019.
[/list]
Voraussetzungen
[list]
[*]Grundkenntnisse in Python oder Matlab
[*]Ingenieursmathematik und Wahrscheinlichkeitstheorie
[/list]
Online-Angebote
moodle
Informationen zu den Online-Angeboten finden Sie im Moodle-Kurs.
Lehrinhalte
[list]
[*]Überblick über Wahrscheinlichkeitstheorie
[*]Markov-Eigenschaft und Markov-Entscheidungsprozesse
[*]Das Problem des Mehrarmigen Banditen (MAB) und das vollständige Reinforcement Learning (RL) Problem
[*]Taxonomie von MAB-Problemen (z.B. stochastische Rewards vs. adversarial Rewards, kontext-abhängige MAB)
[*]Algorithmen für MAB-Probleme (z.B. Upper Confidence Interval (UCB), Epsilon-Greedy, SoftMax, LinUCB) und ihre Anwendung in cyber-physischen Systemen
[*]Grundlagen der Dynamischen Programmierung und Bellman-Gleichungen
[*]Taxonomie der Lösungsansätze für das vollständige RL-Problem (z.B. Temporal-Difference Learning, Policy Gradient und Actor-Critic)
[*]Algorithmen für das vollständige RL-Problem (z.B. Q-Learning, SARSA, Policy Gradient, Actor-Critic) und ihre Anwendung in cyber-physischen Systemen
[*]Lineare Funktionsapproximation
[*]Nicht-Lineare Funktionsapproximation
[/list]
Literatur
[list]
[*]Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, A Bradford Book, Cambridge, MA, USA, 2018.
[*]Aleksandrs Slivkins, "Introduction to Multi-Armed Bandits", Foundations and Trends in Machine Learning, Vol. 12: No. 1-2, 2019.
[/list]
Voraussetzungen
[list]
[*]Grundkenntnisse in Python oder Matlab
[*]Ingenieursmathematik und Wahrscheinlichkeitstheorie
[/list]
Online-Angebote
moodle
- Lehrende: Anja Klein
- Lehrende: Sabrina Klos
- Lehrende: Andrea Ortiz
Semester: SoSe 2021