Dieses Buch ist in fünf Einheiten gegliedert und bietet eine ganzheitliche Lernerfahrung. Die Reise beginnt mit einer Einführung in Bandit-Algorithmen, wobei Kernkonzepte wie die Algorithmen Upper Confidence Bound (UCB) und Probably Approximately Correct (PAC) erforscht werden. Die nächste Einheit führt in den vollständigen Rahmen des Reinforcement Learning (RL) ein und geht dabei über Bandit-Algorithmen hinaus, um Interaktionen zwischen Akteur und Umgebung über mehrere Zeitschritte zu berücksichtigen. Markov-Entscheidungsprozesse (MDPs) werden als grundlegender Rahmen für die Modellierung sequenzieller Entscheidungsaufgaben eingeführt. Die vierte Einheit befasst sich mit Methoden der dynamischen Programmierung, temporalen Differenzen (TD) und der Bellman-Optimalitätsgleichung in RL. Diese Konzepte ermöglichen es Agenten, ihre Aktionen effektiv zu planen, zu lernen und zu optimieren. Die letzte Einheit beschäftigt sich mit fortgeschrittenen RL-Techniken wie Eligibility Traces, Funktionsannäherung, Methoden der kleinsten Quadrate, Fitted Q-learning, Deep Q-Network (DQN) und Policy Gradient Algorithmen.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.