68,90 €
inkl. MwSt.
Versandkostenfrei*
Versandfertig in über 4 Wochen
  • Broschiertes Buch

Dieses Buch ist in fünf Einheiten gegliedert und bietet eine ganzheitliche Lernerfahrung. Die Reise beginnt mit einer Einführung in Bandit-Algorithmen, wobei Kernkonzepte wie die Algorithmen Upper Confidence Bound (UCB) und Probably Approximately Correct (PAC) erforscht werden. Die nächste Einheit führt in den vollständigen Rahmen des Reinforcement Learning (RL) ein und geht dabei über Bandit-Algorithmen hinaus, um Interaktionen zwischen Akteur und Umgebung über mehrere Zeitschritte zu berücksichtigen. Markov-Entscheidungsprozesse (MDPs) werden als grundlegender Rahmen für die Modellierung…mehr

Produktbeschreibung
Dieses Buch ist in fünf Einheiten gegliedert und bietet eine ganzheitliche Lernerfahrung. Die Reise beginnt mit einer Einführung in Bandit-Algorithmen, wobei Kernkonzepte wie die Algorithmen Upper Confidence Bound (UCB) und Probably Approximately Correct (PAC) erforscht werden. Die nächste Einheit führt in den vollständigen Rahmen des Reinforcement Learning (RL) ein und geht dabei über Bandit-Algorithmen hinaus, um Interaktionen zwischen Akteur und Umgebung über mehrere Zeitschritte zu berücksichtigen. Markov-Entscheidungsprozesse (MDPs) werden als grundlegender Rahmen für die Modellierung sequenzieller Entscheidungsaufgaben eingeführt. Die vierte Einheit befasst sich mit Methoden der dynamischen Programmierung, temporalen Differenzen (TD) und der Bellman-Optimalitätsgleichung in RL. Diese Konzepte ermöglichen es Agenten, ihre Aktionen effektiv zu planen, zu lernen und zu optimieren. Die letzte Einheit beschäftigt sich mit fortgeschrittenen RL-Techniken wie Eligibility Traces, Funktionsannäherung, Methoden der kleinsten Quadrate, Fitted Q-learning, Deep Q-Network (DQN) und Policy Gradient Algorithmen.
Autorenporträt
Satyanarayana S. est un scientifique émérite, un professeur, un stratège en trading d'algos, un inventeur, un auteur et un chef d'entreprise né en Inde. Il est titulaire d'une maîtrise en sciences et ingénierie informatiques et d'un doctorat en algorithmes d'apprentissage automatique des graphes informatiques, obtenus respectivement à l'université Acharya Nagarjuna et à l'université Dravidian.