49,99 €
inkl. MwSt.
Versandkostenfrei*
Versandfertig in 1-2 Wochen
payback
25 °P sammeln
  • Broschiertes Buch

Ce livre est structuré en cinq unités, offrant une expérience d'apprentissage holistique. Le voyage commence par une introduction aux algorithmes de bandits, explorant les concepts de base tels que les algorithmes Upper Confidence Bound (UCB) et Probably Approximately Correct (PAC). L'unité suivante introduit le cadre complet de l'apprentissage par renforcement (RL), allant au-delà des algorithmes de bandits pour considérer les interactions agent-environnement sur plusieurs étapes temporelles. Les processus de décision de Markov (PDM) sont présentés comme un cadre fondamental pour la…mehr

Produktbeschreibung
Ce livre est structuré en cinq unités, offrant une expérience d'apprentissage holistique. Le voyage commence par une introduction aux algorithmes de bandits, explorant les concepts de base tels que les algorithmes Upper Confidence Bound (UCB) et Probably Approximately Correct (PAC). L'unité suivante introduit le cadre complet de l'apprentissage par renforcement (RL), allant au-delà des algorithmes de bandits pour considérer les interactions agent-environnement sur plusieurs étapes temporelles. Les processus de décision de Markov (PDM) sont présentés comme un cadre fondamental pour la modélisation des tâches de prise de décision séquentielle. La quatrième unité couvre les méthodes de programmation dynamique, les méthodes de différence temporelle (TD) et l'équation d'optimalité de Bellman en RL. Ces concepts permettent aux agents de planifier, d'apprendre et d'optimiser efficacement leurs actions. La dernière unité explore les techniques avancées de RL, telles que les traces d'éligibilité, l'approximation de fonction, les méthodes des moindres carrés, l'apprentissage Q ajusté, les réseaux Q profonds (DQN) et les algorithmes de gradient de politique.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Autorenporträt
Satyanarayana S. est un scientifique émérite, un professeur, un stratège en trading d'algos, un inventeur, un auteur et un chef d'entreprise né en Inde. Il est titulaire d'une maîtrise en sciences et ingénierie informatiques et d'un doctorat en algorithmes d'apprentissage automatique des graphes informatiques, obtenus respectivement à l'université Acharya Nagarjuna et à l'université Dravidian.