Ce livre explore les capacités des réseaux neuronaux convolutifs à traiter une tâche facilement gérable pour les humains : la perception de la pose en 3D d'un corps humain sous différents angles. Cependant, dans notre approche, nous sommes limités à l'utilisation d'un système de vision monoculaire. À cette fin, une approche de réseau neuronal convolutif est appliquée aux vidéos RVB et étendue aux convolutions tridimensionnelles. Pour ce faire, la dimension temporelle des vidéos est codée en tant que troisième dimension dans l'espace convolutionnel, et la régression se fait directement sur les positions des articulations du corps humain dans l'espace de coordonnées 3D. Cette recherche montre la capacité d'un tel réseau à atteindre des performances de pointe sur l'ensemble de données sélectionné Human3.6M, démontrant ainsi la possibilité de représenter avec succès les données temporelles avec une dimension supplémentaire dans l'opération convolutionnelle.