Questo libro esplora le capacità delle reti neurali convoluzionali di affrontare un compito facilmente gestibile dagli esseri umani: percepire la posa 3D di un corpo umano da diverse angolazioni. Nel nostro approccio, tuttavia, ci limitiamo a utilizzare un sistema di visione monoculare. A questo scopo, viene applicato un approccio di rete neurale convoluzionale ai video RGB e viene esteso alle convoluzioni tridimensionali. Ciò avviene codificando la dimensione temporale dei video come terza dimensione dello spazio convoluzionale e regredendo direttamente alle posizioni delle articolazioni del corpo umano nello spazio delle coordinate 3D. Questa ricerca mostra la capacità di tale rete di raggiungere prestazioni all'avanguardia sul set di dati selezionato Human3.6M, dimostrando così la possibilità di rappresentare con successo i dati temporali con una dimensione aggiuntiva nell'operazione convoluzionale.