Este libro explora las capacidades de las redes neuronales convolucionales para enfrentarse a una tarea fácilmente manejable para los humanos: percibir la pose 3D de un cuerpo humano desde distintos ángulos. Sin embargo, en nuestro enfoque, estamos restringidos a utilizar un sistema de visión monocular. Para ello, se aplica un enfoque de red neuronal convolucional sobre vídeos RGB y se amplía a convoluciones tridimensionales. Para ello, se codifica la dimensión temporal de los vídeos como la tercera dimensión del espacio convolucional y se realiza una regresión directa a las posiciones de las articulaciones del cuerpo humano en el espacio de coordenadas 3D. Esta investigación muestra la capacidad de una red de este tipo para alcanzar un rendimiento puntero en el conjunto de datos Human3.6M seleccionado, demostrando así la posibilidad de representar con éxito datos temporales con una dimensión adicional en la operación convolucional.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.