Este livro explora as capacidades das redes neuronais convolucionais para lidar com uma tarefa que é facilmente gerível para os humanos: perceber a pose 3D de um corpo humano a partir de vários ângulos. No entanto, na nossa abordagem, estamos limitados à utilização de um sistema de visão monocular. Para este efeito, é aplicada uma abordagem de rede neural convolucional em vídeos RGB e é alargada a convoluções tridimensionais. Isto é feito através da codificação da dimensão temporal nos vídeos como a terceira dimensão no espaço convolucional, e regredindo diretamente para as posições das articulações do corpo humano no espaço de coordenadas 3D. Esta investigação mostra a capacidade de uma rede deste tipo para atingir o desempenho mais avançado no conjunto de dados Human3.6M selecionado, demonstrando assim a possibilidade de representar com êxito dados temporais com uma dimensão adicional na operação convolucional.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.