Rotular espontaneamente o conteúdo de uma imagem digital é uma das dificuldades mais importantes na aprendizagem profunda que liga a visualização por computador e o inglês como língua. Neste trabalho de investigação, existe um modelo propagador baseado numa produção recorrente profunda que reúne melhorias modernas na visualização e paráfrase da maquinaria do computador e que pode ser utilizado para gerar veredictos regulares que rotulam uma imagem digital. O protótipo é realizado para tirar o máximo proveito da probabilidade do veredicto de explicação objectiva dada a imagem digital "keep fit". Este trabalho visa gerar subtítulos para imagens utilizando modelos de linguagem neural. Tem havido um extenso crescimento no número de modelos propostos para a legendagem de imagens digitais desde que os modelos de linguagem neural e as redes neurais profundas e convolutivas (CNN) se tornaram predominantes. O nosso trabalho tem a sua base num desses trabalhos, que utiliza uma variante de rede neural recorrente (RNN) associada a uma CNN. Pretendemos melhorar este modelo fazendo alterações subtis aos blocos de construção e utilizando frases como unidades elementares em vez de palavras, o que pode levar a melhores legendas semânticas e sintácticas.