A legendagem de imagens com áudio surgiu como uma tarefa desafiante mas promissora no domínio da aprendizagem profunda. Este documento propõe uma nova abordagem para lidar com essa tarefa, integrando redes neurais convolucionais (CNNs) para extração de recursos de imagem e redes neurais recorrentes (RNNs) para análise de áudio sequencial. Especificamente, utilizamos CNNs pré-treinadas, como VGG, para extrair características visuais de imagens e empregamos representações de espectrogramas acopladas a RNNs, como LSTM ou GRU, para processar entradas de áudio. O nosso modelo proposto baseia-se não só no seu conteúdo visual, mas também nas pistas de áudio que o acompanham. Avaliamos o desempenho do nosso modelo em conjuntos de dados de referência e demonstramos a sua eficácia na geração de legendas coerentes e contextualmente relevantes para imagens com entradas de áudio correspondentes. Além disso, efectuamos estudos de tabulação para analisar a contribuição de cada modalidade para o desempenho global da legendagem. Os nossos resultados mostram que a fusão das modalidades visual e auditiva melhora significativamente a qualidade da legendagem em comparação com a utilização isolada de cada uma das modalidades.