32,99 €
inkl. MwSt.
Versandkostenfrei*
Versandfertig in 1-2 Wochen
payback
16 °P sammeln
  • Broschiertes Buch

El subtitulado de imágenes con audio ha surgido como una tarea desafiante pero prometedora en el campo del aprendizaje profundo. Este artículo propone un enfoque novedoso para abordar esta tarea mediante la integración de redes neuronales convolucionales (CNN) para la extracción de características de imagen y redes neuronales recurrentes (RNN) para el análisis secuencial de audio. En concreto, aprovechamos CNNs preentrenadas como VGG para extraer características visuales de las imágenes y empleamos representaciones de espectrogramas acopladas a RNNs como LSTM o GRU para procesar entradas de…mehr

Produktbeschreibung
El subtitulado de imágenes con audio ha surgido como una tarea desafiante pero prometedora en el campo del aprendizaje profundo. Este artículo propone un enfoque novedoso para abordar esta tarea mediante la integración de redes neuronales convolucionales (CNN) para la extracción de características de imagen y redes neuronales recurrentes (RNN) para el análisis secuencial de audio. En concreto, aprovechamos CNNs preentrenadas como VGG para extraer características visuales de las imágenes y empleamos representaciones de espectrogramas acopladas a RNNs como LSTM o GRU para procesar entradas de audio. El modelo que proponemos se basa no sólo en el contenido visual de las imágenes, sino también en las señales de audio que las acompañan. Evaluamos el rendimiento de nuestro modelo en conjuntos de datos de referencia y demostramos su eficacia a la hora de generar subtítulos coherentes y contextualmente relevantes para imágenes con sus correspondientes entradas de audio. Además, realizamos estudios de tablas para analizar la contribución de cada modalidad al rendimiento global de los subtítulos. Nuestros resultados muestran que la fusión de las modalidades visual y auditiva mejora significativamente la calidad de los subtítulos en comparación con el uso de cualquiera de las dos modalidades de forma aislada.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Autorenporträt
Je suis Mme K.Kanchana et je travaille comme professeur adjoint dans le département d'informatique et d'ingénierie au Kathir College of Engineering. Je m'intéresse au domaine de l'apprentissage automatique et de l'apprentissage profond.