Pie de foto

Leyenda de imágenes mediante aprendizaje profundo

Fotogalerie

Kanchana Kannaiyan, Meenatchi R

Pie de foto

Leyenda de imágenes mediante aprendizaje profundo

Broschiertes Buch

Jetzt bewerten Jetzt bewerten

Autorenporträt

Andere Kunden interessierten sich auch für

Produktbeschreibung

El subtitulado de imágenes con audio ha surgido como una tarea desafiante pero prometedora en el campo del aprendizaje profundo. Este artículo propone un enfoque novedoso para abordar esta tarea mediante la integración de redes neuronales convolucionales (CNN) para la extracción de características de imagen y redes neuronales recurrentes (RNN) para el análisis secuencial de audio. En concreto, aprovechamos CNNs preentrenadas como VGG para extraer características visuales de las imágenes y empleamos representaciones de espectrogramas acopladas a RNNs como LSTM o GRU para procesar entradas de audio. El modelo que proponemos se basa no sólo en el contenido visual de las imágenes, sino también en las señales de audio que las acompañan. Evaluamos el rendimiento de nuestro modelo en conjuntos de datos de referencia y demostramos su eficacia a la hora de generar subtítulos coherentes y contextualmente relevantes para imágenes con sus correspondientes entradas de audio. Además, realizamos estudios de tablas para analizar la contribución de cada modalidad al rendimiento global de los subtítulos. Nuestros resultados muestran que la fusión de las modalidades visual y auditiva mejora significativamente la calidad de los subtítulos en comparación con el uso de cualquiera de las dos modalidades de forma aislada.

Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.

Produktdetails

Produktdetails
Verlag: Ediciones Nuestro Conocimiento
Seitenzahl: 64
Erscheinungstermin: 19. Juni 2024
Spanisch
Abmessung: 220mm x 150mm x 4mm
Gewicht: 113g
ISBN-13: 9786207661015
ISBN-10: 620766101X
Artikelnr.: 70983563

Herstellerkennzeichnung
Books on Demand GmbH
In de Tarpen 42
22848 Norderstedt
info@bod.de
040 53433511

Produktdetails

Verlag: Ediciones Nuestro Conocimiento
Seitenzahl: 64
Erscheinungstermin: 19. Juni 2024
Spanisch
Abmessung: 220mm x 150mm x 4mm
Gewicht: 113g
ISBN-13: 9786207661015
ISBN-10: 620766101X
Artikelnr.: 70983563

Herstellerkennzeichnung
Books on Demand GmbH
In de Tarpen 42
22848 Norderstedt
info@bod.de
040 53433511

Autorenporträt

Je suis Mme K.Kanchana et je travaille comme professeur adjoint dans le département d'informatique et d'ingénierie au Kathir College of Engineering. Je m'intéresse au domaine de l'apprentissage automatique et de l'apprentissage profond.