29,99 €
inkl. MwSt.
Versandkostenfrei*
Versandfertig in 6-10 Tagen
payback
15 °P sammeln
  • Broschiertes Buch

Le sous-titrage d'images avec de l'audio est apparu comme une tâche difficile mais prometteuse dans le domaine de l'apprentissage profond. Cet article propose une nouvelle approche pour aborder cette tâche en intégrant les réseaux neuronaux convolutifs (CNN) pour l'extraction des caractéristiques des images et les réseaux neuronaux récurrents (RNN) pour l'analyse audio séquentielle. Plus précisément, nous nous appuyons sur des réseaux neuronaux convolutionnels pré-entraînés tels que VGG pour extraire les caractéristiques visuelles des images et nous employons des représentations de…mehr

Produktbeschreibung
Le sous-titrage d'images avec de l'audio est apparu comme une tâche difficile mais prometteuse dans le domaine de l'apprentissage profond. Cet article propose une nouvelle approche pour aborder cette tâche en intégrant les réseaux neuronaux convolutifs (CNN) pour l'extraction des caractéristiques des images et les réseaux neuronaux récurrents (RNN) pour l'analyse audio séquentielle. Plus précisément, nous nous appuyons sur des réseaux neuronaux convolutionnels pré-entraînés tels que VGG pour extraire les caractéristiques visuelles des images et nous employons des représentations de spectrogrammes couplées à des réseaux neuronaux récurrents tels que LSTM ou GRU pour traiter les entrées audio. Le modèle que nous proposons se base non seulement sur le contenu visuel des images, mais aussi sur les indices audio qui les accompagnent. Nous évaluons les performances de notre modèle sur des ensembles de données de référence et démontrons son efficacité à générer des légendes cohérentes et contextuellement pertinentes pour les images avec les entrées audio correspondantes. En outre, nous menons des études de tabulation pour analyser la contribution de chaque modalité à la performance globale du sous-titrage. Nos résultats montrent que la fusion des modalités visuelles et auditives améliore significativement la qualité du sous-titrage par rapport à l'utilisation isolée de l'une ou l'autre modalité.
Autorenporträt
Sou a Sra. K.Kanchana, que trabalha como Professora Assistente no Departamento de Informática e Engenharia da Faculdade de Engenharia de Kathir. Estou interessada na área da aprendizagem automática e da aprendizagem profunda