Bildunterschrift

Bildunterschrift mit Deep Learning

Fotogalerie

Kanchana Kannaiyan, Meenatchi R

Bildunterschrift

Bildunterschrift mit Deep Learning

Broschiertes Buch

Jetzt bewerten Jetzt bewerten

Autorenporträt

Andere Kunden interessierten sich auch für

Dr.Usharani Bhimavarapu
Vorhersage von Atemwegsrisiken durch Luftverschmutzung mittels Deep Learning

60,90 €
Anoop Balakrishnan Kadan
Erkennung von Läsionen mithilfe der segmentierten Struktur der Netzhaut

35,90 €
Camila Velasco
Korpus Cäcus

39,90 €
Kanchana Kannaiyan
Image Caption

29,99 €
The 1st International Electronic Conference on Algorithms

69,99 €
Advanced Digital Auditing

30,99 €
Rajendra Akerkar
Artificial Intelligence for Business

56,99 €

Produktbeschreibung

Die Beschriftung von Bildern mit Audiodaten hat sich als anspruchsvolle, aber vielversprechende Aufgabe im Bereich des Deep Learning herausgestellt. Dieses Papier schlägt einen neuartigen Ansatz zur Bewältigung dieser Aufgabe durch die Integration von Convolutional Neural Networks (CNNs) für Bild Feature-Extraktion und rekurrente neuronale Netze (RNNs) für sequentielle Audio-Analyse. Konkret nutzen wir vortrainierte CNNs wie VGG, um visuelle Merkmale aus Bildern zu extrahieren, und verwenden Spektrogrammdarstellungen in Verbindung mit RNNs wie LSTM oder GRU, um Audioeingaben zu verarbeiten. Das von uns vorgeschlagene Modell basiert nicht nur auf dem visuellen Inhalt, sondern auch auf den begleitenden Audiohinweisen. Wir evaluieren die Leistung unseres Modells anhand von Benchmark-Datensätzen und demonstrieren seine Effektivität bei der Generierung kohärenter und kontextuell relevanter Bildunterschriften für Bilder mit entsprechenden Audioeingaben. Zusätzlich führen wir Tabellierungsstudien durch, um den Beitrag jeder Modalität zur Gesamtleistung der Beschriftung zu analysieren. Unsere Ergebnisse zeigen, dass die Fusion von visuellen und auditiven Modalitäten die Qualität der Beschriftung im Vergleich zur isolierten Verwendung einer der beiden Modalitäten deutlich verbessert.

Produktdetails

Produktdetails
Verlag: Verlag Unser Wissen
Seitenzahl: 64
Erscheinungstermin: 19. Juni 2024
Deutsch
Abmessung: 220mm x 150mm x 5mm
Gewicht: 113g
ISBN-13: 9786207660995
ISBN-10: 6207660994
Artikelnr.: 70983584

Herstellerkennzeichnung

Produktdetails

Verlag: Verlag Unser Wissen
Seitenzahl: 64
Erscheinungstermin: 19. Juni 2024
Deutsch
Abmessung: 220mm x 150mm x 5mm
Gewicht: 113g
ISBN-13: 9786207660995
ISBN-10: 6207660994
Artikelnr.: 70983584

Herstellerkennzeichnung

Autorenporträt

Ich bin Frau K. Kanchana und arbeite als Assistenzprofessorin in der Abteilung für Informatik und Ingenieurwesen am Kathir College of Engineering. Ich interessiere mich für das Gebiet des maschinellen Lernens und des Deep Learning.