Sozdanie podpisej k izobrazheniqm s pomosch'ü audio stalo slozhnoj, no perspektiwnoj zadachej w oblasti glubokogo obucheniq. V dannoj rabote predlagaetsq nowyj podhod k resheniü ätoj zadachi putem ob#edineniq konwolücionnyh nejronnyh setej (CNN) dlq izwlecheniq priznakow izobrazheniq i rekurrentnyh nejronnyh setej (RNN) dlq posledowatel'nogo analiza audio. V chastnosti, my ispol'zuem predwaritel'no obuchennye CNN, takie kak VGG, dlq izwlecheniq wizual'nyh priznakow iz izobrazhenij i ispol'zuem predstawleniq spektrogramm w sochetanii s RNN, takimi kak LSTM ili GRU, dlq obrabotki audiowhodow. Predlagaemaq nami model' osnowywaetsq ne tol'ko na wizual'nom soderzhanii izobrazhenij, no i na soputstwuüschih audiosignalah. My oceniwaem proizwoditel'nost' nashej modeli na ätalonnyh naborah dannyh i demonstriruem ee äffektiwnost' w generacii swqznyh i kontextual'no relewantnyh podpisej k izobrazheniqm s sootwetstwuüschimi audiowhodami. Krome togo, my prowodim analiz wklada kazhdoj modal'nosti w obschuü proizwoditel'nost' sozdaniq titrow. Nashi rezul'taty pokazywaüt, chto ob#edinenie wizual'noj i sluhowoj modal'nostej znachitel'no uluchshaet kachestwo sozdaniq titrow po srawneniü s izolirowannym ispol'zowaniem odnoj iz modal'nostej.