L'etichettatura spontanea del contenuto di un'immagine digitale è una delle difficoltà più importanti dell'apprendimento profondo che collega la visualizzazione al computer e il linguaggio inglese. In questo lavoro di ricerca, abbiamo creato un modello di propagazione basato su una produzione ricorrente profonda che riunisce i moderni miglioramenti nella visualizzazione al computer e nella parafrasi degli strumenti e che può essere utilizzato per generare verdetti regolari sull'etichettatura di un'immagine digitale. Il prototipo è realizzato per sfruttare appieno la probabilità del verdetto di spiegazione oggettiva data l'immagine digitale. Questo lavoro mira a generare sottotitoli per le immagini utilizzando modelli linguistici neurali. Da quando si sono diffusi i modelli linguistici neurali e le reti neurali convoluzionali profonde (CNN), il numero di modelli proposti per la creazione di sottotitoli per immagini digitali è cresciuto notevolmente. Il nostro lavoro si basa su uno di questi, che utilizza una variante di rete neurale ricorrente (RNN) accoppiata a una CNN. Intendiamo migliorare questo modello apportando sottili modifiche agli elementi costitutivi e utilizzando le frasi come unità elementari invece delle parole, il che potrebbe portare a sottotitoli semantici e sintattici migliori.