Die Automatisierung der Bildunterschrift, d.h. die Erstellung der sprachlichen Beschreibung eines Bildes mit Hilfe einer beliebigen natürlichen Sprachverarbeitung, ist eine schwierige Aufgabe. Sie erfordert eine gute Beherrschung sowohl der Bildverarbeitung als auch der natürlichen Sprachverarbeitung. In diesem Buch werden verschiedene verfügbare Techniken diskutiert, die als Modell für die Bildbeschriftung dienen. Der technologische Fortschritt in Bezug auf die Objekterkennung und das maschinelle Lernen hat in den letzten Jahren die Leistung des Modells für die Bildbeschriftung sehr stark verbessert. Darüber hinaus werden wir versuchen, uns den verschiedenen Techniken und Algorithmen zur Erstellung dieses Modells anzunähern. Am Ende spielt die Modellbewertung eine wichtige Rolle, die nützlich sein wird, um zu überlegen, welcher Algorithmus am besten in das Szenario passt. Es gibt Techniken, die zur Bewertung der Leistung verwendet werden können, wie z.B. confusion matrix, f1-score, aber in diesem Fall basieren die Daten auf natürlicher Sprache, so dass es eine bestimmte spezielle Art von Technologie gibt, die verwendet werden kann, wie z.B. Microsoft COCO und Flickr30K.