L'annotation automatique d'images est un domaine du traitement d'images permettant d'associer automatiquement des mots-clés ou du texte à des images uniquement à partir de leur contenu. Cette thèse explore d'abord la catégorisation d'une image en fonction de son type (photo/dessin, etc.), de son contexte (nuit/jour, nature/ville, etc.) et cherche la présence de ciel, eau, route, etc. Elle démontre ensuite la possibilité de construire automatiquement une base d'images d'apprentissage pour tout objet à partir du web. Enfin, un système de désambiguïsation est proposé pour obtenir une annotation globale de l'image sémantiquement cohérente. Deux sortes de désambiguïsation sont développées : la première utilise les relations spatiales et s'assure que par exemple le ciel est toujours au-dessus de la mer. La deuxième tient compte de la relation entre les objets et les milieux dans lesquels ils se trouvent : on a plus de chance de trouver un éléphant dans la savane, et un dauphin dans l'eau.