La problématique abordée dans ce document est celle de la reconstruction en 3D de zones urbaines dans un contexte très peu contraint, par fusion de données GPS, SIG et vidéo. L'objectif est de raffiner des modèles 3D simples et géoréférencés de bâtiments, extraits d'une base SIG, en les mettant en correspondance avec des vidéos acquises au sol, la position de la caméra étant estimée par GPS. La fusion des vidéos et des modèles 3D correspondants est calculée par une analyse contextuelle des images acquises, associée à un asservissement visuel virtuel robuste. Nous obtenons ainsi une information de pose de la caméra pour chaque image en entrée. Nous présentons également une méthode d'extration des textures de façade des bâtiments à la fois robuste aux problèmes d'occultation, de résolution spatiale des images ou aux spécularités présentes dans les vidéos. Enfin, nous présentons une étude préliminaire sur l'extraction des détails géométriques de chaque façade. Un calcul de disparité par coupe de graphe ou flot optique est effectuée dans l'espace texture. Les micro-structures des façades peuvent alors être retrouvées en utilisant ces cartes de disparité.