Les capacités d'imagerie des appareils photo numériques ou des smartphones ont augmenté et la capture de vidéos est devenue très facile pour numériser, partager et stocker des documents . Les gens ont donc commencé à utiliser des smartphones pour capturer des écrans numériques, de grandes affiches, des documents, des reçus et certaines surfacesréfléchissantes comme les cartes d'identité. Cependant, pour obtenir une image claire, il est souvent nécessaire de prendre plusieurs photos.Cependant, pour obtenir une image claire, il est souvent nécessaire de prendre plusieurs clichés, ce qui peut s'avérer difficile et fastidieux de se déplacer d'un cliché à l'autre. Pour éviter cette mosaïque d'images multiples, il est préférable d'obtenir plusieurs images d'une même vidéo afin d'obtenir le contenu en une seule fois.Une méthode permettant de construire automatiquement et efficacement l'image mosaïquée pour la vidéo d'entrée est proposée.l'image de référence. Cette image de référence est l'image dans laquelle l'ensemble du document est visible.Les algorithmes tels que la transformation homographique de la perspective, la transformation des caractéristiques invariantes de l'échelle (ScaleLes algorithmes tels que la transformation de perspective homographique, la transformation de caractéristiques invariantes (SIFT) et la similarité structurelle moyenne (MSSIM) sont utilisés dans le processus de mosaïque d'images.