As capacidades de imagem das câmaras digitais ou dos smartphones aumentaram e a captura de vídeos tornou-se muito fácil para digitalizar, partilhar e armazenar documentos. Assim, as pessoas começaram a utilizar os smartphones para capturar ecrãs digitais, cartazes de grandes dimensões, documentos, recibos e algumas superfíciesreflectoras , como cartões de identificação. No entanto, para obter uma imagem nítida da imagem, podem ser necessárias várias fotografiase a deslocação entre vários instantâneos pode ser difícil e demorada. Para evitar este mosaico de múltiplas imagens, é preferível obter vários fotogramas de um único vídeo, a fim de obter o conteúdo numa única imagem.Propõe-se um método para construir automaticamente e de forma eficiente a imagem em mosaico para o vídeo de entrada, em que o foco principal é o mosaico de imagens utilizandoo quadro de referência. Este quadro de referência é o quadro em que todo o documento é visível.Os algoritmos como Homographic Perspective Transformation, ScaleInvariant Feature Transformation (SIFT) e Mean Structural Similarity (MSSIM) são utilizados no processo de mosaicagem de imagens.