Die Bildgebungsfähigkeiten von Digitalkameras oder Smartphones haben zugenommen, und die Aufnahme von Videos ist zum Scannen, Teilen und Speichern von Dokumenten sehr einfach geworden. Die Menschen haben daher begonnen, Smartphones für die Aufnahme von digitalen Bildschirmen, großen Postern, Dokumenten, Quittungen und einigen reflektierenden Oberflächen wie Personalausweisen zu verwenden . Um ein klares Bild zu erhalten, sind jedoch oft mehrere Schnappschüsseum ein klares Bild des Bildes zu erhalten, sind jedoch oft mehrere Aufnahmen erforderlich, wobei das Verschieben mehrerer Aufnahmen schwierig und zeitaufwändig sein kann. Um dieses Mosaik aus mehreren Aufnahmen zu vermeiden, sollten vorzugsweise mehrere Bilder eines einzigen Videos aufgenommen werden, um den Inhalt in einer einzigen Aufnahme zu erhalten.Es wird eine Methode zur automatischen und effizienten Erstellung des Mosaikbildes für das Eingangsvideo vorgeschlagen, wobei der Schwerpunkt auf dem Bildmosaik unter Verwendung desdem Referenzbild. Dieses Referenzbild ist das Bild, in dem das gesamte Dokument sichtbar ist.Die Algorithmen wie Homographische Perspektivische Transformation, ScaleInvariant Feature Transformation (SIFT) und Mean Structural Similarity (MSSIM) werden im Prozess des Bildmosaiks eingesetzt .