Les données tabulaires sont une source d'information disponible sur le web. Nous avons commencé à travailler sur la collecte de tableaux HTML provenant du web. Les tableaux de bonne qualité seront tout d'abord identifiés, puis la correspondance des schémas sera effectuée. La mise en correspondance des schémas identifie le nombre de correspondances qui déterminent les éléments similaires de deux schémas différents. Les colonnes et les valeurs des données sont comparées l'une après l'autre pour faire correspondre les schémas. Lors de la recherche de données tabulaires sur le web, le moteur de recherche peut renvoyer l'URL au lieu de renvoyer les données tabulaires, ce qui est le principal problème. Nous travaillons donc sur ce problème en extrayant des données de pages web tabulaires et en extrayant leur schéma, puis en faisant correspondre les schémas en identifiant la correspondance d'éléments similaires grâce à une technique basée sur le corpus. Après la mise en correspondance des schémas, nous avons rempli les données des pages HTML en réunissant les tables connexes en une seule table HTML, ce qui est plus approprié et plus utile pour les utilisateurs.