I dati tabellari sono una fonte esistente di informazioni disponibili sul web. Abbiamo iniziato a lavorare sulla raccolta di tabelle HTML prese dal web. In primo luogo verranno identificate le tabelle di buona qualità e poi si procederà alla corrispondenza degli schemi. Lo Schema Matching identifica il numero di corrispondenze che determina gli elementi simili di due schemi diversi. Le colonne e i valori dei dati vengono confrontati uno dopo l'altro per farli corrispondere allo schema. Durante la ricerca di dati tabellari sul web, i motori di ricerca possono restituire URL invece di dati tabellari, il che rappresenta il problema principale. Per questo motivo, abbiamo estratto i dati delle pagine web tabellari, abbiamo estratto i loro schemi e poi abbiamo fatto il matching degli schemi identificando la corrispondenza di elementi simili attraverso una tecnica basata sul corpus. Dopo la corrispondenza dello schema, abbiamo popolato i dati delle pagine HTML unendo le tabelle correlate in un'unica tabella HTML, che è più appropriata e utile per gli utenti.