Nel mondo di oggi, in rapida crescita, abbiamo analizzato fonti di dati distribuite che pubblicano fino a gigabyte di dati ogni giorno, che si accumulano nell'arco di diversi mesi fino a raggiungere la scala dei terabyte. Ciò pone la sfida di come archiviare in modo efficiente questi insiemi di dati distribuiti, sia in cache di lavoro per un rapido accesso in tempo reale, sia in forme archiviate che possono essere reintegrate per l'analisi dei dati offline. In questo lavoro abbiamo presentato i servizi di elaborazione necessari per accedere a diversi insiemi di dati contemporaneamente per produrre risultati intelligenti di fusione dei dati, che vengono poi messi a disposizione dei decisori in tempo reale. Poiché è difficile analizzare tutti i risultati in modo efficiente, dobbiamo trovare una soluzione per rendere l'elaborazione più veloce ed efficiente. Qui stiamo progettando un metodo che utilizza i metatag per ridurre il tempo di elaborazione e il carico dei sistemi esistenti. I metatag definiscono fondamentalmente i vari attributi dei file di dati e forniscono opzioni di accesso ai file in base alla selezione degli attributi. Nel sistema proposto, la semantica leggera e quella pesante vengono separate in base alle dimensioni. Le dimensioni superiori a 10 vengono aggiunte all'elenco dei pesi massimi e quelle inferiori a 10 all'elenco dei pesi minimi.