No mundo atual, em rápido crescimento, analisámos fontes de dados distribuídas que publicam até gigabytes de dados todos os dias, acumulando ao longo de vários meses à escala dos terabytes. Isto levanta o desafio de como armazenar de forma eficiente estes conjuntos de dados distribuídos, tanto em caches de trabalho para acesso rápido em tempo real como em formas arquivadas que podem ser reinstaladas para análise de dados offline. Neste documento, apresentamos os serviços de processamento necessários para aceder a vários conjuntos de dados em simultâneo para produzir resultados inteligentes de fusão de dados, que são posteriormente disponibilizados aos decisores em tempo real. Uma vez que é difícil analisar todos os resultados de forma eficiente, temos de encontrar uma solução para tornar o processamento mais rápido e mais eficiente. Neste caso, estamos a conceber um método que utiliza metatags para reduzir o tempo de processamento e a carga dos sistemas existentes. Os metatags definem basicamente os vários atributos dos ficheiros de dados e dão-nos opções para aceder aos ficheiros com base na seleção dos atributos. No sistema proposto, a semântica leve e a semântica pesada estão a ser separadas com base no tamanho. Os ficheiros de tamanho superior a 10 são adicionados à lista de peso pesado e os ficheiros de tamanho inferior a 10 são adicionados à lista de peso leve.