Dans le monde actuel en pleine croissance, nous avons analysé des sources de données distribuées qui publient jusqu'à des gigaoctets de données chaque jour, s'accumulant sur une période de plusieurs mois pour atteindre l'échelle du téraoctet. Cela pose le problème du stockage efficace de ces ensembles de données distribuées, à la fois dans des caches de travail pour un accès rapide en temps réel et dans des formes archivées qui peuvent être réintégrées pour l'analyse des données hors ligne. Dans cet article, nous avons présenté les services de traitement nécessaires pour accéder simultanément à plusieurs ensembles de données afin de produire des résultats intelligents de fusion de données, qui sont ensuite mis à la disposition des décideurs en temps réel. Comme il est difficile d'analyser efficacement tous les résultats, nous devons trouver une solution pour rendre le traitement plus rapide et plus efficace. Nous concevons ici une méthode utilisant les métabalises pour réduire le temps de traitement et la charge des systèmes existants. Les métabalises définissent essentiellement les différents attributs des fichiers de données et nous fournissent des options pour accéder aux fichiers sur la base de la sélection des attributs. Dans le système proposé, la sémantique légère et la sémantique lourde sont séparées en fonction de leur taille. Les noms supérieurs à 10 sont ajoutés à la liste des noms lourds et les noms inférieurs à 10 sont ajoutés à la liste des noms légers.