Le rôle d'un système de recherche consiste à retrouver les documents qui répondent le mieux à un besoin en information. En d'autres termes, il s'agit de résoudre la dualité "pertinence des résultats - coûts de la recherche", qui se trouve être au centre de la problématique de la recherche d'information sur Internet. La question est de trouver une forme de structuration des documents qui permet, d'une part de préserver au mieux leur contenu informationnel et d'autre part à les rendre utilisables par les différents traitements à appliquer. Dans le cadre de ce projet, nous nous proposons de développer un système de calcul de similarité entre textes, basé sur une organisation vectorielles des données, aussi bien le contenu (corpus de documents) que les besoins (requêtes d'utilisateurs), et comment ça pourrait améliorer la qualité de filtrage l'information par les systèmes de recherche dans le but de retourner les contenus les plus pertinents.