In den letzten Jahren hat sich das Internet mit der massiven Ausbreitung der Informationsgesellschaft zu einer wertvollen Informationsquelle für fast jeden potentiellen Wissensbereich entwickelt. Dies hat viele Forscher dazu veranlasst, das Web als legitimes Repository für Information Retrieval (IR) und Wissenserwerb zu betrachten. Das Web besteht aus einer riesigen Menge an Informationen, die sich auf jeden möglichen Bereich beziehen, und seine hohe Redundanz kann eine gültige Wissensquelle für Ähnlichkeitsberechnungen sein. Daher sind Text Mining Systeme mit einer riesigen Menge von Attributen konfrontiert. Die Wissensentdeckung in Datenbanksystemen erfordert, dass die Eingabetexte als eine Menge von Attributen dargestellt werden, um sie zu verarbeiten. Die Methode der Textrepräsentation wird als Text- oder Dokumentenindizierung bezeichnet, und die Attribute werden als Indizes bezeichnet. Die Indizierung wird zu einer kritischen Aufgabe beim Text Mining, da sie die Informationen im Text mit einem minimalen Verlust an Semantik für die zukünftige Verwendung darstellen muss.