Die rasante Entwicklung des Internets und der Web-Publishing-Techniken schafft zahlreiche Informationsquellen, die als HTML-Seiten im World Wide Web veröffentlicht werden. Es gibt jedoch auch eine Menge redundanter und irrelevanter Informationen auf Webseiten. Navigationspanels, Inhaltsverzeichnisse (TOC), Werbung, Urheberrechtserklärungen, Servicekataloge, Datenschutzrichtlinien usw. auf Webseiten werden als relevante und irrelevante Inhalte betrachtet. Solche Informationen machen verschiedene Web-Mining-Aufgaben wie das Crawling von Webseiten, die Klassifizierung von Webseiten, das linkbasierte Ranking und die Destillation von Themen komplex.