Il rapido sviluppo di Internet e delle tecniche di pubblicazione sul Web crea numerose fonti di informazione pubblicate come pagine HTML sul World Wide Web. Tuttavia, le pagine web contengono anche molte informazioni ridondanti e irrilevanti. I pannelli di navigazione, la tabella dei contenuti (TOC), gli annunci pubblicitari, le dichiarazioni di copyright, i cataloghi dei servizi, le politiche sulla privacy ecc. presenti nelle pagine web sono considerati contenuti rilevanti e irrilevanti. Queste informazioni rendono complesse diverse attività di web mining, come il crawling delle pagine web, la classificazione delle pagine web, il ranking basato sui link e la distillazione degli argomenti.