O rápido desenvolvimento da Internet e das técnicas de publicação na Web criam numerosas fontes de informação publicadas como páginas HTML na World Wide Web. Contudo, há muita informação redundante e irrelevante também em páginas web. Os painéis de navegação, tabelas de conteúdo (TOC), anúncios, declarações de direitos de autor, catálogos de serviços, políticas de privacidade, etc. em páginas web são considerados como conteúdo relevante e irrelevante. Tais informações tornam várias tarefas de prospecção de páginas web, tais como o rastejamento de páginas web, classificação de páginas web, classificação baseada em ligações, complexo de destilação tópica.