El rápido desarrollo de Internet y las técnicas de publicación en la web crean numerosas fuentes de información publicadas como páginas HTML en la World Wide Web. Sin embargo, también hay mucha información redundante e irrelevante en las páginas web. Los paneles de navegación, la tabla de contenidos (TOC), los anuncios, las declaraciones de derechos de autor, los catálogos de servicios, las políticas de privacidad, etc. de las páginas web se consideran contenidos relevantes e irrelevantes. Esta información hace que varias tareas de minería web, como el rastreo de páginas web, la clasificación de páginas web, la clasificación basada en enlaces o la destilación de temas, sean complejas.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.