42,00 €
inkl. MwSt.
Versandkostenfrei*
Versandfertig in 1-2 Wochen
payback
0 °P sammeln
  • Broschiertes Buch

Inhaltlich unveränderte Neuauflage. Das Internet wächst stetig. (Volltext-)Suchmaschinen helfen beim Auffinden von Informationen, gehen dabei aber nicht besonders intelligent vor. Sie be schränken sich auf eine Suche nach Webseiten, die die gesuchten Begriffe enthalten, ohne die Anfrage in einen genaueren Kontext zu stellen. Was im Anfangsstadium des Internet noch ausreichte, genügt schon seit längerem nicht mehr zum gezielten Durchsuchen von Milliarden von Webseiten. Dabei ist eine automatische Klassifikation von Webseiten mit gängigen maschinellen Lernverfahren schon lange möglich. Ebenso…mehr

Produktbeschreibung
Inhaltlich unveränderte Neuauflage. Das Internet wächst stetig. (Volltext-)Suchmaschinen helfen beim Auffinden von Informationen, gehen dabei aber nicht besonders intelligent vor. Sie be schränken sich auf eine Suche nach Webseiten, die die gesuchten Begriffe enthalten, ohne die Anfrage in einen genaueren Kontext zu stellen. Was im Anfangsstadium des Internet noch ausreichte, genügt schon seit längerem nicht mehr zum gezielten Durchsuchen von Milliarden von Webseiten. Dabei ist eine automatische Klassifikation von Webseiten mit gängigen maschinellen Lernverfahren schon lange möglich. Ebenso lassen sich inhaltlich gleiche Seiten erkennen und gezielt ausfiltern. Der Autor gibt einführend einen Überblick über gängige Verfahren zur Klassifikation von Texten, mit denen sich auch die Inhalte von Webseiten klassifizieren lassen. Er erläutert zusätzliche Merkmale von Webseiten, mit denen sich diese Klassifikation gegenüber der reinen Textklassifikation weiter verbessern lässt und bewertet diese Merkmale mit verschiedenen Versuchen. Dabei wird zwischen einer Analyse der gesamten Webseite und einer Analyse lediglich anhand der Vorschaudaten der Suchmaschine unterschieden. An schließend werden Verfahren zur Erkennung von Inhaltlich gleichen Seiten erläutert und auf ihre Eignung zur Filterung von Webseiten untersucht.
Autorenporträt
Dipl.-Inform.: Studium der Informatikan der Universität Dortmund.