Diplomarbeit aus dem Jahr 2002 im Fachbereich Informatik - Wirtschaftsinformatik, Note: 1,0, Gottfried Wilhelm Leibniz Universität Hannover (Wirtschaftswissenschaften), Sprache: Deutsch, Abstract: Inhaltsangabe:Gang der Untersuchung:
Zielsetzung dieser Arbeit ist es, einen Agenten zu konzipieren und zu entwickeln, der in der Lage ist, Inhalte des Internet zu sammeln und lokal abzuspeichern. Der Begriff Konzeption wird dabei in der Weise interpretiert, dass der Grobaufbau eines Agenten zum Web-Content-Mining erstellt wird, wobei hier die Beziehungen zwischen den einzelnen Komponenten und deren jeweilige Aufgabe im Vordergrund stehen. Entwicklung bedeutet ferner, dass der konzipierte Agent in einer ausgewählten Programmiersprache realisiert und getestet wird und dabei eine vorgegeben Aufgabe erfüllt. Dazu wird zuerst in Kapitel 2 eine Abgrenzung vorgenommen, welche Art von Programmen unter der Bezeichnung Agent subsumiert werden können. Es folgt eine Erläuterung der für diese Arbeit relevanten Typen und, da die Entwicklung eines intelligenten Agenten gefordert ist, zusätzlich eine Betrachtung der Frage, wann ein Agent als intelligent gilt und welche Anforderungen daraus an die Konzeption abgeleitet werden können. Hauptaufgabe des Agenten ist es, Web-Content zu minen , weshalb eine Abgrenzung erfolgt, welche Teile des Internet als Web-Content betrachtet werden und wie Mining abgegrenzt wird, nämlich als das Auslesen von Internetinhalten und das Abspeichern auf einem lokalen Rechner.
Die eigentliche Systementwicklung des Agenten, der PISA genannt wird (Patricks intelligenter Software Agent), erfolgt in Kapitel 3 und basiert, da es sich bei Agenten letztlich auch nur um Programme handelt, auf einem Standardmodell der Systementwicklung mit vier Phasen.
1. Phase: Analyse Jede Entwicklung eines Programms beginnt mit einer detaillierten Analyse des Umfeldes und der Aufgaben der geplanten Software, was in Abschnitt 3.1 erfolgt. Im Falle eines Web-Content-Mining-Agenten ist die Umwelt das Internet, welches daher bezüglich Aufbau und Funktionsweise untersucht wird, wobei eine erste Eingrenzung erfolgt, wie Daten ausgelesen werden können. Betrachtet wird unter anderem der Aufbau des Internets, das heißt, wie kommt ein Browser an die Daten der Seiten und welche Fähigkeiten muss die Programmiersprache, in welcher der Agent erstellt werden soll, folglich besitzen, um diese Funktion wahrzunehmen.
Kernstück des Internets ist die Möglichkeit, nicht nur per bekannter Adresse eine Seite aufzurufen, sondern auch per Mausklick so genannten Links zu folgen, die eine Verknüpfung zwischen Seiten herstellen. Daraus resultiert für einen Agenten die Chance nicht nur Daten einer Seite zu extrahieren, sondern auch von den verbundenen Seiten, indem auch die im Quelltext als Verknüpfungen eingetragenen Seiten aufgerufen und bearbeitet werden. Dieser Vorgang ist als Crawling bekannt. Da die Adressen im Quelltext oft in einer verkürzten Schreibweise dargestellt und vom Browser in eine vollständige Adresse umgewandelt werden, muss die zugrunde liegende Systematik dem Agenten bekannt sein. Deswegen erfolgt eine Betrachtung der verschiedenen Notationen der Adressierung von Internetseiten. Sollen, wie in dieser Arbeit, Daten aus Internetseiten ausgelesen werden, muss bekannt sein, wie die Seiten beschrieben sind, die die Inhalte liefern. Die am häufigsten eingesetzte Sprache zur Auszeichnung von Internetseiten ist derzeit HTML (Hypertext Markup Language), wobei die Zukunft sicher XML (eXtensible Markup Language) gehören wird. Beide Sprachen werden in ihrer Funktionsweise dargestellt sowie einige ausgewählte alternative Darstellungsarten, wobei eine weitere Abgrenzung der Möglichkeiten der Datenextraktion anhand der technischen Realisierbarkeit erfolgt.
Zur Entwicklung ist ein Beispiel-Einsatzgebiet sinnvoll, damit die Funktionsweise vor einem realistischen Hintergrund getestet werden kann. Zwe...
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Zielsetzung dieser Arbeit ist es, einen Agenten zu konzipieren und zu entwickeln, der in der Lage ist, Inhalte des Internet zu sammeln und lokal abzuspeichern. Der Begriff Konzeption wird dabei in der Weise interpretiert, dass der Grobaufbau eines Agenten zum Web-Content-Mining erstellt wird, wobei hier die Beziehungen zwischen den einzelnen Komponenten und deren jeweilige Aufgabe im Vordergrund stehen. Entwicklung bedeutet ferner, dass der konzipierte Agent in einer ausgewählten Programmiersprache realisiert und getestet wird und dabei eine vorgegeben Aufgabe erfüllt. Dazu wird zuerst in Kapitel 2 eine Abgrenzung vorgenommen, welche Art von Programmen unter der Bezeichnung Agent subsumiert werden können. Es folgt eine Erläuterung der für diese Arbeit relevanten Typen und, da die Entwicklung eines intelligenten Agenten gefordert ist, zusätzlich eine Betrachtung der Frage, wann ein Agent als intelligent gilt und welche Anforderungen daraus an die Konzeption abgeleitet werden können. Hauptaufgabe des Agenten ist es, Web-Content zu minen , weshalb eine Abgrenzung erfolgt, welche Teile des Internet als Web-Content betrachtet werden und wie Mining abgegrenzt wird, nämlich als das Auslesen von Internetinhalten und das Abspeichern auf einem lokalen Rechner.
Die eigentliche Systementwicklung des Agenten, der PISA genannt wird (Patricks intelligenter Software Agent), erfolgt in Kapitel 3 und basiert, da es sich bei Agenten letztlich auch nur um Programme handelt, auf einem Standardmodell der Systementwicklung mit vier Phasen.
1. Phase: Analyse Jede Entwicklung eines Programms beginnt mit einer detaillierten Analyse des Umfeldes und der Aufgaben der geplanten Software, was in Abschnitt 3.1 erfolgt. Im Falle eines Web-Content-Mining-Agenten ist die Umwelt das Internet, welches daher bezüglich Aufbau und Funktionsweise untersucht wird, wobei eine erste Eingrenzung erfolgt, wie Daten ausgelesen werden können. Betrachtet wird unter anderem der Aufbau des Internets, das heißt, wie kommt ein Browser an die Daten der Seiten und welche Fähigkeiten muss die Programmiersprache, in welcher der Agent erstellt werden soll, folglich besitzen, um diese Funktion wahrzunehmen.
Kernstück des Internets ist die Möglichkeit, nicht nur per bekannter Adresse eine Seite aufzurufen, sondern auch per Mausklick so genannten Links zu folgen, die eine Verknüpfung zwischen Seiten herstellen. Daraus resultiert für einen Agenten die Chance nicht nur Daten einer Seite zu extrahieren, sondern auch von den verbundenen Seiten, indem auch die im Quelltext als Verknüpfungen eingetragenen Seiten aufgerufen und bearbeitet werden. Dieser Vorgang ist als Crawling bekannt. Da die Adressen im Quelltext oft in einer verkürzten Schreibweise dargestellt und vom Browser in eine vollständige Adresse umgewandelt werden, muss die zugrunde liegende Systematik dem Agenten bekannt sein. Deswegen erfolgt eine Betrachtung der verschiedenen Notationen der Adressierung von Internetseiten. Sollen, wie in dieser Arbeit, Daten aus Internetseiten ausgelesen werden, muss bekannt sein, wie die Seiten beschrieben sind, die die Inhalte liefern. Die am häufigsten eingesetzte Sprache zur Auszeichnung von Internetseiten ist derzeit HTML (Hypertext Markup Language), wobei die Zukunft sicher XML (eXtensible Markup Language) gehören wird. Beide Sprachen werden in ihrer Funktionsweise dargestellt sowie einige ausgewählte alternative Darstellungsarten, wobei eine weitere Abgrenzung der Möglichkeiten der Datenextraktion anhand der technischen Realisierbarkeit erfolgt.
Zur Entwicklung ist ein Beispiel-Einsatzgebiet sinnvoll, damit die Funktionsweise vor einem realistischen Hintergrund getestet werden kann. Zwe...
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.