Studienarbeit aus dem Jahr 2002 im Fachbereich Germanistik - Linguistik, Note: 2+, Ludwig-Maximilians-Universität München (Centrum für Informations- und Sprachverarbeitung), Veranstaltung: Computerlinguistische Aspekte des Semantic Web, Sprache: Deutsch, Abstract: 1 EINLEITUNG Die Suchmaschine Google zeigt in ihrem Startfenster immer die aktuelle Anzahl der Dokumente an, die in der Google Datenbank erfasst sind. Am 28.08.02 waren das etwa 2,5 Milliarden Web-Seiten (Abbildung 1-1). [Abbildung in der Downloadversion enthalten] Abbildung 1-1 Diese Zahl stellt nicht den gesamten Inhalt des WWW dar und schon gar nicht die damit verknüpften Inhalte, die Firmen- und Universitätsnetze bieten. Die Vorstellung, aus diesem gigantischen Haufen eine brauchbare Information zu extrahieren, scheint absurd. Suchmaschinen bewältigen höchstens die Aufgabe, die gesuchten Wörter in Web-Seiten zu finden. Eine Frage wie: „Was kommt nach dem Graduale?“ gibt als Antwort alle Web-Seiten, in denen diese Abfolge von Wörtern vorkommt, aber nicht die eigentliche Antwort auf diese Frage: “Nach dem Graduale kommt das Alleluia.“ Durch das Lesen der Ergebnisdokumente würde diese Antwort wahrscheinlich auch irgendwann zustande kommen. Jedoch ist schon der Begriff „Graduale“ so mehrdeutig, dass es nicht nur eine Antwort auf diese Frage gibt. [Abbildung in der Downloadversion enthalten] Abbildung 1-2[1] Das Graduale Romanum oder auch Graduale Triplex bezeichnet z.B. ein Buch, das die Gesänge der Messe enthält, während das Graduale ein in der Messe vorkommender Gesang ist, auf den das Alleluia folgt (Abbildung 1- 2). Im Semantik Web von Tim Berners Lee[2] soll die Beantwortung solcher Fragen möglich sein. Lee geht davon aus, das sich im Web die Antworten schon befinden, nur eben noch nicht in der Form, die für die maschinelle Beantwortung nötig wäre. Deshalb müssten die Inhalte der Web-Seiten in relationale Datenbanken gespeichert werden. Eine einfache Vorstellung für eine relationale Datenbank wäre in diesem Fall eine zweispaltige Datenbank mit einer Zeitspalte und einer Namensspalte, in der die chronologische Reihenfolge der Messeteile steht. Die Beziehungen zwischen den Spalten wird Relation genannt und stellt damit die Semantik des Semantik Web dar. In dieser Datenbank sollen also alle Informationen so abgespeichert sein, dass der Computer mit ihnen selbstständig die Fragen beantworten kann. (Das maschinelle Erstellen von Antworten auf vom Menschen gestellte Fragen fällt übrigens in die Disziplin „natural language processing“ oder NLP. NLP ist eine der vielen Disziplinen, die sich um das Hauptthema „künstliche Intelligenz“ drehen. Machine Translation (MT) gehört ebenfalls dazu.) [...]