Aus der Verfügbarkeit großer Textkorpora ergeben sich für die maschinelle Sprachverarbeitung, für die Lexikographie und für das Information Retrieval neue Perspektiven. In dieser Arbeit werden Möglichkeiten aufgezeigt, mit Hilfe statistischer Verfahren zu verläßlichen Aussagen über die Existenz komplexer lexikalischer Einheiten zu kommen. Zu diesen Lexikoneinheiten zählen Funktionswörter ebenso wie Kollokationen und feste Wendungen. Grundlage der Untersuchungen sind Textkorpora des Deutschen. Bei der Bewertung der Güte verschiedener statistischer Verfahren zeigt es sich, daß die Wahl eines Verfahrens von der konkreten Aufgabe abhängig ist. Anhand dreier Fallstudien - Abtönungspartikeln, Verbpartikeln und Pronomen - wird anschaulich dargelegt, welcher Erkenntnisgewinn für die lexikalische Arbeit aus der Wahl des geeigneten statistischen Verfahrens zu ziehen ist. Für die maschinelle Sprachverarbeitung und das Computerlexikon von morgen folgt, daß korpusgestützte lexikalische Arbeit fruchtbringender ist als die systematische Auswertung gedruckter Wörterbücher. Es wird auch gezeigt, wie orthographisch komplexe Lexikoneinheiten angemessen in einem Computerlexikon repräsentiert werden können. Mit einem um komplexe Einheiten bereicherten Lexikon sind auch Probleme der Worterkennung beim Information Retrieval und in der Lexikostatistik besser zu meistern.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.