Für die Spracherkennung, OCR usw. ist die Bestimmung der strukturellen Eigenschaften einer natürlichen Sprache wesentlich. Diese Eigenschaften können in zwei verschiedenen Kategorien analysiert werden. morphologische und statistische Analyse. Für die statistische Analyse wird ein Korpus benötigt, der eine repräsentative Stichprobe der natürlichen Sprache darstellt. Wort-n-Gramm-Frequenzen dieses Korpus können unter Verwendung geeigneter Algorithmen bestimmt werden, und fehlende n-Gramm können unter Verwendung von Glättungstechniken geschätzt werden. In dieser Studie wurde ein Korpus namens TurCo erstellt, um Glättungstechniken auf Türkisch zu vergleichen und anzuwenden. Um das Wort n-Gramm zu berechnen, wurden verschiedene Algorithmen getestet. Nachdem n-Gramm-Wortlisten gefunden worden waren, wurden ihre Eigenschaften analysiert. Zur Verallgemeinerung wurde das Zipf-Gesetz angewendet, und um die Genauigkeit des Zipf-Gesetzes zu erhöhen, wurde das Mandelbrot-Gesetz angewendet, indem die geeigneten Konstanten von Mandelbrot gefunden wurden. Da der Korpus nicht groß genug sein konnte, um die gesamte Sprache darzustellen, wurden Glättungstechniken verwendet, um das unsichtbare Wort n-Gramm zu schätzen. Diese Studie kann Fachleuten helfen, die an Spracherkennung, Kryptoanalyse und Autorenerkennung auf Türkisch arbeiten.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.