Pour la reconnaissance vocale, l'OCR, etc., la détermination des propriétés structurelles d'un langage naturel est essentielle. Ces propriétés peuvent être analysées sous deux catégories différentes; analyse morphologique et statistique. Pour l'analyse statistique, un corpus qui est un échantillon représentatif du langage naturel est nécessaire. Les fréquences de n-grammes de mots de ce corpus peuvent être déterminées en utilisant des algorithmes appropriés et les n-grammes manquants peuvent être estimés en utilisant des techniques de lissage. Dans cette étude, afin de comparer et d'appliquer des techniques de lissage au turc, un corpus nommé TurCo a été créé. Afin de calculer les n-grammes de mots, différents algorithmes ont été testés. Après avoir trouvé des listes de mots de n grammes, leurs caractéristiques ont été analysées. Pour la généralisation, la loi de Zipf a été appliquée, et pour augmenter la précision de la loi de Zipf, la loi de Mandelbrot a été appliquée en trouvant les constantes appropriées de Mandelbrot. Comme le corpus ne pouvait pas être assez grand pour représenter l'ensemble de la langue, des techniques de lissage ont été utilisées pour estimer le mot invisible n-grammes. Cette étude peut aider les professionnels travaillant sur la reconnaissance vocale, la cryptanalyse et la reconnaissance des auteurs en turc.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.