Para el reconocimiento de voz, OCR, etc., la determinación de las propiedades estructurales de un lenguaje natural es esencial. Estas propiedades se pueden analizar en dos categorías diferentes; análisis morfológico y estadístico. Para el análisis estadístico, se necesita un corpus que sea una muestra representativa del lenguaje natural. Las frecuencias de n-gramas de palabras de ese corpus pueden determinarse utilizando algoritmos adecuados y los n-gramas faltantes pueden estimarse utilizando técnicas de suavizado. En este estudio, para comparar y aplicar técnicas de suavizado al turco, se creó un corpus llamado TurCo. Para calcular los n-gramas de palabras, se probaron diferentes algoritmos. Después de encontrar listas de palabras de n-gramas, se analizaron sus características. Para generalizar, se aplicó la Ley de Zipf, y para aumentar la precisión en la Ley de Zipf, se aplicó la Ley de Mandelbrot al encontrar las constantes apropiadas de Mandelbrot. Como el corpus no podía ser lo suficientemente grande para representar todo el idioma, se utilizaron técnicas de suavizado para estimar los n-gramas de palabras invisibles. Este estudio puede ayudar a los profesionales que trabajan en reconocimiento de voz, criptoanálisis y reconocimiento de autores en turco.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.