W przypadku rozpoznawania mowy, OCR itp. Niezb¿dne jest okre¿lenie strukturalnych w¿äciwo¿ci j¿zyka naturalnego. W¿äciwo¿ci te mo¿na analizowä w dwóch ró¿nych kategoriach; analiza morfologiczna i statystyczna. Do analizy statystycznej potrzebny jest korpus b¿d¿cy reprezentatywn¿ próbk¿ j¿zyka naturalnego. Cz¿stotliwo¿ci s¿ów n-gramowych tego korpusu mo¿na okre¿li¿ za pomoc¿ odpowiednich algorytmów, a brakuj¿ce n-gramowe mo¿na oszacowä za pomoc¿ technik wyg¿adzania. W tym badaniu, aby porównä i zastosowä techniki wyg¿adzania w j¿zyku tureckim, utworzono korpus o nazwie TurCo. W celu obliczenia n-gramów s¿owa przetestowano ró¿ne algorytmy. Po znalezieniu n-gramowych list s¿ów przeanalizowano ich cechy. W celu uogólnienia zastosowano prawo Zipfa, a aby zwi¿kszy¿ dok¿adno¿¿ prawa Zipfa, zastosowano prawo Mandelbrota, znajduj¿c odpowiednie stäe Mandelbrota. Poniewä korpus nie móg¿ by¿ wystarczaj¿co du¿y, aby reprezentowä cäy j¿zyk, do oszacowania niewidocznego s¿owa n-gramów zastosowano techniki wyg¿adzania. To badanie mo¿e pomóc specjalistom zajmuj¿cym si¿ rozpoznawaniem mowy, kryptoanaliz¿ i rozpoznawaniem autora w j¿zyku tureckim.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.