Dlq raspoznawaniq rechi, OCR i t. D. Vazhno opredelenie strukturnyh swojstw estestwennogo qzyka. Jeti swojstwa mozhno proanalizirowat' po dwum razlichnym kategoriqm; morfologicheskij i statisticheskij analiz. Dlq statisticheskogo analiza neobhodim korpus, predstawlqüschij soboj reprezentatiwnyj obrazec estestwennogo qzyka. Chastoty n-grammow slow w ätom korpuse mozhno opredelit' s pomosch'ü podhodqschih algoritmow, a nedostaüschie n-grammy mozhno ocenit' s pomosch'ü metodow sglazhiwaniq. V ätom issledowanii, chtoby srawnit' i primenit' metody sglazhiwaniq k tureckomu, byl sozdan korpus pod nazwaniem TurCo. Chtoby wychislit' n-grammy slow, byli protestirowany raznye algoritmy. Posle nahozhdeniq n-grammnyh spiskow slow byli proanalizirowany ih harakteristiki. Dlq obobscheniq byl primenen zakon Cipfa, a dlq powysheniq tochnosti zakona Cipfa byl primenen zakon Mandel'brota putem nahozhdeniq sootwetstwuüschih konstant Mandel'brota. Poskol'ku korpus ne mog byt' dostatochno bol'shim, chtoby predstawit' wes' qzyk, dlq ocenki n-grammow newidimyh slow ispol'zowalis' metody sglazhiwaniq. Jeto issledowanie mozhet pomoch' professionalam, zanimaüschimsq raspoznawaniem rechi, kriptoanalizom i raspoznawaniem awtorow na tureckom qzyke.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.