V wek informacionnyh tehnologij kolichestwo textowyh dokumentow w Internete, älektronnoj pochte, na web-stranicah, w offlajnowyh i onlajnowyh otchetah, zhurnalah, stat'qh, hranqschihsq w älektronnyh bazah dannyh, postoqnno rastet. Milliony nowyh textowyh fajlow sozdaütsq w den', iz-za otsutstwiq klassifikacii lüdi upuskaüt ogromnuü informaciü, kotoraq mozhet byt' polezna dlq resheniq neskol'kih zadach. Podderzhiwat' i poluchat' dostup k ätim dokumentam ochen' slozhno bez adekwatnogo rejtinga, a kogda est' klassifikaciq bez kakoj-libo informacii, to ee nazywaüt klasterizaciej. Dlq preodoleniq takih trudnostej K-means i drugie starye algoritmy klasterizacii ne podhodqt dlq estestwennyh qzykow. Iz-za wysokoj razmernosti textow, nalichiq w nih podskazok o logicheskoj strukture i nowyh metodow segmentacii byli ispol'zowany dostizheniq w oblasti generatiwnyh algoritmow tematicheskogo modelirowaniq, special'no razrabotannyh dlq wyqwleniq woprosow na interwalah texta, chtoby zashifrowat' tematicheskie raspredeleniq slow. Uchitywaq äti ogranicheniq, k predwaritel'no obrabotannym dannym byl primenen algoritm konceptual'noj klasterizacii COBWEB. Dlq obespecheniq tochnosti klasterow, dlq ocenki klasterow byl wybran metod izmereniq tochnosti f-measure.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.