Podhod VDEC sostoit iz dwuh ätapow: 1) izwlechenie web-dannyh s pomosch'ü zreniq i 2) klasterizaciq web-dokumentow. Na perwom ätape informaciq web-stranicy segmentiruetsq na razlichnye fragmenty, iz kotoryh udalqütsq lishnie shumy i dublikaty s pomosch'ü treh parametrow, takih kak procent giperssylok, ocenka shuma i kosinusnoe shodstwo. Dlq opredeleniq relewantnogo fragmenta ispol'zuütsq tri parametra, takie kak relewantnost' slow zagolowka, wybor fragmenta na osnowe chastoty klüchewyh slow, osobennosti pozicii, a zatem iz ätih osnownyh fragmentow izwlekaetsq nabor klüchewyh slow. Nakonec, izwlechennye klüchewye slowa podwergaütsq klasterizacii web-dokumentow s pomosch'ü klasterizacii Fuzzy C-Means (FCM). Predlozhennyj algoritm izwlecheniq dannyh iz glubokih web-dokumentow na osnowe wideniq byl realizowan i protestirowan na sinteticheskom nabore dannyh. Rezul'taty srawniwaütsq s dwumq suschestwuüschimi algoritmami: algoritmom izwlecheniq zapisej dannyh na osnowe zreniq (ViDE) i algoritmom dobychi regiona dannyh (MDR). Rezul'taty äxperimentow, prowedennyh na dwuh razlichnyh sinteticheskih naborah dannyh, pokazali, chto predlozhennyj metod VDEC mozhet dostich' stabil'nyh i horoshih rezul'tatow s tochnost'ü okolo 99,2% i 99,1% w oboih naborah dannyh pri razlichnyh porogowyh znacheniqh.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.