L'approche VDEC comprend deux phases : 1) l'extraction de données Web basée sur la vision, et 2) le regroupement de documents Web. Dans la phase 1, les informations de la page Web sont segmentées en plusieurs morceaux à partir desquels le bruit excédentaire et les morceaux en double sont supprimés à l'aide de trois paramètres, tels que le pourcentage d'hyperliens, le score de bruit et la similarité cosinus. Pour identifier les morceaux pertinents, trois paramètres tels que la pertinence du mot du titre, la sélection des morceaux basée sur la fréquence des mots clés et les caractéristiques de la position sont utilisés, puis un ensemble de mots clés est extrait de ces principaux morceaux. Enfin, les mots-clés extraits sont soumis au regroupement de documents Web à l'aide du Fuzzy C-Means clustering (FCM). L'extraction de données Web profonde basée sur la vision proposée est mise en oeuvre et testée à l'aide d'un ensemble de données synthétiques. Les résultats sont comparés à ceux de deux algorithmes existants, l'un étant l'extraction de données basée sur la vision (ViDE) et l'autre l'algorithme de région de données minières (MDR). Les résultats expérimentaux effectués sur deux ensembles de données synthétiques différents montrent que la méthode VDEC proposée peut obtenir des résultats stables et bons d'environ 99,2% et 99,1% de précision dans les deux ensembles de données avec différentes valeurs de seuil.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.