A abordagem VDEC compreende duas fases: 1) extracção de dados com base na visão, e 2) agrupamento de documentos da Web. Na fase 1, a informação da página web é segmentada em vários pedaços dos quais, o excesso de ruído e os pedaços duplicados são removidos utilizando três parâmetros, tais como percentagem de hiperligação, pontuação de ruído e semelhança cosseno. Para identificar o pedaço relevante, são utilizados três parâmetros, tais como a palavra Título Relevância, selecção de pedaço baseada na frequência da palavra-chave, características de posição e, em seguida, um conjunto de palavras-chave é extraído desses pedaços principais. Finalmente, as palavras-chave extraídas são sujeitas a agrupamento de documentos da web utilizando o agrupamento Fuzzy C-Means (FCM). A visão proposta baseada na extracção profunda de dados da web é implementada e testada utilizando o conjunto de dados sintéticos. Os resultados são comparados com os dois algoritmos existentes, o primeiro é Extracção de Registo de Dados com Base na Visão (ViDE) e o segundo é o algoritmo Mining Data Region (MDR). Dos resultados experimentais que foram realizados em dois conjuntos de dados sintéticos diferentes, os resultados mostraram que o método VDEC proposto pode alcançar resultados estáveis e bons de cerca de 99,2% e 99,1% de precisão em ambos os conjuntos de dados com diferentes valores limiares fornecidos.