En los últimos años, con la expansión masiva de la sociedad de la información, la web se ha convertido en una valiosa fuente de información para casi todos los ámbitos potenciales del conocimiento. Esto ha llevado a muchos investigadores a considerar la Web como un repositorio legítimo para la recuperación de información (IR) y las tareas de adquisición de conocimiento. La Web contiene una enorme cantidad de información relacionada con todos los ámbitos posibles y, debido a su gran redundancia, puede ser una fuente de conocimiento válida para el cálculo de similitudes. Por tanto, los sistemas de minería de textos se enfrentan a una enorme cantidad de atributos. El descubrimiento de conocimiento en sistemas de bases de datos requiere que los textos de entrada se representen como un conjunto de atributos para poder tratarlos. El método de representación de textos se conoce como indexación de textos o documentos, y los atributos se denominan índices. La indexación se convierte en una tarea crítica en la minería de textos porque tiene que representar la información del texto con la mínima pérdida de semántica para su uso futuro.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.