Nos últimos anos, com a expansão maciça da sociedade da informação, a Web tornou-se uma fonte preciosa de informação para quase todos os domínios potenciais do conhecimento. Este facto levou a que muitos investigadores começassem a considerar a Web como um repositório legítimo para tarefas de Recuperação de Informação (RI) e de aquisição de conhecimento. A Web é constituída por uma enorme quantidade de informação relativa a todos os domínios possíveis e a sua elevada redundância pode ser uma fonte de conhecimento válida para o cálculo de semelhanças. Por conseguinte, os sistemas de extração de texto deparam-se com uma enorme quantidade de atributos. A descoberta de conhecimentos em sistemas de bases de dados exige que os textos de entrada sejam representados como um conjunto de atributos para poderem ser tratados. O método de representação do texto é conhecido por indexação de textos ou documentos e os atributos são designados por índices. A indexação torna-se uma tarefa crítica na extração de texto porque tem de representar a informação no texto com o mínimo de perda de semântica para a sua utilização futura.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.