Explorar e utilizar uma enorme quantidade de documentos de texto é uma questão importante na área da recuperação de informação e extracção de texto. Todos os métodos que visam encontrar grupos de entidades utilizam medidas de similaridade ou de dissemelhança. É necessário analisar como a medida de semelhança se comporta nos documentos de texto antes de desenvolver ou modificar uma boa medida de semelhança para o agrupamento de documentos a fim de compreender a eficácia da técnica. Uma função de semelhança embutida numa função de critério é, em grande medida, responsável por analisar a estrutura intrínseca dos dados. Se forem usadas medidas de semelhança adequadas com uma técnica de agrupamento específica, a eficiência e precisão da tarefa de descoberta de informação pode ser melhorada. A utilização de medidas apropriadas não só melhora a proveniência e a capacidade de crédito da informação recuperada, como também ajuda a superar a complexidade do processo em termos de tempo e custos. Este livro centra-se na identificação das várias medidas de semelhança para o Clustering. Um método imperativo para medir a similaridade entre documentos de texto é ilustrado para agrupar os documentos utilizando o agrupamento hierárquico e o método de selecção de características utilizando o Matlab.