In questo libro viene introdotta una nuova tecnica di clustering per i dati categoriali. Essenzialmente, l'efficacia di una tecnica di clustering è determinata in modo significativo da due aspetti, il metodo di ricerca e i criteri di prossimità. L'algoritmo proposto utilizza un algoritmo genetico per il clustering, che si è dimostrato negli esperimenti un metodo di clustering efficiente per i dati categorici. I criteri di prossimità adottano una misura teorica dell'informazione basata su regole, chiamata peso dell'evidenza. Trova i modelli interessanti e misura il peso di questi modelli che supportano la presenza di una coppia obiettivo-valore per essere rilevanti per un'etichetta di cluster. Sommando il peso totale che i record acquisiscono nei pattern grazie alla presenza sia del valore obiettivo sia dell'etichetta del cluster corrispondente, si misura il fitness del cromosoma e quindi si vede come i record siano meglio raggruppati tra loro.