Het clusteren van gegevens is een veelvoorkomende uitdaging bij het verwerken van big data, en het parallelliseren van clusteringoperaties verbetert de efficiëntie aanzienlijk bij toepassingen waarbij vaak gezocht moet worden. Er zijn verschillende clusteringstechnieken beschikbaar voor het groeperen van gegevens, waarbij CBAR veel wordt gebruikt in verschillende toepassingen. Het parallelliseren van CBAR is essentieel voor big data, en het Hadoop MapReduce platform biedt een geschikt raamwerk om de efficiëntie te verbeteren door gebruik te maken van effectieve segmentatietechnieken. In dit boek worden algoritmen voor CBAR ontworpen en geïmplementeerd met behulp van de MapReduce-benadering, waarbij tests worden uitgevoerd op clusters van maximaal 4 nodes. De resultaten laten aanzienlijke prestatieverbeteringen zien, die worden geanalyseerd en besproken met illustratieve voorbeelden.