Im Rahmen der Arbeit soll ein existierendes Projekt, namens Dedoop, um zusätzliche Features erweitert werden. Mit Dedoop lassen sich Ähnlichkeiten zwischen den Paaren von Entitäten aus großen Datenmengen feststellen. Die Verarbeitung der Daten erfolgt auf der Grundlage von MapReduce-basierten Verfahren. Das Finden von Ähnlichkeiten ist eine Berechnung, die sehr viel Rechenzeit in Anspruch nimmt. Falls eine Änderung von einer oder mehreren Entitäten in der ursprünglichen Menge erfolgte, muss die Berechnung neu gestartet werden. Die Aufgabe der Arbeit ist, auf die vollständige Wiederholung der Vergleiche zu verzichten und einen Weg zu finden, unter der Verwendung von bereits berechneter Matchergebnisse sich nur auf bestimmte Teilmengen zu beschränken, die die Neuberechnung benötigen.