Um den Klassifikator zu erstellen, folgten wir einem systematischen Ansatz, der mehrere Schlüsselschritte umfasste. Zuerst haben wir den Datensatz geladen, der normalerweise aus einer Sammlung von Nachrichten besteht, die als Spam oder Ham gekennzeichnet sind. Dieser Datensatz dient als Grundlage für das Training und die Bewertung unseres Klassifikators. Als nächstes führten wir eine Datenvorverarbeitung und Merkmalsextraktion durch. Dazu gehörte die Umwandlung der Rohtextnachrichten in numerische Merkmalsdarstellungen, die ML-Algorithmen verarbeiten können.