Il data mining è un processo di estrazione di informazioni nascoste e utili dai dati. L'individuazione degli outlier è una parte fondamentale del data mining e ha un'enorme attenzione da parte della comunità di ricerca di recente. Un outlier è un oggetto di dati che si discosta dalle altre osservazioni. Il rilevamento degli outlier ha importanti applicazioni nella pulizia dei dati così come nell'estrazione di punti anomali per il rilevamento delle frodi, l'analisi del mercato azionario, il rilevamento delle intrusioni, il marketing, i sensori di rete. La maggior parte degli sforzi di ricerca esistenti si concentrano su set di dati numerici che non sono direttamente applicabili su set di dati categorici dove c'è poco senso nell'ordinare i dati e calcolare le distanze tra i punti di dati. Inoltre, un certo numero di metodi attuali di rilevamento degli outlier richiedono un tempo quadratico rispetto alla dimensione del dataset e di solito hanno bisogno di scansioni multiple dei dati; queste caratteristiche sono indesiderabili quando i dataset sono grandi. Questa tesi mette a fuoco e valuta, sperimentalmente, un approccio di rilevamento degli outlier che è orientato verso set categorici. Inoltre, questo è un algoritmo semplice, scalabile ed efficiente per il rilevamento di outlier che ha il vantaggio di scoprire outlier in set di dati categorici o numerici per
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.