Kiugró értékek keresése klaszterekben

Leírás

A folyamat azt mutatja meg az Aggregation illetve a Compound adatállományok esetén, hogy hogyan találhatjuk meg az esetlegesen előforduló kiugró értékeket, anomáliákat egy klaszterezett adathalmazban, az egyes klaszterekre vonatkozóan. Tehát a kiugró értékek nemcsak globálisan kereshetjük egy adathalmazban, hanem egy már klaszterezett adathalmaz klasztereire nézve is ellenőrizhetjük, hogy az egyes klaszterekben vannak-e olyan adatok, melyek nagyban eltérnek a klaszter többi részétől. Ennek segítségével feltárhatjuk, ha egy adott egyed gyengébben kapcsolódik a klaszteréhez, mint a többi egyed, vagy ha az adott egyed nem megfelelően lett klaszterezve, és valójában másik klaszterhez tartozna, vagy az adatállomány szintjén is kiugró értéknek számít. Az egyéb anomália kereső módszerekhez hasonlóan az egyedekre kiugró érték pontszám kerül meghatározásra, melynek értéke minél magasabb, annál inkább kiugró, és potenciálisan anomáliát jelentő egyedről van szó. Ez a pontozás azonban adathalmaztól és használt módszertől függően is változhat, és az egyes klaszterek méretétől és sűrűségétől is függ, hogy mely módszer alapján kell pontoznunk a klasztereink elemeit ahhoz, hogy megfelelő értékeket kapjunk.

Bemenet

Aggregation [SIPU Datasets] [Aggregation]

Compound [SIPU Datasets] [Compound]

Kimenet

A RapidMiner-ben telepíthető Anomaly Detection kiegészítő csomag számos lehetséges módszert kínál az anomáliák észleléséhez, ezek között a klaszterezett adathalmazok klasztereiben való anomália észleléshez is rendelkezésünkre állnak operátorok. Ezek teszteléséhez vegyük a két adatállomány két klaszterezését, melyet az adatok elrendezéséből fakadóan k-közép, illetve DBSCAN módszerrel tudunk megfelelően elvégezni, a következő operátorokkal:

13.16. ábra - A felhasznált k-közép klaszterezés beállításai

A felhasznált k-közép klaszterezés beállításai

13.17. ábra - A felhasznált DBSCAN klaszterezés beállításai

A felhasznált DBSCAN klaszterezés beállításai

Ha az előálló klaszterezésekre meghívjuk a Cluster-Based Local Outlier Factor operátort, a következő kiugró érték pontszámokat kapjuk:

13.18. ábra - A k-közép klaszterezéshez kiszámított kiugró érték pontszámok

A k-közép klaszterezéshez kiszámított kiugró érték pontszámok

Ezeket grafikusan ábrázolva mindkét adathalmazra megtekinthetjük, hogy mennyire hatékony a kiugró értékek felismerése:

13.19. ábra - A k-közép adathalmazának klaszterbesorolásai grafikusan ábrázolva

A k-közép adathalmazának klaszterbesorolásai grafikusan ábrázolva

13.20. ábra - A k-közép adathalmazának kiugró érték pontszámai grafikusan ábrázolva

A k-közép adathalmazának kiugró érték pontszámai grafikusan ábrázolva

13.21. ábra - A DBSCAN adathalmazának klaszterbesorolásai grafikusan ábrázolva

A DBSCAN adathalmazának klaszterbesorolásai grafikusan ábrázolva

13.22. ábra - A DBSCAN adathalmazának kiugró érték pontszámai grafikusan ábrázolva

A DBSCAN adathalmazának kiugró érték pontszámai grafikusan ábrázolva

Az eredmények értékelése

A megkapott eredmények alapján megállapíthatjuk, hogy az első esetben kiválóan sikerült felmérni az egyes klaszterelemek távolságát a klaszterek középpontjától, és ezek alapján megállapíthatjuk, hogy valódi kiugró érték nem fordul elő a klaszterekben. A második esetben viszont tetten érhető, hogy mivel az operátor a klaszterek középpontjától mért távolságra hagyatkozik, és a különböző sűrűségű klaszterek között némelyik jóval kisebb sűrűségű, és jóval nagyobb kiterjedésű a többinél, ezekben a középponttól távolabb eső pontok mind magas kiugró érték pontszámot kaptak, helytelenül. Ezen probléma feloldására a második adathalmazra alkalmazhatjuk az operátor sűrűség alapú megfelelőjét, ezzel kezelve a különböző sűrűségű klaszterek jelenlétét:

13.23. ábra - A DBSCAN adathalmazának sűrűségalapú kiugró érték pontszámai grafikusan ábrázolva

A DBSCAN adathalmazának sűrűségalapú kiugró érték pontszámai grafikusan ábrázolva

Felmérve az adathalmaz tulajdonságait, ha a klaszterek egymáshoz viszonyított méretét beállító gamma paraméter értékét módosítjuk, ez az eredmény tovább finomítható:

13.24. ábra - A DBSCAN adathalmazának javított sűrűségalapú kiugró érték pontszámai grafikusan ábrázolva

A DBSCAN adathalmazának javított sűrűségalapú kiugró érték pontszámai grafikusan ábrázolva

Videó

Folyamat

anomaly_exp4.rmp

Kulcsszavak

kiugró értékek
outlier
anomáliák észlelése
klaszter alapú anomália észlelés
távolság alapú anomália észlelés
sűrűség alapú anomália észlelés

Operátorok

DBSCAN
k-Means
Read CSV
Cluster-Based Local Outlier Factor (CBLOF) [Anomaly Detection]
Local Density Cluster-Based Outlier Factor (LDCOF) [Anomaly Detection]