Klaszterezés - Klaszterkiértékelés

Leírás

A folyamat az Aggregation adatállomány segítségével mutatja be a klasztermetrikák gyűjtését és ábrázolását.

Bemenet

Aggregation [SIPU Datasets] [Aggregation]

Az adatállomány 788 kétdimenziós vektort tartalmaz, melyek 7 különálló csoportot alkotnak. Jelen esetben a cél a létrehozott klaszterek kiértékelése.

12.11. ábra - A 788 vektor

A 788 vektor

Kimenet

12.12. ábra - A kiértékelő alfolyamat

A kiértékelő alfolyamat


Az adatok beolvasása után különböző paraméterekkel futtatunk egy aggregáló klaszterezést, majd segítségével klasztereket állítunk elő. A klasztersűrűség méréséhez definiálunk egy hasonlóságfüggvényt, majd a mérési eredményeket paraméterbeállításonként elmentjük.

12.13. ábra - A paraméterek beállítása

A paraméterek beállítása


60 különböző beállítást próbálunk végig, a klaszterszámot 2 és 20 között változtatjuk, az aggregáló klaszterezés összevonási stratégiái közül pedig mind a három módot kipróbáljuk.

12.14. ábra - A naplózandó beállítások

A naplózandó beállítások


Minden beállítás esetén elmentjük a klaszterméretet, a klaszterek sűrűségét, a pontok eloszlását, valamint az összevonási stratégiát.

12.15. ábra - Klaszterek sűrűsége a k klaszterszám függvényében

Klaszterek sűrűsége a k klaszterszám függvényében


12.16. ábra - Klaszterekben található pontok eloszlása a k klaszterszám függvényében

Klaszterekben található pontok eloszlása a k klaszterszám függvényében


A végeredményt a log-ból kiolvasva kaphatjuk meg.

Az eredmények értékelése

A végeredmény azt mutatja, hogy a klaszterszám növekedését definiáló három különböző stratégia eltérő ütemben növeli a klaszterek sűrűséget, illetve csökkenti a pontok eloszlását. Az egyszerű összekapcsolás stratégia azonban egy kicsit elmarad a teljes és az átlagoló kapcsolás módokhoz képest.

Videó

Folyamat

clust2_exp3.rmp

Kulcsszavak

klaszterértékelés
aggregáló klaszterezés
egyszerű összekapcsolás
teljes összekapcsolás
átlagoló összekapcsolás
pontsűrűség
ponteloszlás

Operátorok

Agglomerative Clustering
Cluster Density Performance
Data to Similarity
Flatten Clustering
Item Distribution Performance
Log
Log to Data
Loop Parameters
Multiply
Read CSV