Klaszterezés - Módszerek összehasonlítása

Leírás

A kísérlet a Cluster operátor révén a Maximum Variance (D31) adatállomány segítségével mutatja be az automatikus és a rögzített számú klaszterezés közötti különbségeket.

Bemenet

Maximum Variance (D31)

Az adatállomány 3100 kétdimenziós vektort tartalmaz, melyek 31 csoportban tömörülnek.

22.16. ábra - A Maximum Variance (D31) adatállomány

A Maximum Variance (D31) adatállomány

Kimenet

Először egy automatikus klaszterezést hajtunk végre a Class attribútumot figyelmen kívül hagyva. Az algoritmus az eredeti csoport számmal megegyező 31 klasztert talál. A kapott klasztereket az alábbi ábrán láthatjuk:

22.17. ábra - Az automatikus klaszterezés eredménye

Az automatikus klaszterezés eredménye

A kapott klaszterszám helyességét jól mutatja a CCC grafikon.

22.18. ábra - Az automatikus klaszterezés CCC grafikonja

Az automatikus klaszterezés CCC grafikonja

A klaszterek sematikus elrendezését mutatja az alábbi proximitási ábra.

22.19. ábra - Az automatikus klaszterezés proximitási ábrája

Az automatikus klaszterezés proximitási ábrája

A CCC grafikon alapján kipróbálhatunk egy olyan klasztermodellt, amelyben 9 klaszter van. Ezt a K-közép módszer Ward-féle változatával tudjuk megtenni. Ennek eredménye látható az alábbi két ábrán a létrejövő klasztereket egy pontdiagramon és a proximitási grafikonon ábrázolva.

22.20. ábra - A K-közép klaszterezés eredménye

A K-közép klaszterezés eredménye

22.21. ábra - A K-közép klaszterezés proximitási ábrája

A K-közép klaszterezés proximitási ábrája

Ezután az ún. szegmens profilozás révén megvizsgálhatjuk a létrejövő klasztereket abból a szempontból, hogy az egyes input változók hogyan határozzák meg a klasztereket.

22.22. ábra - Az egyes szegmensek (klaszterek) profiljai

Az egyes szegmensek (klaszterek) profiljai

Az eredmények értékelése

A kísérletből láthatjuk, hogy viszonylag nagy számú és egymáshoz közel lévő, de azért gömb alakú csoport esetén is képes az automatikus klaszterezés megtalálni a helyes klaszterszámot. Amennyiben ezt túl nagynak találnánk úgy a CCC grafikon vizsgálatával, alkalmas töréspontot keresve, ezt a számot ésszerű nagyságúra tudjuk csökkenteni.

Videó

Folyamat

sas_clust_exp3.xml

Kulcsszavak

automatikus klaszterezés
K-közép módszer
klaszter profilozás
CCC grafikon
klaszteranalízis

Operátorok

Cluster
Data Source
Graph Explore
MultiPlot
Segment Profile