Klaszterezés - Aggregáló módszer

Leírás

A folyamat a Maximum Variance (R15) adatállomány segítségével mutatja be az összevonó hierarchikus klaszterező eljárást, amelynek segítségével lehetőségünk van a klaszterszám meghatározására.

Bemenet

Maximum Variance (R15) [SIPU Datasets] [Maximum Variance]

Az adatállomány 600 kétdimenziós vektort tartalmaz, melyek 15 különálló csoportot alkotnak. A feladat a csoportok számosságának feltárása, illetve megtalálása.

11.10. ábra - A 15 csoport

A 15 csoport

Kimenet

11.11. ábra - A létrejött dendrogram

A létrejött dendrogram


Az aggregáló klaszterezés eredménye egy úgynevezett dendrogram, amely egy olyan faszerkezet, melynek levelei maguk a pontok, a köztes csomópontok (klaszterek) pedig két pont vagy részfa (klaszter) összevonásából keletkeznek. A módszer mindig a két legközelebbi pontot (vagy klasztert) vonja össze, így építve fel a fát, mely a folyamat végén az összes pontot tartalmazni fogja. Az elkészült dendrogram éleinek hossza arányos a klaszterek közti távolsággal, így a megfelelő szinten az élek száma megadja az ideális klaszterszámot. Tehát a folyamat elején minden pont egymagában alkot egy-egy klasztert, a folyamat végén pedig egy klaszterbe kerül az összes pont.

11.12. ábra - A dendrogrammokból képzett klaszterezés

A dendrogrammokból képzett klaszterezés


A dendrogrammot a Flatten clustering operátor segítségével klaszterezésre is alkalmazhatjuk, egyedüli paraméterét a klaszterszámot manuálisan adhatjuk meg. A képen ennek a klaszteranalízisnek az eredményét láthatjuk.

Az eredmények értékelése

Megfigyelhettük, hogy az előállított dendrogram alapján megállapítható az ideális klaszterszám, majd ez alapján elvégezhető a klaszteranalízis is.

Videó

Folyamat

clust_exp4.rmp

Kulcsszavak

Aggregáló módszer
összevonó hierarchikus klaszterezés
klaszteranalízis

Operátorok

Agglomerative Clustering
Flatten Clustering
Multiply
Read CSV