Klaszterezés - Hierarchikus összevonó módszerek

Leírás

A folyamat a Maximum Variance (R15) adatállományon mutatja be a hierarchikus összevonó klaszterező algoritmus működését. Ezt a klaszterező algoritmust a Cluster operátorral futtathatjuk le.

Bemenet

Maximum Variance (R15) [SIPU Datasets] [Maximum Variance]

Az adatállomány 600 kétdimenziós vektorból áll, melyek 15 csoportba tömörülnek. A pontok a (10, 10) koordinátájú központ körül helyezkednek el, a központtól távolodva egyre távolabb egymástól. A feladat nehézségét az adja, hogy a központ körüli csoportok szinte egybeolvadnak. Az alábbi ábrán a pontokat jelenítettük meg, a különböző csoportokat eltérő színnel színezve.

22.10. ábra - A Maximum Variance (R15) adatállomány megjelenítése

A Maximum Variance (R15) adatállomány megjelenítése

Kimenet

Először az átlagos kapcsolású összevonó hierarchikus módszert alkalmaztuk. Ekkor a klaszterek közötti távolságot a klaszterelemek páronkénti távolságainak átlagaként számolja az algoritmus. Az eredmények az alábbi ábrán láthatóak.

22.11. ábra - Az átlagos kapcsolású hierarchikus klaszterezés eredménye

Az átlagos kapcsolású hierarchikus klaszterezés eredménye

A klaszterezés jóságát visszamérhetjük úgy, hogy az eredeti csoportképző Class attribútumot és a klaszterezés után létrejövő klasztertagságot tartalmazó Segment attribútumot egy térbeli oszlopdiagramon ábrázoljuk. Látható, hogy egy permutációtól eltekintve a sorok, két rekord kivételével lényegében megfelelnek az oszlopoknak.

22.12. ábra - A klaszterezés kiértékelése térbeli oszlopgrafikonnal

A klaszterezés kiértékelése térbeli oszlopgrafikonnal

Egy másik hierarchikus összevonó módszer a Ward módszer. Ennek használatával az alábbi eredményeket kapjuk.

22.13. ábra - A Ward-féle hierarchikus klaszterezés eredménye

A Ward-féle hierarchikus klaszterezés eredménye

Az eredmények értékelése

A folyamat bemutatta, hogy ahol viszonylag nagyszámú a lehetséges klaszterek száma ott érdemes az automatikus klaszterező eljárások valamelyikét választani. A SAS® Enterprise Miner™ben erre a célra az összevonó hierarchikus klaszterezés áll rendelkezésre, azonbelül is többféle módszerrel. A kísérlet azt is mutatja, hogy az összevonás módjának megválasztása nem mindig van kihatással a létrejövő klaszterekre. A javasolt klaszterszámot a SAS a CCC grafikon vizsgálatával dönti el, lásd az alábbi ábrát.

22.14. ábra - Az automatikus klaszterezés CCC grafikonja

Az automatikus klaszterezés CCC grafikonja

Emellett egy a klaszterek elhelyezkedését sematikusan megjelenítő ún. proximitási diagramot is kapunk, amely jól láthatóan hasonlít a korábban kapott, klasztereket ábrázoló, pontdiagramokhoz.

22.15. ábra - Az automatikus klaszterezés proximitási grafikonja

Az automatikus klaszterezés proximitási grafikonja

Videó

Folyamat

sas_clust_exp2.xml

Kulcsszavak

hierarchikus összevonó módszerek
átlagos kapcsolás
Ward módszer
CCC grafikon
klaszteranalízis

Operátorok

Cluster
Data Source
Graph Explore