22. fejezet - Klaszterezés 1.

Klasszikus módszerek

Tartalom

Klaszterezés - K-közép módszer
Klaszterezés - Hierarchikus összevonó módszerek
Klaszterezés - Módszerek összehasonlítása

Klaszterezés - K-közép módszer

Leírás

A folyamat az Aggregation adatállományon mutatja be a K-közép klaszterező algoritmus működését és szemlélteti a különböző paraméterek megválasztásának fontosságát. Ezt a klaszterező algoritmust a Cluster operátorral futtathatjuk le.

Bemenet

Aggregation [SIPU Datasets] [Aggregation]

Az adatállomány 788 kétdimenziós vektort tartalmaz, melyek 7 különálló csoportot alkotnak. A feladat ezeknek a csoportoknak – klasztereknek – feltárása. A feladat nehézségét a pontok elhelyezkedése adja, kisebb illetve nagyobb pontfelhők találhatóak a térben egymástól különböző távolságban. A megjelenítést a Graph Explore operátorral végeztük.

22.1. ábra - Az Aggregation adatállomány

Az Aggregation adatállomány

Kimenet

A beolvasás után behúzzuk a Cluster operátort és ott elvégezzük az alábbi beállításokat. Kiválasztjuk, hogy a felhasználó adhassa meg a klaszterek számát, majd beállítjuk, hogy 7 klasztert keressen az algoritmus a fenti ábra alapján.

22.2. ábra - A Cluster operátor beállításai

A Cluster operátor beállításai

Az eredményt szintén a Graph Explore operátorral tudjuk jól megjeleníteni. Látható, hogy az algoritmus feltárta a felső illetve jobboldali pontfelhőket, azonban az alsó ponthalmazon rosszul szerepelt.

22.3. ábra - A K-közép klaszterezés eredménye 7 klaszter mellett

A K-közép klaszterezés eredménye 7 klaszter mellett

Próbáljunk meg egy másik paraméterezést, ahol a kezdő klaszter középpontok megválasztását a MacQueen módszerre állítjuk és a klaszter középpontok közötti távolságok minimuma 9.

22.4. ábra - A MacQueen-féle klaszterezés paraméter beállításai

A MacQueen-féle klaszterezés paraméter beállításai

Láthatjuk hogy ezzel a paraméterezéssel az eredmény pontosabb lett, egyedül a baloldali alsó ponthalmaznál láthatunk még nagyobb hibát. Ezt már csak jóval haladottabb módszerrel tudnánk korrigálni.

22.5. ábra - A MacQueen-féle klaszterezés végeredménye

A MacQueen-féle klaszterezés végeredménye

Végezetül nézzük meg, hogy mi történik ha egy kicsivel nagyobbra vesszük az előállítandó klaszterek számát, ami legyen mondjuk 8. Annyi változás történik, hogy ekkor már megtalálja a baloldalt alul lévő két kis klasztert, azonban háromfelé vágja a mellettük lévő nagyobb klasztert és kettévágja a jobboldali felső klasztert.

22.6. ábra - A klaszterezés eredménye 8 klaszter választása esetén

A klaszterezés eredménye 8 klaszter választása esetén

Az eredmények értékelése

A kísérlet alapján láthatjuk, hogy már az olyan legegyszerűbb klaszterező algoritmus mint a K-közép módszer is képes az egyszerűbb összefüggések feltárására és amennyiben jól választjuk meg az algoritmus paramétereit az eredmények pontosíthatóak is. Emellett a Cluster operátor számos vizualizációs funkcióval rendelkezik, amelyek segítik az eredmények értékelését.

22.7. ábra - A Cluster operátor eredményablaka

A Cluster operátor eredményablaka

A fenti ábrán a Result menüpont kiválasztása után feljövő, a legfontosabb eredményeket összegző ablakokat láthatjuk. Baloldalt felül az egyes klaszterek (szegmensek) összetétele látszik az input attribútumok szerint, baloldalt alul a klaszterek nagyságát mutatja egy kördiagram. Jobboldalt felül az egyes klaszterek statisztikái olvashatóak, míg jobboldalt alul az output lista látható. Ezek egyenként is kinagyíthatóak. A sok további eszköz közül az alábbi kettőt emelnénk ki.

22.8. ábra - A klaszterek átlagait mutató pontdiagram

A klaszterek átlagait mutató pontdiagram

A fenti ábra az egyes klaszterek középpontjait mutatja a teljes átlaggal együtt az egyes attribútumok mentén. Végül az alábbi ábra a klaszterekre felépült döntési fát mutatja, amelyet úgy kapunk, hogy a létrejövő klaszterváltozó mint egy célváltozó szerint megoldunk egy osztályozási feladatot egy döntési fa illesztésével.

22.9. ábra - A klaszterezés döntési fája

A klaszterezés döntési fája

Videó

Folyamat

sas_clust_exp1.xml

Kulcsszavak

K-közép módszer
paraméterválasztás
klaszteranalízis

Operátorok

Cluster
Data Source
Graph Explore