11. fejezet - Klaszterezés 1.

Klasszikus módszerek

Tartalom

Klaszterezés - K-közép módszer
Klaszterezés - K-medoid módszer
Klaszterezés - DBSCAN módszer
Klaszterezés - Aggregáló módszer
Klaszterezés - Felosztó módszer

Klaszterezés - K-közép módszer

Leírás

A folyamat az Aggregation adatállományon mutatja be a K-közép klaszterező algoritmus működését. Illetve szemlélteti a távolságfüggvény megválasztásának fontosságát.

Bemenet

Aggregation [SIPU Datasets] [Aggregation]

Az adatállomány 788 kétdimenziós vektort tartalmaz, melyek 7 különálló csoportot alkotnak. A feladat ezeknek a csoportoknak – klasztereknek – a feltárása. A feladat nehézségét a pontok elhelyezkedése adja, kisebb illetve nagyobb pontfelhők találhatóak a térben egymástól különböző távolságban.

11.1. ábra - A 7 elkülönülő csoport

A 7 elkülönülő csoport

Kimenet

11.2. ábra - Klaszterezés alapbeállításokkal

Klaszterezés alapbeállításokkal


A beolvasás után a K-közép módszer node-ját kapcsoljuk, beállítjuk, hogy 7 klasztert keressen az algoritmus, majd elindítjuk a folyamatot. Az eredmény jól feltárta a felső illetve jobboldali pontfelhőket, azonban az alsó ponthalmazon rosszul szerepelt.

11.3. ábra - A távolságfüggvény beállítása

A távolságfüggvény beállítása


Próbáljunk meg egy másik távolságfüggvényt, a Mahalanobis távolságot.

11.4. ábra - Klaszterezés Mahalanobis távolságfüggvénnyel

Klaszterezés Mahalanobis távolságfüggvénnyel


Láthatjuk hogy kisebb áldozatok árán ugyan, de az eredmény pontosabb lett, az alsó ponthalmaz már közelít a tökéletes megoldáshoz.

Az eredmények értékelése

Láthatjuk hogy már a legegyszerűbb klaszterező algoritmusok is képesek az egyszerűbb összefüggések feltárására, és amennyiben jól választjuk meg a távolságfüggvényünket, az eredmények pontosíthatóak is.

Videó

Folyamat

clust_exp1.rmp

Kulcsszavak

K-közép módszer
távolságfüggvények
klaszteranalízis

Operátorok

k-Means
Read CSV