Klaszterezés - Centroidok

Leírás

A folyamat a Maximum Variance (D31) segítségével mutatja be, hogy a klaszterközéppontok alkalmasak akár a teljes klaszter képviselésére is.

Bemenet

Maximum Variance (D31) [SIPU Datasets] [Maximum Variance]

Az adatállomány 3100 kétdimenziós vektort tartalmaz, melyek 31 klaszterben tömörülnek. Az adathalmaz segítségével szeretnénk szemléltetni a centroidok általánosító erejét.

12.17. ábra - A 31 klaszterbe bontható vektorok

A 31 klaszterbe bontható vektorok

Kimenet

12.18. ábra - A kinyert centroidok

A kinyert centroidok


Az adatok klaszteranalízise után kinyerjük a centroidokat, majd a reprezentáló erejük bemutatására k-NN osztályozó tanulóadataiként használjuk fel őket.

12.19. ábra - A centroidokat prototípuspontként felhasználva, a k legközelebbi szomszéd módszer kimenete

A centroidokat prototípuspontként felhasználva, a k legközelebbi szomszéd módszer kimenete


A k-NN osztályozó módszer hatékonysága elsősorban a kiválasztott prototípuspontokon múlik. Az eredmény alapján láthatjuk, hogy az osztályozást elősegítették a jól megválasztott pontok.

Az eredmények értékelése

Láthatjuk, hogy a klaszterezés jó kiindulópont egy adathalmaz prototípuspontjainak kinyeréséhez, amely a tanuló adathalmaz csökkentését teszi lehetővé.

Videó

Folyamat

clust2_exp4.rmp

Kulcsszavak

centroidok
X-közép módszer
k-NN

Operátorok

Apply Model
Extract Cluster Prototypes
k-NN
Multiply
Read CSV
Set Role
X-Means