12. fejezet - Klaszterezés 2.

Összetett módszerek

Tartalom

Klaszterezés - Tartóvektor klaszterezés
Klaszterezés - Paraméterválasztás
Klaszterezés - Klaszterkiértékelés
Klaszterezés - Centroidok
Klaszterezés - Szövegklaszterezés

Klaszterezés - Tartóvektor klaszterezés

Leírás

A folyamat a Jain adatállományon mutatja be a tartóvektor klaszterezést, illetve paraméterei hatását.

Bemenet

Jain [SIPU Datasets] [Jain]

Az adatállomány 373 kétdimenziós vektort tartalmaz, melyek 2 csoportba rendeződnek. A ponthalmazokban rejlő kihívást az jelenti, hogy a pontfelhők egymáshoz közel helyezkednek el, és nem gömbszerű elrendezésűek.

12.1. ábra - A két csoport

A két csoport

Kimenet

A tartóvektor klaszterezés során a kernelfüggvények segítségével áttranszformáljuk az adatokat, majd egy kört növelünk egészen addig, amíg az összes pont a körön belül nem található, végül az így létrehozott határgörbét az adatokkal együtt visszatranszformáljuk a valós térbe, és megkapjuk a klasztereket. A kernelfüggvények megegyeznek a tartóvektor-gépeknél (SVM) ismertetett függvényekkel, paramétereik is azonosak. A tartóvektor klaszterezés egyedi paramétere az r, mellyel a transzformált térbeli kör sugarát állíthatjuk.

12.2. ábra - Tartóvektor klaszterezés polinomiális kernellel és p=0.21 beállítással

Tartóvektor klaszterezés polinomiális kernellel és p=0.21 beállítással


Először próbáljuk ki a polinomiális kernelt úgy, hogy közben megengedjük pontjainknak, hogy túllógjanak a határoló görbén.

12.3. ábra - Sikertelen klaszterezés

Sikertelen klaszterezés


Láthatjuk, hogy az eredmény elég elkeserítő, az eredményklaszterek egymásba átfolynak, valamint a második klasztert zajnak véli a módszer.

12.4. ábra - Klaszterezés RBF kernellel

Klaszterezés RBF kernellel


Ha RBF kernelre váltunk, és nem engedjük meg a pontok átlógását a határgörbén, az eredmény biztatóbb lesz; Igaz ugyan, hogy több klaszterre szakad a fentebb elhelyezkedő klaszter, de az alsó egyben marad és elkülönül a többi klasztertől.

12.5. ábra - Biztatóbb eredmények

Biztatóbb eredmények


Az eredmények értékelése

Csakúgy, mint a tartóvektor-gépeknél, az SVC-nél is a kernelfüggvényének helyes megválasztása, valamint az általánosítóképesség ideális értékének megtalálása befolyásolja leginkább a módszer eredményességét.

Videó

Folyamat

clust2_exp1.rmp

Kulcsszavak

Tartóvektor klaszterezés
SVC
klaszteranalízis
kernelfüggvények

Operátorok

Read CSV
Support Vector Clustering