Klaszterezés - Paraméterválasztás

Leírás

A folyamat a Flame adatállomány segítségével mutatja be az ideális paraméterek automatikus megkeresését.

Bemenet

Flame [SIPU Datasets] [Flame]

Az adatállomány 240 kétdimenziós vektorból áll, melyek két klaszterbe tartoznak. A klaszterek egymáshoz közel helyezkednek el, és az egyik klaszter nem gömbszerű elrendezésű.

12.6. ábra - A 240 vektorból álló két csoport

A 240 vektorból álló két csoport

Kimenet

12.7. ábra - A optimalizáció alfolyamata

A optimalizáció alfolyamata


A paraméter-optimalizációhoz szükségünk van egy teljesítménymérő operátorra, jelen esetben a klasztertávolságot mérő csomópontra.

12.8. ábra - Az optimalizáció paraméterei

Az optimalizáció paraméterei


A paraméteroptimalizáló operátorban kiválasztjuk az optimalizálandó paramétereket, illetve azok lehetséges értékeit, majd a rendszerre bízzuk az ideális értékek kiválasztását.

12.9. ábra - Az eljárás által készített jelentés

Az eljárás által készített jelentés


Jelen esetben a legjobb eredményt az adta, ha 10 klaszterre bontottuk a feladatot, és a köztük mért távolságot euklideszi távolsággal határoztuk meg.

12.10. ábra - A legjobb paraméterekkel végrehajtott klaszterezés kimenete

A legjobb paraméterekkel végrehajtott klaszterezés kimenete


Az eredmények értékelése

Sok paraméteres klaszterező eljárás esetében ideális lehet a megfelelő klaszterszám meghatározását egy hatékonyságmérő operátorra bízni, majd a kapott értékekkel futtatni a klaszterezést.

Videó

Folyamat

clust2_exp2.rmp

Kulcsszavak

Tartóvektor klaszterezés
SVC
klaszteranalízis
kernelfüggvények

Operátorok

Cluster Distance Performance
k-Means
Optimize Parameters (Grid)
Read CSV