Haladottabb klaszterezés - SOM és VQ

Leírás

A folyamat a Maximum Variance (R15) adatállományon mutatja be a Kohonen-féle vektor-kvantálás (VQ) és önszervező hálók (SOM) algoritmusok működését. Az algoritmusokat a SOM/Kohonen operátoron keresztül tudjuk elérni.

Bemenet

Maximum Variance (R15) [SIPU Datasets] [Maximum Variance]

Az adatállomány 600 kétdimenziós vektorból áll, melyek 15 csoportba tömörülnek. A pontok a (10, 10) koordinátájú központ körül helyezkednek el, a központtól távolodva egyre távolabb egymástól. A feladat nehézségét az adja, hogy a központ körüli csoportok szinte egybeolvadnak. Az alábbi ábrán a pontokat jelenítettük meg, a különböző csoportokat eltérő színnel színezve.

23.10. ábra - A Maximum Variance (R15) adatállomány pontdiagramja

A Maximum Variance (R15) adatállomány pontdiagramja

Kimenet

Először a Kohonen-féle vektor-kvantálás módszerét alkalmaztuk. Összesen 10 klaszter jön létre. Az eredmények az alábbi ábrán láthatóak.

23.11. ábra - A Kohonen-féle vektor-kvantálás eredménye

A Kohonen-féle vektor-kvantálás eredménye

A klaszterek nagyságának az arányát megjeleníthetjük egy egyszerű kördiagrammal:

23.12. ábra - A klaszternagyságok kördiagramja

A klaszternagyságok kördiagramja

Egy táblázat kiírja az összes, klasztereket jellemző statisztikát, úgymint a klasztergyakoriságot, a klaszter szórását, a klaszter középpontjától mért legnagyobb távolságot, a szomszédos klaszter sorszámát és az attól mért távolságot.

23.13. ábra - A klasztereket leíró statisztikák

A klasztereket leíró statisztikák

Ezután a Batch SOM algoritmust alkalmaztuk ugyanerre az adatállományra. Ekkor meg kell adni a sor és oszlop szegmensek számát, ahol is mi 6-ot választottunk. Az eredményeket az alábbi két ábra mutatja. Az első a SOM/Kohonen operátor sematikus grafikonja a létrejött hálóról, a színezés az egyes cellák gyakoriságát mutatja.

23.14. ábra - A SOM grafikus képe

A SOM grafikus képe

A második egy pontdiagram, amely az eredeti input attribútumok terében mutatja a létrejövő klasztereket.

23.15. ábra - A SOM eredményének pontdiagramja

A SOM eredményének pontdiagramja

Az eredmények értékelése

A kísérlet bemutatja, hogy hogyan használhatunk két olyan nem felügyelt adatbányászati módszert, mint a vektor-kvantálás és az önszervező hálók. A módszerek különösen hatékonyak 2 dimenziós adatok vizsgálatánál, de magasabb dimenzióban is, fontos prototípus módszerekként, jelentősen egyszerűsíthetik a további elemzést.

Videó

Folyamat

sas_clust2_exp2.xml

Kulcsszavak

vektor-kvantálás
önszervező hálók
klaszteranalízis

Operátorok

Data Source
Graph Explore
Self-organizing Map