23. fejezet - Klaszterezés 2.

Fejlettebb módszerek

Tartalom

Haladottabb klaszterezés - Attribútum klaszterezés SVM-mel
Haladottabb klaszterezés - SOM és VQ

Haladottabb klaszterezés - Attribútum klaszterezés SVM-mel

Leírás

A folyamat az Spambase adatállományon mutatja be azt, hogy hogyan klaszterezhetjük az attribútumokat a Variable Clustering operátorral, amennyiben sok van belőlük és alkalmazhatunk utána valamilyen felügyelt adatbányászati módszert, osztályozhatjuk például az emailjeinket spam és nem-spam kategóriákra.

Bemenet

Spambase [UCI MLR]

Az adatállomány 4601 rekordot és 58 attribútumot tartalmaz, melyek 2 csoportba rendeződnek a Class változó alapján, amely a spam emaileket azonosítja (1 ha az adott rekord spam és 0 ha nem az). Az adatállományban rejlő kihívást az jelenti, hogy az attribútumok száma viszonylag nagy, amely lassíthatja a tanulást. A kísérlet arra mutat rá, hogy az attribútumok egy alkalmas klaszterezésével lényegében ugyanolyan jó modellt kaphatunk, mint az eredeti adatállományon.

Kimenet

Az attribútum klaszterezés során az adatállomány oszlopait klaszterezzük hierarchikus módszerrel, hogy csökkentsük az adatállomány dimenzióját. Ennek legfontosabb paramétere a Maximum Cluster, mellyel a maximális klaszterszámot állíthatjuk be. Hasonló hatást eredményező paraméterek a sajátértékek maximális száma és a magyarázott szórás. Szintén választhatunk a között, hogy a korrelációs vagy a kovariancia mátrixot kívánjuk elemezni. A kapott eredmények közül az egyik legfontosabb a hierarchikus klaszterezés folyamatát megjelenítő dendrogram:

23.1. ábra - Az attribútum klaszterezés dendrogramja

Az attribútum klaszterezés dendrogramja

A létrejövő klaszterek és az eredeti változók viszonyát jelenti meg az alábbi gráf:

23.2. ábra - A klaszterek és attribútumok gráfja

A klaszterek és attribútumok gráfja

Az egyes klaszterek tagjait, hogy melyik eredeti attribútum melyik klaszterbe kerül, listázza ki az alábbi ábra.

23.3. ábra - A klaszterek felépítése

A klaszterek felépítése

A klaszterek kialakításában a legfontosabb szerepet az eredeti attribútumok közötti korreláció (kovariancia) játssza. Azok az attribútumok fognak majd egy klaszterbe kerülni, amelyek között nagy a korreláció. Ezt jelenti meg az alábbi ábra:

23.4. ábra - Az attribútumok korrelációs ábrája

Az attribútumok korrelációs ábrája

Azt is megvizsgálhatjuk, hogy az egyes változók mennyire korrelálnak a létrejövő új klaszterváltozókkal. Az alábbi ábrán a dollár speciális karakter változójának korrelációs oszlopdiagramja látható.

23.5. ábra - Egy attribútum és a klaszterek közötti korreláció

Egy attribútum és a klaszterek közötti korreláció

Az attribútumok klaszterezése után SVM modellt illesztettünk a Class bináris változóra a létrejövő 19 új klaszterattribútumot használva, majd a kapott eredményt összehasonlítottuk azzal, amikor ugyanazt a modellt közvetlenül az eredeti 58 attribútumra illesztettük. Az alábbi eredmények azt mutatják, hogy hasonló teljesítményű modelleket kaptunk. Az osztályozási oszlopdiagramok hasonló osztályozási mátrixot mutatnak:

23.6. ábra - Az SVM modellek osztályozási oszlopdiagramjai

Az SVM modellek osztályozási oszlopdiagramjai

A válaszgörbe egyes helyeken jobban viselkedik a klaszterezett attribútumokon mint az eredetieken.

23.7. ábra - Az SVM modellek válaszgörbéi

Az SVM modellek válaszgörbéi

Ha a kumulatív lift függvényeket hasonlítjuk össze a referencia és az elérhető legjobb lift függvények viszonylatában, akkor szintén hasonló viselkedést láthatunk.

23.8. ábra - Az SVM modellek kumulatív lift függvényei

Az SVM modellek kumulatív lift függvényei

Végezetül a ROC görbék is nagyon hasonlóak.

23.9. ábra - Az SVM modellek ROC görbéi

Az SVM modellek ROC görbéi

Az eredmények értékelése

Amennyiben nagyon sok input attribútumunk van egy felügyelt adatbányászati modell tanításánál, amely így a tanítást nagyon lassúvá teszi, akkor érdemes az attribútumok klaszterezésével csökkenteni a dimenziót. Az eredményül kapott modell magyarázó ereje általában nem sokkal rosszabb, mint az eredeti attribútumokra illesztett modellé.

Videó

Folyamat

sas_clust2_exp1.xml

Kulcsszavak

attribútum klaszterezés
dendrogram
hierarchikus klaszterezés
klaszteranalízis
ROC görbe
SVM

Operátorok

Data Source
Model Comparison
Support Vector Machine