Tartóvektor-gépek (SVM) illesztése

Leírás

Ebben a kísérletben tartóvektor-gépeket (SVM – Support Vector Machine) illesztünk bináris osztályozási feladat megoldására a Spambase adatállományra. A célunk az SVM-ben megadható különféle kernel függvények (lineáris, polinomiális) összehasonlítása. Meghatározzuk a kapott osztályozóknak az adatállományon mért osztályozási pontosságát és áttekintjük a tartóvektor-gépekhez kapcsolódó statisztikai mutatók és grafikonok értelmezését. Az modellek illesztését az SVM operátorral hajtjuk végre.

Bemenet

Spambase [UCI MLR]

A modellek illesztése előtt az adatállományt partícionáljuk a Data Partition operátorral 60/20/20 százalékos arányban tanuló/ellenőrző/teszt állományokra.

Kimenet

Először lineáris kernel (mag) függvényű tartóvektor-gépet illesztünk. A kapott modell illeszkedésének jóságát a szokásos statisztikai mutatókkal (téves osztályozási arány, tévesen osztályozott esetek száma) és grafikus eszközökkel (válasz és lift görbe) ellenőrizhetjük. Ezeket az eszközöket majd a két modell összehasonlításánál vesszük szemügyre. Ezentúl az SVM operátor speciális csak a tartóvektor-gépekre értelmezhető eredményeket is ad: az SVM illeszkedési statisztikáit és a tartóvektorok listáját.

19.20. ábra - A lineáris kernelű SVM illeszkedési statisztikái

A lineáris kernelű SVM illeszkedési statisztikái

19.21. ábra - A lineáris kernelű SVM tévesztési mátrixa

A lineáris kernelű SVM tévesztési mátrixa

19.22. ábra - A lineáris kernelű SVM tartóvektorai (kivonat)

A lineáris kernelű SVM tartóvektorai (kivonat)

19.23. ábra - A lineáris kernelű SVM Lagrange multiplikátorainak eloszlása

A lineáris kernelű SVM Lagrange multiplikátorainak eloszlása

Másodjára polinomiális kernelű tartóvektor-gépet illesztünk az adatállományunkra megvizsgálva azt, hogy így mennyivel kapunk jobb modellt. Az SVM operátor beállítása az alábbi ábrán látható

19.24. ábra - A polinomiális kernelű SVM paraméterei

A polinomiális kernelű SVM paraméterei

19.25. ábra - A polinomiális kernelű SVM illeszkedési statisztikái

A polinomiális kernelű SVM illeszkedési statisztikái

19.26. ábra - A polinomiális kernelű SVM tévesztési mátrixa

A polinomiális kernelű SVM tévesztési mátrixa

19.27. ábra - A polinomiális kernelű SVM tartóvektorai (kivonat)

A polinomiális kernelű SVM tartóvektorai (kivonat)

A kétféle kernelű tartóvektor-gépet a szokásos statisztikai és grafikus eszközökkel tudjuk összehasonlítani.

19.28. ábra - A tartóvektor-gépek illeszkedési statisztikái

A tartóvektor-gépek illeszkedési statisztikái

19.29. ábra - A tartóvektor-gépek osztályozási oszlopdiagramjai

A tartóvektor-gépek osztályozási oszlopdiagramjai

19.30. ábra - A tartóvektor-gépek kumulatív lift görbéinek összehasonlítása

A tartóvektor-gépek kumulatív lift görbéinek összehasonlítása

19.31. ábra - A tartóvektor-gépek kumulatív lift görbéinek összehasonlítása az alap és a legjobb viszonylatában

A tartóvektor-gépek kumulatív lift görbéinek összehasonlítása az alap és a legjobb viszonylatában

19.32. ábra - A tartóvektor-gépek ROC görbéi

A tartóvektor-gépek ROC görbéi

Az eredmények értékelése

A fenti ábrák és statisztikák világosan mutatják, hogy a polinomiális kernelű tartóvektor-géppel tudunk javítani a modell illeszkedésén a lineáris kernelűvel szemben. A téves osztályozási arány 2 százalékkal javul és a lift és ROC görbék is szignifikáns javulást mutatnak. A kumulatív lift görbe esetén az első 20-30 százalékos decilisen kapunk jobb modellt, míg a ROC görbe már 0-hoz nagyon közeli specifikusság esetén is javulást mutat.

Videó

Folyamat

sas_ann_svm_exp3.xml

Kulcsszavak

tartóvektor-gép (SVM)
felügyelt tanulás
osztályozás

Operátorok

Data Source
Model Comparison
Data Partition
Support Vector Machine