Együttes módszerek: gyorsítás (boosting)

Leírás

A kísérlet a gyorsítás (boosting) együttes módszerét mutatja be, amellyel felügyelt adatbányászati modellekből tudunk egy még jobban illeszkedő modellt felépíteni. A módszer lényege, hogy a rekordok és az osztályozók ismételt újrasúlyozásával a tévesen osztályozott esetek kapnak egyre nagyobb hangsúlyt és azokat próbáljuk meg a helyes osztályba tenni. A gyorsításban egy alaposztályozót választunk ki, amely lehet döntési fa, logisztikus regresszió, neurális háló stb., amelyből több példányt, melyet a gyorsítási ciklus ad meg, építünk fel. A kísérletben ez az alaposztályozó a döntési fa. A kísérletben a gyorsítási ciklust 20-nak állítjuk be, azaz 20 darab döntési fát illesztünk a teljes tanulóhalmazra. Az eredményt egy polinomiális kernelű tartóvektor-géppel hasonlítjuk össze, amely egy elismerten hatékony módszer bináris osztályozási feladatokra. A gyorsításnál az alaposztályozót az Ensemble operátorral adjuk meg, melyet a Start Groups és End Groups operátorok közé foglalunk, ahol a gyorsítási ciklus nagyságát állítjuk be.

Bemenet

Spambase [UCI MLR]

Előkészítésként az adatállományt partícionáljuk 60/20/20 arányban tanuló-, ellenőrző és tesztállományra.

Kimenet

A gyorsítás módszerével kapott osztályozók kiértékeléséhez hasonló eszközök állnak rendelkezésre mint a többi felügyelt adatbányászati modellnél: statisztikai mutatók (rosszul osztályozott esetek száma, téves osztályozási arány) és grafikonok (válasz és lift görbék stb.). Az egyetlen kiegészítő grafikon a második ábra, ahol a kapott osztályozók hibája látható, amely esetünkben 20 döntési fa.

20.16. ábra - A gyorsítással kapott osztályozó tévesztési mátrixa

A gyorsítással kapott osztályozó tévesztési mátrixa

20.17. ábra - A gyorsítási modellek hibagörbéje

A gyorsítási modellek hibagörbéje

A felépített zsákolási osztályozót összehasonlítjuk egy referenciaként használt, az egész tanuló adatállományon illesztett polinomiális tartóvektor-géppel. A kapott statisztikai és grafikus eredmények alább láthatóak.

20.18. ábra - A gyorsítási osztályozó és az SVM téves osztályozási aránya

A gyorsítási osztályozó és az SVM téves osztályozási aránya

20.19. ábra - A gyorsítási osztályozó és az SVM tévesztési mátrixa

A gyorsítási osztályozó és az SVM tévesztési mátrixa

20.20. ábra - A gyorsítási osztályozó és az SVM kumulált válaszgörbéje

A gyorsítási osztályozó és az SVM kumulált válaszgörbéje

20.21. ábra - A gyorsítási osztályozó és az SVM válaszgörbéje az alap és a legjobb viszonylatában

A gyorsítási osztályozó és az SVM válaszgörbéje az alap és a legjobb viszonylatában

20.22. ábra - A gyorsítási osztályozó és az SVM ROC görbéje

A gyorsítási osztályozó és az SVM ROC görbéje

Az eredmények értékelése

A kísérletből láthatjuk, hogy egy, a gyorsítás módszerével kapott osztályozó versenyképes még egy olyan osztályozóval szemben is, mint a polinomiális kernelű tartóvektor-gép, abban az értelemben, hogy bár a téves osztályozási rátája rosszabb, az első pár decilisen pontosabb. Ezt világosan mutatják a válasz és a ROC görbék.

Videó

Folyamat

sas_ensemble_exp3.xml

Kulcsszavak

együttes módszerek
felügyelt tanulás
gyorsítás
ROC görbe
osztályozás

Operátorok

Data Source
Decision Tree
End Groups
Model Comparison
Data Partition
Start Groups
Support Vector Machine