Együttes módszerek: zsákolás (bagging)

Leírás

A kísérlet a zsákolás (bagging) együttes módszerét mutatja be, amellyel felügyelt adatbányászati modellekből tudunk a bootstrap aggregálás módszerével egy még jobban illeszkedő modellt felépíteni. Ebben a módszerben az eredeti tanuló adatállományból bootstrap módszerrel választunk részmintákat, majd ezekre a részmintákra illesztünk egy-egy modellt (a kísérletben ezek döntési fák), végül a felépített modellekből az aggregálás módszerével kapjuk meg az egyesített modellt. A kísérletben a bagging ciklust 10-nek állítjuk be, azaz 10 darab döntési fát illesztünk 10 különböző részmintára. Az eredményt egy egyszerű döntési fával hasonlítjuk össze, amelyet a teljes tanuló adatállományon illesztünk. A zsákolásnál az alaposztályozót az Ensemble operátorral adjuk meg, melyet a Start Groups és End Groups operátorok közé foglalunk, ahol a zsákolási ciklus nagyságát állítjuk be.

Bemenet

Spambase [UCI MLR]

Előkészítésként az adatállományt partícionáljuk 60/20/20 arányban tanuló-, ellenőrző és tesztállományra.

Kimenet

A zsákolási osztályozók kiértékeléséhez hasonló eszközök állnak rendelkezésre mint a többi felügyelt adatbányászati modellnél: statisztikai mutatók (rosszul osztályozott esetek száma, téves osztályozási arány) és grafikonok (válasz és lift görbék stb.). Az egyetlen kiegészítő grafikon a második ábra, ahol a zsákolási szakaszokban kapott osztályozók hibája látható, amely esetünkben 10 osztályozó.

20.9. ábra - A zsákolási osztályozó tévesztési mátrixa

A zsákolási osztályozó tévesztési mátrixa

20.10. ábra - A zsákolási osztályozó hibagörbéje

A zsákolási osztályozó hibagörbéje

A felépített zsákolási osztályozót összehasonlítjuk egy referenciaként használt, az egész tanuló adatállományon illesztett döntési fával. A kapott statisztikai és grafikus eredmények alább láthatóak.

20.11. ábra - A zsákolási osztályozó és a döntési fa téves osztályozási aránya

A zsákolási osztályozó és a döntési fa téves osztályozási aránya

20.12. ábra - A zsákolási osztályozó és a döntési fa tévesztési mátrixa

A zsákolási osztályozó és a döntési fa tévesztési mátrixa

20.13. ábra - A zsákolási osztályozó és a döntési fa válaszgörbéje

A zsákolási osztályozó és a döntési fa válaszgörbéje

20.14. ábra - A zsákolási osztályozó és a döntési fa válaszgörbéje az alaphoz és a legjobbhoz hasonlítva

A zsákolási osztályozó és a döntési fa válaszgörbéje az alaphoz és a legjobbhoz hasonlítva

20.15. ábra - A zsákolási osztályozó és a döntési fa ROC görbéje

A zsákolási osztályozó és a döntési fa ROC görbéje

Az eredmények értékelése

A kísérletből láthatjuk, hogy a zsákoló osztályozóval egy egyszerű döntési fánál jobban működő modellt kaphatunk ha csak az első pár decilisen hasonlítjuk össze a modelleket. Ezt világosan mutatja a tévesztési mátrix, a válasz és a ROC görbe.

Videó

Folyamat

sas_ensemble_exp2.xml

Kulcsszavak

együttes módszerek
felügyelt tanulás
zsákolás
téves osztályozási arány
ROC görbe
osztályozás

Operátorok

Data Source
Decision Tree
End Groups
Model Comparison
Data Partition
Start Groups