Döntési fás osztályozók összehasonlítása

Leírás

A folyamat azt mutatja meg a Spambase adatállomány esetén, hogy hogyan hasonlíthatjuk össze több osztályozás minőségét, több osztályozó hatékonyságát. Miután felépültek az osztályozók döntési fái a tanulóhalmaz alapján, alkalmazásukkal osztályozzuk a teszthalmazt, és megvizsgáljuk, hogy milyen az egyes végrehajtott osztályozások minősége. Ezt egymástól függetlenül is végezhetjük, egyenként felmérve az osztályozók pontosságát, vagy össze is vonhatjuk a vizsgálatokat, és ábrázolhatjuk az egyes osztályozók ROC-görbéjét egy közös ábrán az eredmények eltéréseinek jobb érzékeltetésére. Az így adódó értékelés alapján eldönthetjük, hogy melyik osztályozó felel meg a célnak, szükség van-e egy modell javítására, vagy esetleg az adott modellt gyenge teljesítménye miatt szükséges-e cserélni vagy eltávolítani.

Bemenet

Spambase [UCI MLR]

Kimenet

Hozzuk létre a következő két döntési fás osztályozót az adathalmaz tanulóhalmaza alapján:

5.27. ábra - A Gini-index kritériumon alapuló döntési fa építésének beállításai

A Gini-index kritériumon alapuló döntési fa építésének beállításai

5.28. ábra - A nyereségarány kritériumon alapuló döntési fa építésének beállításai

A nyereségarány kritériumon alapuló döntési fa építésének beállításai

A nyereségarányt alkalmazó osztályozó a következő döntési fát építi fel:

5.29. ábra - A nyereségarány kritérium alapján létrejövő döntési fa grafikus reprezentációja

A nyereségarány kritérium alapján létrejövő döntési fa grafikus reprezentációja

Ez a döntési fa, alkalmazva a tanulóhalmazra, a következő hatékonysági értékeket adja:

5.30. ábra - A nyereségarány kritérium alapján épített döntési fán alapuló osztályozás teljesítményvektora

A nyereségarány kritérium alapján épített döntési fán alapuló osztályozás teljesítményvektora

Ezzel szemben a Gini-indexet alkalmazó osztályozó a következő döntési fát építi fel:

5.31. ábra - A Gini-index kritérium alapján létrejövő döntési fa grafikus reprezentációja

A Gini-index kritérium alapján létrejövő döntési fa grafikus reprezentációja

Ez a döntési fa, alkalmazva a tanulóhalmazra, a következő hatékonysági értékeket adja:

5.32. ábra - A Gini-index kritérium alapján épített döntési fán alapuló osztályozás teljesítményvektora

A Gini-index kritérium alapján épített döntési fán alapuló osztályozás teljesítményvektora

Az eredmények értékelése

Látható, hogy a Gini-indexet alkalmazó osztályozó jobban teljesít, mint a nyereségarányra épülő osztályozó. Azonban egyrészt nem minden esetben ilyen egyértelmű a különbség az egyes modellek között, másrészt egyszerűsítő céllal, illetve a mintavétel okozta eltérések elkerülése érdekében is összevonhatjuk egy összetett operátorba az egyes modellek kiértékelését, és így a pontosságuk ROC-görbéit ábrázolhatjuk egyetlen ábrán, például a következőképpen:

5.33. ábra - A ROC-görbék összehasonlítását végző operátor beállításai

A ROC-görbék összehasonlítását végző operátor beállításai

5.34. ábra - A ROC-görbéket összehasonlító operátor alfolyamata

A ROC-görbéket összehasonlító operátor alfolyamata

Ilyenkor a modellalkotó operátorokat az összetett operátorban helyezhetjük el, tetszőleges mennyiségben, tehát ugyanarra az adathalmazra egyszerre tetszőleges számú modell pontosságát ellenőrizhetjük. Ilyenkor viszont rögzített random seed-et használni, ezzel biztosítva, hogy az összehasonlítás megismételhető legyen, ez ugyanis biztosítja, hogy bármely futtatáskor ugyanúgy kerüljenek szétválasztásra a rekordok tanuló- és teszthalmazra.

5.35. ábra - A két döntési fás osztályozó ROC-görbéinek összehasonlítása

A két döntési fás osztályozó ROC-görbéinek összehasonlítása

A ROC-görbék alapján egyértelműen látható, hogy a Gini-indexre épülő osztályozó sokkal pontosabb, mint a nyereségarányon alapuló osztályozó, mivel előbbi ROC-görbéje nagyobb mértékben tér ki a (0,0) és (1,1) pontok közötti diagonálistól a (0,1) pont irányába.

Videó

Folyamat

dtree_exp5.rmp

Kulcsszavak

osztályozás
döntési fa
teljesítmény
összehasonlítás
ROC görbe

Operátorok

Apply Model
Compare ROCs
Decision Tree
Multiply
Performance
Read AML
Split Data