Döntési fa osztályozók összehasonlítása és kiértékelése

Leírás

A folyamat azt mutatja meg a Congressional Voting Records adatállomány esetén, hogy hogyan illeszthetünk többféle döntési fát különböző szennyezettségi mérőszámokat használva, majd hogyan hasonlíthatjuk össze őket. Miután felépült a döntési fa a tanuló- és az ellenőrző állományok alapján, a modell összehasonlítási operátorral (Model Comparison) kiválasztjuk a legjobb modellt az ellenőrző állományt felhasználva. Végül, a teszthalmaz segítségével megvizsgálhatjuk, hogy milyen minőségű a végrehajtott osztályozás. Az eredményül kapott modellel el tudjuk végezni az ún. pontozást, amely a teszthalmaz vagy egy olyan adatállomány kiértékelése, ahol nem ismerjük a célváltozó értékét.

Bemenet

Congressional Voting Records [UCI MLR]

Kimenet

A folyamatban a következő beállításokkal végezzük el a particionálást:

16.8. ábra - A partícionálás paramétereinek beállítása

A partícionálás paramétereinek beállítása

A khi-négyzet szennyezettségi mutató használata esetén a következő döntési fa jön létre:

16.9. ábra - A döntési fa chi-négyzet mérőszám esetén

A döntési fa chi-négyzet mérőszám esetén

Az entrópia szennyezettségi mutató használata esetén a következő döntési fa jön létre:

16.10. ábra - A döntési fa entrópia mérőszám esetén

A döntési fa entrópia mérőszám esetén

A Gini-index szennyezettségi mutató használata esetén a következő döntési fa jön létre:

16.11. ábra - A döntési fa Gini-index mérőszám esetén

A döntési fa Gini-index mérőszám esetén

Az eredmények értékelése

A létrejövő három döntési fa közül az első rendkívül egyszerű és ez is illeszkedik a legrosszabbul. A másik kettő meglehetősen hasonló, ugyanazokat az input változókat használja a vágáskor, csak a vágási értékek mások egy kicsit. A három döntési fát többféleképpen összehasonlíthatjuk grafikus eszközöket és statisztikai mutatókat használva. Például, a következő ábra segítségével jól látható, hogy a kumulált válaszgörbe alapján a Gini-index alapján kapott döntési fa a legjobb ha csak az első pár decilisig akarunk modellt építeni.

16.12. ábra - A döntési fák kumulált válaszgörbéje

A döntési fák kumulált válaszgörbéje

Az osztályozó hatékonyságát vizsgálva megkaphatjuk osztályonkénti bontásban, azaz a két pártra vonatkozóan, a helyesen, illetve helytelenül osztályozott rekordok számát, amelyet egy oszlopdiagramon ábrázolhatunk:

16.13. ábra - Az osztályozási oszlopdiagram

Az osztályozási oszlopdiagram

Egy finomabb összehasonlítást tesz lehetővé a válaszgörbe és a lift görbe illetve azok variánsainak a használata. Az alábbi ábrán a (nem-kumulált) válaszgörbe látható a háromféle adatállományra és a háromféle modellre. Azt olvashatjuk le, hogy a kapott válaszgörbe hogy viszonyul az elérhető legjobbhoz és az alaphoz képest. Jobb oldalt alul látható, hogy a tesztállományon a Gini-indexen alapuló döntési fa van legközelebb az optimálishoz.

16.14. ábra - A döntési fák (nem-kumulált) válaszgörbéi

A döntési fák (nem-kumulált) válaszgörbéi

Egy másik lehetőség a pontszám eloszlások vizsgálata. Itt az a jó ha a piros és a kék vonal minél inkább tükörképe egymásnak és minél hirtelenebben mennek le illetve fel. Ezen mutató alapján az entrópia alapú döntési fa a legjobb a tesztállomány szerint.

16.15. ábra - A döntési fák pontszám eloszlásai

A döntési fák pontszám eloszlásai

A felépített három fát tovább tökéletesíthetjük a szignifikancia szint megváltoztatásával. Ennek következtében másképp fog felépülni a döntési fa, mint az eredeti esetben, és ennek hatására a helyesen és helytelenül osztályozott rekordok száma és eloszlása is eltérő lesz. A kapott modellek teljesítménye az alábbi ábráról olvasható le, ahol aláhúztuk a téves osztályozási arányt mint az egyik legfontosabb mutatót.

16.16. ábra - A döntési fák legfontosabb statisztikai mutatói

A döntési fák legfontosabb statisztikai mutatói

Videó

Folyamat

sas_dtree_exp2.xml

Kulcsszavak

osztályozás
döntési fa
teljesítmény
kiértékelés

Operátorok

Data Source
Decision Tree
Model Comparison
Data Partition
Score