Döntési fás osztályozás hatékonyságának kiértékelése

Leírás

A folyamat azt mutatja meg a Congressional Voting Records adatállomány esetén, hogy hogyan értékelhetjük ki egy adott osztályozás minőségét. Miután felépült a döntési fa a tanulóhalmaz alapján, és alkalmazásával osztályoztuk a teszthalmazt, megvizsgálhatjuk, hogy milyen minőségű a végrehajtott osztályozás. Az így adódó értékelés alapján eldönthetjük, hogy az eredményül kapott osztályozás megfelel-e a célnak, avagy tovább kívánjuk javítani a meglévő modellünket, vagy esetleg olyan rossz az eredmény, hogy egy teljesen új modellre lenne szükség.

Bemenet

Congressional Voting Records [UCI MLR]

Kimenet

A folyamatban az adathalmaz alapján a következő beállításokkal építünk döntési fát:

5.13. ábra - A döntési fa építésének beállításai

A döntési fa építésének beállításai

Ebben az esetben a következő döntési fa jön létre:

5.14. ábra - A létrejövő döntési fa grafikus reprezentációja

A létrejövő döntési fa grafikus reprezentációja

Az eredmények értékelése

A létrejövő döntési fa alapján osztályozhatjuk a tesztállomány rekordjait, és a rekordok osztályozása után összevethetjük az eredeti osztálycímkéket a döntési fa alapján kiosztott címkékkel, például a következő ábra segítségével:

5.15. ábra - A rekordok a döntési fán alapuló osztályozásának grafikus reprezentációja

A rekordok a döntési fán alapuló osztályozásának grafikus reprezentációja

Az osztályozó hatékonyságát vizsgálva megkaphatjuk osztályonkénti bontásban a helyesen, illetve helytelenül osztályozott rekordok számát, és a modell osztályozásának pontosságát százalékban kifejezve osztályonként, illetve összesítve:

5.16. ábra - A döntési fán alapuló osztályozás teljesítményvektora

A döntési fán alapuló osztályozás teljesítményvektora

Ebben az esetben is felmerül a kérdés, hogy a modell hatékonysága tovább javítható-e. Például megnövelhetjük a minimális információnyereséget, melyet a vágásokkal szemben támasztunk, a következőképpen:

5.17. ábra - Módosítások a döntési fa építésének beállításain

Módosítások a döntési fa építésének beállításain

Ekkor a megnövelt elvárt konfidencia érték következtében másképp fog felépülni a döntési fa, mint az eredeti esetben, és ennek hatására a helyesen és helytelenül osztályozott rekordok száma és eloszlása is eltérő lesz. Ez a modell jobb teljesítményt nyújt, mint az eredeti, mely szintén leolvasható az ábráról:

5.18. ábra - A módosított beállításokkal létrejövő döntési fa grafikus reprezentációja

A módosított beállításokkal létrejövő döntési fa grafikus reprezentációja

5.19. ábra - A módosított beállításokkal létrehozott döntési fán alapuló osztályozás teljesítményvektora

A módosított beállításokkal létrehozott döntési fán alapuló osztályozás teljesítményvektora

Videó

Folyamat

dtree_exp3.rmp

Kulcsszavak

osztályozás
döntési fa
teljesítmény
kiértékelés

Operátorok

Apply Model
Decision Tree
Performance (Classification)
Read AML
Split Data