Döntési fás osztályozás hatékonyságának kiértékelése 2

Leírás

A folyamat azt mutatja meg a Congressional Voting Records adatállomány esetén, hogy hogyan értékelhetjük ki egy adott osztályozás minőségét. Miután felépült a döntési fa a tanulóhalmaz alapján, és alkalmazásával osztályoztuk a teszthalmazt, megvizsgálhatjuk, hogy milyen minőségű a végrehajtott osztályozás. Egyes esetekben azonban szükség lehet ennél magasabb szintű validációra; ekkor használhatunk például véletlen alulmintavételezést, keresztellenőrzést, vagy ennek egy speciális esetét, a hagyj-ki-egyet módszert. Az így adódó értékelés alapján eldönthetjük, hogy az eredményül kapott osztályozás megfelel-e a célnak, javítani kívánjuk a meglévő modellünket, vagy esetleg annak gyenge teljesítménye miatt a meglévő modellt egy teljesen új modellre cseréljük.

Bemenet

Congressional Voting Records [UCI MLR]

Kimenet

A kiértékelést elvégezhetjük különálló operátorok használata helyett egy komplex kiértékelő operátor segítségével is. Ez esetben is beállíthatjuk az adathalmaz felosztási arányát, illetve a mintavétel formáját:

5.20. ábra - A validációs operátor által végzett mintavétel beállításai

A validációs operátor által végzett mintavétel beállításai

Ez egy komplex operátor, mely két alfolyamattal rendelkezik, melyeket a következőképpen definiálhatunk:

5.21. ábra - A validációs operátor alfolyamatai

A validációs operátor alfolyamatai

Az eredmények értékelése

Ez az eset teljes mértékben megfelel az ezt megelőző példa folyamatának, megtörténik a felosztás tanuló- és teszthalmazra, a teszthalmazon alkalmazzuk a tanulóhalmazon felépített döntési fát, majd kiértékeljük annak hatékonyságát. Ekkor a következő döntési fa jön létre, mely a következő eredménnyel osztályozza a teszthalmaz rekordjait:

5.22. ábra - A létrejövő döntési fa grafikus reprezentációja

A létrejövő döntési fa grafikus reprezentációja

5.23. ábra - A döntési fán alapuló osztályozás teljesítményvektora

A döntési fán alapuló osztályozás teljesítményvektora

Amennyiben az adott osztályozó mélyrehatóbb vizsgálatára van szükség, a fentebbivel megegyező alfolyamatokat definiálhatjuk keresztellenőrzést végző operátor részeként is. Az operátor a következő beállításokkal finomhangolható:

5.24. ábra - A keresztvalidációs operátor beállításai

A keresztvalidációs operátor beállításai

Ekkor megadhatjuk, hogy hány keresztellenőrzési iteráció hajtódjon végre. Az iterációk számának megfelelő számú, egyenlő méretű részhalmazra osztja fel az adathalmazt, minden iterációban kiválaszt egyet teszthalmaznak, az összes többi együttese pedig a tanulóhalmazt fogja adni. Ennek speciális esete a hagyj-ki-egyet módszer, mely a megfelelő (leave-one-out) jelölőnégyzet bejelölésével hívható. Ekkor minden egyes rekordra lefut az iteráció úgy, hogy az adott rekord adja a teszthalmazt, és az összes többi rekord a tanulóhalmazt. Az ábrán látható, 10 iterációs keresztellenőrzés esetén a következő összesített hatékonysági értékeket kapjuk:

5.25. ábra - A keresztvalidációs operátorban elvégzett osztályozások összesített teljesítményvektora

A keresztvalidációs operátorban elvégzett osztályozások összesített teljesítményvektora

A hagyj-ki-egyet módszer alkalmazása esetén a következő összesített hatékonysági értékeket kapjuk:

5.26. ábra - A keresztvalidációs operátorban elvégzett osztályozások összesített teljesítményvektora a hagyj-ki-egyet módszer alkalmazásakor

A keresztvalidációs operátorban elvégzett osztályozások összesített teljesítményvektora a hagyj-ki-egyet módszer alkalmazásakor

Figyeljük meg, hogy a pontossági értékek szórása a hagyj-ki-egyet módszer esetében lényegesen nagyobb, mint a standard keresztellenőrzésnél. Ez utalhat olyan rendhagyó rekordok meglétére, melyek osztályozása az összes többi rekordon végzett tanítás után sem feltétlenül sikeres.

Videó

Folyamat

dtree_exp4.rmp

Kulcsszavak

osztályozás
döntési fa
teljesítmény
véletlen alulmintavételezés
keresztellenőrzés

Operátorok

Apply Model
Decision Tree
Multiply
Performance (Classification)
Read AML
Split Validation
X-Validation