Lineáris regressziós osztályozó hatékonyságának kiértékelése 2

Leírás

A folyamat azt mutatja meg a Wine adatállomány esetén, hogy miként értékelhetjük ki egy olyan osztályozó hatékonyságát, pontosságát, melyet egy, az adott adathalmazra illesztett regressziós modell alapján hoztunk létre. Miután felépült a regressziós modell a tanulóhalmaz alapján, és alkalmazásával osztályoztuk a teszthalmazt, megvizsgálhatjuk, hogy milyen minőségű a végrehajtott osztályozás. Egyes esetekben azonban szükség lehet ennél magasabb szintű validációra; ekkor használhatunk például véletlen alulmintavételezést, keresztellenőrzést, vagy ennek egy speciális esetét, a hagyj-ki-egyet módszert. Az így adódó értékelés alapján eldönthetjük, hogy az eredményül kapott osztályozás megfelel-e a célnak, javítani kívánjuk a meglévő modellünket, vagy esetleg annak gyenge teljesítménye miatt a meglévő modellt egy teljesen új modellre cseréljük.

Bemenet

Wine [UCI MLR]

Kimenet

A kiértékelést elvégezhetjük különálló operátorok használata helyett egy komplex kiértékelő operátor segítségével is. Ekkor, mivel a regressziós modellt egy regresszió-alapú osztályozó operátorban kell elhelyeznünk, ezt az operátort pedig a komplex kiértékelő operátorban, többszörösen egymásba ágyazott operátorok vannak jelen a folyamatban:

7.10. ábra - A keresztvalidációs operátor alfolyamata

A keresztvalidációs operátor alfolyamata

7.11. ábra - A regressziós modellel osztályozó operátor alfolyamata

A regressziós modellel osztályozó operátor alfolyamata

Ugyanúgy, mintha önmagában használnánk az operátort, meghatározhatjuk például, hogy milyen módszer szerint kerüljenek kiválasztásra a jellemzők, vagy a minimális toleranciaszintet. Az így létrejövő lineáris regressziós osztályozó modellt alkalmazhatjuk a teszthalmazra. A tanulóhalmaz adatai alapján a következő regressziós modell jön létre:

7.12. ábra - Az eredményként előálló lineáris regressziós modell

Az eredményként előálló lineáris regressziós modell

Az eredmények értékelése

Amennyiben az adott osztályozó mélyrehatóbb vizsgálatára van szükség, az alfolyamatokat egy keresztellenőrzést végző operátor részeként definiáljuk. Az operátor a következő beállításokkal finomhangolható:

7.13. ábra - A keresztvalidációs operátor testreszabható beállításai

A keresztvalidációs operátor testreszabható beállításai

Ekkor megadhatjuk, hogy hány keresztellenőrzési iteráció hajtódjon végre. Az iterációk számának megfelelő számú, egyenlő méretű részhalmazra osztja fel az adathalmazt, minden iterációban kiválaszt egyet teszthalmaznak, az összes többi együttese pedig a tanulóhalmazt fogja adni. Ennek speciális esete a hagyj-ki-egyet módszer, mely a megfelelő (leave-one-out) jelölőnégyzet bejelölésével hívható. Ekkor minden egyes rekordra lefut az iteráció úgy, hogy az adott rekord adja a teszthalmazt, és az összes többi rekord a tanulóhalmazt. Az ábrán látható, 10 iterációs keresztellenőrzés esetén a következő összesített hatékonysági értékeket kapjuk:

7.14. ábra - A keresztvalidációs operátorban definiált regressziós modell alapján végzett osztályozások összesített teljesítményvektora

A keresztvalidációs operátorban definiált regressziós modell alapján végzett osztályozások összesített teljesítményvektora

A hagyj-ki-egyet módszer alkalmazása esetén a következő összesített hatékonysági értékeket kapjuk:

7.15. ábra - A keresztvalidációs operátorban definiált regressziós modell alapján végzett osztályozások összesített teljesítményvektora a hagyj-ki-egyet módszer alkalmazása esetében

A keresztvalidációs operátorban definiált regressziós modell alapján végzett osztályozások összesített teljesítményvektora a hagyj-ki-egyet módszer alkalmazása esetében

Figyeljük meg, hogy a pontossági értékek szórása a hagyj-ki-egyet módszer esetében lényegesen nagyobb, mint a standard keresztellenőrzésnél. Ez utalhat olyan rendhagyó rekordok meglétére, melyek osztályozása az összes többi rekordon végzett tanítás után sem feltétlenül sikeres.

Videó

Folyamat

regr_exp4.rmp

Kulcsszavak

osztályozás
regresszió
teljesítmény
keresztellenőrzés

Operátorok

Apply Model
Classification by Regression
Linear Regression
Performance (Classification)
Read AML
X-Validation