Döntési fás osztályozás alul- és túlillesztése

Leírás

A folyamat azt mutatja meg a Zoo adatállomány esetén, hogy milyen feltételek meglétekor fordulhat elő alul- illetve túlillesztés döntési fával végzett osztályozás esetén. Ha a döntési fa, mely a modellt adja, nem elég mély, előfordulhat, hogy nem tudja teljességében feltárni a tanulóhalmaz szerkezetét, így nem alkalmas a megfelelő osztályozás kivitelezésére. Ebben az esetben beszélünk alulosztályozásról. Viszont ha a szükségesnél tovább bontjuk az egyes rekordokat, a döntések mentén olyan következtetéseket is levonhatunk, melyek már nem igazak általában, hanem csak a tanulóhalmaz egyedi tulajdonságai. Ekkor a túl sok felállított vágási szabály alapján – például rendhagyó rekordok esetén – helytelen döntéseket hozhatunk. Ilyenkor beszélünk túlillesztésről.

Bemenet

Zoo [UCI MLR]

Kimenet

A folyamatban ugyanarra a tanulóhalmazra alkalmazunk hasonló döntési fa építő operátorokat, csupán a fa maximális mélységét meghatározó leállási feltételt módosítva. A maximális mélység értéke rendre 3, 6, és 9.

5.6. ábra - Határérték beállítása a döntési fa maximális mélységéhez

Határérték beállítása a döntési fa maximális mélységéhez

Az eredmények értékelése

A beállításoknak megfelelően különböző mélységű döntési fák jönnek létre, melyek így különböző mennyiségű vágási feltételt tartalmaznak, amelyek alapján különbözőképpen fogják osztályozni a teszthalmaz rekordjait az egyes modellek. Ha a maximális mélység értéke 3, a következő döntési fát kapjuk:

5.7. ábra - A létrejövő döntési fa grafikus reprezentációja

A létrejövő döntési fa grafikus reprezentációja

5.8. ábra - A rekordok a döntési fán alapuló osztályozásának grafikus reprezentációja

A rekordok a döntési fán alapuló osztályozásának grafikus reprezentációja

Itt megfigyelhető, hogy 2 szabály alkalmazása alapján nem tudja szétválasztani a 7 lehetséges osztályt a modell, tehát egyértelmű az alulillesztés. Ha a maximális mélység értéke 6, a következő döntési fát kapjuk:

5.9. ábra - A megnövelt maximális mélységgel létrejövő döntési fa grafikus reprezentációja

A megnövelt maximális mélységgel létrejövő döntési fa grafikus reprezentációja

5.10. ábra - A rekordok a megnövelt maximális mélységű döntési fán alapuló osztályozásának grafikus reprezentációja

A rekordok a megnövelt maximális mélységű döntési fán alapuló osztályozásának grafikus reprezentációja

Ebben az esetben csak 3 rekord kerül eltérő osztályba az eredeti címkéjéhez képest. Ugyanakkor ha tovább növeljük a maximális mélység határértékét, az eredmény nem javul tovább, hanem romlani fog, mivel az újabb szabályok helytelen következtetésekhez vezetnek, tehát túlillesztés történik. Ha a maximális mélység értéke 9, a következő döntési fát kapjuk:

5.11. ábra - A tovább növelt maximális mélységgel létrejövő döntési fa grafikus reprezentációja

A tovább növelt maximális mélységgel létrejövő döntési fa grafikus reprezentációja

5.12. ábra - A rekordok a tovább növelt maximális mélységű döntési fán alapuló osztályozásának grafikus reprezentációja

A rekordok a tovább növelt maximális mélységű döntési fán alapuló osztályozásának grafikus reprezentációja

Videó

Folyamat

dtree_exp2.rmp

Kulcsszavak

osztályozás
döntési fa
túlillesztés
alulillesztés

Operátorok

Apply Model
Decision Tree
Multiply
Read AML
Split Data