5. fejezet - Osztályozási eljárások 1.

Döntési fák

Tartalom

Osztályozás döntési fa segítségével
Döntési fás osztályozás alul- és túlillesztése
Döntési fás osztályozás hatékonyságának kiértékelése
Döntési fás osztályozás hatékonyságának kiértékelése 2
Döntési fás osztályozók összehasonlítása

Osztályozás döntési fa segítségével

Leírás

A folyamat azt mutatja meg a Wine adatállomány esetén, hogy hogyan hajthatunk végre osztályozást egy döntési fa felépítésével. A döntési modell felépítéséhez először ketté kell osztani az állományt tanuló és teszt adathalmazra. Ezután a vágási szabályokat a tanulóhalmaz alapján rendezzük egy döntési fába, majd ezt a létrehozott modellt alkalmazzuk a teszthalmazon. Ezután ellenőrizhetjük, hogy a modell milyen döntési feltételekből épül fel a tanulóhalmaz alapján, illetve hogy ezen döntések mentén mely osztályokba sorolta a teszthalmaz egyes rekordjait.

Bemenet

Wine [UCI MLR]

Kimenet

Az egyes vágások végrehajtásáról olyan mutatószámok alapján dönthetünk, mint pl. a Gini-index vagy az információnyereség. Ezekhez, illetve a vágás megbízhatóságához megadhatunk különböző paraméter értékeket a döntési fa modell létrehozásakor. Ezen felül meghatározhatjuk a vágás megállási feltételeit is úgy, hogy megadjuk, minimálisan mekkora rekordhalmazt lehet még tovább bontani, illetve hogy maximum mekkora lehet a fa mélysége.

5.1. ábra - A döntési fa építésének beállításai

A döntési fa építésének beállításai

Az adatállomány felosztásakor megadhatunk különböző mintavételi módszereket, illetve hogy milyen arányban kívánjuk felosztani az állományt tanuló- és teszthalmazra. A felosztást végezhetjük egyszerűen sorrendiség alapján, véletlenszerűen, vagy ügyelve arra, hogy az egyes osztályokból megfelelő arányban forduljanak elő rekordok a tanuló- és teszthalmazban.

5.2. ábra - Az adathalmaz tanuló- és teszthalmazra bontásának beállításai

Az adathalmaz tanuló- és teszthalmazra bontásának beállításai

5.3. ábra - Az adathalmaz partíciók relatív méreteinek beállítása

Az adathalmaz partíciók relatív méreteinek beállítása

Az eredmények értékelése

Miután elkészült, magát a modellt is a kimenetre irányíthatjuk, így ellenőrizhetjük, hogy milyen döntési fa épült fel a tanulóhalmaz adatai alapján. Ez alapján kiszűrhetőek az esetleges hibás döntések, amennyiben van valamilyen háttérinformációnk vagy szakterületi tudásunk az adathalmazról, és finomhangolható a modellalkotás folyamata is. Másrészt, a modellt alkalmazva a teszthalmazra, azt is megtekinthetjük, hogy a tanulóhalmazon tanított modell hogyan osztályozza a teszthalmaz rekordjait.

5.4. ábra - A létrejövő döntési fa grafikus reprezentációja

A létrejövő döntési fa grafikus reprezentációja

5.5. ábra - A rekordok a döntési fán alapuló osztályozása

A rekordok a döntési fán alapuló osztályozása

Videó

Folyamat

dtree_exp1.rmp

Kulcsszavak

osztályozás
döntési fa
vágás

Operátorok

Apply Model
Decision Tree
Multiply
Read AML
Split Data