16. fejezet - Osztályozási eljárások 1.

Döntési fák

Tartalom

Osztályozás döntési fa segítségével
Döntési fa osztályozók összehasonlítása és kiértékelése

Osztályozás döntési fa segítségével

Leírás

A folyamat azt mutatja meg a Wine adatállomány segítségével, hogy hogyan hajthatunk végre osztályozást a Decision Tree operátorral egy döntési fa felépítése révén abban az esetben, amikor névleges (nominális) célváltozó adott. Esetünkben ez a célváltozó három különböző értéket vesz fel. A döntési modell felépítéséhez először érdemes felosztani az adatállományt tanuló és ellenőrző adathalmazra. Ezután az aktuális legjobb vágási szabályt a tanulóhalmaz alapján keresi meg az algoritmus, viszont a fa növekedését már az ellenőrző állomány használata révén állítja meg, amikor már nem talál az alapján szignifikáns vágást. A felosztásnál elkülöníthetnénk tesztadatállományt is a kapott fa általánosítási képességének mérésére, de ezt az adatállomány korlátozott mérete miatt most nem javasoljuk. A folyamat eredményeként felépített döntési fát megjeleníthetjük, ahol ellenőrizhetjük, hogy a modell milyen döntési feltételekből épül fel az egyes elágazásoknál. A többségi szavazás elve alapján az algoritmus eldönti, hogy az egyes levelekhez (terminális csúcsokhoz) milyen osztálycímkét rendeljen.

Bemenet

Wine [UCI MLR]

Kimenet

Az egyes vágások végrehajtásáról nominális célváltozó esetén olyan mutatószámok alapján dönthetünk, mint a chi-négyzet érték, a Gini-index vagy az entrópia. Ezekhez, illetve a vágás megbízhatóságához, a választott mutatószámtól függően, megadhatunk egy paraméter értékeket. Ezen felül meghatározhatjuk a vágás megállási feltételeit is úgy, hogy megadjuk, minimálisan mekkora rekordhalmazt lehet még tovább bontani, illetve hogy maximum mekkora lehet a fa mélysége. Úgyszintén beállíthatjuk a fában megengedett maximális ágak számát egy csúcsban. Ez alapértelmezett esetben 2, azaz bináris fát épít az algoritmus. Eldönthetjük azt is, hogy akarjuk-e a hiányzó értékeket használni a vágások előállításában, mint egy lehetséges értéket. Szintén dönthetünk arról, hogy egy input attribútumot csak egyszer vagy többször fel akarunk-e használni a fa előállításakor.

16.1. ábra - Az adatállomány particionálásának beállításai

Az adatállomány particionálásának beállításai

Az adatállomány felosztásakor megadhatunk különböző mintavételi módszereket, illetve hogy milyen arányban kívánjuk felosztani az állományt tanuló-, ellenőrző és teszthalmazra. A felosztást végezhetjük egyszerűen sorrendiség alapján, véletlenszerűen, vagy ügyelve arra, hogy az egyes osztályokból megfelelő arányban forduljanak elő rekordok a tanuló- és teszthalmazban, amit a rétegzett mintavételezéssel érhetünk el.

16.2. ábra - A döntési fa

A döntési fa

A döntési fában láthatjuk az osztályozás eredményét a tanuló- és az ellenőrző állományra egyaránt, hogy az egyes csúcsokon és azon belül a leveleken milyen darabszámban kerülnek az egyes rekordok az egyes osztályokba. A csúcsokat összekötő vonalakon a vágást definiáló változók és a vágási értékek láthatóak. A vonalak vastagsága az érintett rekordszámmal arányos.

Az eredmények értékelése

A felépített döntési fa kiértékelését számos statisztikai mutató és táblázat illetve grafikus eszköz segíti. Ezek közül a legfontosabbakat egy többosztatú ablak jeleníti meg egyszerre, ahol összehasonlításokat is tudunk tenni. Egyenként is megnyithatjuk ezeket az ablakokat a menü view menüpontja segítségével. Ezen eszközök segítségével kiszűrhetőek az esetleges hibás döntések és további háttérinformáció vagy szakterületi tudás alapján finomhangolható a modellalkotás folyamata. Ebben egy interaktív faépítési eljárás is segít.

16.3. ábra - A döntési fa válaszgörbéje

A döntési fa válaszgörbéje

A fenti válaszgörbén az látható, a tanuló- és ellenőrző állományra, hogy a döntési fa osztályozó jósága szerint sorba állított rekordokon decilis (10-ed) beosztásban az esetek hány százalékában találjuk el a helyes osztályt. A görbe általában monoton csökkenő.

16.4. ábra - A döntési fa illeszkedési statisztikái

A döntési fa illeszkedési statisztikái

A Fit Statistics táblázatban az algoritmus által előállított döntési fa osztályozó illeszkedéséről láthatunk különböző mutatószámokat. A legfontosabb és legegyszerűbb közülük a pirossal bekarikázott téves osztályozási ráta, amely azt jelenti, hogy arányaiban hányszor dönt rosszul a döntési fa.

16.5. ábra - A döntési fa osztályozási oszlopdiagramja

A döntési fa osztályozási oszlopdiagramja

Az osztályozási oszlopdiagrammon részletesebben mögé tudunk nézni annak, hogy mely osztályokon működik jól illetve hibásan a modellünk.

16.6. ábra - A döntési fa kumulatív lift görbéje

A döntési fa kumulatív lift görbéje

Az ábrán azt lehet megállapítani, hogy a kapott döntési fa hogyan viszonyul a kumulatív lift érték alapján a legjobb modellhez.

16.7. ábra - Az attribútumok fontossága

Az attribútumok fontossága

A változó fontosságot mérő táblázatban azt tudjuk megállapítani, hogy mely változók és milyen fontossággal vesznek részt a döntési fa döntéseiben. Ez a szakterületi tudással is bíró felhasználók számára nyújthat nagy segítséget.

Videó

Folyamat

sas_dtree_exp1.xml

Kulcsszavak

osztályozás
döntési fa
vágás
válaszgörbe
téves osztályozási ráta

Operátorok

Data Source
Decision Tree
Data Partition