Többértékű célváltozó előrejelzése regresszióval

Leírás

A folyamat azt mutatja meg a Wine adatállomány esetén, hogy hogyan illeszthetünk regressziós modellt egy diszkrét de nem bináris célváltozót tartalmazó adathalmazra, majd végezhetünk el egy osztályozási feladatot a modell alapján kapott becslésekkel. Az illesztett regressziós modell attól függ, hogy milyen mérési skálán adott a diszkrét célváltozó. Amennyiben a célváltozó névleges (nominális) úgy egyenként illeszt a Regression operátor bináris logisztikus modelleket úgy, hogy egy kiválasztott referencia célosztályhoz viszonyítja a többi osztályát a diszkrét célváltozónak. Ezzel szemben, ha a célváltozó sorrendi (ordinális) akkor egy közös logisztikus regressziós modell illesztésére kerül sor, ahol csak a konstans paraméterek különböznek, de az input változók együtthatói közösek. (Szemben a nominális esettel, ahol ezek az együtthatók is különbözőek.)

Bemenet

Wine [UCI MLR]

Kimenet

A regressziós modell létrehozásához több regresszió típus közül választhatunk, mint pl. a lineáris vagy a logisztikus regresszió. Ezek közül a logisztikus regressziót használjuk a folyamatban. Ezt be se kell állítani, már az input állománynál megadott metaadatok alapján felismeri ezt a rendszer. Természetesen lehetséges ezt felülírni és lineáris regresszió végrehajtását kikényszeríteni, de ennek értelme sincs, meg ezután a Model Comparison operátor sem használható más diszkrét felügyelt modellekkel való összehasonlításra. A modell illeszkedését a már jól ismert statisztikai mutatókon és grafikonokon keresztül vizsgálhatjuk.

24.9. ábra - A logisztikus regresszió tévesztési mátrixa

A logisztikus regresszió tévesztési mátrixa

Az osztályozási oszlopdiagramon jól látható, hogy a létrejött modell tökéletes a tanulóállományon és viszonylag kis hibával bír az ellenőrző állományon.

24.10. ábra - A logisztikus regresszió osztályozási oszlopgrafikonja

A logisztikus regresszió osztályozási oszlopgrafikonja

A szokásos illeszkedésvizsgálati eredményeken túl a Regression operátor egy oszlopgrafikonon megmutatja az input változók fontosságát a felépített regressziós modellekben. Minél nagyobb együttható tartozik egy input változóhoz, az annál erősebben magyarázza a célváltozót. Az ordinális esetben egy, míg a nominális esetben a célváltozó különböző értékei mínusz egy számú ilyen oszlopgrafikon jön létre. Mivel a Class változó három értékű, így az alábbi ábrán két ilyen oszlopgrafikon látható.

24.11. ábra - A logisztikus regresszió hatásgrafikonja

A logisztikus regresszió hatásgrafikonja

Az eredmények értékelése

A tanulóhalmaz rekordjai alapján létrehozott regressziós modellt alkalmazva az ellenőrző adathalmazra a fenti eredmények mutatják, hogy többértékű diszkrét célváltozó esetén is viszonylag nagy pontosságú modell építhető a Regression operátor segítségével. Megjegyezzük, hogy a tárgyalt problémára a Dmine Regression operátor nem alkalmazható.

Videó

Folyamat

sas_regr_exp2.xml

Kulcsszavak

osztályozás
nominális és ordinális célváltozó
logisztikus regresszió

Operátorok

Data Source
Data Partition
Regression