18. fejezet - Osztályozási eljárások 3.

Logisztikus regresszió

Tartalom

Logisztikus regresszió
Többértékű célváltozó előrejelzése regresszióval

Logisztikus regresszió

Leírás

A folyamat azt mutatja meg a Spambase adatállomány esetén, hogy hogyan illeszthetünk regressziós modellt egy bináris célváltozójú adathalmazra. A hagyományos lineáris regresszió erre nem alkalmas bár a Regression operátor ezt is felajánlja. E helyett a logisztikus regresszió módszerét kell használnunk, amelyet automatikusan ki is választ ez az operátor. Itt több ún. link függvény között választhatunk: logit, melyről a nevét is kapta az eljárás, probit illetve komplementáris logit. Ezek között nem jelentős a különbség. Az Enterprise Miner™ egy másik operátort is nyújt regresszióra, a Dmine Rgeression operátorral ún. lépésenkénti regressziót végezhetünk mely során sorban kerülnek bevonásra a legszignifikánsabb input változók.

Bemenet

Spambase [UCI MLR]

Kimenet

A logisztikus regressziós modell illesztése után a bináris osztályozási feladatoknál szokásos statisztikai mutatókat és grafikonokat kapjuk eredményül. Ezek közül csak a tévesztési mátrixot mutatjuk itt, a többi majd a regressziós modellek összehasonlításánál lesz látható.

18.1. ábra - A logisztikus regresszió tévesztési mátrixa

A logisztikus regresszió tévesztési mátrixa

A szokásos eszközökön túl a regressziós operátorok megmutatják még az input változók fontosságát is a felépített regressziós modell a hatásgrafikonnal.

18.2. ábra - A logisztikus regresszió hatásgrafikonja

A logisztikus regresszió hatásgrafikonja

A hagyományos regresszió analízis mellett az Enterprise Miner™ egy másik operátort is biztosít az ún. lépésenkénti regresszió végrehajtása számára. Ez a Dmine Rgeression operátor. Ennek eredményeit láthatjuk az alábbi ábrákon

18.3. ábra - A lépésenkénti logisztikus regresszió tévesztési mátrixa

A lépésenkénti logisztikus regresszió tévesztési mátrixa

18.4. ábra - A lépésenkénti logisztikus regresszió hatásgrafikonja

A lépésenkénti logisztikus regresszió hatásgrafikonja

A két regressziót össze tudjuk hasonlítani a szokásos módon a Model Comparison operátor révén. Ennek az összehasonlításnak az eredményei az alábbi ábrák.

18.5. ábra - A logisztikus regressziós modelleket összehasonlító statisztikai mutatók

A logisztikus regressziós modelleket összehasonlító statisztikai mutatók

18.6. ábra - A logisztikus regressziós modellek osztályozási oszlopdiagramjai

A logisztikus regressziós modellek osztályozási oszlopdiagramjai

18.7. ábra - A logisztikus regressziós modellek kumulatív lift görbéi

A logisztikus regressziós modellek kumulatív lift görbéi

18.8. ábra - A logisztikus regressziós modellek ROC görbéi

A logisztikus regressziós modellek ROC görbéi

Az eredmények értékelése

Az illeszkedési statisztikák és a ROC görbe világosan mutatja a teszthalmazon, hogy logisztikus regressziós modell jobb mint a lépésenkénti logisztikus regressziós modell.

Videó

Folyamat

sas_regr_exp1.xml

Kulcsszavak

osztályozás
bináris célváltozó
logisztikus regresszió

Operátorok

Data Source
Dmine Regression
Model Comparison
Data Partition
Regression