Osztályozás lineáris regresszióval

Leírás

A folyamat azt mutatja meg a Wine adatállomány esetén, hogy hogyan illeszthetünk regressziós modellt egy adott adathalmazra, majd végezhetünk el egy osztályozási feladatot a kapott becslések alapján. Regressziós modellre alapozva is végezhetünk osztályozást, ekkor a regressziós modell alapján közelítő értékeket határozhatunk meg, melyeket aztán megfeleltetünk a konkrét osztálycímkéknek. Más osztályozási módszerekhez hasonlóan itt is tanuló- illetve teszthalmazra kell osztanunk az adathalmazt, és a tanulóhalmaz alapján kialakított regressziós modellt fogjuk alkalmazni a teszthalmazra.

Bemenet

Wine [UCI MLR]

Kimenet

A regressziós modell létrehozásához számos regresszió típus közül választhatunk, mint pl. a lineáris vagy a logisztikus regresszió. Ezek közül a lineáris regressziót használjuk a folyamatban. Ahhoz, hogy ezt osztályozásra tudjuk alkalmazni, egy regresszió-alapú osztályozó operátorban kell elhelyeznünk. Ugyanúgy, mintha önmagában használnánk az operátort, meghatározhatjuk például, hogy milyen módszer szerint kerüljenek kiválasztásra a jellemzők, vagy a minimális toleranciaszintet. Az így létrejövő lineáris regressziós osztályozó modellt alkalmazhatjuk a teszthalmazra.

7.4. ábra - A regressziós modellel osztályozó operátor alfolyamata

A regressziós modellel osztályozó operátor alfolyamata

A tanulóhalmaz adatai alapján a következő regressziós modell jön létre:

7.5. ábra - Az eredményként előálló lineáris regressziós modell

Az eredményként előálló lineáris regressziós modell

Az eredmények értékelése

A tanulóhalmaz rekordjai alapján létrehozott regressziós modellt alkalmazva a teszthalmazra konfidencia értékeket számíthatunk ki az egyes tesztrekordok adott csoporthoz tartozására nézve. Ezen konfidencia értékek, illetve az ezek alapján létrejött osztálybesorolások láthatóak az eredményül előálló címkézett adathalmazban:

7.6. ábra - A regressziós modell alapján kiszámított predikciókból származtatott osztálycímkék

A regressziós modell alapján kiszámított predikciókból származtatott osztálycímkék

Láthatjuk, hogy a közelítő értékek alapján legtöbb esetben jó, az eredeti címkével megegyező besorolás történt.

Videó

Folyamat

regr_exp2.rmp

Kulcsszavak

osztályozás
regresszió

Operátorok

Apply Model
Classification by Regression
Linear Regression
Read AML
Split Data