Az alaposztályozók számának hatása az AdaBoost eljárás teljesítményére

Leírás

A folyamat az alaposztályozók számának hatását szemlélteti az AdaBoost eljárás osztályozási hibaarányára a Heart Disease adatállomány esetén. Az alaposztályozók döntési tönkök, melyekhez szennyezettségi mértékként a nyereségarányt használjuk. A kísérletben az alaposztályozók számát 1-ről 20-ra növeljük és minden egyes lépésben meghatározzuk az AdaBoost eljárás 10-szeres keresztellenőrzésből nyert átlagos osztályozási hibaarányát.

Megjegyzés

A kísérlet megegyezik az előzővel, az egyetlen eltérés az, hogy az AdaBoost operátort használjuk a Bagging operátor helyett.

Bemenet

Heart Disease [UCI MLR]

Megjegyzés

Az adatállományt Detrano, R. [Detrano et al.] adományozta a UCI Machine Learning Repository részére.

Kimenet

9.4. ábra - A 10-szeres keresztellenőrzés révén nyert átlagos osztályozási hibaarány az alaposztályozók számának függvényében

A 10-szeres keresztellenőrzés révén nyert átlagos osztályozási hibaarány az alaposztályozók számának függvényében

Az eredmények értékelése

Az ábra azt mutatja, hogy a legjobb átlagos osztályozási hibaarányt (22,7%) akkor érjük el, ha az alaposztályozók száma 3. Az is nyilvánvaló, hogy az alaposztályozók számának növelése nem eredményezi a teljesítmény romlását, amely ehelyett állandó marad. Azaz meglepő módon nem tapasztaljuk a modell túlillesztés jelenségét.

Megjegyezzük, hogy a legjobb kapott teljesítmény majdnem azonos a zsákoláséval, de kevesebb számú alaposztályozó szükséges hozzá. Ráadásul a teljesítmény is kiszámíthatóbban viselkedik, mint a zsákolás esetén.

Videó

Folyamat

ensemble_exp3.rmp

Kulcsszavak

AdaBoost
együttes módszerek
felügyelt tanulás
hibaarány
keresztellenőrzés
osztályozás

Operátorok

AdaBoost
Apply Model
Decision Stump
Log
Loop Parameters
Map
Performance (Classification)
Read CSV
X-Validation