Az alaposztályozók számának hatása a véletlen erdő teljesítményére

Leírás

A folyamat az alaposztályozók számának hatását szemlélteti a véletlen erdő osztályozási hibaarányára a Heart Disease adatállomány esetén. A kísérletben az alaposztályozók (azaz döntési fák) számát 1-ről 20-ra növeljük és minden egyes lépésben meghatározzuk a véletlen erdő 10-szeres keresztellenőrzésből nyert átlagos osztályozási hibaarányát. A döntési fákhoz szennyezettségi mértékként a nyereségarányt használjuk.

Megjegyzés

A kísérlet megegyezik az előző kettővel, az egyetlen eltérés az, hogy itt a Random Forest operátort használjuk a Bagging és az AdaBoost operátorok helyett.

Bemenet

Heart Disease [UCI MLR]

Megjegyzés

Az adatállományt Detrano, R. [Detrano et al.] adományozta a UCI Machine Learning Repository részére.

Kimenet

9.5. ábra - A véletlen erdő 10-szeres keresztellenőrzés révén nyert átlagos osztályozási hibaaránya az alaposztályozók számának függvényében

A véletlen erdő 10-szeres keresztellenőrzés révén nyert átlagos osztályozási hibaaránya az alaposztályozók számának függvényében

Az eredmények értékelése

Az ábra azt mutatja, hogy a legjobb átlagos osztályozási hibaarányt (19,1%) akkor érjük el, ha az alaposztályozók száma 10.

Megjegyezzük, hogy a legjobb kapott teljesítmény kicsivel jobb az AdaBoost-énál (22,7%), de több alaposztályozó szükséges hozzá. Ráadásul az AdaBoost teljesítménye kiszámíthatóbban viselkedik, mint a véletlen erdőé.

Videó

Folyamat

ensemble_exp4.rmp

Kulcsszavak

véletlen erdő
együttes módszerek
felügyelt tanulás
hibaarány
keresztellenőrzés
osztályozás

Operátorok

Apply Model
Log
Loop Parameters
Map
Performance (Classification)
Random Forest
Read CSV
X-Validation