17. fejezet - Osztályozási eljárások 2.

Szabály indukció ritka esetre

Tartalom

Szabályindukció ritka esetekre

Szabályindukció ritka esetekre

Leírás

Ebben a kísérletben azt mutatjuk meg a Spambase adatállományon, hogy hogyan lehet egy ritka osztályú bináris osztályozási feladatnál az alaposztályozót feljavítani a Rule Induction operátor segítségével.

Bemenet

Spambase [UCI MLR]

A megfelelő input előállításához a Sample operátort használjuk, ahol annyi rekordot választunk le az állomány elejéről, hogy az egyik eset aránya már 5 százalék alá kerüljön. Ezután a szokásos módon particionáljuk az adatállományt.

Kimenet

Az adatállományra két szabályindukciós modellt illesztettünk, amelyek közül az egyik döntési fán, a másik pedig logisztikus regresszión alapszik. Ezeket egy egyszerű referencia döntési fa modellel vetjük össze. Az alábbi ábrák mutatják az illeszkedés jóságát.

17.1. ábra - A szabályindukció eredményéül kapott téves osztályozási ráták

A szabályindukció eredményéül kapott téves osztályozási ráták

17.2. ábra - A szabályindukció osztályozási (tévesztési) mátrixa

A szabályindukció osztályozási (tévesztési) mátrixa

17.3. ábra - A szabályindukció osztályozási oszlopdiagramja

A szabályindukció osztályozási oszlopdiagramja

A modelleket összehasonlító ROC ábrán baloldalt egy tökéletes ROC görbe látható, amely mutatja, hogy a második szabályindukciós modell esetén az illeszkedés tökéletes a tanulóállományon.

17.4. ábra - A szabályindukciók és a döntési fa ROC görbéi

A szabályindukciók és a döntési fa ROC görbéi

Az alábbi output képernyőn a baloldali felső ablakon látható, hogy a Rule Induction operátor a szokásos információkon túl megadja a rosszul osztályozott esetek számát is, ami az ilyen példákban kiemelten fontos.

17.5. ábra - Egy szabályindukciós operátor kimenete

Egy szabályindukciós operátor kimenete

Az eredmények értékelése

A kísérlet azt mutatja, hogy amikor az osztályok nagyon kiegyensúlyozatlanok, azaz az egyik osztály gyakorisága nagyon alacsony, akkor a hagyományos osztályozó modellekhez képest a szabályindukciós módszerrel javulást tudunk elérni.

Videó

Folyamat

sas_rules_exp1.xml

Kulcsszavak

szabályindukció
felügyelt tanulás
osztályozás

Operátorok

Data Source
Decision Tree
Model Comparison
Data Partition
Rule Induction
Sample