25. fejezet - Rendellenesség-keresés

Tartalom

Kiugró értékek keresése

Kiugró értékek keresése

Leírás

A folyamat azt mutatja meg a Concrete Compressive Strength adatállomány esetén, hogy hogyan szűrhetünk ki kiugró értékeket különböző kritériumok alapján a Filter operátorral. Ezt tehetjük például az átlagtól vett négyzetes vagy abszolút eltérés alapján, de használhatjuk a modális centrumot is. A kísérletben az átlagtól vett kétszeres szórásnál jobban eltérő rekordokat szűrjük ki.

Bemenet

Concrete Compressive Strength [UCI MLR] [Concrete]

Kimenet

Látható, hogy a fenti beállítással jelentős számú kiugró értéket szűrhetünk ki.

25.1. ábra - A kiugró értékek szűrése előtti és utáni statisztikák

A kiugró értékek szűrése előtti és utáni statisztikák

25.2. ábra - Az előrejelzett átlag a két döntési fa alapján

Az előrejelzett átlag a két döntési fa alapján

25.3. ábra - A nyertes döntési fa sematikus ábrája

A nyertes döntési fa sematikus ábrája

Az eredmények értékelése

Az alábbi összehasonlításnál jól látható, hogy a szűrés után illesztett döntési fa hibája lényegesen kisebb mint a teljes adatállományon illesztett döntési fáé. Így alkalmas esetekben a kiugró értékek eltávolítása képes javítani a felügyelt modellek hatékonyságát.

25.4. ábra - Az illesztett két döntési fa összehasonlítása

Az illesztett két döntési fa összehasonlítása

Videó

Folyamat

sas_anomaly_exp1.xml

Kulcsszavak

kiugró értékek
outlier
adatok előfeldolgozása
adatok tisztítása

Operátorok

Data Source
Decision Tree
Filter
Graph Explore
Model Comparison