13. fejezet - Kiugró értékek keresése (rendellenesség/anomália keresés)

Tartalom

Kiugró értékek keresése
Kiugró értékek felügyelet nélküli keresése
Kiugró értékek statisztikai alapú felügyelet nélküli keresése
Kiugró értékek keresése klaszterekben

Kiugró értékek keresése

Leírás

A folyamat azt mutatja meg a Wisconsin Diagnostic Breast Cancer (WDBC) adatállomány esetén, hogy hogyan találhatjuk meg a kiugró értékeket az adatok egymástól mért távolsága alapján. Ezt tehetjük például aszerint, hogy mekkora a k db legközelebbi szomszédjukhoz mért távolságuk, vagy hogy egy adott határérték fölötti-e a távolságuk valamely adatobjektumhoz. A kiugró érték fogalom relatív, mindig az adatobjektumok közötti távolságokhoz képest értelmezhetjük. Tehát ha az adatobjektumok között alapvetően is nagyok a távolságok, akkor magas határértéket kell beállítanunk a kiugró értékekhez.

Bemenet

Wisconsin Diagnostic Breast Cancer (WDBC) [UCI MLR]

Kimenet

Látható, hogy megfelelő beállítások mellett kiszűrhetőek a kiugró értékek. Mivel például az ábrázolt area attribútum egyes értékei között előfordulnak százas nagyságrendű eltérések is, így az Euklideszi távolság határértékeként 500-at megadva kaphatjuk ezt az eredményt.

13.1. ábra - A lehetséges kiugró értékek grafikus reprezentációja

A lehetséges kiugró értékek grafikus reprezentációja

Az eredmények értékelése

Figyeljük meg, hogy az adatobjektumok közötti meglévő nagy távolságok miatt csak akkor fog a valósnak megfelelő szintre csökkenni a detektált kiugró értékek száma, ha egészen 500-ig növeljük a határértéket, és egy bizonyos érték alatt messze túl sok adatobjektumot fogunk kiugró értékként azonosítani.

13.2. ábra - Az érzékelt outlier-ek számának változása a távolsági határérték növelése mellett

Az érzékelt outlier-ek számának változása a távolsági határérték növelése mellett

Videó

Folyamat

anomaly_exp1.rmp

Kulcsszavak

kiugró értékek
outlier
adatok előfeldolgozása
adatok tisztítása

Operátorok

Detect Outlier (Densities)
Detect Outlier (Distances)
Multiply
Read AML