Kiugró értékek statisztikai alapú felügyelet nélküli keresése

Leírás

A folyamat azt mutatja meg a Flame adatállomány esetén, hogy hogyan találhatjuk meg az esetlegesen előforduló kiugró értékeket, anomáliákat egy adathalmazban statisztikai alapú felügyelet nélküli módszerrel. A felügyelet nélküli rendellenesség keresésre használható számos módszer közül alkalmazhatunk statisztikai alapú, hisztogramra alapozó eljárást is. Ebben az esetben attribútumonként határozunk meg egy-egy hisztogrammal értékcsoportokat, és az ezektől való eltérés alapján értékeljük adott esetben az adott oszlop értékét kiugró értékként. Ezután ezen pontszámokat összesítve határozzuk meg az adott rekord összesített kiugró érték pontszámát. Minél magasabb ennek értéke, annál inkább kiugró, és potenciálisan anomáliát jelentő értékről, avagy rekordról van szó. Ez a pontozás azonban adathalmaztól és használt módszertől függően is változhat, tehát a határértéket, mely felett egy elem kiugrónak számít, az adatok közötti távolságoknak és a használt módszernek megfelelően kell beállítanunk. Ugyanakkor pont emiatt szemléletesebb lehet az értékek használatánál, ha színezéssel jelöljük a kiugró érték pontszámokat, melyet a hisztogram alapú módszer automatikusan elvégez.

Bemenet

Flame [SIPU Datasets] [Flame]

Kimenet

A RapidMiner-ben telepíthető Anomaly Detection kiegészítő csomag számos lehetséges módszert kínál az anomáliák észleléséhez, például a hisztogram alapú módszert, mely oszloponként határozza meg az adott oszlop egyes értékeinek kiugró érték pontszámát, és ezekre alapozva számítja ki a rekordok végső pontszámát. Ezt az eljárást különböző beállításokkal finomíthatjuk, akár operátor szinten, akár oszloponként lebontva:

13.10. ábra - A hisztogramalapú kiugró érték pontszám globális beállításai

A hisztogramalapú kiugró érték pontszám globális beállításai

13.11. ábra - A hisztogramalapú kiugró érték pontszám oszlopszintű beállításai

A hisztogramalapú kiugró érték pontszám oszlopszintű beállításai

A beállítások alapján az operátor meghatározott, vagy nem meghatározott számú, egyenlő, avagy változó kiterjedésű részre osztja fel az egyes attribútumok értékkészletét, és ez alapján színkódokat oszt ki, illetve a kiosztott oszlopszintű pontszámok alapján kiszámítja a rekordszintű pontszámot is. Egyenlő méretű, de tetszőleges számú osztályra bontás esetén a következő értékeket kapjuk:

13.12. ábra - Pontszámok és attribútumok felosztása egyenlő méretű, tetszőleges számú osztály használata esetén

Pontszámok és attribútumok felosztása egyenlő méretű, tetszőleges számú osztály használata esetén

Az eredmények értékelése

A megkapott eredmények alapján elönthetjük, hogy a kiszámított pontszámok mely határértékétől tekintünk egy elemet anomáliának. Ennél azonban itt részletesebb vizsgálatra is lehetőség van, mivel a beállított színkódok alapján megtekinthetjük, hogy mely attribútumoknál milyen gyakorisággal fordulnak elő kiugró értékek, illetve egybeesnek-e más attribútumok kiugró értékeivel, és ez alapján egyrészt a modellt is finomíthatjuk, amennyiben szükség van rá, másrészt pedig esetenként könnyebb lehet megállapítani, hogy mely értékek számítanak anomáliának. Tekintve a pontszámok alapján felépített modell grafikus ábrázolását, láthatjuk, hogy a látványosan kiugró értékek közül van, amelyikhez nem rendelt hozzá magas pontszámot:

13.13. ábra - A kiugró érték pontszámok grafikus ábrázolása

A kiugró érték pontszámok grafikus ábrázolása

Erre alapozva érdemes lehet módosítani a modellen, például ha nem egyenlő méretű osztályokra osztjuk fel az attribútumokat, javíthatunk a kiugró értékek érzékelésének hatásfokán. Ekkor a következő eredményt kapjuk:

13.14. ábra - Pontszámok és attribútumok felosztása változó méretű, tetszőleges számú osztály használata esetén

Pontszámok és attribútumok felosztása változó méretű, tetszőleges számú osztály használata esetén

13.15. ábra - A javított kiugró érték pontszámok grafikus ábrázolása

A javított kiugró érték pontszámok grafikus ábrázolása

Videó

Folyamat

anomaly_exp3.rmp

Kulcsszavak

kiugró értékek
outlier
anomáliák észlelése
statisztika alapú anomália észlelés
hisztogram alapú anomália észlelés
osztályméret

Operátorok

Read CSV
Histogram-based Outlier Score (HBOS) [Anomaly Detection]