Kiugró értékek felügyelet nélküli keresése

Leírás

A folyamat azt mutatja meg az Individual household electric power consumption adatállomány egy mintája esetén, hogy hogyan találhatjuk meg az esetlegesen előforduló kiugró értékeket, anomáliákat egy adathalmazban felügyelet nélküli módszerekkel. A felügyelet nélküli rendellenesség keresésre számos módszer használható, általános esetben például a k legközelebbi szomszéd alapú módszerek, melyek az adott elem k legközelebbi szomszédjától mért távolsága alapján osztanak ki egy kiugró érték mutató értéket minden elemhez, melynek értéke minél magasabb, annál inkább kiugró, és potenciálisan anomáliát jelentő értékről van szó. Ez a pontozás azonban adathalmaztól és használt módszertől függően is változhat, tehát a határértéket, mely felett egy elem kiugrónak számít, az adatok közötti távolságoknak és a használt módszernek megfelelően kell beállítanunk.

Bemenet

Individual household electric power consumption [UCI MLR]

Kimenet

A RapidMiner-ben telepíthető Anomaly Detection kiegészítő csomag számos lehetséges módszert kínál az anomáliák észleléséhez, például a k legközelebbi szomszéd alapú módszert, vagy az erre épülő LOF mértéket, mely a k legközelebbi szomszéd módszeren alapszik, de már sűrűségi tényezőket is figyelembe vesz.

13.3. ábra - Legközelebbi szomszédokon alapuló operátorok az Anomaly Detection csomagban

Legközelebbi szomszédokon alapuló operátorok az Anomaly Detection csomagban

13.4. ábra - A LOF beállításai.

A LOF beállításai.

Ezek a módszerek különböző pontozással látják el az elemeket, melyek alapján láthatjuk, hogy mely elemek képviselnek kiugró értékeket. A k legközelebbi szomszéd módszer a következő pontszámokat osztja ki az adathalmaz elemeihez:

13.5. ábra - Az egyes rekordokhoz k legközelebbi szomszéd alapján kiosztott kiugró érték pontszámok

Az egyes rekordokhoz k legközelebbi szomszéd alapján kiosztott kiugró érték pontszámok

A LOF módszer a következő pontszámokat osztja ki az adathalmaz elemeihez:

13.6. ábra - Az egyes rekordokhoz LOF alapján kiosztott kiugró érték pontszámok

Az egyes rekordokhoz LOF alapján kiosztott kiugró érték pontszámok

Az eredmények értékelése

A megkapott eredmények alapján elönthetjük, hogy a kiszámított pontszámok mely határértékétől tekintünk egy elemet anomáliának, és az ezen határérték feletti pontszámú, kiugró elemeket kiszűrve azonnal el is távolíthatjuk az adathalmazból, vagy különálló adathalmazt hozhatunk létre belőlük:

13.7. ábra - A rekordok szűrése kiugró érték pontszámuk alapján

A rekordok szűrése kiugró érték pontszámuk alapján

Például a k-NN módszer segítségével kiugró értéknek minősített elemek eltávolítása után a következő adathalmazt kapjuk:

13.8. ábra - A k-NN pontszám alapján szűrt adathalmaz

A k-NN pontszám alapján szűrt adathalmaz

A LOF alapján kiugró értéknek minősített elemek halmaza pedig a következő:

13.9. ábra - A LOF pontszám alapján szűrt adathalmaz

A LOF pontszám alapján szűrt adathalmaz

Videó

Folyamat

anomaly_exp2.rmp

Kulcsszavak

kiugró értékek
outlier
anomáliák észlelése
k legközelebbi szomszéd

Operátorok

Filter Examples
Multiply
Read CSV
k-NN Global Anomaly Score [Anomaly Detection]
Local Outlier Factor (LOF) [Anomaly Detection]