Statisztikai megközelítések

A statisztikai megközelítések modell-alapúak, azaz egy modellt alkotnak az adatokhoz, és az objektumokat aszerint értékelik, hogy mennyire jól illeszkednek a modellre. A kiugró értékek észlelésére szolgáló legtöbb statisztikai megközelítés valószínűségi eloszlással modellez, és azt vizsgálja, hogy mennyire valószínűek az objektumok ezen modell szerint. Ezt az elgondolást fejezi ki a 10.2. definíció.

10.2. Definíció

(A kiugró érték valószínűségi definíciója) Egy objektum kiugró érték, ha kicsi a valószínűsége az adatok valószínűségi eloszlás modellje szerint.

Az adatok valószínűségi eloszlás modellje egy felhasználó-specifikus eloszlás paramétereinek becsléséből adódik. Ha azt feltételezzük, hogy az adatok normális eloszlásból származnak, akkor a várható érték és a szórás becsülhető az adatokból az átlag és a tapasztalati szórás kiszámításával. Ezek után minden egyes objektum valószínűsége becsülhető ezen eloszlás alapján.

Statisztikai próbák széles választékát dolgozták ki a 10.2. definíció alapján a kiugró értékek, vagy ahogy a statisztikai szakirodalomban gyakran nevezik őket, disszonáns (discordant) megfigyelések, észlelésére. Ezen disszonancia próbák közül jónéhány igen specializált és a könyv keretein túlmutató statisztikai tudást igényel. Ezért az alapötleteket szemléltetjük néhány példával, és az olvasót az irodalmi megjegyzésekhez irányítjuk további útmutatásért.

Kérdések

Ezen kiugró érték észlelő megközelítés fontos kérdései közé tartoznak a következők.

Az adatok konkrét eloszlásának azonosítása

Bár sok adattípus leírására néhány közös eloszlás alkalmazható, úgymint a normális, a Poisson vagy a binomiális, viszonylag gyakoriak a nem standard eloszlású adatok. Természetesen, ha rossz modellt választunk, akkor tévesen azonosíthatunk objektumokat kiugró értékként. Az adatokat modellezhetjük például normális eloszlásból származónak, de lehet, hogy a valóságban olyan eloszlásúak, amely a normális eloszlásnál nagyobb valószínűséggel vesz fel az átlagtól távol eső értékeket. A gyakorlatban megszokottak az ilyen típusú statisztikai eloszlások és vastag farkú eloszlások (heavy tailed distributions) néven ismertek.

A használt attribútumok száma

A legtöbb statisztikai kiugró érték észlelő módszer egyetlen attribútumra vonatkozik, de van néhány többváltozós adatokra definiált módszer is.

Eloszlások keverékei

Az adatokat eloszlások keverékeiként is modellezhetjük, és kiugró érték észlelő sémákat ki lehet fejleszteni ilyen modellekre alapozva is. Bár ezek potenciálisan hatékonyabbak, egyúttal bonyolultabbak mind a megértésük, mind az alkalmazásuk tekintetében. Azonosítani kell például az eloszlásokat, mielőtt az objektumokat kiugró értékként osztályoznánk. Lásd a keverék modellek és az EM algoritmus tárgyalását a 9.2.2. szakaszban.

Kiugró értékek észlelése egydimenziós normális eloszlásnál

A normális (Gauss) eloszlás egyike a statisztikában leggyakrabban használt eloszlásoknak, egy egyszerű statisztikai kiugró érték észlelő megközelítés bemutatására fogjuk használni. Ennek az eloszlásnak két paramétere van: a μ várható érték és a σ szórás, és az N(μ,σ) jelöléssel adható meg. A 10.1. ábra mutatja az N(0,1) eloszlás sűrűségfüggvényét.

Kicsi az esélye annak, hogy egy, az N(0,1) eloszlásból származó objektum (érték) az eloszlás szélére essen. Például csak 0,0027 annak valószínűsége, hogy egy objektum a ±3 szórás közötti központi tartományon kívül essen. Általánosabban, ha c egy konstans és x egy objektum attribútumértéke, akkor c növekedésével gyorsan csökken annak valószínűsége, hogy xc . Legyen α=P(|x|c) . A 10.1. táblázat néhány c -re adja meg a hozzátartozó α értéket, ha az eloszlás N(0,1) . Megjegyezzük, hogy egy a tízezerhez annak az esélye, hogy egy érték a szórás négyszeresénél nagyobb távolságra legyen az átlagtól.

10.1. ábra - A 0 várható értékű és 1 szórású Gauss-eloszlás valószínűségi sűrűségfüggvénye

A 0 várható értékű és 1 szórású Gauss-eloszlás valószínűségi sűrűségfüggvénye

10.1. táblázat - (c,α) párok a 0 várható értékű és 1 szórású Gauss-eloszlásra, ahol α=P(|x|c)

c

α

1,00

0,3173

1,50

0,1336

2,00

0,0455

2,50

0,0124

3,00

0,0027

3,50

0,0005

4,00

0,0001


Mivel egy érték az N(0,1) eloszlás középpontjától vett c távolsága közvetlenül kapcsolódik az adott érték valószínűségéhez, ez szolgálhat arra vonatkozó vizsgálat alapjául, hogy vajon egy objektum (érték) kiugró-e 59. definíció értelmében.

10.3. Definíció

(Kiugró érték egyetlen, N(0,1) eloszlású attribútum esetén) Egy 0 várható értékű és 1 szórású Gauss-eloszlásból származó x attribútumértékkel rendelkező objektum kiugró érték, ha

|x|c, (10.1)

ahol c egy olyan konstans, amelyre P(|x|c)=α .

Ennek a definíciónak az alkalmazásához meg kell adni α értékét. Abból a szempontból, hogy a szokatlan értékek (objektumok) más eloszlásból származó értéket mutatnak, α annak a valószínűségét adja meg, hogy az adott eloszlásból származó értéket tévedésből kiugrónak osztályozzuk. Abból a szempontból, hogy a kiugró érték az N(0,1) eloszlás ritka értéke, α a ritkaság fokát határozza meg. Ha a normális objektumok egy érdekes attribútuma Gauss-eloszlású, μ várható értékkel és σ szórással (azaz N(μ,σ) eloszlású), akkor a 10.3. definíció alkalmazásához az x attribútumot egy új, N(0,1) eloszlású z attribútummá kell transzformálni. Konkrétan, a transzformáció z=(xμ)/σ . (A z -t általában z -pontszámnak nevezik.) Viszont μ és σ általában ismeretlenek, amelyek becslése a minta x Ż átlagával és s x tapasztalati szórásával történik. A gyakorlatban ez jól működik akkor, ha sok megfigyelés van. Ugyanakkor megjegyezzük, hogy z eloszlása nem pontosan N(0,1) . Egy kifinomultabb statisztikai eljárást (Grubbs próba) vizsgálunk a 706. oldalon a 7. feladatban.

Kiugró értékek a többdimenziós normális eloszlásnál

A többdimenziós Gauss-eloszlású megfigyelésekre hasonló megközelítést szeretnénk alkalmazni, mint amit az egydimenziós Gauss-eloszlásnál. Konkrétan, akkor szeretnénk pontokat kiugró értékként osztályozni, ha kis valószínűségűek az adatok becsült eloszlása szerint. Továbbá ezt egy egyszerű vizsgálattal szeretnénk eldönteni, például a pontnak az eloszlás középpontjától vett távolsága alapján.

A különböző változók (attribútumok) közötti korreláció miatt azonban a többdimenziós normális eloszlás nem szimmetrikus a középpontjára nézve. A 10.2 ábra mutatja a kétdimenziós, (0,0) várható értékű és

Σ=( 1,00 0,75 0,75 3,00 )

kovarianciamátrixú Gauss-eloszlás valószínűség-sűrűségét.

Ha egyszerű küszöbértéket szeretnénk használni annak eldöntésére, hogy egy objektum kiugró-e, akkor egy olyan távolságmértékre van szükségünk, amely figyelembe veszi az adatok eloszlásának alakját. A Mahalanobis távolság ilyen. (Lásd (2.14) egyenlőséget a 83. oldalon.) Az x pont és az adatok x Ż átlaga közötti Mahalanobis távolságot (10.2) egyenlet adja meg:

mahalanobis(x, x Ż )=(x x Ż ) S 1 (x x Ż ) T , (10.2)

ahol S az adatok kovarianciamátrixa.

Könnyű megmutatni, hogy egy pont és az eloszlás várható értéke közötti Mahalanobis távolság közvetlenül kapcsolódik a pont valószínűségéhez. Konkrétan, a Mahalanobis távolság éppen a valószínűségi sűrűség logaritmusa plusz egy konstans. Lásd a 9. feladatot a 707. oldalon.

10.2. ábra - A 10.3. ábra pontjainak előállitásához használt Gauss-eloszlás valószínűségi sűrűsége

A 10.3. ábra pontjainak előállitásához használt Gauss-eloszlás valószínűségi sűrűsége

10.3. ábra - Pontok Mahalanobis távolsága 2002 kétdimenziós pont középpontjától

Pontok Mahalanobis távolsága 2002 kétdimenziós pont középpontjától

10.1. Példa.

(Kiugró érték többdimenziós normális eloszlásnál) A 10.3. ábra egy kétdimenziós adathalmaz pontjainak (az eloszlás átlagától vett) Mahalanobis távolságát mutatja. Az A (4,4) és B (5,5) pontok az adatokhoz adott kiugró értékek, ezek Mahalanobis távolságát jelezzük az ábrán. Az adatokat alkotó többi 2000 pontot véletlenszerűen generáltuk a 10.2. ábra eloszlásából.

Nagy Mahalanobis távolságú A és B is. Annak ellenére azonban, hogy A az euklideszi távolság szerint mérve közelebb van a középponthoz (a (0,0) -ban lévő nagy fekete x-hez), a Mahalanobis távolság szerint távolabb van tőle, mint B , mert a Mahalanobis távolság figyelembe veszi az eloszlás alakját. Konkrétan, a B pont euklideszi távolsága 5 2 , Mahalanobis távolsága pedig 24, míg az A pont euklideszi távolsága 4 2 , Mahalanobis távolsága pedig 35.

Keverék modell módszer rendellenesség észlelésre

Ez a szakasz egy olyan rendellenesség észlelő módszert ismertet, amely keverék modell megközelítést alkalmaz. A klaszterezésben (lásd 9.2.2. fejezetet) a keverék modell megközelítés azt feltételezi, hogy az adatok valószínűségi eloszlások keverékéből származnak, és hogy minden egyes klaszter megfeleltethető ezek közül egy eloszlásnak. A rendellenesség észlelésnél az adatokat hasonlóan két eloszlás keverékeként modellezzük: egy tartozik a normális adatokhoz, egy másik pedig a kiugró értékekhez.

A klaszterezésnél és a rendellenesség észlelésnél is az eloszlások paramétereinek becslése a cél, annak érdekében, hogy a likelihood (valószínűség) maximális legyen az adatokra. A klaszterezésnél az EM algoritmust használjuk az egyes valószínűségi eloszlások paramétereinek becslésére. Az itt bemutatásra kerülő rendellenesség észlelő módszer azonban egyszerűbb megközelítést alkalmaz. Kezdetben minden objektum a normális objektumok halmazába kerül, a rendellenes objektumok halmaza pedig üres. Ezután egy iteratív eljárás objektumokat helyez át az átlagos halmazból a rendellenes halmazba, mindaddig, míg az áthelyezés növeli az adatok teljes likelihoodját.

Tegyük fel, hogy a D adathalmaz két valószínűségi eloszlás keverékéből tartalmaz objektumokat: M a többségi (normális) objektumok eloszlása, A pedig a rendellenes objektumok eloszlása. Az adatok teljes valószínűségi eloszlása

D(x)=(1λ)M(x)+λA(x) (10.3)

alakban írható fel, ahol x egy objektum, λ pedig egy 0 és 1 közötti szám, amely a kiugró értékek várható részarányát adja meg. Az M eloszlást az adatokból becsüljük, míg az A eloszlást gyakran egyenletesnek vesszük. Legyen M t és A t a normális, illetve a rendellenes objektumok halmaza a t időpontban. Kezdetben, a t=0 időpontban, M 0 =D , A 0 pedig üres. Egy tetszőleges t időpontban a teljes D adathalmaz likelihoodját és log-likelihoodját a következő két egyenlet adja meg:

L t (D)= x i D P D ( x i )=( (1λ) | M t | x i M t P M t ( x i ) )( λ | A t | x i A t P A t ( x i ) ) (10.4)

L L t (D)=| M t |log(1λ)+ x i M t log P M t ( x i )+| A t |logλ+ x i A t log P A t ( x i ) (10.5)

ahol P D , P M t és P A t a D , M t , illetve A t valószínűségi eloszlásai. Ezt az egyenletet a keverék modell (9.6) egyenlettel megadott általános definíciójából (9.2.2. szakasz) lehet levezetni. Ahhoz, hogy ezt megtehessük, az az egyszerűsítő feltétel szükséges, miszerint a következő két eset egyaránt 0 valószínűségű: (1) egy A -beli objektum normális objektum, és (2) egy M -beli objektum kiugró érték. A 10.1. algoritmus tartalmazza a részleteket.

Mivel a normális objektumok száma viszonylag nagy a rendellenesekhez képest, a normális objektumok eloszlása nem változhat sokat, amikor egy objektumot a rendellenességek közé helyezünk át. Ebben az esetben viszonylag állandó marad minden egyes normális objektum hozzájárulása a teljes likelihoodhoz. Továbbá, ha egyenletes eloszlást tételezünk fel a rendellenességekről, akkor a rendellenességek közé áthelyezett minden egyes objektum egy rögzített értékkel járul hozzá a rendellenességek likelihoodjához. Ezért a teljes likelihood összes változása egy objektum a rendellenességek közé történő áthelyezésekor nagyjából egyenlő az objektum egyenletes eloszlás melletti ( λ -val súlyozott) valószínűségével, amelyből levonandó az objektum a normális adatobjektumok eloszlása melletti ( (1λ) -val súlyozott) valószínűsége. Ebből adódóan a rendellenességek halmaza jellemzően azokból az objektumokból fog állni, amelyek szignifikánsan nagyobb valószínűségűek egyenletes eloszlás mellett, mint a normális objektumok eloszlása mellett.

10.1 algoritmus. Likelihood-alapú kiugró érték észlelés

1: Inicializálás: A t=0 időpontban M t tartalmazza az összes objektumot, A t pedig üres. Legyen L L t (D)=LL( M t )+LL( A t ) az összes adat log-likelihoodja

2: for minden M t -hez tartozó x objektumra do

3: Helyezzük át x -et M t -ből A t -be, előállítva az új A t+1 és M t+1 adathalmazokat

4: Számítsuk ki D új log-likelihoodját: L L t+1 (D)=LL( M t+1 )+LL( A t+1 )

5: Számítsuk ki a Δ=L L t (D)L L t+1 (D) különbséget

6: if Δc , ahol c valamilyen küszöbérték then

7: Az x objektumot rendellenesnek osztályozzuk, azaz M t+1 és A t+1 változatlan marad, és ezek lesznek az aktuális normális és rendellenes halmazok

8: end if

9: end for

Az imént bemutatott helyzetben a 10.1. algoritmussal leírt módszer nagyjából ekvivalens azzal, hogy azokat az objektumokat osztályozzuk kiugró értékként, amelyek kis valószínűségűek a normális objektumok eloszlása szerint. Ha például a 10.3. ábra pontjaira alkalmaznánk, ez a módszer kiugró értékként osztályozná az A és B pontokat (és az átlagtól távoli más pontokat). Ha viszont a normális objektumok eloszlása jelentősen változik, amikor a rendellenességeket elhagyjuk az eloszlásból, vagy a rendellenességeket kifinomultabb módon lehet modellezni, akkor az így kapott eredmények mások lesznek, mint amit egyszerűen a kis valószínűségű objektumok kiugró értékként történő osztályozásánál kapnánk. Ez a módszer akkor is működni tud, amikor az objektumok eloszlása multimodális.

Erősségek és gyengeségek

A kiugró érték észlelés statisztikai megközelítései megalapozottak és standard statisztikai módszerekre épülnek, mint például egy eloszlás paramétereinek becslése. Amikor elegendő ismeretünk van az adatokról és az alkalmazandó próbáról, ezek a próbák nagyon hatékonyak lehetnek. Egyetlen attribútumra vonatkozó statisztikai kiugró érték próbák széles választéka áll rendelkezésünkre. Kevesebb lehetőség van többdimenziós adatoknál, és ezek a próbák gyenge eredményt adhatnak sokdimenziós adatokra.