Feladatok

1. Hasonlítsa össze és állítsa egymással szembe a 10.1.2. szakaszban bemutatott rendellenesség észlelő módszereket. Főleg olyan körülményeket próbáljon azonosítani, amelyek esetén a különböző módszerek által használt rendellenesség definíciók ekvivalensek lehetnek, vagy olyan helyzeteket, amelyekben az egyik értelmes, de a másik nem. Figyeljen arra, hogy különböző típusú adatokat vizsgáljon.

2. Tekintsük a rendellenesség következő definícióját: a rendellenesség egy olyan objektum, amely szokatlanul nagyhatású az adatmodell megalkotásakor.

  1. Hasonlítsa össze ezt a definíciót a standard modell-alapú rendellenesség definícióval.

  2. Milyen méretű adathalmazokra (kicsi, közepes vagy nagy) megfelelő ez a definíció?

3. A rendellenesség észlelés egyik megközelítésénél az objektumokat sokdimenziós térbeli pontokként ábrázolják és a pontokat egymást követő héjakba csoportosítják, ahol minden egyes héj egy pontcsoport körüli réteget képvisel, mint amilyen például a konvex burok. Egy objektum rendellenesség, ha valamelyik külső héjban található.

  1. A 10.1.2. szakasz rendellenesség definíciói közül melyikhez kapcsolódik a legszorosabban ez a definíció?

  2. Nevezzen meg két problémát ezzel a rendellenesség definícióval.

4. Az asszociációs elemzés a következők szerint alkalmas rendellenességek megtalálására. Keressünk erős asszociációs mintázatokat, amelyek legalább adott számú objektumot tartalmaznak. Azok az objektumok rendellenességek, amelyek nem tartoznak egy ilyen mintázathoz sem. Hogy ezt konkrétabbá tegyük, megjegyezzük, hogy a 6.8. szakaszban tárgyalt hiperklikk asszociációs mintázat különösen alkalmas ehhez a megközelítéshez. Pontosabban a felhasználó által megadott h -konfidencia szinthez keressük az objektumok maximális hiperklikk mintázatait. Kiugró értékként osztályozunk minden olyan objektumot, ami nem jelenik meg egy legalább háromelemű maximális hiperklikk mintázatban.

  1. Beleesik-e ez a módszer valamelyik, ebben a fejezetben tárgyalt kategóriába? Ha igen, melyikbe?

  2. Nevezze meg ennek a megközelítésnek egy potenciális erősségét és egy potenciális gyengeségét.

5. Vizsgáljon módszereket, amelyek a rendellenes objektumok azonosításának javításához több rendellenesség észlelő eljárást kombinálnak. Tekintsen felügyelt és felügyelet nélküli eseteket is.

6. Jellemezze a következő rendellenesség észlelő módszerek lehetséges időbonyolultságát: klaszterezést használó modell-alapú, szomszédság-alapú és sűrűség-alapú. Nincs szükség a konkrét módszerek ismeretére. Inkább koncentráljon az egyes megközelítések alapvető számításigényére, mint például az egyes objektumok sűrűségének kiszámításához szükséges idő.

7. A 10.3. algoritmusban tárgyalt Grubbs próba statisztikailag kifinomultabb kiugró érték észlelő eljárás, mint a 10.3. definícióban megadott. Iteratív és figyelembe veszi, hogy a z -pontszám nem normális eloszlású. Az algoritmus kiszámolja minden egyes érték z -pontszámát az aktuális értékhalmaz mintaátlaga és tapasztalati szórása alapján. Az abszolút értékben legnagyobb z -pontszámú értéket eldobjuk, ha a z -pontszáma nagyobb, mint g c , a kiugró érték próba α szignifikancia szinthez tartozó kritikus értéke. Ezt a folyamatot addig ismételjük, míg nem kerül már eltávolításra egy objektum sem. Megjegyezzük, hogy a mintaátlag, a tapasztalati szórás és g c minden iterációnál frissítésre kerül.

10.3 algoritmus. Grubbs módszere a kiugró értékek eltávolítására

1: Adjuk meg az értékeket és α -t

m az értékek száma, α paraméter, t c pedig egy úgy válaszott érték, hogy α=P(x t c ) az m2 szabadsági fokú t -eloszlásra

2: repeat

3: Számoljuk ki a mintaátlagot ( x Ż ) és tapasztalati szórást ( s x )

4: Határozzunk meg egy g c értéket, amelyre P(|z| g c )=α

( t c és m függvényében g c = m1 m t c 2 m2+ t c 2 )

5: Számoljuk ki a z -pontszámot minden egyes értékre: z=(x x Ż )/ s x

6: Legyen g=max|z| , azaz határozzuk meg a legnagyobb abszolút értékű z -pontszámot, és nevezzük ezt g -nek

7: if g g c then

8: Távolítsuk el a g -hez tartozó értéket

9: mm1

10: end if

11: until egy objektumot sem távolítunk el

  1. Mi a Grubbs próbához használt m1 m t c 2 m2+ t c 2 mennyiség határértéke, ha m végtelenhez tart? A szignifikancia szint legyen 0,05.

  2. Írja le szavakkal az előző eredmény jelentését.

8. Sok kiugró értékekre vonatkozó statisztikai próbát olyan környezetben dolgoztak ki, ahol néhány száz megfigyelés már nagy adathalmaznak számított. Az ilyen megközelítések korlátait vizsgáljuk.

  1. Egy 1 000 000 értéket tartalmazó adathalmaz esetén milyen valószínű, hogy kiugró értékeket kapunk annál a próbánál, amely azt mondja, hogy egy érték kiugró, ha az átlagtól vett távolsága nagyobb, mint a szórás háromszorosa? (Tételezzünk fel normális eloszlást.)

  2. Nagy adathalmazok esetén kiigazításra szorul-e az a megközelítés, miszerint egy objektum kiugró érték, ha szokatlanul kis valószínűségű? Ha igen, hogyan?

9. Az x pont a μ várható értékű és Σ kovarianciamátrixú normális eloszlás szerinti valószínűségi sűrűségét a

P(x)= 1 ( 2π ) m |Σ | 1/2 e (xμ) Σ 1 (xμ) 2 (10.8)

egyenlet adja meg. A μ várható értéket és Σ kovarianciamátrixot a minta x Ż átlagával, illetve S kovarianciamátrixával becsülve mutassuk meg, hogy log(P(x)) egyenlő az x adatpont és az x Ż mintaátlag Mahalanobis távolságával, amelyhez hozzáadódik egy konstans, ami nem függ x -től.

10. Hasonlítsa össze a következő két mérőszámát annak, hogy egy pont mennyire tartozik egy klaszterhez: (1) egy objektum távolsága a hozzá legközelebbi klaszter centroidjától, és (2) a 8.5.2. szakaszban leírt sziluett együttható.

11. Tekintsük a kiugró érték észlelésre szolgáló, a 10.5. szakaszban leírt K -közép sémát és a kapcsolódó 10.10. ábrát.

  1. A 10.10. ábrán látható tömör klaszter alján lévő pontok valamivel nagyobb kiugró érték pontszámúak, mint a tömör klaszter tetején levő pontok. Miért?

  2. Tegyük fel, hogy a klaszterek számát jóval nagyobbnak, például 10-nek választjuk. Hatékony lenne-e a javasolt módszer így is az ábra tetején lévő legszélsőségesebb kiugró érték megtalálására? Miért, vagy miért nem?

  3. A relatív távolság alkalmazása kompenzálja a sűrűségkülönbségeket. Adjon egy olyan példát, ahol egy ilyen megközelítés hibás következtetéshez vezethet.

12. Ha 0,01 annak a valószínűsége, hogy egy normális objektumot rendellenesként osztályozunk, 0,99 pedig annak a valószínűsége, hogy egy rendellenes objektumot rendellenesként, mi a hamis riasztási arány és az észlelési arány akkor, ha az objektumok 99%-a normális? (Használja az alábbi definíciókat.)

észlelési arány= észlelt rendellenességek száma összes rendellenesség száma (10.9)

hamisriasztási arány= hamis rendellenességek száma rendellenesként osztályozott objektumok száma (10.10)

13. Amikor rendelkezésre áll egy átfogó tanulóhalmaz, egy felügyelt rendellenesség észlelő módszer tipikusan felülmúlja a felügyelet nélküli rendellenesség észlelő módszereket, ha a teljesítményt olyan mérőszámokkal értékeljük, mint például az észlelési és hamis riasztási arány. Néhány esetben viszont, mint például a csalások észlelése, mindig felmerülnek új típusú rendellenességek. A teljesítményt értékelhetjük az észlelési és hamis riasztási aránnyal, mert vizsgálatok során általában megállapítható, hogy egy objektum (tranzakció) rendellenesség-e. Elemezze ilyen feltételek mellett a felügyelt és felügyelet nélküli rendellenesség észlelés viszonylagos előnyeit.

14. Tekintsünk dokumentumok egy csoportját, amelyet egy sokféle dokumentumot tartalmazó jóval nagyobb halmazból választottunk úgy, hogy a kiválasztott dokumentumok olyan különbözőek egymástól, amennyire csak lehetséges. Ha az egymáshoz szorosan nem kapcsolódó (nem hasonló) dokumentumokat tekintjük rendellenesnek, akkor minden kiválasztott dokumentum rendellenesként osztályozható. Lehetséges-e, hogy egy adathalmaz csak rendellenes objektumokat tartalmazzon, vagy ez a szóhasználat kifacsarása?

15. Tekintsünk egy ponthalmazt, ahol a legtöbb pont kis sűrűségű területeken van, azonban néhány pont nagy sűrűségű területeken található. Ha a kis sűrűségű területek pontjait tekintjük rendellenességnek, akkor a legtöbb pont rendellenességként lesz osztályozva. Megfelelő alkalmazása-e ez a rendellenesség sűrűség-alapú definíciójának, vagy módosítani kellene valahogy a definíciót?

16. Tekintsünk egy ponthalmazt, ami egyenletesen oszlik el a [0,1] intervallumon. Értelmes-e ezekre az adatokra az a statisztikai kiugró érték fogalom, ami szerint egy ritkán megfigyelt érték kiugró?

17. Egy elemző egy rendellenesség észlelő algoritmust alkalmaz egy adathalmazra és megtalálja rendellenességek egy halmazát. Mivel kíváncsi, a rendellenesség észlelő algoritmust a rendellenességek halmazára is alkalmazza.

  1. Vizsgálja az ebben a fejezetben bemutatott minden egyes rendellenesség észlelő módszer viselkedését. (Ha lehetséges, próbálja ki valódi adatokkal és algoritmusokkal.)

  2. Mit gondol, hogyan kellene működnie egy rendellenesség észlelő algoritmusnak, ha a rendellenes objektumok egy halmazára alkalmazzuk?