Irodalmi megjegyzések

A rendellenesség észlelés hosszú történettel rendelkezik, különösen a statisztikában, ahol kiugró érték észlelésként ismert. Barnett és Lewis [4169], Hawkins [4175], valamint Rousseeuw és Leroy [4184] a téma fontos könyvei. Beckman és Cook cikke [4170] részletes áttekintést ad arról, hogy a statisztikusok hogyan tekintenek a kiugró érték észlelés feladatára, valamint a téma történetéről, egészen Bernoulli 1777-ben publikált megjegyzéséig. Lásd a kapcsolódó [4176, 4171] cikkeket is. Egy másik átfogó cikk a kiugró érték észlelésről Barnett munkája [4190]. A kiugró értékek többdimenziós adatokban való kereséséről írt cikkek többek között Davies és Gather [4202], Gnanadesikan és Kettenring [4212], Rocke és Woodruff [4241], Rousseeuw és van Zomerenand [4244], valamint Scott [4247]. Rosner [4242] több kiugró érték egyidejű megtalálásának kérdését tárgyalja.

Hodge és Austin [4177] a kiugró érték észlelő módszerek átfogó áttekintését adja. Markou és Singh [4236, 4237] kétrészes összefoglalót közöl az újdonság észlelésről, mely lefedi a statisztikai és neurális hálós eljárásokat. Grubbs kiugró érték észlelésre alkalmas eljárását először [4174] írta le. A 10.2.3. szakasz keverék modell megközelítése Eskin [4206] munkája. A távolság-alapú kiugró érték fogalmát és azt a tényt, hogy ez a definíció a kiugró érték több statisztikai definícióját is magában foglalhatja, Knorr és társai [4225, 4226, 4227] írták le. A LOF eljárás (Breunig és társai [4198, 4197]) a DBSCAN-ből fejlődött ki. Ramaswamy és társai [4240] olyan távolság-alapú kiugró érték észlelő eljárást javasoltak, amely minden objektumra egy kiugró érték pontszámot ad a k -legközelebbi szomszédjának távolsága alapján. Hatékonyság az adatoknak a BIRCH (9.5.2. szakasz) első fázisát alkalmazó particionálásával érhető el. Chaudhary és társai [4200] k d-fákat használnak a kiugró érték észlelés hatékonyságának növelésére, viszont Bay és Schwabacher [4192] véletlenítést és nyesést javasol a hatékonyság javítására. Aggarwal és Yu [4159] vetítést használ sokdimenziós adatok esetén történő kiugró érték észlelésre, míg Shyu és társai [4249] egy főkomponenseken alapuló megközelítést alkalmaznak. A sokdimenziós terekben történő kiugró érték észlelés elméleti tárgyalása Dunagan és Vempala cikkében [4205] található. Az információs mértékek rendellenesség észlelésben történő alkalmazását Lee és Xiang [4234] tárgyalja, míg Ye és Chen [4255] χ 2 mértéken alapuló megközelítést ad.

Sok különböző osztályozási eljárás alkalmas rendellenesség észlelésre. A neurális hálók területéről származó megközelítések tárgyalása megtalálható Hawkins és társai [4215], Ghosh és Schwartzbard [4211], valamint Sykacek [4251] cikkeiben. A ritka osztályok észleléséről szóló újabb munkák közé tartoznak Joshi és társai cikkei [4220, 4223, 4221, 4222, 4219]. A ritka osztály problémát néha kiegyensúlyozatlan adatok problémájának is nevezik. Ebben a témában fontos egy AAAI workshop (Japkowicz [4597]), egy ICML workshop (Chawla és társai [4598]), és a SIGKDD Explorations egy különszáma (Chawla és társai [4256]).

A klaszterezés és a rendellenesség észlelés régóta kapcsolatban van egymással. A 8. és a 9. fejezetekben olyan eljárásokat tekintettünk, mint a BIRCH, CURE, DENCLUE, DBSCAN és az SNN sűrűség-alapú klaszterezés, amelyek kifejezetten rendellenességek kezelésére is tartalmaznak módszereket. Scott [4247], valamint Hardin és Rocke [4214] cikkei írnak le ezt a kapcsolatot tárgyaló statisztikai megközelítéseket.

Ebben a fejezetben az alapvető rendellenesség észlelő sémákra koncentráltunk. Nem tekintettünk olyan sémákat, amelyek figyelembe veszik az adatok térbeli vagy időbeli természetét. Shekhar és társai [4248] részletesen tárgyalják a térbeli kiugró értékek problémáját, valamint a térbeli kiugró értékek egységes megközelítését adják. Az idősorok kiugró értékeinek kérdését statisztikailag precíz módon először Fox [4210] vizsgálta. Muirhead [4238] az idősorok kiugró értékeinek különböző fajtáit tárgyalja. Abraham és Chuang [4152] egy Bayes-féle megközelítést javasol idősorok kiugró értékeihez, míg Chen és Liu [4201] az idősorok kiugró értékeinek különböző típusait tekinti, módszert javasol észlelésükre és jó becsléseket kap az idősor paraméterekre. Jagadish és társai [4216] valamint Keogh és társai [4224] végeztek munkát a normálistól eltérő vagy meglepő mintázatok idősor adatbázisokban történő megkeresésének témájában. A geometriai ötleteken, mint például a konvex burok mélysége, alapuló kiugró érték észlelést vizsgálták Johnson és társai [4217], Liu és társai [4235], valamint Rousseeuw és társai [4243] cikkei.

A rendellenesség észlelés fontos alkalmazási területe a behatolások felderítése. Az adatbányászat behatolások észlelésében történő alkalmazásairól adnak áttekintését Lee és Stolfo [4232], valamint Lazarevic és társai [4231]. Egy másik cikkben Lazarevic és társai [4230] a hálózati behatolásokhoz kötődő rendellenesség észlelő rutinok egy összehasonlítását adják. Lee és társai [4233] egy keretrendszert adnak adatbányászati módszerek behatolások észleléséhez történő használatához. A behatolás észlelés klaszterezés-alapú megközelítései közé tartoznak Eskin és társai [4207], Lane és Brodley [4229], valamint Portnoy és társai [4239] munkái.