Adatbányászati feladatok

Az adatbányászati feladatok általában két fő kategóriába sorolhatóak:

Előrejelző (predictive) feladatok. Ezen feladatok célja egy bizonyos attribútum értékeinek előrejelzése más attribútumok értékei alapján. Az előrejelzendő attribútum általában cél- vagy függő változóként, míg az előrejelzésre használt attribútumok magyarázó vagy független változókként ismertek.

Leíró (descriptive) feladatok. Itt a cél olyan mintázatok (korrelációk, tendenciák, klaszterek, pályagörbék és rendellenességek) keresése, amelyek összegzik az adatokban elrejtett kapcsolatokat. A leíró adatbányászati feladatok gyakran feltáró jellegűek, és gyakran igényelnek utófeldolgozási módszereket az eredmények hitelesítése és magyarázata céljából.

Az 1.3. ábra négy olyan alapvető adatbányászati feladatot szemléltet, amelyeket a könyv hátralévő részében ismertetünk.

1.3. ábra - Négy alapvető adatbányászati feladat

Négy alapvető adatbányászati feladat

Prediktív modellezés alatt azt a feladatot értjük, amely során egy olyan modellt építünk, ahol a célváltozó a magyarázó változók egy függvénye. Kétféle prediktív modellezési feladat ismert: az osztályozás, amelyet diszkrét célváltozók, és a regresszió, amelyet folytonos célváltozók esetén használunk. Annak előrejelzése például, hogy egy felhasználó a weben vásárol-e egy online könyvesboltban, osztályozási feladat mivel a célváltozó bináris értékű. Másrészt egy részvény jövőbeli árának előrejelzése regressziós feladat, mert az ár folytonos attribútum. A cél mindkét feladatnál az, hogy egy olyan modellt tanítsunk, amely minimalizálja a célváltozó előrejelzett és valós értéke közötti hibát. Prediktív modellezést használhatunk olyan ügyfelek megtalálására, akik válaszolnak egy marketing kampányra, a Föld ökoszisztémája zavarainak az előrejelzésére, vagy annak eldöntésére az orvosi vizsgálatok eredményei alapján, hogy egy beteg egy adott betegségben szenved-e.

1.1. Példa (Egy virág típusának előrejelzése)

Tekintsük azt a feladatot, amelyben egy virág fajtáját szeretnénk előrejelezni a virág tulajdonságai alapján. Speciálisan tekintsük az írisz virág osztályozását aszerint, hogy a következő három írisz fajta melyikébe tartozik: nőszirom (Setosa), foltos nőszirom (Versicolor), vagy virginiai nőszirom (Virginica). Ennek a feladatnak az elvégzésére ezen három fajta különböző virágainak a jellemzőit tartalmazó adatállományra van szükségünk. Egy ilyen típusú információkat tartalmazó adatállomány a jól ismert Írisz adatállomány a UCI Machine Learning Repository-ból (Kaliforniai Egyetem gépi tanulás adattárháza) a http://www.ics.uci.edu/~mlearn címen. A virágok fajtája mellett ez az adatállomány négy másik attribútumot is tartalmaz: a csészelevél szélessége és hosszúsága, valamint a sziromlevél hosszúsága és szélessége. (Az Írisz adatállomány és attribútumainak további leírása megtalálható 3.1. szakaszban.) Az 1.4. ábra a szirom szélességet a szirom hosszúsága függvényében mutatja az Írisz adatállomány 150 virágára. A szirom szélességet kicsi, közepes és nagy kategóriákba osztottuk, amelyek a [0;0,75) , [0,75;1,75) és [1,75;8) intervallumoknak felelnek meg. A szirom hosszúságot is kicsi, közepes és nagy kategóriákba osztottuk, amelyek a [0;2,5) , [2,5;5) és [5;8) intervallumoknak felelnek meg. Mindezen szirom szélességi és hosszúsági kategóriák alapján a következő szabályokat származtathatjuk:

Kis szirom szélesség és szirom hosszúság Setosa fajtára utal.

Közepes szirom szélesség és szirom hosszúság Versicolor fajtára utal.

Nagy szirom szélesség és szirom hosszúság Virginica fajtára utal.

Bár ezek a szabályok nem osztályozzák helyesen az összes virágot, mégis jó, de messze nem tökéletes osztályozást adnak a legtöbb virág számára. Megjegyezzük, hogy a Setosa fajtabeli virágok jól elkülönülnek a Versicolor és Virginica fajtáktól a szirom szélesség és hosszúság tekintetében, azonban a két utóbbi fajta között kis átfedés van ezen tulajdonságok alapján.

1.4. ábra - Szirom szélesség a szirom hosszúság függvényében a 150 írisz virágra

Szirom szélesség a szirom hosszúság függvényében a 150 írisz virágra

Asszociációs elemzés olyan mintázatok felfedezésére alkalmazható, amelyek az adatok szorosan összefüggő jellemzőit írják le. A feltárt mintázatok tipikusan következtetési szabályok vagy jellemző részhalmazok alakjában szemléltethetőek. Mivel a keresés terének nagysága exponenciálisan nő, az asszociációs elemzés célja a legérdekesebb mintázatok hatékony módon való kinyerése. Az asszociációs elemzés hasznos alkalmazási területei többek között olyan gének csoportjainak keresése, amelyek funkciói összefüggenek, olyan Web oldalak azonosítása, amelyek együtt érhetők el, vagy a Föld éghajlati rendszerének különböző elemei közötti kapcsolatok megértése.

1.2. Példa (Vásárlói kosár elemzés)

Az 1.1. táblázatbeli tranzakciók olyan automatizált vásárlásnál keletkezett adatokat ábrázolnak, amelyeket egy élelmiszer-áruház pénztárainál gyűjtöttünk össze. Asszociációs elemzést alkalmazhatunk arra, hogy olyan árucikkeket találjunk, melyeket gyakran vásárolnak egyszerre a vásárlók. Felfedezhetjük például a {Pelenka}{Tej} szabályt, amely azt sugallhatja, hogy azok a vásárlók, akik pelenkát vesznek, hajlamosak arra, hogy tejet is vegyenek. Az ilyen típusú szabályok a kapcsolódó árucikkek közötti potenciális keresztértékesítési lehetőségek megtalálására használhatóak.

1.1. táblázat - Vásárlói kosár adatok

Tranzakció ID

Árucikkek

1

{Kenyér, Vaj, Pelenka, Tej}

2

{Kávé, Cukor, Keksz, Lazac}

3

{Kenyér, Vaj, Kávé, Pelenka, Tej, Tojás}

4

{Kenyér, Vaj, Lazac, Csirke}

5

{Tojás, Kenyér, Vaj}

6

{Lazac, Pelenka, Tej}

7

{Kenyér, Tea, Cukor, Tojás}

8

{Kávé, Cukor, Csirke, Tojás}

9

{Kenyér, Pelenka, Tej, Só}

10

{Tea, Tojás, Keksz, Pelenka, Tej}


Klaszterezés módszerével úgy igyekszünk megtalálni szorosan kapcsolódó megfigyelések csoportjait, hogy az ugyanahhoz a klaszterhez tartozó megfigyelések jobban hasonlítsanak egymásra, mint a más klaszterekhez tartozó megfigyelések. Klaszterezést használnak kapcsolódó ügyfelek halmazainak csoportosítására, az óceán azon részeinek megkeresésére, amelyek jelentős hatással bírnak a Föld éghajlatára, és adatok tömörítésére.

1.3. Példa (Dokumentumok klaszterezése)

Újságcikkek egy, 1.2. táblázatban látható gyűjteményét csoportosíthatjuk a megfelelő témáik alapján. Minden egyes cikket (w,c) szó-gyakoriság párok egy halmazával reprezentálhatunk, ahol w egy szó és c az a szám, ahányszor a szó előfordul a cikkben. Az adatállományban két természetes klaszter van. Az első klaszter, amely a gazdasági újságcikkeknek felel meg, az első négy cikkből áll, míg a második klaszter, amely az utolsó négy cikket tartalmazza, az egészségügyi ellátásról szóló cikkeknek felel meg. Egy jó klaszterező algoritmusnak tudnia kell azonosítani ezt a két klasztert a cikkekben előforduló szavak közötti hasonlóság alapján.

1.2. táblázat - Újságcikkek egy gyűjteménye

Cikk

Szavak

1

dollár: 1, ipar: 4, vidék: 2, kölcsön: 3, üzlet: 2, kormány: 2

2

szervezet: 2, munkaerő: 3, piac: 4, ipar: 2, munka: 3, vidék: 1

3

állás: 5, infláció: 3, béremelés: 2, munkanélküli: 2, piac: 3, vidék: 2, index: 3

4

belföldi: 3, előrejelzés: 2, nyereség: 1, piac: 2, kiárusítás: 3, ár: 2

5

beteg: 4, tünet: 2, gyógyszer: 3, egészség: 2, klinika: 2, orvos: 2

6

gyógyszerészeti: 2, vállalat: 3, gyógyszer: 2, oltóanyag: 1, influenza: 3

7

halál: 2, rák: 4, gyógyszer: 3, nyilvános: 4, egészség: 3, igazgató: 2

8

orvosi: 2, költség: 3, növekszik: 2, beteg: 2, egészség: 3, gondoskodás: 1


Rendellenesség-észlelés alatt olyan megfigyelések azonosításának a feladatát értjük, amelynek jellemzői jelentősen eltérnek a többi adattól. Az ilyen megfigyeléseket rendellenesnek (anomaly) vagy kiugrónak (outlier) nevezzük. Egy rendellenesség-észlelő algoritmus célja, hogy igazi rendellenességeket találjon és elkerülje azt, hogy normális objektumokat hamisan rendellenesnek címkézzen. Más szóval, egy jó rendellenesség érzékelőnek magas felismerési aránnyal és alacsony téves riasztási aránnyal kell rendelkeznie. A rendellenesség-észlelés alkalmazható többek között csalások, hálózati behatolások, szokatlan betegségek és az ökoszisztéma zavarainak észlelésére.

1.4. Példa (Hitelkártya-csalások keresése)

Egy hitelkártya-társaság az összes hitelkártya-tulajdonos által végrehajtott tranzakciót rögzíti, továbbá olyan személyes adatokat, mint például a hitelkorlát, életkor, éves jövedelem és lakcím. Mivel a csalárd esetek száma viszonylag kicsi a jogszerű tranzakciók számához képest, rendellenesség-észlelési módszereket alkalmazhatunk arra, hogy a felhasználók jogszerű trancakcióira profilt alkossunk. Amikor egy új tranzakció érkezik, összehasonlításra kerül a felhasználó profiljával. Ha a tranzakció jellemzői nagyon eltérnek a korábban létrehozott profiltól, akkor a tranzakció a lehetséges csalás jelét kapja.