2. fejezet - Adatok

Tartalom

Adattípusok
Attribútumok és mérésük
Az adatállományok típusai
Adatminőség
A mérés és adatgyűjtés kérdései
Alkalmazásokhoz kapcsolódó kérdések
Az adatok előfeldolgozása
Aggregálás
Mintavétel
Dimenziócsökkentés
Jellemzők részhalmazainak kiválasztása
Jellemzők létrehozása
Diszkretizálás és binarizálás
Változó transzformáció
Hasonlósági és különbözőségi mértékek
Alapok
Egyszerű attribútumok hasonlósága és különbözősége
Adatobjektumok különbözőségei
Hasonlóságok adatobjektumok között
Példák szomszédsági mértékekre
A szomszédság kiszámításának kérdései
A megfelelő szomszédsági mérték kiválasztása
Irodalmi megjegyzések
Feladatok

Ez a fejezet számos olyan adatokkal kapcsolatos kérdést tárgyal, melyek fontosak a sikeres adatbányászathoz:

Az adatok típusa Az adatállományok jó pár szempontból különbözhetnek egymástól. Például az adatobjektumok leírására használt attribútumok lehetnek különböző -- kvantitatív vagy kvalitatív -- típusúak, és az adatállomá-nyoknak lehetnek speciális jellemzőik is, például egyes adatállományokban lehetnek idősorok vagy egymással világos kapcsolatban álló objektumok. Nem meglepő módon az adatok típusa határozza meg, hogy mely eszközök és módszerek alkalmazhatóak az elemzésükre. Továbbá az adatbányászat területén végzett új kutatásokat is gyakran motiválja annak igénye, hogy új alkalmazási területekhez, és azok új adattípusaihoz alkalmazkodjunk.

Az adatok minősége Az adatok gyakran messze nem tökéletesek. Bár a legtöbb adatbányászati módszer egy bizonyos szintig tűri az adatok tökéletlenségét, ha az adatok megértésére és javítására helyezzük a hangsúlyt, általában az így kapott vizsgálati módszer minősége is javul. A gyakran felmerülő adatminőségi problémák közé tartoznak a zaj és kiugró értékek jelenléte; a hiányzó, inkonzisztens vagy duplikált adatok; és az olyan adatok, amelyek torzítottak vagy valamilyen más okból nem reprezentatívak arra a jelenségre vagy populációra nézve, amelyet le kellene írniuk.

Előfeldolgozási lépések annak érdekében, hogy az adatokat alkalmasabbá tegyük adatbányászat végzésére A nyers adatokat gyakran előfeldolgozásnak kell alávetnünk, hogy az elemzésre alkalmasak legyenek. A cél egyrészt lehet az adatminőség javítása, másrészt az adatok avégett történő módosítása, hogy egy bizonyos adatbányászati módszerhez vagy eszközhöz jobban illeszkedjenek. Előfordulhat például, hogy egy folytonos attribútumot, például a hosszúságot egy diszkrét kategóriákkal (úgymint rövid, közepes, vagy hosszú) rendelkező attribútumra kell leképezni azért, hogy egy bizonyos módszer alkalmazható legyen rá. Egy másik példa, hogy az adatállomány attribútumainak számát gyakran csökkenteni kell, mivel sok módszer hatékonyabban működik viszonylag kevés attribútummal rendelkező adatállományokon.

Az adatok elemzése belső kapcsolataik útján Az adatelemzés egyik megközelítése, hogy először feltárjuk az adatobjektumok közötti kapcsolatokat, és az elemzés hátralevő részét az objektumok helyett ezek felhasználásával hajtjuk végre. Kiszámolhatjuk például az objektumok közötti páronkénti hasonlóságot vagy távolságot, és azután az elemzés -- klaszterezés, osztályozás vagy rendellenesség-észlelés -- elvégezhető ezekre a hasonlóságokra vagy távolságokra alapozva. Sok ilyen hasonlóság- vagy távolságmérték van, a megfelelő kiválasztása az adatok típusától és a konkrét felhasználási területtől függ.

2.1. Példa (Az adatokkal kapcsolatos problémák egy szemléltető példája)

Hogy jobban megvilágítsuk ezen kérdések fontosságát, tekintsük a következő elképzelt helyzetet. A következő e-mailt kapjuk egy kutatóorvostól egy projekttel kapcsolatban, amiben nagyon szeretnénk részt venni:

Szia,

Csatoltam az adatfájlt, amit az előző e-mailemben említettem. Minden sorban egy páciensre vonatkozó adatok vannak, és minden sor öt mezőből áll. Az utolsó mező értékét akarjuk megjósolni a többi mező alapján. Nincs időm egyéb információkat adni az adatokról, mert el kell utaznom pár napra, de remélem ez nem fog nagyon hátráltatni. És ha nem gond, amikor visszajöttem, tudnánk találkozni, és beszélni az előzetes eredményeidről? Lehet, hogy a csoportom néhány más tagját is meghívom.

Előre is köszönöm és találkozunk néhány nap múlva.

Rossz előérzetünk ellenére megkezdjük az adatok elemzését. A fájl első pár sora a következő:

012

232

33,5

0

10,7

020

121

16,9

2

210,1

027

165

24,0

0

427,6

    

Első pillantásra semmi furcsa nem tűnik fel. Kétségeinket hátrahagyva megkezdjük az elemzést. Csak 1000 sor van, kevesebb, mint amit reméltünk, de két nappal később úgy érezzük, sikerült valamelyest előrehaladnunk. Megérkezünk a megbeszélésre, és miközben a többiekre várunk, beszélgetni kezdünk egy statisztikussal, aki szintén a projekten dolgozik. Mikor megtudja, hogy mi is foglalkoztunk a projekt adatainak elemzésével, megkérdezi, hogy röviden összefoglalnánk-e neki az eredményeinket.

Statisztikus: Szóval, megkapta minden páciens adatait?

Adatbányász: Igen. Nem sok időm volt az elemzésre, de van néhány érdekes eredményem.

Statisztikus: Lenyűgöző. Annyi adatprobléma volt ezzel a páciens populációval, hogy én nem sokat tudtam kezdeni vele.

Adatbányász: Ó, igen? Én nem hallottam semmiféle lehetséges problémáról.

Statisztikus: Hát, először is ott van az 5. mező, a változó, amit előre akarunk jelezni. Köztudott azok körében, akik ilyen típusú adatok elemzésével foglalkoznak, hogy sokkal jobb eredmények születnek, ha az értékek logaritmusával dolgoznak, de én ezt csak nemrég tudtam meg. Önnek ezt említették?

Adatbányász: Nem.

Statisztikus: De arról biztos tud, hogy mi történt a 4. mezővel? Egy 1-től 10-ig terjedő skálán kellett volna mérni, ahol 0 jelzi a hiányzó értéket, de egy adatbeviteli hiba miatt az összes 10-es helyén 0 van. Sajnos, mivel néhány betegnek tényleg hiányzik ez az adata, nem lehet megmondani, hogy melyik 0 valóban 0, és melyiknek kellene 10-nek lennie. Ez a probléma jó pár rekordot érint.

Adatbányász: Érdekes. Volt még más probléma is?

Statisztikus: Igen. A 2. és a 3. mező gyakorlatilag ugyanaz, bár gondolom ezt észrevette.

Adatbányász: Igen, de ezek a mezők csak gyenge prediktorai voltak az 5. mezőnek.

Statisztikus: Akárhogy is, ilyen problémák mellett meglep, hogy bármilyen eredményt el tudott érni.

Adatbányász: Hát igen, de az eredményeim tényleg elég jók. Az 1. mező nagyon erős prediktora az 5.-nek. Csodálkozom, hogy ezt eddig nem vették észre.

Statisztikus: Tessék? Az 1. mező csak egy azonosító szám.

Adatbányász: Mégis, az eredményeim magukért beszélnek.

Statisztikus: Ó nem! Most jut eszembe! A rekordokhoz azután rendeltük hozzá az azonosítókat, miután rendeztük őket az 5. mező értéke szerint. Így van egy erős kapcsolat, de az értelmetlen. Sajnálom.

Bár ez a forgatókönyv egy elég extrém helyzetet mutat be, mégis rámutat annak fontosságára, hogy ``ismerjük az adatainkat''. Ezzel bezárólag mind a négy fentebb említett problémát tárgyalja a fejezet, áttekintve néhány alapvető kihívást és alapvető megközelítést.

Adattípusok

Egy adatállomány gyakran tekinthető adatobjektumok egy kollekciójának. Az adatobjektum más elnevezései rekord, pont, vektor, minta, eset, előfordulás, elem, megfigyelés vagy egyed. Másfelől, az adatobjektumokat számos attribútum írja le, melyek az objektum alapvető tulajdonságait ragadják meg, mint például egy fizikai objektum tömege, vagy egy esemény bekövetkezésének ideje. Az attribútum más elnevezései változó, jellegzetesség, mező, jellemző vagy dimenzió.

2.2. Példa (Hallgatói adatok)

Az adatállomány gyakran egy fájl, aminek a fájlban lévő rekordok (vagy sorok) az objektumai, és minden mező (vagy oszlop) egy attribútumhoz tartozik. Például 2.1. táblán egy hallgatói adatokat tartalmazó adatállomány látható. Minden sor egy diákhoz tartozik, és minden oszlop egy attribútum, ami az adott hallgatót leírja valamilyen szempontból, mint például a tanulmányi átlag (GPA) vagy az azonosító szám (ID).

2.1. táblázat - Hallgatói információkat tartalmazó minta adatállomány

Hallgató azonosító

Év

Tanulmányi átlag (GPA)

1034262

Végzős

3,24

1052663

Másodéves

3,51

1082246

Gólya

3,62


Bár a rekordalapú adatállományok jelentik a szokásos megoldást egyszerű fájlokban és relációs adatbázis-kezelő rendszerekben egyaránt, az adatállományoknak és az adattároló rendszereknek más fontos típusai is léteznek. 2.1.2 szakaszban néhány olyan adatállománytípust fogunk tárgyalni, amelyekkel az adatbányászat során általában találkozhatunk. Azonban először az attribútumokat tekintjük át.

Attribútumok és mérésük

Ebben a részben abból a szempontból tárgyaljuk az adatok leírását, hogy milyen attribútumtípusok használatosak az adatobjektumok leírásánál. Először az attribútumot definiáljuk, majd azt tekintjük át, hogy mit értünk egy attribútum típusa alatt, végül pedig leírjuk a gyakran előforduló attribútumtípusokat.

Mi az attribútum?

Először az attribútum egy részletesebb definícióját tekintjük.

2.1. Definíció. Egy attribútum egy objektum olyan tulajdonsága vagy jellemzője, amely objektumonként és időben egyaránt változhat. Például a szemszín személyenként különböző, míg egy tárgy hőmérséklete idővel változik. Megjegyezzük, hogy a szemszín egy szimbolikus érték, viszonylag kevés lehetséges értékkel: {barna,fekete,ke'k,z o ¨ ld,mogyoro',stb.} , míg a hőmérséklet egy numerikus attribútum, végtelen sok lehetséges értékkel.

A legelemibb szinten az attribútumok nem számokról és szimbólumokról szólnak, azonban az objektumok jellemzőinek tárgyalásához és pontosabb elemzéséhez számokat vagy szimbólumokat rendelünk hozzájuk. Ahhoz, hogy ezt jól definiált módon végezhessük, mérési skálára van szükségünk.

2.2. Definíció. A mérési skála (measurement scale) egy olyan szabály (függvény), ami egy numerikus vagy szimbolikus értéket rendel hozzá egy objektum egy attribútumához. Formálisan a mérés folyamata azt jelenti, hogy egy mérési skála alkalmazásával egy értéket rendelünk hozzá egy adott objektum egy konkrét attribútumához. Bár ez kicsit elvontnak tűnhet, rendszeresen alkalmazunk mérési eljárásokat. Például rálépünk a fürdőszobai mérlegre, hogy meghatározzuk a súlyunkat, valakit besorolunk mint férfit vagy nőt, vagy megszámoljuk a székeket egy szobában, hogy eldöntsük, egy megbeszélés összes résztvevőjét le tudjuk-e majd ültetni. Mindezen esetekben leképeztük egy objektum egy attribútumának ``fizikai értékét'' egy numerikus vagy szimbolikus értékre.

Ezzel a háttérrel már tárgyalhatjuk az attribútumok típusát, melynek fogalma fontos annak meghatározásához, hogy egy bizonyos adatelemzési módszer konzisztens-e egy speciális attribútumtípussal.

Az attribútumok típusa

Az előzőek alapján nyilvánvaló, hogy egy attribútum és a mérésére használt értékek tulajdonságai nem kell, hogy megegyezzenek. Más szóval, egy attribútumot reprezentáló értékeknek lehetnek olyan tulajdonságai, amelyek nem igazak az attribútumra és fordítva. Ezt két példával szemléltetjük.

2.3. Példa (Alkalmazottak életkora és azonosító száma)

Az azonosító szám (ID) és az életkor (években) két olyan attribútum, amelyeket hozzárendelhetünk egy alkalmazotthoz. Mindkét attribútumot ábrázolhatjuk egész számként. Azonban amíg ésszerű az alkalmazottak átlagéletkoráról beszélni, az átlagos azonosítónak nincs értelme. Sőt, valójában az egyetlen szempont, melyet le akarunk írni az azonosítóval, az az, hogy különbözőek-e. Ennek következményeképpen az egyetlen érvényes művelet az alkalmazottak azonosítóira az egyenlőségük ellenőrzése. Amikor azonban az alkalmazott azonosító attribútumot egész számokkal ábrázoljuk, nincs semmilyen utalás erre a megszorításra. Az életkor attribútum esetén az ábrázoláshoz használt egész számok tulajdonságai nagyon hasonlóak az attribútum tulajdonságaihoz. De még így sem teljes az egyezés, mivel például az életkornak van egy maximális értéke, míg az egészeknek nincs.

2.4. Példa (Szakaszok hossza)

Tekintsük a 2.1. ábrát, amelyen néhány objektum -- szakasz -- látható, továbbá az, hogy ezek hosszúság attribútuma hogyan képezhető le számokra két különböző módon. Felülről lefelé haladva minden rákövetkező szakasz úgy áll elő, hogy az azt megelőzőhöz hozzáfűzzük a legfelső szakaszt. Így a felülről második szakasz úgy áll elő, hogy a legfelső szakaszt önmagával kétszer fűzzük össze, a harmadik úgy, hogy a legfelső szakaszt önmagával háromszor fűzzük össze, és így tovább. Egy nagyon is valós (fizikai) értelemben ez azt jelenti, hogy minden szakasz az első többszöröse. Ezt a tényt tükrözik az ábra jobb oldalán lévő mérések, a bal oldaliak viszont nem. Pontosabban, a bal oldali mérési skála csak a hosszúság attribútum rendezési tulajdonságát tükrözi, míg a jobb oldali skála a rendezési és additív tulajdonságait is. Tehát egy attribútum mérhető olyan módon, mely nem tükrözi az attribútum minden tulajdonságát.

2.1. ábra - Szakaszok hosszának mérése két különböző mérési skálán

Szakaszok hosszának mérése két különböző mérési skálán

Egy attribútum típusából ki kellene, hogy derüljön, milyen tulajdonságai tükröződnek vissza a mérésére használt értékekben. Azért fontos, hogy ismerjük az attribútum típusát, mert az meghatározza, hogy a mért értékek mely tulajdonságai konzisztensek az attribútum alaptulajdonságaival, ezáltal elkerülhetővé teszi az olyan értelmetlen tevékenységeket, mint az alkalmazottak átlagos azonosítójának kiszámítása. Megjegyezzük, hogy egy attribútum típusára általában egy mérési skála típusként hivatkozunk.

Az attribútumok különböző típusai

Egy attribútum típusának meghatározására hasznos (és egyszerű) módszer, hogy azonosítjuk az attribútum alaptulajdonságainak megfelelő számok tulajdonságait. Egy olyan attribútum például, mint a hosszúság, a számok sok tulajdonságával rendelkezik. Van értelme az objektumok hosszúsága összehasonlításának és rendezésének, mint ahogy a különbségeik és hányadosaik tárgyalásának is. Jellemzően a számok következő tulajdonságait (műveleteit) alkalmazzák attribútumok leírására:

  1. Különbözőség: = és

  2. Rendezés: , , és

  3. Összeadás: + és

  4. Szorzás: * és /

Ezen tulajdonságok alapján négy attribútumtípust tudunk definiálni: névleges (nominális) , sorrendi (ordinális) , intervallum és hányados. A 2.2. táblázatban ezen típusok definícióit, továbbá az egyes típusokra alkalmazható statisztikai műveletekkel kapcsolatos információkat találhatunk. Minden attribútumtípus rendelkezik a felette lévő attribútumtípusok minden tulajdonságával és műveletével. Ebből következik, hogy bármely, névleges, sorrendi és intervallum típusú attribútumokra érvényes tulajdonság vagy művelet érvényes hányados típusú attribútumokra is. Más szóval, az attribútumtípusok definíciója halmozódó. Ez nem jelenti azonban azt, hogy adott attribútumtípusra alkalmazható műveletek alkalmazhatóak a felette lévő attribútumtípusokra is.

A névleges és sorrendi attribútumokat gyűjtőnéven kategorikus vagy kvalitatív attribútumoknak is nevezik. Ahogy a név is sejteti, a kvalitatív attribútumokból, mint például az alkalmazott azonosító, hiányzik a számok tulajdonságainak nagy része. Még ha számokkal is vannak ábrázolva, úgymint egész számokkal, inkább szimbólumokként kell őket kezelnünk. A két fennmaradó attribútumtípust, az intervallum és a hányados típusokat nevezik gyűjtőnéven kvantitatív vagy numerikus attribútumoknak. A kvantitatív attribútumokat számokkal ábrázolják és rendelkeznek a számok legtöbb tulajdonságával. Megjegyezzük, hogy a kvantitatív attribútumok lehetnek egész értékűek vagy folytonos értékűek.

Abban az értelemben is tekinthetjük az attribútumok típusait, hogy mely transzformációk nem változtatják meg az attribútum jelentését. Valójában S. Smith Stevens pszichológus, aki a 2.2. táblázatban látható attribútumtípusokat eredetileg definiálta, ezen megengedhető transzformációk alapján alkotta meg definícióit. Például egy hosszúság attribútum értelmén nem változtat, hogy méterben vagy lábban mérjük.

Azoknak a statisztikai műveleteknek lesz értelme egy bizonyos attribútumtípuson, amelyek ugyanazt az eredményt szolgáltatják azután is, hogy egy olyan transzformációt alkalmaztunk az attribútumra, mely megőrzi annak jelentését. Szemléltetésképpen, egy objektumhalmaz átlagos hossza más lesz ha méterben, és nem lábban mérjük, de mindkét átlagérték ugyanazt a hosszt jelenti. A 2.3. táblázat mutatja a megengedhető (a jelentést megőrző) transzformációkat a 2.2. táblázatban megadott négy attribútumtípusra.

2.5. Példa (Hőmérsékleti skálák)

A hőmérséklet példáján keresztül jól szemléltethető néhány fentebb leírt fogalom. Először is a hőmérséklet a mérési skálától függően lehet intervallum vagy hányados típusú attribútum is. Ha a Kelvin skálán mérjük, a 2 -os hőmérséklet fizikai értelemben az 1 -os hőmérséklet duplája. Ez nem igaz ha akár a Celsius, akár a Fahrenheit skálán mérünk, mert fizikai értelemben az 1 Fahrenheit (Celsius) és a 2 Fahrenheit (Celsius) között nem sok különbség van. A probléma az, hogy fizikai szempontból a Fahrenheit és a Celsius skálák nulla pontjai önkényesen kijelöltek, és így két Celsiusban vagy Fahrenheitben mért hőmérsékleti érték hányadosa fizikai értelemben nem bír jelentéssel.

Attribútumok leírása az értékek számával

Az attribútumok megkülönböztetésének egy független módja, ha az általuk felvehető értékek számára alapozunk.

Diszkrét attribútumok Egy diszkrét attribútumnak véges vagy megszámlálhatóan végtelen sok értéke lehet. Az ilyen attribútumok lehetnek kategorikusak, mint például az irányítószámok, azonosító számok, vagy numerikusak, mint például a darabszámok. A diszkrét attribútumokat gyakran ábrázolják egész típusú változókkal. A diszkrét attribútumok speciális esetei a bináris attribútumok, amelyek csak két értéket feltételeznek, például igaz/hamis, igen/nem, férfi/nő vagy 0/1. A bináris attribútumokat gyakran ábrázolják Boole típusú változókkal, vagy olyan egész típusú változókkal, amelyek csak a 0 és 1 értékeket vehetik fel.

Folytonos attribútumok A folytonos attribútumok értékei valós számok. Ide tartoznak például az olyan attribútumok, mint a hőmérséklet, a magasság vagy a súly. A folytonos attribútumokat jellemzően lebegőpontos változókkal ábrázolják. A gyakorlatban a valós értékek csak korlátozott pontossággal mérhetőek és ábrázolhatóak.

Elméletben minden mérési skála típus -- névleges, sorrendi, intervallum és hányados -- kombinálható az attribútumértékeken alapuló típusok -- bináris, diszkrét és folytonos -- mindegyikével. Azonban némely kombináció csak nagyon ritkán jelenik meg, vagy nem sok értelme van. Például nehéz olyan valós adatállományt mondani, amelyben található folytonos bináris attribútum. A névleges és sorrendi attribútumok jellemzően binárisak vagy diszkrétek, míg az intervallum és hányados attribútumok jellemzően folytonosak. Azonban a darabszám attribútumok, amelyek diszkrétek, hányados típusúak is egyben.

Aszimmetrikus attribútumok

Aszimmetrikus attribútumoknál csak az előfordulást -- a nem nulla attribútumértéket -- tekintjük fontosnak. Tekintsünk egy olyan adatállományt, melyben minden objektum egy hallgató, és az egyes attribútumok azt tartják nyilván, hogy a hallgató részt vett-e egy adott kurzuson egy egyetemen. Egy meghatározott hallgatónál 1 értékű az attribútum, ha a hozzárendelt kurzust elvégezte a hallgató, egyébként pedig 0 értékű. Mivel a hallgatók csak kis hányadát veszik fel az összes hozzáférhető kurzusnak, egy ilyen adatállományban az értékek legtöbbje 0 lenne. Így értelmesebb és hatékonyabb a nem nulla értékekre koncentrálni. Szemléltetésképpen, ha a hallgatókat azon kurzusok alapján hasolítjuk össze, amelyeket nem vettek fel, akkor a legtöbb hallgató nagyon hasonlónak tűnne, legalábbis ha nagy a kurzusok száma. Az olyan bináris attribútumokat, amelyeknél csak a nem nulla értékek lényegesek, aszimmetrikus bináris attribútumoknak nevezzük. Ez az attribútumtípus különösen fontos 6. fejezetben tárgyalt asszociációs elemzésben. Használhatunk diszkrét és folytonos aszimmetrikus jellemzőket is, például ha eltároljuk az egyes kurzusokhoz tartozó krediteket, az így kapott adatállomány aszimmetrikus diszkrét vagy folytonos attribútumokból fog állni.

Az adatállományok típusai

Az adatállományoknak sok típusa létezik, és ahogy az adatbányászat területe fejlődik és egyre kiforrottabb lesz, adatállományok egyre szélesebb választéka válik hozzáférhetővé az elemzés számára. Ebben a részben leírunk néhányat a leggyakoribb típusok közül. Kényelmi megfontolásokból három csoportba soroltuk az adatállományok típusait: rekord típusú, gráfalapú és rendezett adatok. Ezek a kategóriák nem fednek le minden lehetséges típust, és természetesen lehetségesek más csoportosítások is.

Az adatállományok általános jellemzői

Mielőtt rátérünk az adatállományok konkrét típusainak részletezésére, három olyan tulajdonságot tárgyalunk, amelyek számos adatállományra érvényesek, és szignifikáns hatással vannak arra, hogy milyen adatbányászati módszereket alkalmazunk: ezek a dimenzió, a ritkaság és a felbontás.

Dimenzió Egy adatállomány dimenziója az adatállomány objektumainak attribútumszáma. A kis dimenziószámú adatok általában kvalitatív szempontból különböznek a közepes vagy magas dimenziójú adatoktól. Valójában a magas dimenziójú adatok elemzése során felmerülő nehézségekre gyakran hivatkozunk dimenzió problémaként. Ez az oka annak, hogy az adatok előfeldolgozásának egyik fontos motivációja a dimenziócsökkentés. Ezek kérdéseit mélyebben is tárgyaljuk a fejezet későbbi részében és a B. függelékben.

Ritkaság Néhány adatállományban, mint például az olyanokban, amelyekben aszimmetrikus elemek vannak, egy objektum legtöbb attribútumának értéke 0; sok esetben a bejegyzések kevesebb mint 1%-a nem nulla. Gyakorlati szempontból a ritkaság előny, mivel általában csak a nem nulla elemeket kell letárolni és kezelni. Ez jelentős megtakarításokhoz vezet a számítási idő és a tárolás területén, továbbá néhány adatbányászati algoritmus csak ritka adatokon működik jól.

Felbontás Sűrűn előfordul, hogy az adatok csak különböző felbontásban hozzáférhetőek, és az adatok tulajdonságai gyakran eltérőek különböző felbontások mellett. Például a Föld felszíne pár méteres felbontásnál nagyon egyenetlennek tűnik, de több tíz kilométeres felbontásnál viszonylag sima. Az adatállományban található mintázatok szintén függenek a felbontás szintjétől. Ha a felbontás túl finom, akkor egy mintázat láthatatlan lehet vagy elveszhet a zajban; viszont ha a felbontás túl durva, akkor a mintázat eltűnhet. Például egy órákra osztott skálán tekintve a légnyomás változásai a viharok és egyéb időjárási rendszerek mozgását jelzik, míg egy hónapokra osztott skálán ezek a jelenségek nem érzékelhetőek.

Rekord adatok

Számos adatbányászati munka feltételezi, hogy az adatállomány rekordok (adatobjektumok) egy gyűjteménye, és azok mindegyike adatmezők (attribútumok) egy rögzített halmazából áll. (Lásd a 2.2. (a) ábrát.) A rekord adatok legegyszerűbb formájában nincs explicit kapcsolat a rekordok vagy az adatmezők között, és minden rekord (objektum) ugyanazzal az attribútumhalmazzal rendelkezik. A rekord típusú adatokat általában egyszerű (flat) fájlokban vagy relációs adatbázisokban tárolják. Egy relációs adatbázis nyilván több mint egy rekordgyűjtemény, de az adatbányászat során gyakran semmit nem használnak fel a relációs adatbázisban elérhető pluszinformációkból. Az adatbázis leginkább a rekordok tárolására alkalmas helyként szolgál. A rekord típusú adatok különböző típusait írja le és illusztrálja a lentebb látható a 2.2. ábra.

2.2. ábra - Különböző variációk rekord típusú adatokra

Különböző variációk rekord típusú adatokra

Tranzakciós vagy vásárlói kosár adatok A tranzakciós adatok a rekordadatok egy olyan speciális fajtáját képezik, ahol minden rekordban (tranzakcióban) tételek egy halmaza található. Tekintsünk egy élelmiszerboltot. Azok a termékek, amelyeket egy vásárló egy bevásárló körútja során vásárolt, képeznek egy tranzakciót, míg az egyes megvásárolt termékek a tételek. Ezt az adattípust vásárlói kosár adatoknak hívjuk, mert minden egyes rekord tételeit valaki ``bevásárló kosarában'' lévő termékek adják. A tranzakciós adatok tételhalmazok egy gyűjteményét jelentik, de tekinthetők olyan rekordok egy halmazának is, amelyek mezői aszimmetrikus attribútumok. Az attribútumok legtöbbször binárisak, azt jelezve, hogy adott tételt megvásárolták-e vagy sem, de általánosabban az attribútumok lehetnek diszkrétek vagy folytonosak is, mint például a vásárolt árucikkek mennyisége, vagy az ezekre az árucikkekre költött összegek. A 2.2. (b) ábrán egy példa látható tranzakciós adatállományra. Az állomány minden sora egy konkrét vásárló egy konkrét időpontban történt vásárlásait reprezentálja.

Az adatmátrix Ha egy adatkollekcióban az adatobjektumok mind ugyanazzal a rögzített numerikus attribútumhalmazzal rendelkeznek, akkor az adatobjektumok tekinthetőek pontokként (vektorokként) egy többdimenziós térben, ahol minden dimenzió egy, az objektumot leíró attribútumot reprezentál. Ilyen adatobjektumok egy halmaza tekinthető egy m×n -es mátrixként, melynek m sora van, objektumonként egy, és n oszlopa, attribútumonként egy. (Az a reprezentáció is megfelelő, amelyben az adatobjektumokhoz tartoznak az oszlopok és az attribútumokhoz a sorok.) Az ilyen mátrixot adatmátrixnak vagy mintamátrixnak nevezzük. Az adatmátrix a rekord típusú adatok egy változata, de mivel numerikus attribútumokból áll, az adatok transzformálására és manipulálására standard mátrixműveletek alkalmazhatóak. Következésképpen, az adatmátrix a legtöbb statisztikai adat standard adatformátuma. A 2.2. (c) ábrán látható egy példa egy adatmátrixra.

A ritka adatmátrix A ritka adatmátrix az adatmátrix egy olyan speciális esete, melyben az attribútumok egyforma típusúak és aszimmetrikusak, azaz csak a nem nulla értékeik lényegesek. A tranzakciós adatok egy példa olyan ritka adatmátrixra, amelynek csak 0 és 1 eleme van. Egy másik gyakori példa a dokumentum adatok. Nevezetesen, ha figyelmen kívül hagyjuk a kifejezések (szavak) sorrendjét egy adott dokumentumban, akkor a dokumentumot ábrázolhatjuk egy kifejezésvektorként, amelyben minden kifejezés a vektor egy koordinátája (attribútuma), és minden koordináta értéke a hozzá tartozó kifejezés előfordulásainak száma a dokumentumban. Egy dokumentumgyűjtemény ezen reprezentációját gyakran dokumentum-kifejezés mátrixnak nevezik. A 2.2. (d) ábrán ilyen dokumentum-kifejezés mátrixra láthatunk egy példát. Ebben a mátrixban a dokumentumok a sorok, a kifejezések az oszlopok. A gyakorlatban a ritka adatmátrixokból csak a nem nulla elemek kerülnek tárolásra.

Gráfalapú adatok

Néha az adatok reprezentációjára kényelmes és hatásos módnak bizonyulhat egy gráf. Két konkrét esetet tárgyalunk: amikor (1) a gráf az adatobjektumok közötti kapcsolatokat tartalmazza, és (2) magukat az adatobjektumokat reprezentáljuk gráfokkal.

Adatok objektumok közötti kapcsolatokkal Az objektumok közötti kapcsolatok gyakran hordoznak fontos információkat. Ilyen esetekben az adatokat gyakran gráfként reprezentálják, mégpedig úgy, hogy az adatobjektumokat a gráf csúcsaira képezik le, míg az objektumok közötti kapcsolatokat az objektumok közötti élek és azok tulajdonságai, mint például irány vagy súly, írják le. Tekintsük a Világháló weboldalait, amelyek szöveget és más oldalakra történő hivatkozásokat egyaránt tartalmaznak. Ahhoz, hogy fel tudják dolgozni a keresési kulcsszavakat, a webes keresőmotorok összegyűjtik és feldolgozzák a weboldalakat és kinyerik a tartalmukat. Köztudott azonban, hogy az oldalakról kiinduló és az oda irányuló hivatkozások igen nagy mennyiségű információt szolgáltatnak arról, hogy a weboldal az adott keresésre nézve mennyire fontos, és így azokat is figyelembe kell venni. A 2.3. (a) ábrán összekapcsolt weboldalak egy csoportja látható.

Adatok gráfobjektumokkal Ha az objektumoknak struktúrája van, azaz alobjektumokat tartalmaznak, amelyek között kapcsolatok vannak, ezeket az objektumokat gyakran reprezentálják gráfokkal. Egy kémiai vegyület például reprezentálható egy gráffal, ahol a csúcsok az atomok, és a csúcsok közötti élek a kémiai kötések. 2.3. (b) ábra a benzin molekulájának ``golyó és pálcika'' modellje látható, melyben szén (fekete) és hidrogén (szürke) atomok vannak. Gráfreprezentációval lehetőségünk van annak meghatározására, hogy vegyületek egy csoportjában mely alstruktúrák fordulnak elő nagy gyakorisággal, és annak kiderítésére, hogy ezek bármelyikének jelenléte összefügg-e bizonyos kémiai tulajdonságok meglétével vagy hiányával, mint például olvadáspont vagy képződési hő. Az alstruktúra bányászattal, amely az adatbányászat ilyen adatok elemzésével foglalkozó ága, 7.5. szakaszban foglalkozunk.

2.3. ábra - Különböző variációk gráfadatokra

Különböző variációk gráfadatokra

Rendezett adatok

Egyes adattípusoknál az attribútumok kapcsolatai között szerepel azok tér- vagy időbeli rendezettsége is. A következőkben leírt különböző rendezett adattípusok a 2.4. ábrán láthatóak.

2.4. ábra - Különböző variációk rendezett adatokra

Különböző variációk rendezett adatokra

Szekvenciális adatok A szekvenciális adatok, vagy más néven időbeli adatok a rekord típusú adatok egy olyan kiterjesztésének tekinthetőek, ahol minden rekordhoz egy időpont van hozzárendelve. Tekintsünk egy kiskereskedelmi tranzakciós adatállományt, mely azt is eltárolja, hogy a tranzakció mikor ment végbe. Ez az időinformáció lehetővé teszi, hogy olyan mintákat tárjunk fel, mint például ``a cukorkák eladásának csúcspontja Halloween előtt van''. Időpontot is rendelhetünk minden egyes attribútumhoz. Tárolhatjuk például az egyes rekordokban egy vevő vásárlási előzményeit, melyekben különböző időpontokban vásárolt tételek vannak felsorolva. Az ilyen információk segítségével tárhatóak fel az ``akik DVD lejátszót vesznek, jellemzően DVD-ket is vesznek a közvetlenül ezt követő periódusban'' típusú mintázatok.

A 2.4. (a) ábrán látható egy példa szekvenciális tranzakciós adatokra. Itt öt különböző időpont -- t1, t2, t3, t4 és t5; három különböző vásárló -- C1, C2 és C3; és öt különböző tétel -- A, B, C, D és E látható. A felső táblázatban minden sorhoz az adott időpillanatban, adott vásárló által vásárolt tételek tartoznak. Például a t3 időpillanatban a C2 vásárló az A és D tételeket vásárolta meg. Az alsó táblázatban ugyanez az információ található, de itt minden sor egy adott vásárlóhoz tartozik. Minden sor az adott vásárlóhoz tartozó minden egyes tranzakcióra vonatkozóan tartalmaz információkat, ahol egy tranzakció tételek egy halmazát és a tételek megvásárlásának időpontját jelenti. Például a C3 vásárló az A és C tételeket vásárolta meg a t2 időpontban.

Sorrendi adatok A sorrendi adatokat olyan adathalmazok alkotják, melyek önálló entitások sorozatai, mint például egy szó- vagy betűsorozat. Nagyon hasonlóak a szekvenciális adatokhoz, azt leszámítva, hogy itt nincsenek időbélyegek, hanem helyettük a rendezett sorozatban elfoglalt pozíciók vannak. Például növények és állatok genetikai információit ábrázolhatjuk a génekként ismert nukleotidok sorozataként. Sok feladatnak, amely génszekvencia adatokhoz kapcsolódik, részfeladata a gének funkciójában és felépítésében fellelhető hasonlóságok előrejelzése a nukleotidláncok hasonlóságai alapján. 2.4. (b) ábrán az emberi génállomány egy részlete látható a minden DNS-t felépítő A, T, G és C nukleotidok sorozatával kifejezve.

Idősor adatok Az idősor adatok a szekvenciális adatok egy olyan speciális típusát jelentik, amelyekben minden rekord egy idősor, azaz időben elvégzett mérések egy sorozata. Például egy pénzügyi adatállomány tartalmazhat olyan idősor objektumokat, amelyek különböző részvények napi áraira vonatkoznak. Másik példaként tekintsük a 2.4. (c) ábrát, melyen Minneapolis átlagos havi középhőmérsékletének idősora látható az 1982-től 1994-ig terjedő időszakban. Amikor hőmérsékleti adatokkal dolgozunk, fontos figyelembe venni az időbeli autokorrelációt, azaz hogy ha két mérés egymáshoz időben közel van, akkor a mérések értékei gyakran nagyon hasonlóak.

Térbeli adatok Egyes objektumok rendelkeznek olyan térbeli attribútumokkal, mint például helyzet vagy terület és más egyéb attribútumtípusok. Térbeli adatok például az időjárási adatok (csapadék, hőmérséklet, nyomás), melyeket számos földrajzi helyen gyűjtenek. A térbeli adatok fontos jellemzője a térbeli autokorreláció, azaz hogy az egymáshoz fizikailag közel lévő objektumok jellemzően más szempontokból is hasonlóak. Így a Föld két egymáshoz közel fekvő pontja rendszerint hasonló hőmérséklet és csapadék értékekkel bír.

A térbeli adatok fontos példáit képezik az olyan tudományos és műszaki adatállományok is, amelyek egy két- vagy háromdimenziós rács vagy háló szabályosan vagy szabálytalanul elosztott pontjaiban végzett mérések vagy modellezés eredményeinek feljegyzésével jönnek létre. A Földdel foglalkozó tudományos adatállományok például különböző felbontású szélességi-hosszúsági gömbrácsok pontjaiban (rácscelláiban) tartják nyilván a hőmérsékletet és a nyomást, a 2.4. (d) ábrán például 1 × 1 -os felbontásban. Másik példaként, egy gáz áramlásának szimulációja során az áramlás iránya és sebessége feljegyezhető a szimuláció minden rácspontjában.

Nem rekord típusú adatok kezelése

A legtöbb adatbányászati algoritmust rekord adatokhoz, vagy azok valamilyen változatához, például tranzakciós adatokhoz vagy adatmátrixokhoz tervezték. A rekordorientált módszerek alkalmazhatóak nem rekord típusú adatokra is úgy, hogy az adatobjektumokból kinyerjük a jellemzőiket, és ezeket felhasználva minden objektumhoz létrehozunk egy hozzá tartozó rekordot. Tekintsük a fentebb leírt kémiai szerkezeti adatokat. Ha adott a gyakori alszerkezetek egy halmaza, minden vegyület leírható egy olyan bináris attribútumokból álló rekorddal, amelyek jelzik, hogy egy vegyület tartalmazza-e az adott alszerkezetet. Ez a reprezentáció tulajdonképpen egy tranzakciós adatállomány, ahol a vegyületek a tranzakciók, és az alstruktúrák a tételek.

Egyes esetekben könnyű rekord alakban ábrázolni az adatokat, de ez a reprezentáció nem adja vissza az adatokban rejlő összes információt. Tekintsünk olyan tér-időbeli adatokat, amelyek egy térbeli rács minden pontján egy-egy idősorból állnak. Az ilyen adatokat gyakran tárolják egy olyan adatmátrixban, amelyben minden sor egy helyet, és minden oszlop egy konkrét időpontot jelöl. Ez a reprezentáció azonban nem ragadja meg explicit módon sem az attribútumok közötti időbeli kapcsolatokat, sem az objektumok közötti térbeli kapcsolatokat. Ez nem jelenti azt, hogy ez a fajta reprezentáció nem megfelelő, inkább azt, hogy ezeket a kapcsolatokat figyelembe kell venni az elemzés során. Nem jó ötlet például olyan adatbányászati módszert alkalmazni, amely azt feltételezi, hogy az attribútumok statisztikailag függetlenek egymástól.