3. fejezet - Adatfeltárás

Tartalom

Az Írisz-adathalmaz
Összegző statisztikák
Gyakoriságok és a módusz
Percentilisek
Helyzetmutatók: átlag és medián
A szóródás mérőszámai: terjedelem és variancia
Többváltozós összegző statisztikák
Az adatok összegzésének további módjai
Vizualizáció
Miért érdemes vizualizációt alkalmazni?
Általános fogalmak
Módszerek
Magasabb dimenziójú adatok vizualizációja
Mit tegyünk és mit kerüljünk el?
OLAP-módszerek és többdimenziós adatelemzés
Az Írisz-adatok többdimenziós ábrázolása
Többdimenziós adatok: általános eset
Többdimenziós adatok elemzése
Záró megjegyzések a többdimenziós adatelemzéshez
Irodalmi megjegyzések
Feladatok

Az előző fejezetben magasszintű adatokkal foglalkoztunk, amelyek a tudásfeltárás folyamatában kapnak fontos szerepet. Ez a fejezet az adatfeltárásba (data exploration) nyújt bevezetést, amely egy az adatokon végzett elsődleges vizsgálat, azok sajátos jellemzőinek megértése céljából. Az adatfeltárás segítséget nyújthat a megfelelő előfeldolgozás és adatelemző módszerek kiválasztásához. Ezenkívül alkalmas a tipikusan az adatbányászat által megválaszolható kérdések megfogalmazására is. Az adatok vizuális vizsgálatával például különböző mintázatokra bukkanhatunk. Az adatfeltárás során használt egyes módszerek, mint például a vizualizáció, segíthetnek az adatbányászati eredmények megértésében, értelmezésében is.

A fejezet három nagy témát ölel fel: az összegző statisztikákat, a vizualizációt és a közvetlen analitikus feldolgozást (OLAP -- On-Line Analytical Processing). Az összegző statisztikák[1], például értékek egy halmazából számolt átlag és szórás, illetve a vizualizációs módszerek, mint a hisztogramok és pontdiagramok, az adatfeltárás támogatására széleskörben használatos, általánosan elfogadott módszerek. A sokkal újabb keletű OLAP értékek többdimenziós vektorainak feltárását segítő módszerek együtteséből áll. Az OLAP-hoz tartozó elemző függvények különböző módon hoznak létre összegző adattáblákat többdimenziós adathalmazokból. Ezek a módszerek magukban foglalják az adatok aggregálását különböző dimenziók vagy attribútumértékek mentén. Ha például eladási információk állnak rendelkezésre termék, hely, időpont szerint csoportosítva, az OLAP-eszközöket használva olyan összegzés készíthető, amely leírja az eladási aktivitást egy adott helyen, hónap és termék szerint kategorizálva.

Az ebben a fejezetben tárgyalt témák nagymértékben egybeesnek a feltáró adatelemzésként (EDA -- Exploratory Data Analysis) ismert tudományterülettel, amelyet a kiváló statisztikus, John Tukey alapozott meg az 1970-es években. A fejezet, az EDA-hoz hasonlóan, nagy hangsúlyt fektet a vizualizációra. Az EDA-val ellentétben a fejezet nem tartalmaz viszont olyan témaköröket, mint a klaszterezés vagy a rendellenesség-észlelés. Ennek két oka van. Elsősorban, az adatbányászati szemléletben a feltáró adatelemzési módszereket öncélúan alkalmazzuk, ezzel szemben a statisztikában, melyből az EDA is ered, a végcél hipotézisek vizsgálata. Másodsorban, mind a klaszterezés, mind a rendellenesség-észlelés nagy tudományterület, amelyeknek alapos tárgyalása teljes, önálló fejezeteket igényel. Így a klaszterezés 8. illetve 9. fejezetben kerül bemutatásra, míg a rendellenesség-észleléssel 10. fejezet foglalkozik.

Az Írisz-adathalmaz

A következőkben gyakran hivatkozunk majd az Írisz-adathalmazra, amely az Irvine-beli Kaliforniai Egyetem (UCI -- University of California at Irvine) Gépi Tanulás Tárházában (Machine Learning Repository) lelhető fel. Ez 150 íriszvirágról (nőszirom) tartalmaz információt, 50 egyedről mindhárom íriszfajtából. Ez a három fajta a nőszirom (Setosa), a foltos nőszirom (Versicolor) és a virginiai nőszirom (Virginica). Minden egyes virágot öt attribútum ír le:

  1. a csészelevél hossza centiméterben mérve,

  2. a csészelevél szélessége centiméterben mérve,

  3. a sziromlevél hossza centiméterben mérve,

  4. a sziromlevél szélessége centiméterben mérve,

  5. az osztály (Setosa, Versicolor, Virginica).

A csészelevelek a növény külső szerkezetéhez tartoznak, amelyek a sebezhetőbb részeket védik, mint például a sziromleveleket. A legtöbb növénynél a csészelevelek zöldek, és csupán a sziromlevelek színesek. A nőszirom esetében azonban mindkettő színes. Ahogy a 3.1. ábrán látható, az Iris Virginicáról készült kép is mutatja, a nőszirom csészelevelei nagyobbak a sziromleveleknél és lefelé konyulnak, míg a sziromlevelek függőlegesen állnak.

3.1. ábra - Iris Virginica. Robert H. Mohlenbrock, Amerikai Egyesült Államok Mezőgazdasági Részlege, A Természeti Erőforrások Megőrzéséért, Növény-adatbázis (USDA-NRCS PLANTS Db.), 1995. Az északkeleti lápvidék növényvilága: Hivatalos útmutatás a fajok ültetéséhez. Északkeleti Nemzeti Technikai Központ, Chester, Pennsylvania, USA. A háttér eltávolítva.

Iris Virginica. Robert H. Mohlenbrock, Amerikai Egyesült Államok Mezőgazdasági Részlege, A Természeti Erőforrások Megőrzéséért, Növény-adatbázis (USDA-NRCS PLANTS Db.), 1995. Az északkeleti lápvidék növényvilága: Hivatalos útmutatás a fajok ültetéséhez. Északkeleti Nemzeti Technikai Központ, Chester, Pennsylvania, USA. A háttér eltávolítva.



[1] A fordító megjegyzése: az összegző statisztikák a szakirodalomban számos helyen leíró statisztikák néven szerepelnek.