Vizualizáció

Az adatvizualizáció az információ grafikus vagy táblázatos megjelenési formája. A jó vizualizáció záloga, hogy az adatok (az információ) látható formára legyenek alakítva, hogy így az adatok és a köztük lévő kapcsolatok, vagy az attribútumokhoz való viszonyuk jellemzői könnyen elemezhetőek és jól reprezentálhatóak legyenek. A vizualizáció célja a láthatóvá tett információ egy meghatározott személy által történő értelmezése és az információ gondolati modelljének kialakítása.

A mindennapi életben gyakran részesítjük előnyben a vizuális módszereket -- például a gráfokat és a táblázatokat --, amikor az időjárás vagy a gazdasági illetve a politikai élet jelenségeit magyarázzuk. Hasonlóképpen, mivel az algoritmikus vagy a matematikai megközelítések fontos szerepet töltenek be a legtöbb műszaki tudományágban -- az adatbányászatot is beleértve --, a vizuális módszerek kulcsfontosságúak lehetnek az adatok elemzésekor. Valójában a vizualizációs módszerek adatbányászatbeli használatát vizuális adatbányászatnak is szokás nevezni.

Miért érdemes vizualizációt alkalmazni?

Legfőképpen azért érdemes vizualizációt alkalmazni, mert az ember gyorsan képes nagy mennyiségű képi információt befogadni és mintázatokra bukkanni bennük. Tekintsük a 3.2. ábrát, amely a tengerfelszín hőmérsékletét (SST -- Sea Surface Temperature) mutatja Celsius-fokban 1982 júliusában. Ez a kép hozzávetőlegesen 250 000 számot fejez ki, mégis könnyedén értelmezhető néhány másodperc alatt. Könnyen észrevehető például, hogy az óceán hőmérséklete az egyenlítőnél a legmagasabb és a sarkok közelében a legalacsonyabb.

A vizualizáció használatának egy másik mozgatórugója az ``emberek fejében meglévő'' szakterületi tudás jobb kihasználása. Bár ezen szakterületi tudás használata egyike az adatbányászat fontos feladatainak, gyakran igen nehéz vagy lehetetlen teljesen felhasználni ezt a tudást statisztikai vagy algoritmikus eszközökben. Néhány esetben az elemzés elvégezhető nemvizuális eszközökkel, majd az eredmény vizuálisan kerül bemutatásra, hogy a szakértő ki tudja értékelni. Más esetekben, az adatok vizualizációja alapján valószínűleg egy szakértő tud leghatékonyabban érdekes mintázatokat találni, mivel egy élő személy -- a szakterületi tudása alapján -- gyakran pillanatok alatt képes a lényegtelen minták kiszűrésére, és figyelmét a fontosakra tudja összpontosítani.

3.2. ábra - A tengerfelszín hőmérséklete (SST -- Sea Surface Temperature) 1982 júliusában

A tengerfelszín hőmérséklete (SST -- Sea Surface Temperature) 1982 júliusában

Általános fogalmak

Ez a szakasz néhány, a vizualizációhoz kapcsolódó, általános fogalmat vesz sorra, azon belül is főleg az adatok és attribútumaik megjelenítésének általános módjait. A vizualizációs módszerek nagy része csupán röviden kerül említésre, részletekbe menő tárgyalásuk később, az egyes megközelítések kifejtésénél kerül sorra. Feltételezzük, hogy az Olvasó már találkozott gráfokkal, oszlop- és pontdiagramokkal.

Ábrázolás: az adatok leképezése grafikus elemekre

A vizualizáció első lépéseként az információt le kell képeznünk látható formára, azaz az információhalmazban lévő objektumokat, jellemzőiket és kapcsolataikat látható objektumokra, attribútumokra és a közöttük lévő kapcsolatokra. Az adatobjektumokat, azok attribútumait és az adatobjektumok közötti kapcsolatokat fordítjuk le grafikus elemekre, úgymint pontokra, vonalakra, alakzatokra, és színekre.

Az egyedek leképezésére három módszert használhatunk. Először, ha csak egy egyszerű kategórikus attribútumot tekintünk, akkor az objektumokat az ezen attribútum értékei által meghatározott kategóriákba soroljuk, és ezeket a kategóriákat egy táblázat egy elemeként vagy a képernyőn egy területként ábrázoljuk. (Később találhatóak példák ebben a fejezetben kontingenciatábla és oszlopdiagram formájában.) Másodszor, ha egy objektum több attribútummal rendelkezik, akkor megjeleníthető egy táblázat soraként vagy oszlopaként, illetve egy gráf éleként. Végezetül, egy objektumot gyakran a két- vagy háromdimenziós tér egy pontjaként értelmezünk, ahol grafikusan a pont reprezentálható valamilyen geometriai alakzattal, mint például kör, kereszt vagy doboz.

Ami az attribútumokat illeti, ábrázolásuk általában a típusuktól függ, mint például névleges, sorrendi vagy folytonos (intervallum illetve arány) attribútumok. A sorrendi és a folytonos attribútumok leképezhetők folytonos, rendezett grafikus jellemzőkre, mint például az x, y és z tengelyek menti elhelyezkedés, intenzitás, szín, méret (átmérő, szélesség, magasság, stb.). A kategórikus attribútumok esetében minden kategória leképezhető egy különálló pozícióra, színre, alakzatra, irányra, díszítésre vagy egy táblázat oszlopára. A névleges attribútumok -- melyeknek értékei rendezetlenek -- kezelése viszont nagy körültekintést igényel az olyan grafikus jellemzők használatánál, mint a szín vagy a pozíció, hiszen ezek az értékeikhez köthető egyfajta rendezettséget hordoznak magukban. Más szavakkal, a névleges értékek ábrázolására szolgáló grafikus elemek gyakran rendelkeznek valamilyen rendezettséggel, míg maguk a névleges értékek nem.

A kapcsolatok grafikus ábrázolása történhet explicit vagy implicit módon. Gráfadatokhoz rendszerint a standard gráfreprezentációt -- csúcsok és az őket összekötő élek -- használjuk. Amennyiben a csúcsok (egyedeket reprezentáló adatok) vagy az élek (kapcsolatok) saját jellemzőkkel, attribútumokkal is rendelkeznek, akkor grafikus az ábrázolás. Szemléltetésként vegyünk nagyvárosokat mint csúcsokat, és autópályákat mint éleket. Ekkor a csúcsok átmérője jelentheti a lakosság létszámát, míg az élek vastagsága a forgalom nagyságát.

A legtöbb esetben az egyedek és az attribútumok leképezése grafikus elemekre maga után vonja a kapcsolatok leképezését is. Ha egy egyed egy olyan fizikai objektumot reprezentál, amelynek van helyzete, elhelyezkedése, mint például egy város, akkor a grafikus elemek relatíve hasonló módon fognak elhelyezkedni, mint a valóságban. Hasonlóan, ha két vagy három olyan folytonos attribútum adott, melyek adatpontok koordinátáit írják le, akkor az eredményül kapott pontdiagram figyelemre méltó betekintést nyújt az attribútumok és az adatpontok közötti kapcsolatokba, hiszen az egymáshoz vizuálisan közel elhelyezkedő pontok attribútumaik vonatkozásában is hasonló értékekkel rendelkeznek.

Általában nehéz azt biztosítani, hogy az egyedek és az attribútumok leképezésének eredményeként a közöttük lévő kapcsolatok is jól megfigyelhetőek legyenek az előálló grafikus elemek közötti kapcsolatokban. Ez valójában a vizualizációs eljárások egyik legnagyobb kihívását jelenti. Bármely meglévő adathalmazban sok implicit kapcsolat található, ezért a vizualizáció kulcsfontosságú feladata annak biztosítása, hogy a megfelelő módszert kiválasztva a lényeges kapcsolatok könnyen megfigyelhetővé váljanak.

Rendezés

Mint ahogy azt már korábban is említettük, az objektumok és az attribútumok vizuális reprezentációjának helyes kiválasztása elengedhetetlen a jó vizualizációhoz. Az egyes egységek elrendezése a vizuális megjelenítésben szintén döntő fontosságú. Ezt két példán keresztül mutatjuk be.

3.5. Példa.

Ezzel a példával az adattáblák átrendezésének fontosságát szeretnénk hangsúlyozni. A 3.5. táblázat kilenc objektumot és hat bináris attribútumot tartalmaz, melyben nincs éles kapcsolat az egyedek illetve az attribútumok között, legalábbis első ránézésre. Ha a táblázat sorainak és oszlopainak eredeti sorrendjét megkeverjük, ahogy a 3.6. tábla mutatja, világossá válik, hogy valójában az egyedeknek csupán két típusáról van szó, az egyiknél mindig az első három attribútum rendelkezik egyes értékkel, míg a másiknál mindig az utolsó három.

3.5. táblázat - Kilenc objektumot (sorok) és hat bináris attribútumot (oszlopok) tartalmazó tábla

1

2

3

4

5

6

1

0

1

0

1

1

0

2

1

0

1

0

0

1

3

0

1

0

1

1

0

4

1

0

1

0

0

1

5

0

1

0

1

1

0

6

1

0

1

0

0

1

7

0

1

0

1

1

0

8

1

0

1

0

0

1

9

0

1

0

1

1

0


3.6. táblázat - Kilenc objektumot (sorok) és hat bináris attribútumot (oszlopok) tartalmazó tábla, amelyben a sorok és az oszlopok eredeti sorrendjének felcserélésével láthatóvá válik a sorok és oszlopok közötti kapcsolat

6

1

3

2

5

4

4

1

1

1

0

0

0

2

1

1

1

0

0

0

6

1

1

1

0

0

0

8

1

1

1

0

0

0

5

0

0

0

1

1

1

3

0

0

0

1

1

1

9

0

0

0

1

1

1

1

0

0

0

1

1

1

7

0

0

0

1

1

1


3.6. Példa.

Tekintsük a 3.3. (a) ábrát, amelyen egy gráf ábrázolása látható. Ha a gráf összefüggő részeit szétválasztjuk, ahogy azt a 3.3. (b) ábra mutatja, akkor a csomópontok közötti kapcsolatok megértése jóval egyszerűbbé válik.

3.3. ábra - Egy gráf két különböző ábrázolása

Egy gráf két különböző ábrázolása

Kiválasztás

A vizualizációs eljárások másik sarkalatos pontja a kiválasztási folyamat, amely bizonyos objektumok illetve attribútumok elhagyását vagy hangsúlytalanná tételét jelenti. Speciálisan, míg a csak kevés dimenzió által meghatározott objektumok egyszerűen reprezentálhatók grafikusan két- vagy háromdimenziós nézetben, addig a sokattribútumos egyedek esetében nincs teljes mértékben kielégítő és általános megközelítés. Hasonlóan, ha túl sok egyedet próbálunk vizualizálni, az eredmény átláthatatlanul zsúfolt lesz. Ha objektumból és attribútumból is sok áll rendelkezésre, a probléma halmozottan vetődik fel.

Nagyszámú attribútum széles körben elterjedt kezelése azok egy részhalmazának -- általában két attribútumnak -- a kiválasztásával történik. Ha a dimenziók száma nem túl nagy, akkor kétváltozós (két attribútumú) pontdiagramok egy mátrixának előállítása révén egyidejű áttekintést nyerhetünk. (Az Írisz-adathalmaz attribútumpárjaihoz tartozó pontdiagramok mátrixát a 3.16. ábra tartalmazza.) E megoldás alternatívája lehet egy olyan vizualizációs program, amely a kétdimenziós diagramok sorozatát automatikusan vetíti le a felhasználó által meghatározott módon vagy egy előredefiniált stratégia alapján. A kétdimenziós pontdiagramok ilyenfajta gyűjteménye azt a célt szolgálja, hogy az adatokról sokkal teljeskörűbb áttekintést nyerhessünk.

Egy attribútumpár vagy kisszámú attribútum kiválasztásának módszere csak egyik módja a dimenziócsökkentésnek, ezenkívül még számos kifinomult módszer alkalmazható, mint például a főkomponens analízis (PCA -- Principal Component Analysis). Ezekről további információ található 11. (lineáris algebra), illetve 12. (dimenziócsökkentés) függelékben.

Ha túl sok -- több, mint néhány száz --, adatokat ábrázoló pontunk van, vagy ha az adatok terjedelme nagy, akkor nem könnyű minden egyes adatról megfelelő mennyiségű információt ábrázolni. Egyes pontok elfedhetnek másokat, esetleg egy adatobjektumnak nem jut elég pixel ahhoz, hogy az általa hordozott információt, jellemzőket tisztán leolvashassuk. Például, egy objektum alakja nem állapítható meg pontosan, ha csupán egyetlen pixel áll rendelkezésre a megjelenítéséhez. Az ehhez hasonló helyzetekben hasznos lehet, ha kihagyunk néhány objektumot, vagy az adatok egy részére történő közelítéssel, vagy az adatokat ábrázoló pontok egy reprezentatív mintájának kiemelésével élünk.

Módszerek

A vizualizációs módszereket gyakran az elemzendő adatok típusa határozza meg. Valóban, egyre-másra hoznak létre új ábrázolási módszereket és megközelítéseket, ahogy létező megközelítések speciális változatait is, jellemzően az újfajta adatokra és vizualizációs feladatokra adott válaszként.

E specializáció és a vizualizáció eseti jellege ellenére a különböző módszerek általánosan osztályozhatók. Egyfajta osztályozás történhet a felhasznált attribútumok száma szerint (1, 2, 3 vagy sok), vagy az adatok valamely speciális tulajdonsága alapján, mint például a hierarchikus vagy gráfszerkezet. Egy másik lehetőség a felhasznált attribútumok típusa szerinti klasszifikáció, valamint az alkalmazás típusa szerinti, amely lehet tudományos, statisztikai vagy információvizualizáció. A következőkben három kategória szerint osztályozunk: kisszámú attribútummal, térbeli és/vagy időbeli attribútumokkal, valamint nagyszámú attribútummal történő vizualizációt különböztetünk meg.

Az itt bemutatott ábrázolási módszerek sok matematikai és statisztikai programcsomagban megtalálhatóak, amelyek közül néhány ingyenesen hozzáférhető. Számos adathalmaz is elérhető az interneten keresztül. A következő szakaszok áttanulmányozása után e módszerek kipróbálására buzdítjuk az Olvasót.

Kisszámú attribútum ábrázolása

Ez a szakasz azon ábrázolási módszereket vizsgálja, amelyek kevés számú attribútummal rendelkező adatok esetében használatosak. E módszerek némelyike, mint például a hisztogramok, egyetlen attribútum szerint megfigyelt értékek eloszlásának vizsgálatához nyújtanak jó áttekintést, míg mások, mint például a pontdiagramok, két attribútumhoz tartozó értékek viszonyáról informálnak minket.

Ág-levél diagramok

Az ág-levél diagramok egydimenziós egész vagy folytonos adatok eloszlásába engednek betekintést. (Először az egész adatok kezelését tárgyaljuk, majd a későbbiekben látni fogjuk, hogyan alkalmazható ez a diagramfajta folytonos adatok esetében.) Az ág-levél diagram legegyszerűbb típusa az értékeket csoportokra osztja, ahol egy csoport azon értékeket tartalmazza, amelyek az utolsó számjegy kivételével megegyeznek. Minden csoport egy ág lesz, míg a csoport utolsó számjegyei lesznek a levelek. Így, ha az értékek kétjegyű számok, például 35, 36, 42 és 51, akkor a törzsek a magasabb helyiértékeken álló számjegyek lesznek, azaz 3, 4 és 5, míg az alacsonyabb helyiértékű helyeken álló számjegyekből keletkeznek a levelek, ilyen az 1, 2, 5 és a 6. Az ágak függőleges és a levelek vízszintes elhelyezésével az adatok eloszlásáról kaphatunk képi ábrázolást.

3.7. Példa.

A 3.4. ábra az Írisz-adathalmazból tartalmaz olyan egész értékeket, amelyek a csészelevelek hosszát fejezik ki centiméterben. (Az eredeti értékeket megszoroztuk 10-zel, hogy egészeket kapjunk.) A könnyebb áttekintés érdekében az értékeket sorba rendeztük.

Az ezekhez az adatokhoz tartozó ág-levél diagramot a 3.5. ábrán láthatjuk. A 3.4. ábra minden egyes számát betesszük a tízeseiknek megfelelő függőleges csoportok -- 4, 5, 6 illetve 7 -- valamelyikébe. A szám utolsó számjegye a kettőspont után kerül. Gyakran, ha az adatmennyiség viszonylag nagy, érdemes az ágat felosztani. Például a 4-es törzs esetében ahelyett, hogy az összes 40-es számot egy csoportba tennénk, kettéosztjuk azt, és az első ágba a 40 és 44 közé eső számokat, a másodikba pedig a 45 és 49 közé esőket helyezzük. A 3.6. ábra ezt a megközelítést mutatja be. Más változatok is elképzelhetők.

Hisztogramok

Az ág-levél diagram is egyfajta hisztogram, az attribútumértékek eloszlását mutatja úgy, hogy a lehetséges értékeket dobozokra osztja, és az egyes dobozokba eső objektumok számát ábrázolja. A kategorikus adatok esetében minden érték egy doboz. Amennyiben ez túl sok értéket eredményezne, akkor így vagy úgy kombinálhatjuk az értékeket. Folytonos attribútumok esetében az értékek terjedelmét rendszerint dobozokra osztjuk, de nem mindig egyforma szélességben, majd dobozonként megszámoljuk a bennük levő értékeket.

Ha mar egyszer ismertek a dobozok által tartalmazott darabszámok, egy olyan oszlopdiagramot is létrehozhatunk, amelyben egy oszlop egy doboznak felel meg, és minden egyes oszlop területe arányos a megfelelő tartományba eső értékek (objektumok) számával. Ha minden intervallum egyenlő hosszú, akkor minden oszlop is az, és egy oszlop magassága arányos a megfelelő dobozban levő értékek számával.

3.8. Pelda.

A 3.7. ábrán 10 dobozt reprezentáló hisztogramok láthatók, melyek rendre a csészelevelek hosszat és szélességét, valamint a sziromlevelek hosszát és szélességét mutatják. Mivel egy hisztogram alakja függhet a dobozok számától, a 3.8. ábrán ugyanazokra az adatokra készített hisztogramok láthatók, de mar 20 dobozra osztva.

3.4. ábra - Csészelevelek hosszai az Irisz-adatállományban

Csészelevelek hosszai az Irisz-adatállományban

3.5. ábra - A csészelevelek hosszának ág-levél diagramja az Írisz-adatállományra

A csészelevelek hosszának ág-levél diagramja az Írisz-adatállományra

3.6. ábra - A csészelevelek hosszának ág-levél diagramja az Írisz-adatállományra felosztott ágakkal

A csészelevelek hosszának ág-levél diagramja az Írisz-adatállományra felosztott ágakkal

A hisztogramnak több változata is van. A relatív (gyakorisági) hisztogram a darabszámokat a relatív gyakorisággal helyettesíti. Ez csupán az y tengely beosztásában okoz változásokat, a hisztogram alakja változatlan marad. Egy másik ismert variáció, kifejezetten rendezetlen kategórikus adatok esetére, a Pareto-hisztogram, amely csupán annyiban különbözik egy hagyományostól, hogy a kategóriák a darabszámok szerint csökkenő sorrendbe vannak rendezve, így a darabszámok balról jobbra csökkennek.

Kétdimenziós hisztogramok

Kétdimenziós hisztogramokat is létrehozhatunk. Az attribútumokat intervallumokra oszthatjuk, és az intervallumok két halmaza definiálja az értékek kétdimenziós téglalapját.

3.9. Példa.

A 3.9. ábra egy sziromlevelek hossza illetve szélessége szerinti kétdimenziós hisztogramot mutat. Mivel mindkét attribútum három dobozra van osztva, ezért összesen kilenc kétdimenziós doboz keletkezik. Az egy dobozba eső egyedek (itt virágok) számát a hasábok magassága mutatja. A virágok nagy része mindössze három dobozba esik, amelyek a főátló mentén helyezkednek el. Ez nem látható az egydimenziós ábrázolásmódban.

3.7. ábra - A négy Írisz-attribútum hisztogramja (10 dobozzal)

A négy Írisz-attribútum hisztogramja (10 dobozzal)

3.8. ábra - A négy Írisz-attribútum hisztogramja (20 dobozzal)

A négy Írisz-attribútum hisztogramja (20 dobozzal)

Bár a kétdimenziós hisztogramok segítségével érdekes megfigyelések tehetők két attribútum értékeinek együttmozgásáról, vizuálisan sokkal összetettebbek. Könnyű például olyan helyzetet elképzelni, amelyben a hasábok eltakarják egymást.

Dobozábrák

A dobozábrák egy másik módszert jelentenek egyetlen numerikus attribútum értékei eloszlásának az ábrázolására. A 3.10. ábrán egy címkézett dobozábra látható, amely a csészelevelek hosszait mutatja. A doboz alja és teteje rendre a 25. és a 75. percentilist jelöli, míg a vonal a doboz belsejében az 50. -et. A farkak alsó és felső vonalai pedig a 10. illetve a 90. percentilist jelölik. A kiugró értékeket ``+''-ok jelzik. A dobozábrák relatíve tömörek, ezért egy diagramon jónéhány elfér belőlük. A dobozábrák egyszerűbb változatait is használják, amelyek még kevesebb helyet foglalnak.

3.9. ábra - Az Írisz-adatok sziromlevelei hosszát illetve szélességét mutató kétdimenziós hisztogram

Az Írisz-adatok sziromlevelei hosszát illetve szélességét mutató kétdimenziós hisztogram

3.10. Példa.

A 3.11. ábra mutatja az Írisz-adathalmaz első négy attribútumának dobozábráit. A dobozábrákat arra is használhatjuk, hogy összehasonlítsuk, hogyan változnak az attribútumok az objektumok különböző osztályai között, ahogy ezt a 3.12. ábra mutatja.

3.10. ábra - A csészelevél hosszának dobozábrája

A csészelevél hosszának dobozábrája

3.11. ábra - Az Írisz attribútumainak dobozábrája

Az Írisz attribútumainak dobozábrája

3.12. ábra - Az attribútumok dobozábrái az írisz fajtája szerint

Az attribútumok dobozábrái az írisz fajtája szerint

Kördiagram

A kördiagram (tortadiagram) hasonló a hisztogramhoz, de jellemzően olyan kategórikus attribútumok esetében használatos, amelyek viszonylag kevés értékkel rendelkeznek. A hisztogramoknál használt oszlopterület és -magasság helyett a kördiagram egy kör területét arányosan felosztva ábrázolja a különböző értékek relatív gyakoriságát. Bár a kördiagramokra gyakran bukkanhatunk népszerű cikkekben, a tudományos publikációkban kevésbé gyakran használatosak, mivel az egyes területek méretét nehéz megítélni. Műszaki munkákban a hisztogramokat részesítik előnyben.

3.11. Példa.

A 3.13. ábrán egy kördiagram látható, amely az Írisz adathalmaz íriszfajtáinak eloszlását mutatja. Ebben az esetben minden faj gyakorisága ugyanaz.

Percentilis-diagramok és empirikus eloszlásfüggvények

Az adatok eloszlását kvantitatívabban ábrázoló diagramtípus az empirikus eloszlásfüggvény diagramja. Bár ez bonyolultan hangzik, egyszerű alapötletre épül. Az eloszlásfüggvény (CDF -- Cumulative Distribution Function) egy statisztikai eloszlás minden egyes értékéhez megmutatja annak valószínűségét, hogy egy pont kisebb-e, mint az adott érték. Minden egyes megfigyelt érték esetén az empirikus eloszlásfüggvény (ECDF -- Empirical Cumulative Distribution Function) azon pontok arányát mutatja meg, amelyek kisebbek ettől az értéktől. Mivel a pontok száma véges, az empirikus eloszlásfüggvény lépcsős függvény.

3.12. Példa.

Az Írisz attribútumok empirikus eloszlásfüggvénye a 3.14. ábrán látható. Egy attribútum percentilisei hasonló információt hordoznak. A 3.15. ábrán láthatjuk a 3.2. táblázatban szereplő Írisz-adathalmaz négy folytonos attribútumának percentilis-diagramját. Ezen diagramokat érdemes összehasonlítani a 3.7. és a 3.8. ábra hisztogramjaival.

3.13. ábra - Az íriszvirágok típusainak eloszlása

Az íriszvirágok típusainak eloszlása

3.14. ábra - A négy Írisz attribútum emprikus eloszlásfüggvénye

A négy Írisz attribútum emprikus eloszlásfüggvénye

Pontdiagramok

Bizonyos mértékig sokan ismerik a pontdiagramokat, amelyeket már mi is használtunk a.2.4.5. szakaszban a lineáris korreláció szemléltetésére. Minden egyes adatobjektum egy pontként jelenik meg a két attribútum, mint x és y tengely, által meghatározott síkban. Feltehető, hogy az attribútumok egész vagy valós értékűek.

3.13. Példa.

A 3.16. ábra az Írisz-adatállomány minden attribútumpárjához tartalmaz egy-egy pontdiagramot. Az írisz különböző fajtáit eltérő szimbólumokkal jelöltük. Az attribútumpárok pontdiagramjainak ilyen táblázatos elrendezése, amelyet pontdiagram-mátrixnak neveznek, szervezett módot ad számos pontdiagram egyidejű tanulmányozására.

3.14. ábra - A négy Írisz attribútum emprikus eloszlásfüggvénye

A négy Írisz attribútum emprikus eloszlásfüggvénye

3.15. ábra - A csésze- ill. sziromlevél hosszának és szélességének percentilisdiagramjai

A csésze- ill. sziromlevél hosszának és szélességének percentilisdiagramjai

3.16. ábra - Az Írisz-adatállomány pontdiagram-mátrixa

Az Írisz-adatállomány pontdiagram-mátrixa

A pontdiagramoknak két fő felhasználási területük van. Először grafikusan ábrázolják két attribútum viszonyát. a.2.4.5. szakaszban láthattuk, hogyan használhatók a lineáris korreláció mértékének megítélésére. (Lásd a 2.17. ábrát.) A pontdiagram nemlineáris kapcsolatok felderítésére is alkalmas vagy az eredeti, vagy a transzformált attribútumok felhasználásával.

Másodszor, ha osztálycímkék is rendelkezésre állnak, a pontdiagramok segítségével megállapítható, hogy két attribútum milyen mértékben különíti el az osztályokat. Ha lehetséges egy vonallal vagy egy bonyolultabb görbével körülkeríteni az attribútumpár által meghatározott síkban azon területeket, amelyek egy osztály legtöbb objektumát tartalmazzák, akkor lehetőség nyílik egy precíz osztályozó létrehozására, amely ezen attribútumpáron alapul. Ellenkező esetben több attribútum, vagy kifinomultabb módszerek szükségesek az osztályozó megkonstruálásához. Ahogy azt a 3.16. ábra is mutatja, az íriszfajták egy hozzávetőleges felosztása több attribútumpár (például a sziromlevél hossza és szélessége) felhasználásával válik lehetővé.

3.14. Példa.

Két módszer is létezik arra, hogy hogyan ábrázoljuk egy adatállomány három attribútumát pontdiagrammal. Először is, minden objektumot értékhármasok fognak képviselni két attribútum helyett. A 3.17. ábrán egy háromdimenziós pontdiagram látható az Írisz-adatállomány három attribútumával. Másodszor, az egyik attribútumot összekapcsolhatjuk a jel valamely jellemzőjével, például annak méretével, színével vagy alakjával. A 3.18. ábra az Írisz-adatállomány három attribútumának pontdiagramját mutatja, ahol az egyik attribútumot, a csészelevél szélességét, a jel mérete képviseli.

Két- és háromdimenziós diagramok kiterjesztése

Mint ahogy a 3.18. ábra is mutatja, két- illetve háromdimenziós diagramokat kiterjeszthetünk úgy, hogy azok néhány további attribútumot is képesek legyenek megjeleníteni. Például a pontdiagramok legfeljebb három további attribútummal képesek dolgozni a jel színezésének vagy árnyalásának, méretének, valamint alakjának megváltoztatásával, így téve lehetővé öt vagy hat dimenzió ábrázolását. Mindazonáltal nem árt odafigyelnünk valamire: ahogy az adatok vizuális reprezentációjának összetettsége növekszik, az emberek egyre nehezebben tudják majd elemezni az információt. Nem érdemes hatdimenziós adatokat két-három dimenzióba sűríteni, ha ezzel ellehetetlenítjük annak megértését.

3.17. ábra - A csészelevél hosszának és szélességének, valamint a sziromlevél szélességének háromdimenziós pontdiagramja

A csészelevél hosszának és szélességének, valamint a sziromlevél szélességének háromdimenziós pontdiagramja

3.18. ábra - A pontdiagramon a sziromlevél hosszának és szélességének függvényében ábrázolt markerek mérete a csészelevél szélességét mutatja

A pontdiagramon a sziromlevél hosszának és szélességének függvényében ábrázolt markerek mérete a csészelevél szélességét mutatja

Tér-időbeli adatok vizualizálása

Az adatok gyakran rendelkeznek térbeli vagy időbeli attribútumokkal. Az adatok állhatnak például egy térbeli rácson tett megfigyelésekből, mint bolygónk felszíni nyomása vagy egy fizikai objektum szimulációjánál a modellezett hőmérséklet a rács különböző pontjain. Ezen megfigyeléseket különböző időpontokban is elvégezhetjük. Ezenkívül, az adatoknak lehet csupán időbeli komponensük, mint például a részvények napi árfolyamának idősorai.

Kontúr- vagy szintdiagramok

Háromdimenziós adatok esetében néha két attribútum a térbeli pozíciót határozza meg, míg a harmadik egy folytonos érték, mint például a hőmérséklet vagy a tengerszint feletti magasság. Ilyen adatok esetében használatos a kontúrdiagram, amely a síkot a harmadik attribútum (hőmérséklet, tengerszint feletti magasság) értékei szerint osztja részekre oly módon, hogy a közel azonos értékek ugyanahhoz a részhez tartozzanak. A legáltalánosabb példa egy kontúrdiagramra egy olyan szinttérkép, amely szárazföldi tájegységek tengerszint feletti magasságát mutatja.

3.15. Példa.

A 3.19. ábra az 1998 decemberében mért tengerfelszíni hőmérséklet kontúrdiagramját tartalmazza. A szárazföld hőmérsékletét önkényesen 0 C-kal jelöltük. Számos szinttérképen, mint amilyen a 3.19. ábrán is látható, az egyes részeket elválasztó szintvonalak fel vannak címkézve az elválasztásra használt értékekkel. A jobb áttekinthetőség érdekében néhány ilyen címkét töröltünk.

3.19. ábra - Az 1998 decemberében mért tengerfelszíni hőmérséklet kontúrdiagramja

Az 1998 decemberében mért tengerfelszíni hőmérséklet kontúrdiagramja

Felületdiagramok

A kontúrdiagramokhoz hasonlóan a felületdiagramok is két attribútumot használnak az x és az y koordináták meghatározásához. A harmadik attribútum értéke az előző kettő által kifeszített sík feletti magasságot adja meg. Az ehhez hasonló ábrák hasznosak lehetnek, bár megkövetelik, hogy a harmadik attribútumnak a másik két attribútum értékeinek bármely kombinációja által meghatározott helyen, legalábbis egy bizonyos tartományban, legyen értéke. Továbbá, ha a felület túl egyenetlen, nehézzé válhat az összes információ észlelése, hacsak nem interaktívan nézzük az ábrát. Ezért a felületdiagramokat általában olyan matematikai függvények vagy fizikai felületek szemléltetésekor alkalmazzák, amelyek szabályos módon változnak.

3.16. Példa.

A 3.20. ábrán egy halmaz 12 pontja körüli sűrűség felületdiagramja látható. Ez a példa részletesen a.9.3.3. szakaszban kerül kifejtésre.

3.20. ábra - 12 pontból álló halmaz sűrűsége

12 pontból álló halmaz sűrűsége

Vektormező-diagramok

Néhány adatmező esetében, azok jellemzőit a nagyságukkal és az irányukkal tudjuk leírni. Példaként vegyük egy anyag folyásirányát vagy a sűrűség helytől függő változását. Ilyen helyzetekben hasznos egy olyan ábra, amely a nagyságot és az irányt egyaránt képes ábrázolni. Ezeket az ábrákat vektormezőknek hívjuk.

3.17. Példa.

A 3.21. ábrán látható 3.20. (b) ábrán lévő két kisebb csúcs sűrűségének kontúrdiagramja sűrűségváltozást jelző vektorokkal ellátva.

3.21. ábra - A 3.20. ábrán látható, két alsó csúcs sűrűségének változása vektormező-diagramon

A 3.20. ábrán látható, két alsó csúcs sűrűségének változása vektormező-diagramon

Az e példa alapjául szolgáló adatállomány a havi átlagos tengerszinti nyomás (SLP -- Sea Level Pressure) 1982 és 1999 közötti változását követi nyomon egy olyan térbeli rács segítségével, amely 2,5 fokos szélességi-hosszúsági egységekre van osztva. Az évi nyomás 12, havi diagramja a 3.22. ábrán látható. Jelen példában az 1982. év egy hónapjának szeleteire vagyunk kíváncsiak. Általánosabban, az adatok szeleteit tetszőleges dimenzió mentén vizsgálhatjuk.

Animáció

Az animáció alkalmazása, az idő figyelembevételével vagy anélkül, az adatszeletek kezelésének egy másik módja. Az alapötlet a kétdimenziós adatszeletek egymás utáni megjelenítése. Az ember látórendszere kiválóan alkalmas arra, hogy a látható változásokat észlelje, és gyakran meg is tudja jegyezni ezeket a változásokat, amelyeket egyéb módszerekkel nehéz lenne észrevenni. Az animáció vizuális vonzereje ellenére az álló diagramok, mint például a 3.22. ábrán láthatóak is, sokkal hasznosabbak lehetnek, mivel a tanulmányozásuk sorrendje tetszőleges, és ehhez korlátlan idő áll a rendelkezésünkre.

3.22. ábra - A tengerszinti nyomás havi diagramjai az 1982. év 12 hónapjában

A tengerszinti nyomás havi diagramjai az 1982. év 12 hónapjában

Magasabb dimenziójú adatok vizualizációja

Ebben a szakaszban olyan vizualizációs módszereket fogunk áttekinteni, amelyek az eddig tárgyalt kevés dimenziószámnál jóval többet képesek megjeleníteni. Még e módszerek is korlátozottak azonban valamelyest, hiszen az adatokat csupán néhány szemszögből képesek mutatni.

Mátrixok

Egy képet tekinthetünk úgy is, mint képpontok kétdimenziós tömbjét, ahol minden pixelt a színe és a fényereje jellemez. Az adatmátrix értékek egy kétdimenziós tömbjének tekinthető. Így az adatmátrix képként is megjeleníthető úgy, hogy a mátrix minden elemének a kép egy pixelét feleltetjük meg. Egy pixel színét és fényerejét a mátrix megfelelő eleme határozza meg.

Egy adatmátrix vizualizációjakor érdemes figyelembe vennünk néhány fontos dolgot. Ha az osztálycímkék is ismertek, akkor célszerű újrarendezni az adatmátrixot úgy, hogy az egy osztályba tartozó egyedek együvé kerüljenek. Ez megkönnyítheti például annak észrevételét, hogy az egy osztályba tartozó egyedek hasonló értékekkel rendelkeznek-e hasonló attribútumok esetén. Amennyiben az attribútumok eltérő terjedelműek, gyakran úgy standardizáljuk őket, hogy az átlaguk 0, a szórásuk 1 legyen. Ezzel megakadályozható, hogy a legnagyobb értékekhez tartozó attribútum domináljon az ábrán.

3.19. Példa.

A 3.23. ábrán látható az Írisz-adatállomány standardizált adatmátrixa. Az első 50 sor a Setosa fajtához tartozik, a második 50 a Versicolorhoz, a harmadik 50 a Virginicához. A Setosa fajtához tartozó virágok sziromleveleinek szélessége és hosszúsága messze az átlag alatt marad, míg a Versicolorokéi az átlag körül mozognak, a Virginicákéi pedig meghaladják az átlagot.

3.23. ábra - Az Írisz adatmátrix-diagramja, ahol az oszlopok úgy vannak standardizálva, hogy az átlaguk 0, a szórás 1 legyen

Az Írisz adatmátrix-diagramja, ahol az oszlopok úgy vannak standardizálva, hogy az átlaguk 0, a szórás 1 legyen

3.24. ábra - Az Írisz korrelációs mátrixának ábrája

Az Írisz korrelációs mátrixának ábrája

Egy adathalmaz szomszédsági mátrixának ábrájában bizonyos struktúrák után is kutathatunk. Már korábban is említettük, hogy egy hasonlósági mátrix sorait és oszlopait célszerű aszerint rendezni (ha az osztálycímkék ismertek), hogy minden, egy osztályba tartozó objektum együtt legyen. Ezáltal lehetővé válik egy olyan vizuális kiértékelés, amelyből megtudhatjuk, hogy mennyire összetartóak az egyes osztályok, és mennyire különülnek el más osztályoktól.

3.20. Példa.

A 3.24. ábrán látható az Írisz-adatállomány korrelációs mátrixa. A sorok és az oszlopok úgy helyezkednek el, hogy az azonos fajtához tartozó virágok együvé kerüljenek. A legnagyobb hasonlóságot mutató virágok egy csoportba tartoznak, azonban a Versicolor és a Virginica sokkal jobban hasonlít egymásra, mint bármelyikük a Setosára.

Ha nem ismertek osztálycímkék, akkor több különböző módszer (mátrix-átrendezés és sorba rendezés) áll rendelkezésünkre a hasonlósági mátrix sorainak és oszlopainak átcsoportosítására azért, hogy a nagymértékű hasonlóságot mutató objektumok és attribútumok együvé kerüljenek, így vizuálisan azonosíthatóak legyenek. Ez tulajdonképpen a klaszterezés egy egyszerű fajtája. 8.5.3. szakaszban szólunk részletesebben arról, hogy hogyan lehet használni a szomszédsági mátrixot az adatok klaszterszerkezetének felderítésében.

Párhuzamos koordináták

A párhuzamos koordináták diagramja minden attribútumhoz egy koordinátatengelyt rendel, viszont az egyes tengelyek egymással párhuzamosan futnak a hagyományos, egymásra merőlegesek helyett. Továbbá, egy objektumot nem ponttal, hanem vonallal ábrázolunk. Speciálisan, egy egyed minden attribútumértékéhez egy pont tartozik az attribútum tengelyén, amely pontokat vonallal összekötve kapjuk meg az egyed reprezentációját.

Félő azonban, hogy ez káoszt eredményezne. Sok esetben mégis úgy tűnik, hogy az egyedek kevés csoporthoz tartoznak, ahol a csoport pontjai hasonló attribútumértékekkel rendelkeznek. Ez esetben, és ha nem túl sok egyedről van szó, az eredményként kapott párhuzamos koordináták diagramján érdekes minták rajzolódhatnak ki.

3.21. Példa.

A 3.25. ábrán látható az Írisz-adatállomány négy numerikus attribútumához tartozó párhuzamos koordináták diagramja. A különböző osztályokba tartozó egyedeket reprezentáló vonalak az árnyalatuk és a vonaltípusuk -- folytonos, pontozott és szaggatott -- alapján vannak egymástól megkülönböztetve. A párhuzamos koordináták ábrája jól mutatja, hogy az osztályok meglehetősen jól elkülöníthetőek a sziromlevelek tulajdonságai alapján, de a csészelevelek mentén már kevésbé. A 3.26. ábra ugyanezen adatok egy másik párhuzamos koordináta diagramját tartalmazza, amelyben az előzőtől eltérő a tengelyek sorrendje.

3.25. ábra - A négy Írisz-attribútum párhuzamos koordináták diagramja

A négy Írisz-attribútum párhuzamos koordináták diagramja

3.26. ábra - A négy Írisz-attribútum párhuzamos koordináták diagramja, ahol az attribútumok sorrendjének megváltoztatásával hangsúlyosabbá tettük a csoportok hasonlóságát illetve különbözőségét

A négy Írisz-attribútum párhuzamos koordináták diagramja, ahol az attribútumok sorrendjének megváltoztatásával hangsúlyosabbá tettük a csoportok hasonlóságát illetve különbözőségét

A párhuzamos koordináták egyik hátulütője, hogy a diagramon a mintázatok felfedezését a sorrend nagymértékben befolyásolja. Például, ha a vonalak sokszor keresztezik egymást, az összkép zavarossá válhat, ezért ajánlatos a koordinátatengelyek sorrendjét úgy megválasztani, hogy minél kevesebb legyen a metszés. Vessük össze a 3.26. ábrát, ahol a csészelevél szélessége -- a legjobban összekeveredett attribútum -- a diagram bal oldalán található, a 3.25. ábrával, ahol ugyanez az attribútum középen helyezkedik el.

Csillagkoordináták és Chernoff-arcok

A többdimenziós adatok ábrázolásának másik módja az adatok írásképként vagy ikonként -- ezek olyan szimbólumok, amelyek az információt nemverbális módon közvetítik -- történő kódolása. Pontosabban fogalmazva, az adatok minden egyes attribútuma az íráskép egy különálló jellemzőjére képződik le, így az attribútum értéke pontosan meghatározza a jellemző természetét. Röviden szólva, így meg tudjuk állapítani, hogy két objektum miben tér el egymástól.

A csillagkoordináták ezen megközelítés egyik képviselői. Ennél a módszernél minden tengely egy attribútumot képvisel. Minden ilyen tengely egy középpontból ágazik szét, mint a kerék küllői, és egyenlő távolságra helyezkedik el egymástól. Jellemzően, minden attribútum értéke a [0,1] tartományban mozog.

Az objektum leképezése ezekre a csillag alakú tengelyekre a következő lépésekben történik. Az objektum minden attribútumértéke olyan törtté konvertálódik, amely az attribútum legkisebb illetve legnagyobb értéke közötti távolsággal arányos. Ez a tört leképződik az attribútumnak megfelelő tengely egy pontjára. Mindegyik pont egy egyenes vonallal kapcsolódik a saját tengelye előtti és utáni tengelyeken lévő pontokhoz, így alakítva ki egy poligon formáját. E poligon mérete és alakja jeleníti meg vizuálisan az objektum attribútumértékeit. Az értelmezés megkönnyítése okán minden adatobjektum önálló tengelyekkel rendelkezik, azaz minden egyes objektum egy poligonra képződik le. A 150 virág csillagkoordináta-diagramja a 3.27. (a) ábrán látható.

A jellemzők értékeit hozzánk sokkal közelebb álló objektumokra is leképezhetjük, például arcokra. Ezeket Chernoff-arcoknak nevezzük megalkotójuk, Herman Chernoff után. E módszer szerint minden attribútum az arc egy jellegzetességéhez van hozzárendelve, és az attribútum értéke határozza meg azt a módot, ahogyan az adott arcvonás megjelenik. Így például az arc megnyúlhat, ha a megfelelő adatok attribútumértékei növekednek. A 150 virág Chernoff-arc diagramja a 3.27. (b) ábrán látható.

A program, amelyet ezen arcok előállítására használtunk, a jellemzőket az alább felsorolt arcvonásokká képezte le. Az arc egyéb jellemvonásai, mint például a szemek közti távolság vagy a száj hossza, alapértelmezett értékeknek felelnek meg.

Adatattribútum

Arcvonás

csészelevél hossza

arcméret

csészelevél szélessége

homlok/viszonylagos állkapocsív hossza

sziromlevél hossza

homlokforma

sziromlevél szélessége

állkapocsforma

3.22. Példa.

E két, többdimenziós adatok megjelenítésére használatos megközelítés sokkal átfogóbb illusztrációja a 3.28. és a 3.29. ábrán látható. Az előbbi az Írisz-adatállományból származó 15 virág csillagkoordináta-diagramját mutatja, míg az utóbbi a virágok Chernoff-arc diagramját. Az első 5 virág Setosa, a második 5 Versicolor, a harmadik 5 Virginica.

3.27. ábra - Az Írisz-adathalmazból származó 150 virág csillagkoordináta és Chernoff-arc diagramja

Az Írisz-adathalmazból származó 150 virág csillagkoordináta és Chernoff-arc diagramja

3.28. ábra - 15 íriszvirág csillagkoordináta diagramja

15 íriszvirág csillagkoordináta diagramja

3.29. ábra - 15 íriszvirág Chernoff-arc diagramja

15 íriszvirág Chernoff-arc diagramja

E diagramfajták magukkal ragadó kinézetük ellenére rosszul skálázhatóak, ezért a használatuk korlátozott számos adatbányászati probléma esetében. Mindazonáltal jól használhatók olyan kevés számú objektum gyors összehasonlítására, amelyek kiválasztásához egyéb módszereket vettünk igénybe.

Mit tegyünk és mit kerüljünk el?

Jelen szakasz összefoglalásaként következzen egy rövid lista arról, hogy mit tegyünk és mit kerüljünk el a vizualizáció során. Bár ezek a támpontok számos, vizualizációval kapcsolatos bölcsességet tartalmaznak, mégsem tanácsos őket vakon követni. Ebben az esetben is igaz, hogy az irányelvek támpontok csupán, amelyek nem helyettesít(het)ik a gondos hozzáértést.

ACCENT-elvek

A hatékony grafikus megjelenítés alapelveit D. A. Burn fektette le. Az itt felsorolt ACCENT-elveket Michael Friendly adaptálta:

Felfogóképesség (Apprehension)

A változók közötti kapcsolatok korrekt megértésére való képesség. Az ábra a lehető legteljesebb mértékben biztosítja a változók közötti kapcsolatok megértését?

Vilagosság (Clarity)

Az a képesség, hogy az ábra minden elemét képesek vagyunk vizuális úton megkülönböztetni. Az ábrán a legfontosabb elemek és kapcsolatok a legszembeötlőbbek?

Következetesség (Consistency)

Az a képesség, hogy az ábrát hogyan tudjuk értelmezni annak a korábbi ábrákhoz való hasonlósága alapján. Megfelel az elemek, szimbólumok alakja és a színek mindegyike a korábbi ábrákon használtaknak?

Hatékonyság (Efficiency)

A bonyolult, összetett kapcsolatok lehető legegyszerűbb módon történő ábrázolása. Gazdaságosan használjuk az ábra elemeit? Könnyen értelmezhető az ábra?

Szükségszerűség (Necessity)

Az ábra és a rajta látható elemek létezésének szükségessége. Hasznosabb módja az ábra az adatok megjelenítésének, mint az alternatív eszközök (táblázat, szöveg)? Az ábra minden eleme szükséges a kapcsolatok megjelenítéséhez?

Hitelesség (Truthfulness)

Azon képesség, hogy meg tudjuk határozni bármely ábrázolt elem implicit illetve explicit skálákhoz viszonyított nagyságának valós értékét. Pontosan vannak az ábra elemei pozícionálva és skálázva?

Tufte irányelvei

Edward R. Tufte szintén meghatározott néhány alapelvet a grafikus ábrázolás tökéletesítésére. A grafikus ábrázolás tökéletes, ha:

  • az érdekes adatok jól tervezetten kerülnek bemutatásra -- a tartalom, a statisztika és a kivitelezés egysége,

  • összetett gondolatokat közöl világosan, pontosan és hatékonyan,

  • a nézőnek a legrövidebb idő alatt a legtöbb ötletet adja úgy, hogy a legkisebb helyen a legkevesebb festéket használja,

  • majdnem mindig többváltozós,

  • igazat állít az adatokról.