Feladatok

  1. Töltsük le az egyik adathalmazt az UCI Machine Learning Repository-ból, és végezzünk el rajta annyi vizualizációs módszert a fejezetben bemutatottak közül, amennyit csak lehetséges. Az irodalmi megjegyzések és a könyv weblapja biztosítja a vizualizációs szoftverek elérhetőségét.

  2. Soroljuk fel a színek használatának legalább két előnyét és két hátrányát az információ vizuális megjelenítésénél.

  3. Milyen kérdések merülnek fel háromdimenziós diagramok készítésének előkészületénél?

  4. Milyen előnyei illetve hátrányai lehetnek a mintavételezésnek, amelyet a megjelenítendő adatobjektumok számának csökkentésére alkalmazunk? Jó módszer-e erre az egyszerű véletlenszerű mintavételezés (visszatevés nélkül)? Ha igen, miért, ha nem, miért nem?

  5. Mutassuk be, hogyan készítenénk vizualizációkat a következő típusú rendszereket leíró információk megjelenítésére.

    1. Számítógép-hálózatok. Győződjünk meg róla, hogy mind statikus, mint például az összekapcsolhatóság, mind dinamikus, mint például a forgalom, vonatkozásban megjelennek-e az adatok.

    2. Meghatározott növény-, illetve állatfajok eloszlása a világon egy adott időpillanatban.

    3. A számítógép erőforrásainak (processzoridő, RAM, lemezterület) kihasználtsága különböző benchmark programok esetében.

    4. Egy adott ország dolgozó népességének foglalkozásbeli változásainak nyomon követése az elmúlt harminc évben. Tegyük fel, hogy rendelkezésünkre áll minden személy neme és végzettsége az adott évre vonatkozóan.

Győződjünk meg róla, hogy figyelembe vettük az alábbi szempontokat:

Ábrázolásmód. Hogyan képezzük le az objektumokat, az attribútumokat és a kapcsolatokat vizuális elemekre?

Elrendezés. Létezik olyan speciális megfontolás, szempont, amelyet a vizuális elemek megjelenítésénél figyelembe kell vennünk? A szempont megválasztásánál speciális példa lehet az átlátszóság használata vagy az objektumok csoportjainak elkülönítése.

Kiválasztás. Hogyan kezeljünk nagy számú attribútumot és adatobjektumot?

  1. Hozzunk egy-egy példát az ág-levél diagramok alkalmazásának előnyeire illetve hátrányaira a hagyományos hisztogramokkal szemben.

  2. Hogy lehet kezelni azt a problémát, amikor egy hisztogram a dobozok számától és elhelyezkedésétől függ?

  3. Hogyan hordozza egy dobozábra azt az információt, ami egy attribútum értékének szimmetrikus eloszlására vonatkozik? Milyen megállapításokat tehetünk a 3.11. ábrán látható attribútumértékek szimmetrikus eloszlásáról?

  4. Hasonlítsuk össze a csésze- és sziromlevelek hosszát és szélességét A 3.12. ábra segítségével!

  5. Magyarázzuk el, egy dobozábra hogyan segíti az adatok feltárását a következő négy attribútum vonatkozásában: életkor, súly, magasság, jövedelem.

  6. Adjunk lehetséges magyarázatot arra, hogy a sziromlevelek hosszának és szélességének legtöbb értéke miért a 3.9. ábrán látható diagram főátlójában helyezkedik el.

  7. A 3.14. és A 3.15. ábra segítségével határozzunk meg egy jellemvonást, amelyet a sziromlevél tulajdonságai befolyásolnak.

  8. Az egyszerű vonalábrák, például 58. oldalon található 2.12. ábra, amelyek két idősort reprezentálnak, jól használhatók magas dimenziószámú adatok megjelenítésére. Például A 2.12. ábra alapján könnyen megállapítható, hogy a két idősor frekvenciája eltérő. Az idősorok mely jellemzője teszi őket alkalmassá a magas dimenziószámú adatok hatékony ábrázolására?

  9. Gyűjtsünk olyan típusú helyzeteket, amelyek ritka vagy sűrű adatkockákat eredményeznek. Mutassunk rájuk a jelen könyvben tárgyaltaktól eltérő példákat.

  10. Hogyan lehet kiterjeszteni a többdimenziós adatelemzés fogalmát abban az esetben, ha a célváltozó egy minőségi (kvalitatív) változó? Más szavakkal fogalmazva, az összegző statisztikák vagy az adatvizualizáció mely fajtái érdekesek ebben az esetben?

  11. Készítsünk adatkockát 3.14. táblázat adataiból. Az eredmény ritka vagy sűrű adatkocka lesz? Ha ritka, határozzuk meg az üres cellákat.

3.14. táblázat - Ténytábla 16. feladathoz

Termékazonosító

Helyszínazonosító

Eladási szám

1

1

10

1

3

6

2

1

5

2

2

22


  1. Vitassuk meg az aggregáción és az olyan dimenziócsökkentési módszerek közti különbségeket, mint a főkomponens analízis (PCA) vagy a szinguláris felbontás (SVD).