Többdimenziós adatok megjelenítése és dimenziócsökkentése PCA-val

Leírás

A folyamat azt mutatja meg a Fisher-Anderson Iris adatállomány esetén, hogy hogyan jeleníthetünk meg sokdimenziós adatállományokat a Graph Explore operátor eszközeivel, majd hogyan hajthatunk végre dimenziócsökkentést a Principal Components operátorral. Ezután jóval egyszerűbbé válik egy sokdimenziós adatállomány megjelenítése a főkomponensek terében.

Bemenet

Fisher-Anderson Iris

Kimenet

A Graph Explore operátor számos grafikus eszközt biztosít sokdimenziós adatállományok megjelenítésére, amely kulcsfontosságú az adatbányászat feltáró, előfeldolgozó szakaszában. Ezek egy része olyan jól ismert eszközök kiterjesztései mint a sík és térbeli pont és oszlopdiagramok kiegészítve számos lehetőséggel, mint a színek és a szimbólumok használata. Más módszerek mint például a párhuzamos tengelyek vagy a radarábra viszont már csak az adatbányászati szoftverekre jellemző eszközök.

15.6. ábra - Az Iris adatállomány megjelenítése párhuzamos tengelyekkel

Az Iris adatállomány megjelenítése párhuzamos tengelyekkel

A főkomponens analízist (PCA – Pricipal Components Analysis) a Principal Components operátorral tudjuk elvégezni. Itt beállíthatjuk a vizsgálni kívánt függőségi struktúrát: kovariancia vagy korreláció, illetve a megszakítási feltételt: sajátértékek száma vagy a magyarázó erő.

15.7. ábra - A PCA kumulált magyarázó variancia görbéje

A PCA kumulált magyarázó variancia görbéje

A főkomponens analízis legfontosabb eredménye az egyes rekordok főkomponens koordinátái, amelyeket ezután a további adatelemzésben, megjelenítésben használhatunk fel.

15.8. ábra - Az Iris adatállomány megjelenítése az első két főkomponens terében

Az Iris adatállomány megjelenítése az első két főkomponens terében

Az eredmények értékelése

A kísérletben látható, hogy hogyan tudunk magas dimenziójú adatállományokat megjeleníteni és dimenziócsökkentést végrehajtani. Kísérletünkben az eredeti 4 dimenziós adatállományt, amelyet nem tudunk a szokásos módon megjeleníteni, sikerült úgy 2 dimenzióra csökkenteni, hogy az adatokban lévő információ 95 százaléka megmaradt.

Videó

Folyamat

sas_preproc_exp2.xml

Kulcsszavak

főkomponens analízis (PCA)
párhuzamos tengelyek

Operátorok

Data Source
Graph Explore
Principal Components