15. fejezet - Előfeldolgozás

Tartalom

Metaadatok előállítása és automatikus változó szelektálás
Többdimenziós adatok megjelenítése és dimenziócsökkentése PCA-val
Változók helyettesítése és hiányzó értékek pótlása

Metaadatok előállítása és automatikus változó szelektálás

Leírás

A folyamat azt mutatja meg a Spambase adatállomány esetén, hogy hogyan állíthatunk elő metaadatokat a DMDB operátorral majd hogyan végezhetünk automatikus változó szelekciót a Variable Selection operátorral. A Spambase adatállomány 58 attribútumot tartalmaz, amelyből az egyik a bináris célváltozó. Az adatállomány megjelenítéséhez szükség lehet például a fontos input attribútumok meghatározására, amellyel áttekinthetővé válik a grafikon.

Bemenet

Spambase [UCI MLR]

Kimenet

A DMDB operátor olyan metaadatokat, leíró statisztikákat állít elő mint átlag, szórás, minimum, maximum, ferdeség és lapultság, a diszkrét attribútumoknál ezeket egészíti ki még a módusz.

15.1. ábra - A DMDB operátor által kapott metaadatok egy része

A DMDB operátor által kapott metaadatok egy része

A Variable Selection alapbeállításait meghagyva a minimális R-négyzetet vettük nagyobbra, hogy jobban szűrjük a felesleges attribútumokat.

15.2. ábra - A Variable Selection operátor beállításai

A Variable Selection operátor beállításai

Eredményül egyrészt egy listát kapunk, amely a változókról hozott döntést tartalmazza, azaz benn marad-e az adatbányászati folyamatban vagy sem, másrészt pár ábrát a változók fontosságáról.

15.3. ábra - A változók listája a változó szelekció után

A változók listája a változó szelekció után

15.4. ábra - Szekvenciális R-négyzet grafikon

Szekvenciális R-négyzet grafikon

A fontos változók ismeretében már számos grafikus eszközét használhatjuk az Enterprise Miner ™nek, hogy megjelenítsük a rekordokat.

15.5. ábra - A változó szelekció után megmaradó két legfontosabb input attribútum függvényében a bináris célváltozó

A változó szelekció után megmaradó két legfontosabb input attribútum függvényében a bináris célváltozó

Az eredmények értékelése

A kísérletben látható, hogy hogyan tudunk metaadatokat kinyerni SAS adatállományokból, amelyeket aztán továbbíthatunk további operátorok számára. Bemutattuk ezentúl, hogy hogyan lehet nagy számú attribútum esetén változó szelekciót végezni és a továbbiakban csak a fontos attribútumokkal dolgozni.

Videó

Folyamat

sas_preproc_exp1.xml

Kulcsszavak

változó szelekció
metaadatok

Operátorok

Data Source
Data Mining DataBase
Graph Explore
Variable Selection