Változók helyettesítése és hiányzó értékek pótlása

Leírás

Ebben a kísérletben azt szemléltetjük a Congressional Voting Records adatállomány segítségével, hogy hogyan módosíthatjuk az attribútumaink értékeit a Replacement operátor segítségével, majd hogyan pótolhatjuk (imputálhatjuk) az Impute operátorral a hiányzó értékeket. A hiányzó értékek pótlását végezhetjük változónként a többitől függetlenül illetve a célváltozóval való kölcsönhatásban egy döntési fát illesztve.

Bemenet

Congressional Voting Records [UCI MLR]

Kimenet

A Replacement operátorral külön tudjuk beállítani a diszkrét és a folytonos változók helyettesítését.

15.9. ábra - A helyettesítés varázslója

A helyettesítés varázslója

Az Impute operátornál számos imputációs eljárás közül választhatunk. Kitölthetjük a hiányzó értékeket egy konstans értékkel, de használhatunk eloszlás alapú, ahol egy véletlen értéket generál a rendszer és döntési fa alapú kitöltést is.

15.10. ábra - Az imputáció outputja

Az imputáció outputja

A célváltozóval korrelált imputáció eredményét az alábbi két oszlopdiagram mutatja.

15.11. ábra - Egy input és a célváltozó kapcsolata az imputáció előtt

Egy input és a célváltozó kapcsolata az imputáció előtt

15.12. ábra - Egy input és a célváltozó kapcsolata az imputáció után

Egy input és a célváltozó kapcsolata az imputáció után

Az eredmények értékelése

A kísérletben látható, hogy megfelelően választott imputálás esetén olyan értékeket kapunk a hiányzó adatok helyén, amely az összefüggéseket nem nagyon torzítják el és így egy bővebb adathalmazon megbízhatóbb modellillesztést tudunk végrehajtani.

Videó

Folyamat

sas_preproc_exp3.xml

Kulcsszavak

helyettesítés
imputálás

Operátorok

Data Source
Graph Explore
Impute
Replacement