Attribútumok létrehozása és szűrése

Leírás

A folyamat azt mutatja meg a The Insurance Company Benchmark (COIL 2000) adatállomány esetén, hogy hogyan tudunk a meglévő adatok alapján új, számított attribútumokat létrehozni, amennyiben az eredeti formájukban az attribútumok nem megfelelőek a számunkra, vagy valamilyen belőlük származtatott adatra van szükségünk. Emellett az is látható a folyamatban, hogy hogyan tudjuk az egyes attribútumokat eltávolítani, mivel ha a számítás alapjául szolgáló nyers adatokra nem feltétlenül van szükség a későbbiekben, akkor ezeket az oszlopokat eltávolíthatjuk az adathalmazból. Természetesen más oszlopokat is kiszűrhetünk, ha az adott feladat megoldásához nincs rájuk szükség, vagy éppen a zavaró hatásukat akarjuk kiszűrni.

Bemenet

The Insurance Company Benchmark (COIL 2000) [CoIL Challenge 2000]

Kimenet

Az adathalmazban az adott potenciális ügyfél irányítószámához tartozó körzet demográfiai adatai szerepelnek az egyes m betűvel kezdődő attribútumokban, köztük az egyes kereseti csoportok eloszlása az adott körzetben. Amennyiben valamilyen okból tömöríteni akarjuk az eredeti reprezentációt, lehetőségünk van arra, hogy egy meghatározott képlet használatával, valamilyen heurisztika alapján számított mezőt állítsunk elő ezekből a kereseti attribútumokból, például a következőképpen:

4.9. ábra - Új attribútum meghatározása egy, a meglévő attribútumokra támaszkodó kifejezéssel

Új attribútum meghatározása egy, a meglévő attribútumokra támaszkodó kifejezéssel

Miután létrehoztunk a megfelelő számolt mezőt, adott esettől függően eldönthetjük, hogy az eredeti, a számításainkhoz felhasznált mezőkre a továbbiakban szükségünk van-e, avagy nem. Ekkor figyelembe kell venni, hogy a későbbi modellalkotás szempontjából fontosak lehetnek-e az eredeti adatok, avagy lehet-e valamilyen zavaró hatásuk. A számított mezőhöz felhasznált nyers adatok attribútumait, avagy más tetszőleges attribútumokat is eltávolíthatunk az eredeti adathalmazból a következőképpen:

4.10. ábra - A redundánssá vált attribútumok eltávolításához használható operátor beállításai

A redundánssá vált attribútumok eltávolításához használható operátor beállításai

4.11. ábra - A csökkentett méretű adathalmazban megmaradó attribútumok kiválasztása

A csökkentett méretű adathalmazban megmaradó attribútumok kiválasztása

Az eredmények értékelése

A lépések végrehajtása után minden rekord meg fog jelenni a módosított adathalmazban, de módosított attribútumhalmazzal. A számított mező létrehozása után az új attribútum minden rekordban megjelenik, míg a kiszűrt attribútumok eltűnnek:

4.12. ábra - A származtatott attribútum megjelenése a módosított adathalmazban

A származtatott attribútum megjelenése a módosított adathalmazban

Videó

Folyamat

preproc_exp3.rmp

Kulcsszavak

számított attribútum
attribútum létrehozása
attribútum eltávolítása
attribútumok részhalmaza

Operátorok

Generate Attributes
Read AML
Select Attributes