Attribútumok diszkretizálása és súlyozása

Leírás

A folyamat azt mutatja meg az Individual household electric power consumption adatállomány egy mintája esetén, hogy hogyan lehet adott, értékeit egy valós intervallumban felvevő attribútumot diszkretizálni, azaz a valós intervallum meghatározott részintervallumainak megfelelő diszkrét értékekre konvertálni. Emellett az is megfigyelhető a folyamatban, hogy milyen módon adhatók hozzá súlyok az egyes adatoszlopokhoz, amennyiben arra van szükség egy adatbányászati alkalmazásnál, hogy különbséget tegyünk az egyes adatok között fontosságuk szerint, ne pedig minden attribútum egyforma súllyal vegyen részt egy adott adatbányászati algoritmus futtatásában, és az erre alapozott következtetésekben.

Bemenet

Individual household electric power consumption [UCI MLR]

Kimenet

Az adathalmazban a Global_active_power változón keresztül mutatjuk be a diszkretizálás működését. Ez a változó a teljes háztartásban mért összfogyasztást reprezentálja egy adott időpillanatban, így ezek az értékek a napszakok váltakozásával együtt ciklikusan változnak, tehát amennyiben az összfogyasztást adott módszer alkalmazásához diszkrét értékekkel kell reprezentálnunk, nem pedig valós számokkal, akkor ez az oszlop megfelelően diszkretizálható. A diszkretizálás történhet például különböző operátorok alkalmazásával azáltal, hogy megadjuk a kategóriák méretét (elemszámban), vagy darabszámát, és ez alapján a meghatározott szám alapján vagy egyenlő méretű, vagy pedig egyenlő elemszámú kategóriákat hozhatunk létre, például a következőképpen:

4.13. ábra - A megfelelő diszkretizáló operátor kiválasztása

A megfelelő diszkretizáló operátor kiválasztása

4.14. ábra - A diszkretizáló operátor beállításainak megadása

A diszkretizáló operátor beállításainak megadása

Ezen felül ahhoz, hogy egyes módszereknél az elvárásainknak megfelelő eredmény, döntés szülessen a későbbiekben, meg kell határoznunk, hogy mely attribútumok milyen fontossággal bírnak - ennek a legegyszerűbb módja a súlyozás. Ahhoz, hogy súlyozni tudjuk az attribútumainkat, ahhoz először létre kell hoznunk magukat a súlyokat, akár automatikusan, akár manuálisan, majd a súlyokat alkalmaznunk kell az adathalmazunkra. Például olyan súlyokat állíthatunk be manuálisan erre az adatállományra, melyekkel jelöljük, hogy a globálisan mért értékek a legnagyobb fontosságúak, a részmérések eredményei kevésbé fontosak, a dátum és idő értékek pedig a legkevésbé fontosak, a következőképpen:

4.15. ábra - A megfelelő súlyozó operátor kiválasztása

A megfelelő súlyozó operátor kiválasztása

4.16. ábra - Az egyes attribútumok súlyainak beállítása

Az egyes attribútumok súlyainak beállítása

Az eredmények értékelése

A lépések végrehajtása után az adathalmaz minden rekordjában módosulni fog a Global_active_power változó értéke. Itt megfigyelhetjük, hogy megtörtént a felosztás intervallumokra, de a diszkrét értékek mögött megjelenítésre kerül az intervallum is, melybe eső értékek megfeleltetésre kerültek az adott értéknek. Továbbá összehasonlítva az eredeti és a módosított adathalmazt (a bal oldalon láthatjuk a súlyozott, a jobb oldalon pedig a súlyozatlan adathalmazt a diszkretizálás elvégzése után) azt is láthatjuk, hogy a súlyozásnak megfelelően módosultak a numerikus értékek az egyes oszlopokban (mivel be van kapcsolva a súlyok normalizálása opció, így a legmagasabb súly felel meg 1-nek, így az ezzel ellátott oszlopok értékei nem változnak, és a más súlyokkal ellátott oszlopok értékei csökkennek arányosan):

4.17. ábra - Az adathalmaz súlyozott és súlyozatlan példányainak összehasonlítása

Az adathalmaz súlyozott és súlyozatlan példányainak összehasonlítása

Videó

Folyamat

preproc_exp4.rmp

Kulcsszavak

attribútum diszkretizálása
attribútum súlyozása
súlyozás
diszkretizálás

Operátorok

Discretize by Binning
Multiply
Read CSV
Scale by Weights
Weight by User Specification