4. fejezet - Előfeldolgozás

Tartalom

Problémás adatok kezelése – Hiányzó, inkonzisztens és duplikált értékek
Mintavételezés és aggregáció
Attribútumok létrehozása és szűrése
Attribútumok diszkretizálása és súlyozása

Problémás adatok kezelése – Hiányzó, inkonzisztens és duplikált értékek

Leírás

A folyamat azt mutatja meg az Individual household electric power consumption adatállomány egy mintája esetén, hogy hogyan kezelhetjük az olyan adatállományokat, melyekben hiányzó, inkonzisztens, és/vagy duplikált értékek fordulnak elő. A hiányzó értékeket pótolhatjuk egy alapértelmezett vagy a mező többi előfordulása alapján számított értékkel, vagy ha szükséges, akár a hozzá tartozó rekordot is törölhetjük. Az inkonzisztens értékek meghatározását követően az ezekhez tartozó rekordokat is kiszűrhetjük, azonban ezek meghatározására általában szükség van valamilyen háttérinformációra vagy szakterületi tudásra. Ezzel szemben a duplikált értékek szűrése inkább automatizált feladat, az egymással egyező adatokat könnyen ki tudjuk szűrni.

Bemenet

Individual household electric power consumption [UCI MLR]

Kimenet

Az itt felhasznált adatállomány egy minta az eredeti, nagyobb időt felölelő állományból, csak a 2007 januári energiafogyasztási adatokat tartalmazza. Normális esetben percenkénti mérések szerepelnek az állományban, de ha egy-egy mérés valamilyen okból nem zajlott le, az időbélyeg adatok nélkül szerepel. Az ilyen hiányzó értékeket pótolhatjuk egy meghatározott értékkel, például az adott attribútum meglévő értékeinek átlagával, vagy úgy is dönthetünk, hogy a hozzájuk tartozó rekordokat kihagyjuk. Ennél viszont bonyolultabb az inkonzisztens értékek kérdése. Egy-egy szakterületen konkrét intervallumokat is meghatározhatunk arra nézve, hogy adott attribútum értékei milyen tartományba eshetnek, máshol viszont egyéb háttérinformációkra kell hagyatkoznunk. Például tegyük fel, hogy a háztartásban, melyben a méréseket végezték, a lakók nem folytatnak éjszakai életmódot. Erre alapozva tekintsük az adatok következő ábrázolását:

4.1. ábra - A globális és konyhai energiafogyasztás grafikus ábrázolása az idő függvényében

A globális és konyhai energiafogyasztás grafikus ábrázolása az idő függvényében

Az ábrán a szín a Sub_metering_1 változó értéke alapján kerül kiosztásra, mely a konyhai eszközök energiafogyasztását reprezentálja, és mivel az x tengelyt a napon belüli idő adja, láthatjuk, hogy a kiemelkedő konyhai fogyasztási értékek közül sok a késő esti órákban került mérésre. Ezt láthatjuk az adat nézetben is, ha rendezzük az adatokat a konyhai fogyasztás értéke szerint:

4.2. ábra - A háztartás tagjainak feltételezett szokásai alapján lehetséges kiugró értékek

A háztartás tagjainak feltételezett szokásai alapján lehetséges kiugró értékek

Amennyiben a háztartás tagjai valóban nem folytatnak éjszakai életmódot, ezeket az értékeket háttértudásunk alapján tekinthetjük inkonzisztensnek, és kiszűrhetjük, a következők szerint. A feltételünket formalizálva tegyük fel, hogy ha a konyhai mérés eredménye meghaladja az 50 Wh-t egy 22 óra utáni időpontban, akkor az inkonzisztens adatnak számít. Ez alapján már egyszerű meghatározni egy szűrőfeltételt, viszont először az idő attribútumot konvertálnunk kell, ugyanis az alapértelmezés szerint óó:pp:mm formátumú, nominális változó, melyet csak egyenlőségre vizsgálhatunk. A megfelelő operátorokkal felbonthatjuk számként értelmezett óra, perc és másodperc komponensre, és ezek közül a Time_1 változóba kerülő óra komponens alapján már fel tudjuk írni a szűrési feltételt:

4.3. ábra - A lehetséges kiugró értékek kiszűrése rekordszűrő segítségével

A lehetséges kiugró értékek kiszűrése rekordszűrő segítségével

Az eredmények értékelése

Ilyen szűrők segítségével kiszűrhetjük az inkonzisztens adatokhoz tartozó rekordokat, illetve a megfelelő operátor alkalmazásával a duplikált rekordokat – azt is meghatározhatjuk, milyen attribútumhalmaz egyezése alapján tekintjük őket duplikáltnak – is eltávolíthatjuk az adatállományunkból, ezután pedig már meg lehet kezdeni a szűrt és/vagy javított rekordok érdemi feldolgozását.

Videó

Folyamat

preproc_exp1.rmp

Kulcsszavak

hiányzó adatok
inkonzisztens adatok
adattranszformáció
duplikált adatok

Operátorok

Filter Examples
Parse Numbers
Read CSV
Remove Duplicates
Replace Missing Values
Split