Mintavételezés és aggregáció

Leírás

A folyamat azt mutatja meg a Individual household electric power consumption adatállomány egy mintája esetén, hogy amennyiben adott esetben nincs szükségünk az egyedi rekordok mindegyikére egy folyamat során, hogyan tudjuk az adatokat aggregáció segítségével összesíteni, vagy az adatokat mintavételezni. Aggregációt akkor használhatunk, ha az egyedi adatokra ugyan nincs szükségünk, de az adatok összessége alapján kiszámított értékekre igen, mintavételezést pedig akkor végezhetünk, ha általánosságban csak az adattömeg töredékére van szükségünk, és erre a részhalmazra alapozva kívánunk következtetéseket levonni.

Bemenet

Individual household electric power consumption [UCI MLR]

Kimenet

Aggregáció esetén az SQL nyelvben rendelkezésre álló aggregáló függvények mindegyike alkalmazható, ezek segítségével könnyedén számíthatunk ki alapvető statisztikákat az adathalmazunk adataira.

4.4. ábra - Aggregáló függvények kiválasztása az attribútumokhoz

Aggregáló függvények kiválasztása az attribútumokhoz

Amennyiben mintavételt végzünk az adatállományon, azt tehetjük a minta nagyságának abszolút meghatározásával, vagy valószínűségre alapozva, vagy alkalmazhatunk egy szűrőt is, amennyiben az adathalmaz egyes részeit nem arányosan kívánjuk reprezentálni a mintában, hanem az eredeti adathalmaz egy adott részhalmazára van szükségünk. Például minden nap adott időponthoz tartozó bejegyzésére szűrhetünk a 4.6. ábrán látható módon.

4.5. ábra - Az adathalmazból való mintavétel beállításai

Az adathalmazból való mintavétel beállításai

4.6. ábra - Az adathalmazból való rekordszűrés beállításai

Az adathalmazból való rekordszűrés beállításai

Az eredmények értékelése

Az aggregáció vagy mintavételezés elvégzése után eredményül kapott adathalmazban már csak a meghatározott műveletek eredményeképpen előálló összesített értékek, illetve a meghatározott feltételeknek megfelelő rekordok jelennek meg:

4.7. ábra - Az adathalmazból való mintavétel után előálló eredményhalmaz

Az adathalmazból való mintavétel után előálló eredményhalmaz

4.8. ábra - Az adathalmazból való rekordszűrés után előálló eredményhalmaz

Az adathalmazból való rekordszűrés után előálló eredményhalmaz

Videó

Folyamat

preproc_exp2.rmp

Kulcsszavak

aggregálás
összesítés
mintavétel
adatok szűrése

Operátorok

Aggregate
Filter Examples
Multiply
Read CSV
Sample