Összegző statisztikák

Az összegző statisztikák olyan mennyiségek, mint például az átlag vagy a szórás, amelyek egyetlen számmal, vagy számok egy kis halmazával ragadják meg az esetlegesen nagy kiterjedésű értékhalmazok különböző jellemzőinek lényegét. Az összegző statisztikákra a mindennapjainkból is könnyen találhatunk példákat, úgymint a háztartások jövedelmének átlaga, vagy a felsőoktatásban tanulók azon aránya, akik diplomájukat négy év alatt szerzik meg. Valójában a legtöbb ember számára az összegző statisztikák által válik a statisztika ténylegesen kézzelfoghatóvá. Mi azokra az összegző statisztikákra koncentrálunk, amelyek egyetlen attribútum értékeit foglalják össze, de röviden bemutatunk néhány többváltozós összegző statisztikát is.

Jelen szakasz az összegző statisztikák leíró jellegére szorítkozik. Azonban ahogy a C. függelékben ismertettük, a statisztika úgy tekint az adatokra, hogy azok egy olyan mögöttes statiszikai folyamatból származnak, amelyet különböző paraméterek jellemeznek, és némely, itt tárgyalt összegző statisztika úgy is tekinthető, mint azon alapvető eloszlások statisztikai paramétereinek becslése, amelyek az adatokat generálták.

Gyakoriságok és a módusz

Adott kategórikus értékeknek egy rendezetlen halmazánál az értékeket nem tudjuk tovább jellemezni azon kívül, hogy kiszámoljuk minden egyes érték gyakoriságát, amellyel adatok egy bizonyos halmazában előfordul. Ha adott egy x kategórikus attribútum, amely a { v 1 ,, v i , v k } értékeket veheti fel és egy m objektumból álló halmaz, akkor a v i értékhez tartozó gyakoriság a következőképpen definiálható:

gyakoriság( v i )= a v i  attribútumértékkel rendelkező egyedek száma m (3.1)

Egy kategórikus attribútum módusza a legmagasabb gyakorisággal rendelkező érték.

3.1. Példa.

Tekintsünk egy hallgatókból álló halmazt, akiknek egyik jellemzőjük az Évfolyam, amely a következő halmazból vehet fel értékeket: {gólya,másodéves,harmadéves,végzős} . A 3.1. táblázat a hallgatók létszámát tartalmazza az Évfolyam attribútum minden egyes értékénél. Az Évfolyam attribútum módusza a gólya, 0,33 gyakorisággal. Ez lemorzsolódás miatti kimaradásra, vagy a szokásosnál nagyobb elsős évfolyamra utalhat.

3.1. táblázat - Egy feltételezett főiskola hallgatóinak évfolyamonkénti létszáma

Évfolyam

Létszám

Gyakoriság

gólya

200

0,33

másodéves

160

0,27

harmadéves

130

0,22

végzős

110

0,18


A kategórikus attribútumok gyakran -- de nem mindig -- kevés értékkel rendelkeznek, így a módusz és az előforduló értékek gyakoriságai lehetnek érdekesek és hasznosak. Megjegyezzük, hogy mivel az Írisz-adathalmaz Osztály attribútumánál mindhárom virágtípus azonos gyakorisággal rendelkezik, a módusz itt nem játszik fontos szerepet.

A módusz imént bemutatott definíciójával nem használható jól folytonos adatok esetében, mivel egy érték nem fordulhat elő egynél többször. Mindazonáltal, bizonyos esetekben a módusz fontos információt hordozhat az értékek természetéről vagy a hiányzó értékekről. Például 20 ember magassága milliméterben mérve tipikusan nem fog azonos eredményeket adni, de deciméterben mérve már valószínűleg igen. Hasonlóan, ha a hiányzó érték jelölésére egy egyedi értéket használunk, akkor ez gyakran móduszként fog megjelenni.

Percentilisek

Rendezett adatok esetében sokkal hasznosabb egy értékhalmaz percentiliseivel dolgoznunk. Pontosabban, egy adott x sorrendi vagy folytonos attribútum, valamint egy p 0 és 100 közötti szám esetén az x p , p -edik percentilis, x -nek egy olyan értéke, amelytől x megfigyelt értékeinek p% -a kisebb. Például, az 50 -edik percentilis értéke x 50% , ahol x értékeinek 50%-a kisebb, mint x 50% . 3.2. táblázat az Írisz-adathalmaz négy mennyiségi jellemzőjének percentiliseit mutatja.

3.2. Példa.

1-től 10-ig az egész számok x 0% , x 10% ,, x 90% , x 100% percentilisei sorrendben a következők: 1,0; 1,5; 2,5; 3,5; 4,5; 5,5; 6,5; 7,5; 8,5; 9,5; 10,0. Hagyományosan, min(x)= x 0% és max(x)= x 100% .

3.2. táblázat - A csésze- és sziromlevelek hosszának és szélességének adatai centiméterben mérve

Percentilis

Csészelevél

Csészelevél

Sziromlevél

Sziromlevél

hossza

szélessége

hossza

szélessége

0

4,3

2,0

1,0

0,1

10

4,8

2,5

1,4

0,2

20

5,0

2,7

1,5

0,2

30

5,2

2,8

1,7

0,4

40

5,6

3,0

3,9

1,2

50

5,8

3,0

4,4

1,3

60

6,1

3,1

4,6

1,5

70

6,3

3,2

5,0

1,8

80

6,6

3,4

5,4

1,9

90

6,9

3,6

5,8

2,2

100

7,9

4,4

6,9

2,5


Helyzetmutatók: átlag és medián

Folytonos adatok esetében a legszélesebb körben használt két összegző statisztika az átlag és a medián, amelyek egy értékhalmaz elhelyezkedésének mutatói. Vegyünk egy m objektumból álló halmazt és egy x attribútumot. Legyen az { x 1 ,, x m } halmaz az x attribútum értékei ezen az m objektumon. Konkretizálva, tekinthetjük ezt m gyerek magasságának. Az { x (1) ,, x (m) } halmaz tartalmazza x értékeit nemcsökkenő sorrendben. Így x (1) =min(x) és x (m) =max(x) . Ekkor az átlag és a medián a következőképpen definiálható:

átlag(x)= x Ż = 1 m i=1 m x i (3.2)

medián(x)={ x (r+1) , ha m páratlan, azaz m=2r+1, 1 2 ( x (r) + x (r+1) ), ha m páros, azaz m=2r. (3.3)

Összefoglalva, a medián páratlan számú adat esetén a középső érték, páros számú adatnál a két középső érték számtani átlaga. Így hét értéknél a medián x (4) lesz, míg tíz érték esetében 1 2 ( x (5) + x (6) ) .

Bár az átlagot néha az értékek halmazának közepeként értelmezzük, ez csak abban az esetben helytálló, ha az értékek szimmetrikusan helyezkednek el. Ha az adatok aszimmetrikusak, a medián megfelelőbb mutató a középértékre. Az átlag a kiugró értékekre is érzékeny. Kiugró értékekkel rendelkező adathalmazok esetében a medián valójában sokkal megbízhatóbb becslést biztosít.

Az átlag szokásos definíciója kapcsán felmerülő problémákat elkerülendő, használhatjuk a csonkolt átlagot is. Határozzunk meg 0 és 100 között egy p százalékot, dobjuk el az adatok alsó és felső (p/2)% -át, majd ezután számoljuk ki a szokásos módon az átlagot. A medián egy p=100% -os csonkolt átlag, míg a szokásos átlag p=0% -nak felel meg.

3.3. Példa.

Tekintsük a következő értékek halmazát: {1,2,3,4,5,90} . Ekkor az átlag 17,5, míg a medián 3,5. A p = 40%-os csonkolt átlag viszont szintén 3,5.

3.4.Példa.

A 3.3. táblázat tartalmazza az Írisz-adatok négy mennyiségi jellemzőjének átlagát, mediánját és csonkolt átlagát ( p = 20%). Mindhárom helyzeti mutató hasonló értékeket vesz fel a sziromlevél hossza attribútum kivételével.

3.3. táblázat - A csésze- ill. sziromlevél hosszainak ill. szélességeinek átlaga és mediánja centiméterben kifejezve

Mutató

Csészelevél

Csészelevél

Sziromlevél

Sziromlevél

hossza

szélessége

hossza

szélessége

átlag

5,84

3,05

3,76

1,20

medián

5,80

3,00

4,35

1,30

csonkolt átlag (20%)

5,79

3,02

3,72

1,12


A szóródás mérőszámai: terjedelem és variancia

A folytonos adatok általánosan használt összegző statisztikáinak egy másik halmazát azok alkotják, amelyek értékek egy halmazának szóródását vagy szórását mérik. Ezek a mutatók jelzik, ha az attribútumértékek széles körben szétszóródnak, vagy ha többé-kevésbé egy pont köré koncentrálódnak, amely pont lehet például az átlag.

A legegyszerűbb ilyen mutató a terjedelem, amelyet, ha adott egy x attribútum m -számú { x 1 ,, x m } értékkel, a következőképpen definiálhatunk:

terjedelem(x)=max(x)min(x)= x (m) x (1) . (3.4)

Bár a terjedelem a legnagyobb szóródást mutatja, félrevezető lehet abban az esetben, ha az értékek nagy része egy szűk sávra korlátozódik, és viszonylag kevés a kiugrónak mondható érték. Éppen ezért a szóródás mérésénél a varianciát részesítjük előnyben. Egy x jellemző megfigyelt értékeinek varianciáját szokásosan s x 2 -tel jelöljük, definíciója lent látható. A standard eltérés, vagy szórás, amely a variancia négyzetgyöke és jelölése s x , mértékegysége megegyezik x -ével.

variancia(x)= s x 2 = 1 m1 i=1 m ( x i x Ż ) 2 (3.5)

Az átlagot torzíthatják a kiugró értékek, és mivel a varianciát az átlag alapján számoljuk ki, az szintén érzékeny lesz ezekre. Valójában a variancia különösen érzékeny a kiugró értékekre, mivel az átlag és a többi érték négyzetes különbségét használja fel. Ennek eredményeként értékek egy halmazának szóródására sokkal robusztusabb becsléseket szoktak használni. A következőkben három ilyen mérőszámot definiálunk: az átlagos abszolút eltérést (AAD -- absolute average difference) , a medián abszolút eltérést (MAD -- median absolute difference), valamint az interkvartilis terjedelmet (IQR -- interquartile range). Az Írisz-adatok vonatkozásában a 3.4. táblázat tartalmazza ezen mérőszámokat.

AAD(x)= 1 m i=1 m | x i x Ż | (3.6)

MAD(x)=medián({| x 1 x Ż |,,| x m x Ż |}) (3.7)

interkvartilis terjedelem(x)= x 75% x 25% (3.8)

3.4. táblázat - A csésze- ill. sziromlevél hosszának ill. szélességének terjedelme, standard eltérése vagy szórása (std -- standard deviation), átlagos abszolút eltérése (AAD -- absolute average difference), medián abszolút eltérése (MAD -- median absolute difference) és interkvartilis terjedelme (IQR -- interquartile range) centiméterben kifejezve

Mutató

Csészelevél

Csészelevél

Sziromlevél

Sziromlevél

hossz

szélesség

hossz

szélesség

terjedelem

3,6

2,4

5,9

2,4

szórás

0,8

0,4

1,8

0,8

AAD

0,7

0,3

1,6

0,6

MAD

0,7

0,3

1,2

0,7

IQR

1,3

0,5

3,5

1,5


Többváltozós összegző statisztikák

A számos attribútumot tartalmazó adatok (többváltozós adatok) helyzeti mutatóit az attribútumonkénti átlag vagy medián kiszámításával kaphatjuk meg. Így egy adott adathalmaz egyedeinek átlagát, x Ż -t, a következőképpen határozhatjuk meg:

x Ż =( x 1 Ż ,, x n Ż ), (3.9)

ahol x i Ż az x i i -edik attribútum átlaga.

Többváltozós adatok esetében minden egyes attribútum szórása a többi attribútumtól függetlenül kiszámítható 3.2.4. szakaszban leírtak alapján. Folytonos adatok esetében azonban a szórás sokkal inkább megragadható az S kovarianciamátrixszal, amelynek ij -edik eleme, s ij , az i -edik és j -edik attribútum kovarianciája. Így, ha x i és x j az i -edik és j -edik attribútumok, akkor

s ij =kovariancia( x i , x j ). (3.10)

A kovariancia( x i , x j ) pedig a következőképpen számítható ki:

kovariancia( x i , x j )= 1 m1 k=1 m ( x ki x Ż i ) ( x kj x Ż j ), (3.11)

ahol x ki illetve x kj a k -adik objektum i -edik illetve j -edik attribútumának értékei. Megjegyezzük, hogy kovariancia( x i , x i )=variancia( x i ) . Ezért a kovarianciamátrix főátlójában az attribútumok varianciái jelennek meg.

Két attribútum kovarianciája annak mutatója, hogy a két attribútum milyen mértékben változik együtt, amely függ a változók nagyságától. Egy nullaközeli érték azt jelzi, hogy két attribútum nincs (lineáris) kapcsolatban egymással, viszont nem lehet a két változó közötti kapcsolat mértékét megítélni csak a kovarianciából. Mivel két attribútum korrelációja azonnal elárulja két változó (lineáris) kapcsolatának szorosságát, az adatfeltárás során a korrelációt előnyben részesítjük a kovarianciával szemben. (A korrelációról már a 2.4.5. szakaszban is szóltunk.) Az R korrelációs mátrix ij -edik eleme az adatok i -edik és j -edik attribútuma közötti korrelációt jelenti. Ha x i illetve x j az i -edik illetve a j -edik attribútum, akkor

r ij =korreláció( x i , x j )= kovariancia( x i , x j ) s i s j , (3.12)

ahol s i illetve s j rendre x i illetve x j szórása. Az R főátlójában található elemek értéke korreláció( x i , x i )=1 , míg a többi érték 1 és 1 között ingadozik. Érdemes olyan korrelációs mátrixokat is figyelembe venni, amelyek attribútumok helyett objektumok korrelációit tartalmazzák.

Az adatok összegzésének további módjai

Természetesen a leíró statisztikáknak további típusai is léteznek. Például egy értékhalmaz ferdesége azt méri, hogy az értékek mennyire szimmetrikusan szóródnak az átlag körül. Az adatoknak egyéb jellemzői is vannak, amelyeket nem könnyű kvantitatív módon mérni, ilyen például, hogy az értékek eloszlása multimodális-e, vagyis az adatok több ``kidudorodással'' is rendelkeznek-e azokon a helyeken, ahol a legtöbb érték koncentrálódik. A legtöbb esetben azonban a leghatékonyabb módszer arra, hogy egy attribútum értékeinek eloszlását összetettebb vagy részletesebb nézőpontokból is megértsük, a grafikus áttekintés hisztogram formájában. (A hisztogramokat a következő szakaszban tárgyaljuk.)