5.3. 5.3. Statisztikai adatok áttekintése

5.3.1. 5.3.1. Az adatok elemzésének lépései

Általánosan a statisztika feladatai közé tartozik a kísérletek megtervezése, az adatok vételének (a méréseknek, adatgyűjtésnek) a megszervezése, az adatok tárolásának és számítógépes feldolgozásának megoldása. Jelenleg csak arra az esetre koncentrálunk, amikor már megvannak, és számítógépen (vagy írásban) tároltak az adatok.

Az adatok előzetes áttekintésekor figyelembe kell venni, hogy

  • milyen formában tároltak az adatok;

  • mekkora az adathalmaz;

  • homogének-e az adatok;

  • vannak-e hiányzó adatok;

  • az adatok számértékűek vagy általánosabb értékűek;

  • hány dimenziósak az adatok;

  • az adatok egészek, vagy törtek;

  • az adatok csoportosítottak-e.

Ezek után kerülhet sor a minta numerikus és grafikus jellemzőinek meghatározására.

5.3.2. 5.3.2. A minta numerikus jellemzői

Ha a mintaelemek az valós számok, akkor az alábbi numerikus jellemzőket kell kiszámítani:

  • a középérték jellemzésére: empirikus közép, medián, módusz;

  • a szóródás jellemzésére: empirikus szórásnégyzet, szórás, minta terjedelem, minimum, maximum;

  • az eloszlás jellemzésére: empirikus kvantilisek, ferdeség, lapultság.

5.3.3. 5.3.3. A minta középértékének és szóródásának leírása

A minta középértékét az empirikus középen kívül jellemezhetjük a módusszal és a mediánnal is. Az empirikus módusz az a mintaelem, amely leggyakrabban fordul elő. (Ha több ilyen érték van, akkor pl. a legkisebbet tekintik ezek közül.) Az empirikus medián egy (rendezett) minta esetén , ha páratlan, és ha páros. (Azaz a medián a középső mintaelem, vagy a két középső mintaelem átlaga.)

Az alábbi 11 elemű rendezett mintát tekintjük:

Ennek mediánja a 6. rendezett mintaelem: , módusza a leggyakoribb elem , míg az empirikus közép .

A minta szóródását az empirikus szóráson kívül jellemezhetjük a legkisebb és legnagyobb mintaelem különbségével. Ez a minta terjedelme (range): .

5.3.4. 5.3.4. A minta eloszlásának leírása

A minta elhelyezkedését jellemezhetjük a kvantilisek segítségével. A -os empirikus kvantilis az a legkisebb mintaelem, amelynél a mintaelemek -a kisebb vagy egyenlő. A -os (ill. -os) kvantilist alsó (ill. felső) kvartilisnek nevezzük.

Az előző példában az alsó kvartilis , a felső kvartilis .

5.4. Példa. Generáljunk 100 elemű mintát a standard normális eloszlásból. Ábrázoljuk az empirikus eloszlásfüggvényt és a 20%-os, 40%-os, 60%-os és 80%-os kvantiliseket. A megoldás az 5.7. ábrán látható.

5.7. ábra - A 20, 40, 60 és 80 százalékos kvantilisek

A 20, 40, 60 és 80 százalékos kvantilisek


5.3.5. 5.3.5. A minta grafikus jellemzői

A legismertebb grafikus elemzési módok:

  • empirikus eloszlásfüggvény;

  • hisztogram;

  • kördiagram;

  • oszlopdiagram;

  • decimális (stem-and-leaf) grafikon;

  • boxdiagram;

A két- és többdimenziós adatok grafikus elemzésére is ismertek eljárások.

A minta alapján javasolt az empirikus eloszlásfüggvény és a sűrűséghisztogram felrajzolása. Érdemes velük azonos koordinátarendszerben ábrázolni a szóbajöhető elméleti eloszlás, ill. sűrűségfüggvényt az illeszkedés jóságának megállapítására. Két minta homogenitásának (azaz azonos eloszlásból származásának) vizsgálatára érdemes a két empirikus eloszlásfüggvényt (ill. a két sűrűséghisztogramot) közös koordinátarendszerben ábrázolni.

5.3.6. 5.3.6. Diagramok

A gyakoriságok szemléltetésére szolgál a kördiagram és az oszlopdiagram. Az oszlopdiagram alakja hasonló a hisztogram alakjához, azonban lényeges különbség, hogy oszlopdiagramon nem számértékű jellemzőkre vonatkozó adatok is ábrázolhatóak.

5.5. Példa. Egy városban megszámolták, hogy milyen színű autóból mennyi van. Az arányok százalékban kifejezve: fehér 30%, fekete 5%, kék 25%, piros 20%, zöld 3%, sárga 17%. A kördiagram az 5.8. ábrán, az oszlopdiagram pedig az 5.9. ábrán látható.

5.8. ábra - A gyakoriságok kördiagramja

A gyakoriságok kördiagramja

5.9. ábra - A gyakoriságok oszlopdiagramja

A gyakoriságok oszlopdiagramja


5.3.7. 5.3.7. Boxdiagram

A boxdiagram eloszlások elhelyezkedésének és szórásának tömör jellemzésére szolgál. A box (doboz) az alsó és felső kvartilis által határolt. Jelölje az alsó és felső kvartilis távolságát. A felső kvartilistől fölfelé mért 1.5 és 3 távolság közötti mintaelemeket kiugró értékeknek (outlier) nevezzük, míg a 3 távolság fölöttieket extrém értékeknek. Hasonlóan, az alsó kvartilistól lefelé elhelyezkedő mintaelemek közül kijelölhetők a kiugró és az extrém értékek. Az 5.10. ábra bal oldalán egy standard normális eloszlásból generált 100 elemű minta boxdiagramja látható, míg az ábra jobb oldalán eloszlásból generált 100 elemű mintáé.

5.10. ábra - Boxdiagram

Boxdiagram

A boxdiagram jól használható különböző csoportok egyazon jellemző alapján való összehasonlítására.

5.6. Példa. Az 5.11. ábra azt mutatja, hogy a standard normális eloszlás esetén -0.68 és +0.68 az elméleti alsó és felső kvartilis. Elméleti extrém értékek a 4.76-nál nagyobb abszolút értékűek, ezek előfordulása gyakorlatilag esélytelen. Elméleti kiugró értékek 2.72 és 4.76 közé esnek abszolút értékben, ezek előfordulási esélye is csupán 0.66%.

5.11. ábra - Standard normális eloszlás esetén a kiugró és az extrém értékek valószínűsége

Standard normális eloszlás esetén a kiugró és az extrém értékek valószínűsége


Gyakorlatok

  1. Generáljunk 200 elemű mintát a standard normális eloszlásból, számoljuk ki az empirikus mediánt, kvartiliseket, empirikus közepet, szórást és ezek értékét hasonlítsuk össze a megfelelő elméleti értékekkel.

  2. Egy statisztikai programcsomag segítségével végezzük el a tárgyalt grafikus elemzéseket.

Ellenőrző kérdések

  1. Mi a medián és mi a kvartilis?

  2. Mi a boxdiagram?