5. fejezet - A statisztika alapfogalmai

5.1. 5.1. A minta

5.1.1. 5.1.1. A minta és a minta realizáció

A matematikai statisztika szemléletmódja szerint a megfigyelendő mennyiség valószínűségi változó. Jelöljük ezt a valószínűségi változót -szel. Figyeljük meg -et -szer, egymástól függetlenül. Jelölje a megfigyelési eredményeket. Ezeket a megfigyelési eredményeket nevezzük mintának. Azonban -et sem egy szám -esnek tekintjük, hanem olyan objektumnak, amely magába sűríti a megfigyelések eredményeként adódó összes lehetséges szám -est. Így az mennyiségeket is valószínűségi változóknak tekintjük.

Az független, azonos eloszlású valószínűségi változókat mintának nevezzük. Rögzített esetén az szám -est minta realizációnak nevezzük. (Itt a háttérben lévő eseményteret jelöli.)

5.1. Megjegyzés. 1. A gyakorlatban mindig minta realizációkat figyelünk meg. Ezek azonban megfigyeléssorozatonként különböznek egymástól. A minta elméleti fogalma az összes lehetséges realizációt magába foglalja.

2. Ha egy valószínűségi változó, akkor -re vett minta alatt az -szel azonos eloszlású, független valószínűségi változókat értjük.

3. Ha egy eloszlásfüggvény, akkor eloszlásfüggvényű populációból vett minta alatt független, eloszlásfüggvényű valószínűségi változókat értünk.

4. A statisztika bizonyos fejezeteiben a fentinél tágabban értelmezik a minta fogalmát. Például a többdimenziós statisztikai analízisben az valószínűségi változók többdimenziósak, míg az idősorok analízisében a függetlenség (illetve az azonos eloszlás) feltétele nem teljesül.

5.1.2. 5.1.2. A statisztikai mező

A valószínűségszámítás tárgyalása során feltételezik, hogy a háttérben egy valószínűségi mező áll, az valószínűségi változó -n értelmezett, eloszlásfüggvénye , és ismert. A statisztikában ezzel szemben az eloszlásfüggvény nem ismert (illetve az bizonyos paraméterei nem ismertek). A statisztikában megfigyeléseket éppen azért végzünk, hogy az eloszlásfüggvényt megismerjük.

Legyen egy nem üres halmaz, minden -ra legyen valószínűségi mező. Az , összességet statisztikai mezőnek nevezzük. -t paramétertérnek, elemeit pedig paraméternek nevezzük.

Az minta az -n értelmezett, a mintaelemek együttes eloszlásfüggvénye pedig . Itt egyetlen mintaelem eloszlásfüggvénye, a minta együttes eloszlásfüggvénye pedig a függetlenség miatt szorzat alakú. Az eloszásfüggvény éppen akkor lép fel, amikor a statisztikai mezőn a valószínűség az aktuális. A gyakorlatban a statisztikai mező a háttérben marad, ténylegesen az eloszlásfüggvénnyel dolgozunk. Célunk az ismeretlen paraméter felderítése.

5.1.3. 5.1.3. Az empirikus eloszlásfüggvény

Próbáljuk meg rekonstruálni a minta alapján az eloszlásfüggvényt!

Legyen rögzített, jelölje

az minta realizáció elemeinek nagyság szerint növekvő permutációját. Az valószínűségi változókat rendezett mintának nevezzük.

az szám -es egy permutációja. Viszont különböző -kra más és más permutáció adja az elemek növekvő sorrendjét. Tulajdonképpen -et mint függvényeket (azaz mint függvényeit) kell sorba rendezni, hogy a rendezett mintához jussunk, tehát a szükséges átrendezés is függ -tól.

Legyen rendezett minta. A következő leképezést empirikus eloszlásfüggvénynek nevezzük:

Az 5.1. ábrán egy 5 elemű minta empirikus eloszlásfüggvénye látható. Az empirikus eloszlásfüggvény olyan lépcsős függvény, amely minden egyes mintaelem helyén -et ugrik. Természetesen, ha több mintaelem egybeesik, akkor alkalmas többszörösét ugorja.

5.1. ábra - 5 elemű minta empirikus eloszlásfüggvénye

5 elemű minta empirikus eloszlásfüggvénye

Valójában az függvény a véletlentől is függ, hiszen a mintaelemek valószínűségi változók.

A továbbiakban legyen minta egy eloszlásfüggvényű populációból. Jelölje az empirikus eloszlásfüggvényt.

5.2. Tétel. Rögzített esetén az alábbiak teljesülnek:

a) binomiális eloszlású;

b) várható értéke ;

c) szórása 0-hoz tart, ha ;

d) sztochasztikusan, ha .

Bizonyítás. a) Nyilván az esemény éppen akkor teljesül, ha pontosan darab mintaelem kisebb -nél. Lévén az , események függetlenek és valószínűségűek, a binomiális eloszláshoz jutunk:

minden -re.

b) Mivel az rendű, paraméterű binomiális eloszlás várható értéke , szórásnégyzete , így

és

c) az előző képletből adódik.

d) Tetszőleges esetén, a Csebisev-egyenlőtlenség alapján

ha .

Az előző állítás szerint az empirikus eloszlásfüggvény az elméleti eloszlásfüggvény jó közelítése, hisz egyrészt az körül ingadozik, másrészt a minta elemszámának növelésével sztochasztikusan -hez konvergál. A nagy számok erős törvényét alkalmazva, a sztochasztikus konvergenciánál erősebb, majdnem biztos konvergenciát is igazolhatunk.

5.3. Tétel. Bármely rögzített esetén

Bizonyítás. Az valószínűségi változók egymástól függetlenek, azonos Bernoulli-eloszlásúak. (Itt a indikátorfüggvényét jelöli az helyen.)

és

minden esetén. Másrészt

Ez utóbbi mennyiség a nagy számok erős törvénye értelmében az összeadandók közös várható értékéhez, azaz -hez konvergál majdnem biztosan. A tétel második állítása hasonlóan bizonyítható.

Az előző állítás tovább finomítható: az is igaz, hogy az egész számegyenesen egyenletesen tart -hez (majdnem biztosan). Azaz az általunk megfigyelt minta alapján képzett függvény segítségével rekonstruálhatjuk az általunk nem ismert eloszlásfüggvényt. Ez adja az alábbi, Glivenkotól és Cantellitől származó tétel jelentőségét.

5.4. Tétel. (A matematikai statisztika alaptétele)

teljesül 1 valószínűséggel.

Az előző állításból és monotonitása alapján igazolható a tétel.

5.1. Példa. Ábrázoljuk közös koordinátarendszerben a standard normális eloszlás elméleti eloszlásfüggvényét és a standard normális eloszlásból vett 50 elemű mintából meghatározott empirikus eloszlásfüggvényt. A mintát generált véletlen számok jelentették a 5.2. ábra elkészítésében.

5.2. ábra - 50 elemű minta empirikus eloszlásfüggvénye és az elméleti eloszlásfüggvény

50 elemű minta empirikus eloszlásfüggvénye és az elméleti eloszlásfüggvény

5.1.4. 5.1.4. Hisztogramok

Tekintsünk egy mintát. Beosztjuk a számegyenest osztópontokkal. Tegyük fel, hogy minden mintaelem beleesik az intervallumba. Jelölje az intervallumba eső mintaelemek számát,

Rajzoljunk az intervallum fölé a -vel arányos területű téglalapot, . Így megkapjuk a hisztogramot.

Ha a téglalapok összterülete , akkor a gyakorisági hisztogramhoz jutunk. Pontosabban a gyakorisági hisztogram az az valós függvény, melyre

Ha a téglalapok összterülete 1, akkor a sűrűséghisztogramot kapjuk. Ekkor az -edik téglalap magassága .

5.5. Megjegyzés. 1. A hisztogram alapján következtethetünk az eloszlásra. Az eloszlás (feltételezett) jellegének figyelembe vételével érdemes a hisztogramot megszerkeszteni. A későbbi kiértékelés során figyelembe kell venni, hogy az osztópontokat a mintától függetlenül vettük-e fel. Az osztópontok sűrítésével, vagy ritkításával érhetjük el, hogy a hisztogram ne legyen se túl durva, se ne ,,ugráljon”.

2. Ha a minta feltételezhetően abszolút folytonos eloszlásból származik, akkor a sűrűséghisztogramból következtethetünk a sűrűségfüggvény alakjára.

3. Ha az eloszlás diszkrét, akkor a hisztogram helyett a relatív gyakoriságokat ábrázoló oszlopdiagramot rajzolhatjuk fel.

5.2. Példa. Generáljunk 1500 standard normális eloszlású véletlen számot. Ábrázoljuk a sűrűséghisztogramot ekvidisztáns osztópontok esetén. Próbálkozzunk különböző sűrűségű osztópontokkal. A 5.3. ábra 4 részintervallum esetét mutatja, ez a hisztogram túlságosan durva. A 5.4. ábra 13 részintervalluma megfelelőnek tűnik. A sűrűséghisztogram mellé az elméleti sűrűségfüggvényt is felrajzoltuk. Az 5.5. ábra túl sűrű beosztást mutat.

5.3. ábra - Durva beosztású hisztogram

Durva beosztású hisztogram

5.4. ábra - Megfelelő beosztású hisztogram és az elméleti sűrűségfüggvény

Megfelelő beosztású hisztogram és az elméleti sűrűségfüggvény

5.5. ábra - Túl sűrű beosztású hisztogram

Túl sűrű beosztású hisztogram

5.3. Példa. Generáljunk 200 elemű mintát az rendű paraméterű binomiális eloszlásból. Ábrázoljuk közös koordinátarendszerben a relatív gyakoriságokat és az elméleti valószínűségeket. A 5.6. ábrán * jelöli az elméleti valószínűségek és a relatív gyakoriságok értékét.

5.6. ábra - Valószínűségek és relatív gyakoriságok a binomiális eloszlás esetén

Valószínűségek és relatív gyakoriságok a binomiális eloszlás esetén


Gyakorlatok

  1. Legyen egy empirikus eloszlásfüggvény, egy folytonos elméleti eloszlásfüggvény. Adjunk algoritmust a

    mennyiség kiszámolására.

  2. Legyen és két empirikus eloszlásfüggvény. Adjunk algoritmust a

    mennyiség kiszámolására.

  3. Generáljunk 100 elemű mintát paraméterű exponenciális eloszlásból. Ábrázoljuk az empirikus eloszlásfüggvényt, valamint a sűrűséghisztogramot.

  4. Generáljunk 100 elemű mintát a -en egyenletes eloszlásból. Ábrázoljuk közös koordinátarendszerben az empirikus eloszlásfüggvényt, valamint az elméleti eloszlásfüggvényt. Cseréljük ki az ábrán az egyenletes elméleti eloszlásfüggvényt az eloszlásfüggvényére.

  5. Generáljunk 200 elemű mintát paraméterű binomiális eloszlásból.

    1. Ábrázoljuk közös koordinátarendszerben a relatív gyakoriságokat és az elméleti valószínűségeket.

    2. Ábrázoljuk közös koordinátarendszerben a sűrűséghisztogramot és az elméleti sűrűségfüggvényét.

Ellenőrző kérdések

  1. Mi a minta?

  2. Mi az empirikus eloszlásfüggvény?

  3. Mit állít a statisztika alaptétele?

  4. Mi a sűrűséghisztogram?