6.4. 6.4. Szórásanalízis, regresszióanalízis

6.4.1. 6.4.1. Szórásanalízis

A szórásanalízis (ANOVA=ANalysis Of VAriance) alapkérdése: több minta esetén a várható értékek egyenlőek-e. Alapvető feltétel: minták egymástól is függetlenek, normális eloszlásból származnak, és a szórásaik egyenlőek! Tehát a minták között csak a várható értékeikben lehet eltérés.

6.4.1.1. Egyszeres osztályozás.

A legegyszerűbb szórásanalízisbeli modell az egyszeres osztályozás (one-way classification, one-way layout). Itt egyetlen tényező szintjeit kell összehasonlítani. Mivel a megfigyelések eredményeit tényezőnként egy-egy oszlopban szokták elhelyezni, a tényezők szintjeinek hatását oszlophatásnak nevezzük. Példaként tekintsünk egy mezőgazdasági kísérletet.

6.11. Példa. Három különböző műtrágya hatását mérték 9, 6, ill. 8 kísérleti alanyon. Itt az egyetlen tényező a műtrágya, annak 3 szintje van. A műtrágya hatására a terméseredményeket a fenti táblázat mutatja. Vizsgáljuk meg azt a nullhipotézist, hogy a terméseredmények várható értékei egyenlőek!

A megfigyelések: az -edik szinten végzett -edik megfigyelés. Az egyes szinteken nem feltétlen kell azonos számú mérést végezni.

Feltesszük, hogy

Elérhető, hogy legyen. Vezessük be az jelölést.

Vizsgáljuk a

nullhipotézis teljesülését! azt jelenti, hogy az egyes szinteknek nincs hatása.

A Steiner-formula alapján az db négyzetösszege előáll

alakban, ahol

a teljes átlag. A fenti felbontásban szereplő első négyzetösszeg jelölése , elnevezése teljes négyzetösszeg. előáll

alakban, ahol az -edik szint átlaga.

méri a szintek közötti szóródást, pedig a szinteken belüli szóródást (azaz a véletlen hibát). -at akkor vetjük el, ha túlságosan nagy -höz képest.

6.9. Tétel. és függetlenek. Továbbá . akkor és csak akkor -eloszlású, ha a

nullhipotézis teljesül.

A próbastatisztikáról szól a következő tétel.

6.10. Tétel. Az

statisztika pontosan akkor és szabadsági fokú -eloszlású, ha a

nullhipotézis teljesül.

Bizonyítás. Az előző tétel szerint esetén két független, a szabadsági fokával elosztott, -eloszlású valószínűségi változó hányadosa. Ezért az -eloszlás definíciója alapján ennek eloszlása ( esetén) -eloszlás és szabadsági fokokkal.

Az eddigiek alapján az alábbi szórásfelbontó táblázatot adhatjuk meg az egytényezős osztályozásra.

-at szinten elvetjük, ha a kapott -statisztika értéke nagyobb, mint , azaz a megfelelő szabadsági fokú -eloszlás táblázatából kikeresett (felső) kritikus érték.

6.12. Példa. (A 6.11. példa folytatása.) A (számítógépes) eredményt a szórásfelbontó tábla tartalmazza:

Az elnevezések magyarázata. Source = a szóródás forrása; Columns = oszlophatás (szintek közötti eltérések); Error = véletlen hiba; Total = teljes négyzetösszeg; df (degree of freedom) = szabadsági fok; SS (Sum of Squares) = négyzetösszeg; MS (Mean Square) = tapasztalati szórásnégyzet (négyzet átlag), F = F-statisztika. Annak kérdéséről, hogy a műtrágya három szintjének van-e hatása, az alatti mennyiség alapján döntünk. Amennyiben : a tényező szintjeinek nincs hatása nullhipotézis teljesül, az alatti statisztika -eloszlású (jelenleg szabadsági fokkal). Ez alapján határozható meg a próba pontos terjedelme: . Példánkban p=0.00021 érték adódott, azaz minden használatos szinten elvetjük a műtrágyák egyforma hatását. A hagyományos (táblázatos) kiértékelés ugyanerre a következtetésre vezet. értékét összehasonlítva a szabadsági fokú -eloszlás kritikus értékével, azt kapjuk, hogy a nullhipotézist 95%-os szinten el kell vetni. Ez azt jelenti, hogy a műtrágya tényező különböző szintjeinek van hatásuk a terméseredményre. Megjegyezzük, hogy az eljárást formálisan végrehajtottuk, azonban az alapfeltevések nem teljesülnek. Példánkban sem a szórások nem egyenlőek, sem a normalitás nem igaz (ez utóbbi grafikus eljárások, azaz hisztogram és Gauss-papír alapján adódott). Transzformációkkal (logaritmus, illetve törtkitevős hatvány vétele) részleges javulást sikerült elérni, a transzformáció elvégzését az olvasóra bízzuk.

Egy újabb példát tekintünk, melyhez számítógépes megoldás is tartozik.

6.13. Példa. Három különböző takarmány hatását mérték 11, 10, ill. 9 kísérleti állaton. Itt az egyetlen tényező a takarmány, annak 3 szintje van. A takarmány hatására a súlynövekedések:

Az eredmény a szórásfelbontó tábla:

Annak kérdéséről, hogy a takarmány három szintjének van-e hatása, az alatti mennyiség alapján döntünk. Amennyiben : “a tényező szintjeinek nincs hatása” nullhipotézis teljesül, az alatti statisztika -eloszlású (jelenleg 2, 27 szabadsági fokkal). Ez alapján határozható meg a próba pontos terjedelme: . A fenti program értéket adott, azaz minden használatos szinten elvetjük a takarmányok egyforma hatását.

6.4.2. 6.4.2. Regresszióanalízis

A regresszióanalízis feladata az X és az Y változók közötti függvénykapcsolat felderítése.

6.4.2.1. Egyváltozós lineáris regresszió.

Legyenek és nem független valószínűségi változók. Az értékét (amelyet nehezebb mérni) közelíteni fogjuk az egyszerűbben mérhető egy lineáris függvényével:

Feladatunk az és állandók meghatározása. A közelítés esetén a ,,hibát” az tényleges értéke és a lineáris közelítésének a különbsége, azaz az

különbség adja. Az és paraméterek értékét úgy határozzuk meg, hogy arra az

várható érték minimális legyen (legkisebb négyzetek elve).

Amennyiben és folytonos valószínűségi változók és ismert a együttes sűrűségfüggvényük, akkor az előbbi várható értéket az

alakban felírva adhatjuk meg. Így feladatunk azon és értékek meghatározása, amelyre az előbbi kettős integrál értéke minimális lesz.

Az

jelöléseket használva

adódik. Így az valószínűségi változónak -re vonatkozó (elméleti) regressziós egyenesének egyenlete:

Az és mennyiségeket az valószínűségi változó -re vonatkozó lineáris regressziója együtthatóinak nevezzük.

Legyen és legyen . Ekkor -nak -re vonatkozó regressziós egyenesében szereplő együtthatók értéke:

Így -nak -re vonatkozó regressziós egyenese:

6.4.2.2. A regressziós egyenes együtthatóinak becslése.

Az és együttes eloszlásfüggvényét (s így folytonos esetben az együttes sűrűségfüggvényét) általában nem ismerjük. Emiatt a regressziós egyenes egyenletét nem tudjuk az előbbieknek megfelelő módon meghatározni. Rendelkezésünkre áll viszont az párra egy , -elemű minta, amelynek segítségével - a legkisebb négyzetek módszerét használva - becsülni tudjuk a regressziós együtthatókat.

Legyen az -nak -re vonatkozó (elméleti) regressziós egyenesének egyenlete

Ha helyébe az mintaelemeket írjuk be, akkor a hibákat az

mennyiségek adják. A legkisebb négyzetek módszerét használva úgy kell meghatározni az és regressziós együtthatókat, hogy a

négyzetösszeg minimális legyen. Az

jelöléseket bevezetve

adódik, ahol és az és regressziós együtthatók legkisebb négyzetes becslése. Így a tapasztalati regressziós egyenes egyenlete:

vagy standardizált alakban:

6.4.2.3. A lineáris modell.

a lineáris modell, ahol

-dimenziós megfigyelés vektor,

méretű, nem véletlen, megfigyelt mátrix (a magyarázó változók mátrixa),

-dimenziós ismeretlen paraméter,

nem megfigyelhető -dimenziós véletlen vektor (hiba).

Általában , ezt szükség esetén fel fogjuk tenni. A gyakorlatban a magyarázó változók száma, pedig a megfigyelt objektumok száma, tehát ésszerű feltétel.

6.4.2.4. A legkisebb négyzetek módszere.

Ha és ( ismeretlen paraméter), akkor homoszkedasztikus esetről beszélünk. Ekkor a legkisebb négyzetes becslést (OLS=Ordinary Least Squares) alkalmazzuk -ra: ez lesz .

Legyen tehát az -et minimalizáló vektor. (Itt a norma -ben.)

6.11. Tétel. legkisebb négyzetes becslés az

normálegyenlet megoldása.

Bizonyítás. mikor a legkisebb? Ha éppen az ortogonális komp­lementere az altérre vonatkozóan. Itt az oszlopai által generált altér. Azaz merőleges minden oszlopára, tehát

vagyis .

6.12. Megjegyzés. invertálható .

Ha , akkor

Ez éppen a normálegyenlettel ekvivalens, ha invertálható.

6.13. Tétel. Legyen és . Ekkor torzítatlan becslése -nak, továbbá .

Ha , akkor .

Bizonyítás. Ha , akkor invertálható. Ekkor , hiszen . Másrészt

ugyanis .

Ha , akkor , így - lévén lineáris függvénye - maga is normális eloszlású.

6.4.2.5. A Gauss-Markov-tétel.

A homoszkedasztikus esetben legkisebb négyzetes becslés a legjobb lineáris torzítatlan becslés (BLUE=Best Linear Unbiased Estimator). Ezt mondja ki a Gauss-Markov-tétel.

6.14. Tétel. (Gauss-Markov.) Ha és , akkor a paraméter vektor legjobb lineáris torzítatlan becslése.

6.14. Példa. Legyen diák magassága és súlya. Keressünk összefüggést a két adat között!

Jelölje az oszlopvektort, az mátrix első oszlopa legyen 1-esekből álló, a második pedig az legyen. Ekkor éppen a súlynak a magasság lineáris függvényével való közelítését adja. Ha azonban úgy gondoljuk, hogy a súly a magasság másodfokú függvénye, akkor az előző mátrixot egészítsük ki az vektorral. Ez az alakú közelítést írja le.

Könnyen látható, hogy az általános lineáris modellel tetszőleges fokszámú polinomiális közelítés is leírható.

Ellenőrző kérdések

  1. Mi a szórásfelbontó táblázat?

  2. Mi az egyváltozós lineáris regresszió?