Statisztika

Ahhoz, hogy egy populációval (sokasággal) kapcsolatban következtetéseket vonjunk le, elvben akár az összes tagjáról információt kellene gyűjtenünk. Ezt a gyakorlatban általában nem tehetjük meg. Ehelyett mintavétel segítségével kell megbízható következtetésekre jutnunk. Ezt a folyamatot statisztikai következtetésnek nevezzük.

Pontbecslés

A ,,statisztika'' kifejezés olyan numerikus mennyiségre utal, melyet a mintából számolunk ki. Két hasznos statisztika például az ( x Ż ) mintaátlag és az s X 2 tapasztalati szórásnégyzet:

x Ż = 1 N i=1 N X i , (C.14)

s X 2 = 1 N1 i=1 N ( X i x Ż ) 2 . (C.15)

Azt a folyamatot, melynek során a mintából megbecsüljük a sokaság adott paraméterét vagy paramétereit, pontbecslésnek nevezzük.

C.3. Példa.

Legyen X 1 , X 2 ,, X N egy véletlen minta N független és azonos eloszlású, μ X várható értékű és σ X 2 varianciájú valószínűségi változóra vonatkozóan. Legyen x Ż a mintaátlag. Ekkor

E[ X Ż ]=E[ 1 N i X i ]= 1 N i E[ X i ]= 1 N ×N μ X = μ X , (C.16)

ahol E[ X i ]= μ X , mivel minden megfigyelés ugyanolyan μ X átlagú eloszlásból jön. Ez az eredmény azt sejteti, hogy az x Ż mintaátlag megközelíti a populáció μ X átlagát, ha N kellően nagy. A statisztika nyelvén szólva, a mintaátlag a várható érték torzítatlan becslése. Megmutatható, hogy a mintaátlag varianciájára

E[ ( x Ż E[ x Ż ]) 2 ]= σ X 2 /N. (C.17)

Mivel a populáció varianciája általában ismeretlen, ezt gyakran az s X 2 tapasztalati szórásnégyzettel helyettesítjük. Az s X / N mennyiséget az átlag standard hibájának nevezzük.

A központi határeloszlás-tétel

A normális eloszlás talán a legszélesebb körben alkalmazott eloszlás, hiszen rengeteg olyan véletlen jelenség van, mely ezzel az eloszlással modellezhető. Ez a központi határeloszlás-tétel néven ismert statisztikai elv következménye.

C.1. Tétel

(Központi határeloszlás-tétel) Tekintsünk egy μ X várható értékű és σ X 2 varianciájú sokaságból származó N elemű mintát. Az x Ż mintaátlag eloszlása a μ X várható értékű, σ X 2 /N varianciájú normális eloszlást közelíti, amennyiben a minta elemszáma nagy.

A központi határeloszlás-tétel a valószínűségi változó eloszlásától függetlenül érvényes. Tegyük fel például, hogy N -szer mintát veszünk egy ismeretlen eloszlású adathalmazból. Legyen X i az a valószínűségi változó, mely azt jelöli, hogy az i -edik esetet helyesen prediktálja-e az adott osztályozó. Tehát X i =1 , ha az eset helyesen prediktált, 0 egyébként. Az X Ż mintaátlag jelöli az osztályozó várható pontosságát. A központi határeloszlás-tétel azt sugallja, hogy a várható pontosság (a mintaátlag) általában normális eloszlású, bár nem feltétlenül normális az az eloszlás, melyből a minták származnak.

Intervallumbecslés

Ha egy populáció paramétereit becsüljük, hasznos ennek a becslésnek a megbízhatóságáról is szólni. Példaképpen tegyük fel, hogy véletlen megfigyelések eredményeiből szeretnénk a μ X átlagot becsülni. Ha pontbecsléssel, például az x Ż mintaátlag által szeretnénk eredményre jutni, nem feltétlenül kapunk elfogadható eredményt. Különösen igaz ez kis elemszámú minták esetében. Ehelyett eredményesebb, ha sikerül olyan intervallumot találnunk, melybe az átlag nagy valószínűséggel beleesik. Azt a módszert, mely a kérdéses intervallumot szolgáltatja, intervallumbecslésnek nevezzük. Legyen θ a megbecsülendő paraméter. Ha

P( θ 1 θ θ 2 )=1α, (C.18)

akkor a ( θ 1 ; θ 2 ) intervallumot 1α megbízhatósági szintű konfidencia-intervallumnak nevezzük. fig_app:confidence_interval. ábra a 95%-os szintű konfidencia-intervallumot mutatja 0 várható értékű, 1 szórású normális eloszlásra nézve. A bevonalkázott terület a teljes görbe alatti egységnyi terület 95%-a. Más szavakkal, 95% annak az esélye, hogy ha egy mintát generálunk ebből az eloszlásból, a becsült paraméter 2 és +2 közé esik.

C.1. ábra - Egy paraméter konfidencia-intervalluma

Egy paraméter konfidencia-intervalluma

Tekintsük véletlen megfigyelések egy X 1 , X 2 ,, X N sorozatát. Az x Ż mintaátlag segítségével 68%-os szinten meg szeretnénk becsülni a populáció μ X átlagát. A központi határeloszlás-tételre támaszkodva tudjuk, hogy x Ż a μ X várható értékű és σ X 2 /N varianciájú eloszlást közelíti, ha N kellően nagy. Egy ilyen eloszlás a (0 várható értékű, 1 varianciájú) standard normális eloszlásúvá alakítható a következő módon:

Z= x Ż μ X σ X / N x Ż μ s X / N (0,1), (C.19)

ahol a szórást a minta empirikus szórásával közelítettük. A standard normális eloszlás táblázatából kiolvasható, hogy P(1Z1)=0,68 . A valószínűség átírható a következő módon:

P( s X / N x Ż μ X s X / N )=0,68,

vagy ekvivalens módon

P( x Ż s X / N μ X x Ż + s X / N )=0,68.

Emiatt μ X 68%-os konfidencia intervalluma x Ż ± s X / N .