Egyszerű lineáris regresszió

Tekintsük a D.1. ábrán látható fiziológiai adatokat. Ezen egy alvó személy testének hőfluxusát és hőmérsékletét tüntettük fel. Tegyük fel, hogy célunk a hőmérséklet kifejezése a fluxus segítségével. A lentebbi kétdimenziós pontdiagram azt mutatja, hogy a két változó közötti függés a lineárishoz erősen közeli.

D.1. ábra - Hőmérséklet és hőfluxus mérése egy személyen

Hőmérséklet és hőfluxus mérése egy személyen

D.2.1 Legkisebb négyzetek módszere

Tételezzük fel, hogy a megfigyelt adatokra a következő lineáris modellt szeretnénk illeszteni:

f(x)= ω 1 x+ ω 0 , (D.3)

ahol ω 0 és ω 1 regressziós együtthatóknak hívott paraméterek. Egy bevett megközelítés a legkisebb négyzetek módszere, melynek célja az olyan ( ω 0 , ω 1 ) paraméterek megtalálása, melyekkel a négyzetes hibák összege, amely a maradékok négyzetösszege néven is ismert, azaz

SSE= i=1 N [ y i f( x i )] 2 = i=1 N [ y i ω 1 x ω 0 ] 2 (D.4)

minimális.

Ezt az optimalizációs feladatot SSE (röviden innentől E ) ω 0 -ra és ω 1 -re vonatkozó parciális deriváltjainak vizsgálatával oldhatjuk meg. Pontosabban, az említett deriváltakat nullával tesszük egyenlővé, és az így kapott lineáris egyenletrendszert megoldjuk:

E ω 0 =2 i=1 N [ y i ω 1 x i ω 0 ]=0,

E ω 1 =2 i=1 N [ y i ω 1 x i ω 0 ] x i =0. (D.5)

Ezeket az egyenleteket az

( N i x i i x i i x i 2 )( ω 0 ω 1 )=( i y i i x i y i ) (D.6)

alakú mátrixegyenletbe rendezhetjük. Ezt az egyenletet normálegyenletnek nevezik. A konkrét példában i x i =229,9 , i x i 2 =1569,2 , i y i =1242,9 és i x i y i =7279,7 , a normálegyenlet megoldható, és a paraméterekre az alábbi becslés adódik:

( ω ̂ 0 ω ̂ 1 )= ( 39 229,9 229,9 1569,2 ) 1 ( 1242,9 7279,7 )

=( 0,1881 0,0276 0,0276 0,0047 )( 1242,9 7279,7 )

=( 33,1699 0,2208 ).

Ezért az adatokra legjobban illeszkedő, az SSE-t minimalizáló modell:

f(x)=33,170,22x.

A D.2. ábra grafikusan mutatja a megoldást.

D.2. ábra - Egy lineáris modell, mely illeszkedik fig_app:skin_heat_data. ábrán adott adatokra

Egy lineáris modell, mely illeszkedik fig_app:skin_heat_data. ábrán adott adatokra

Megmutatható, hogy (eqn_app:normal) normálegyenlet általános megoldása kifejezhető

ω ̂ 0 = y Ż ω ̂ 1 x Ż

ω ̂ 1 = σ xy σ xx (D.7)

alakban, ahol x Ż = i x i /N , y Ż = i y i /N és

σ xy = i ( x i x Ż )( y i y Ż ) (D.8)

σ xx = i ( x i x Ż ) 2 (D.9)

σ yy = i ( y i y Ż ) 2 . (D.10)

Így a legkisebb négyzetes hibát garantáló lineáris modell általánosan

f(x)= y Ż + σ xy σ xx [x x Ż ]. (D.11)

Összegezve, a legkisebb négyzetek módszere egy szisztematikus megközelítés lineáris modell illesztésére az y függő változóra úgy, hogy az y valódi és becsült értékei közötti négyzetes hiba minimális. Bár a modell viszonylag egyszerű, számottevő pontossággal bír. Ez azért van, mert a lineáris modell valójában egy folytonos deriváltakkal rendelkező függvény elsőrendű Taylor-sorfejtése.

A regresszió hibájának vizsgálata

Egyes adathalmazok tartalmazhatnak mérési hibákat x -ben és y -ban. Ráadásul lehetnek egyéb olyan zavaró tényezők, melyek hatnak az y függő változóra, de a modell leírásában nem szerepelnek. Ezen okok miatt az y függő változó nemdeterminisztikus is lehet, vagyis még ugyanolyan x attribútumhalmaz mellett is lehetnek különbözőek az értékei.

Ezt a helyzetet modellezhetjük valószínűségi alapokon úgy, hogy y -t valószínűségi változónak tekintjük:

y=f(x)+[yf(x)]

=f(x)+ε. (D.12)

Mind a mérésből, mind a modell sajátságaiból eredő hiba az ε véletlen zajnak nevezett változóba olvasztható. A véletlen zajt általában a többi változótól függetlennek és adott eloszlásúnak tekintjük.

Ha például a véletlen zaj nulla várható értékű, σ 2 szórásnégyzetű normális eloszlásból származik, akkor

P(ε|x,Ω)= 1 2π σ 2 exp [yf(x,Ω)] 2 2 σ 2 , (D.13)

log[P(ε|x,Ω)]= 1 2 (yf(x,Ω)) 2 +konstans. (D.14)

Ez az elemzés mutatja, hogy [yf(x,Ω)] 2 minimalizálása implicit módon feltételezi, hogy a véletlen zaj normális eloszlásból jön. Az is megmutatható továbbá, hogy az f(x,Ω)= y Ż konstans modell az, amely minimalizálja az ilyen típusú hibát ( y Ż az átlag).

Egy másik, zajra vonatkozó tipikus valószínűségi modell a Laplace-eloszlást használja:

P(ε|x,Ω)=c exp c|yf(x,Ω)| (D.15)

log[P(ε|x,Ω)]=c|yf(x,Ω)|+konstans (D.16)

Eszerint az |yf(x,Ω)| abszolút hiba minimalizálása implicite feltételezi, hogy a véletlen zaj ténylegesen Laplace eloszlásból jön. Ebben az esetben a f(x,Ω)= y ̃ a legjobb konstans modell ( y ̃ az y mediánja).

Az SSE mellett (lásd (14.4) egyenletet) két másik típusú hibát is definiálhatunk:

SST= i ( y i y Ż ) 2 , (D.17)

SSM= i (f( x i ) y Ż ) 2 , (D.18)

ahol SST a teljes négyzetösszeg, SSM pedig a regressziós négyzetösszeg. SST az előrejelzés hibája abban az esetben, amikor az y Ż átlagot használjuk a függő változó becslésére. SSM pedig magának a regressziós modellnek a hibája. Az SST , SSE és SSM közötti összefüggés az alábbi:

SSE= i [ y i y Ż + y Ż f( x i )] 2

= i [ y i y Ż ] 2 + i [f( x i ) y Ż ] 2 +2 i ( y i y Ż )( y Ż f( x i ))

= i [ y i y Ż ] 2 + i [f( x i ) y Ż ] 2 2 i ( y i y Ż ) ω 1 ( x i x Ż )

= i [ y i y Ż ] 2 + i [f( x i ) y Ż ] 2 2 i ω 1 2 ( x i x Ż ) 2

= i [ y i y Ż ] 2 i [f( x i ) y Ż ] 2

=SSTSSM, (D.19)

ahol az átalakítások során a következő azonosságokat használtuk:

y Ż f( x i )= ω 1 ( x i x Ż )

i [ y i y Ż ][ x i x Ż ]= σ xy   =   ω 1 σ xx   =   ω 1 i [ x i x Ż ] 2 .

Így tehát azt az összefüggést nyertük, hogy SST=SSE+SSM .

Az illeszkedés hibája

Az illeszkedés jóságának mérésére például a következő mennyiséget használhatjuk:

R 2 = SSM SST = i [f( x i ) y Ż ] 2 i [ y i y Ż ] 2 . (D.20)

Az R 2 (vagy determinációs együttható, coefficient of determination) regressziós modell esetén 0 és 1 között változik. Értéke akkor van közel egyhez, ha a függő változóban megfigyelt variabilitás nagy része a regressziós modellel magyarázható.

Az R 2 kapcsolatban áll az r korrelációs együtthatóval is. Utóbbi a magyarázó változó és a függő változó közötti lineáris kapcsolat erősségét méri:

r= σ xy σ xx σ xy . (D.21)

(D.9), (D.10) és (D.11) alapján

R 2 = i [f( x i ) y Ż ] 2 i [ y i y Ż ] 2

= i [ σ xy σ xx ( x i x Ż )] 2 σ yy

= σ xy 2 σ xx 2 σ yy i ( x i x Ż ) 2

= σ xy 2 σ xx 2 σ yy σ xx

= σ xy 2 σ xx σ yy . (D.22)

A fenti sorok azt mutatják, hogy a korrelációs együttható megegyezik a determinációs együttható négyzetgyökével (kivéve az előjelet, mely a függőség irányától függ).

Érdemes megjegyezni, hogy R 2 értéke növekszik, ha újabb magyarázó változót adunk a modellhez. Ilyen esetben R 2 értékének korrigálására egy lehetséges mód az igazított R 2 bevezetése:

Igazított   R 2 =1( N1 Nd )(1 R 2 ), (D.23)

ahol N az adatpontok száma, d+1 a regressziós modell paramétereinek száma.