D. függelék - Regresszióanalízis

Tartalom

Előzetes fogalmak
Egyszerű lineáris regresszió
A regresszió hibájának vizsgálata
Az illeszkedés hibája
Többváltozós lineáris regresszió
Alternatív legkisebb négyzetes regressziós módszerek

A regresszióanalízis egy előrejelző (prediktív) modellezési módszer, melynél a megbecsülendő célváltozó folytonos. Néhány alkalmazási lehetőség többek között: gazdasági jelzőszámok segítségével előrejelezhetünk tőzsdeindexeket, csapadék kiválásának mennyiségét becsülhetjük egy légáramban annak fizikai tulajdonságai alapján, meghatározhatjuk egy vállalat termékeinek eladási rátáját a hirdetésre költött pénz függvényében, vagy akár egy fosszília korát a benne még fennmaradt 14-es szénizotóp mennyisége alapján.

Előzetes fogalmak

Jelöljön D egy N megfigyelésből álló adathalmazt:

D={( x i , y i )|  i=1,2,,N}.

Minden x i megfelel az i -edik megfigyelés attribútumhalmazának ( x i -t magyarázó változónak is nevezzük), y i pedig a függő változó (vagy válasz). Egy regressziós feladat magyarázó változói lehetnek diszkrétek, de folytonosak is.

D.1. Definíció

(Regresszió) A regresszió annak az f célfüggvénynek a megtanulásának a feladata, amely minden x attribútumhalmazt a folytonos értékű y outputba képez.

A regresszió feladata olyan célfügvény megtalálása, amely a bemeneti adatokra minimális hibával illeszkedik. A regresszió hibafüggvénye az abszolút- vagy a négyzetes hibák összegeként fejezhető ki:

Abszolút hiba= i | y i f( x i )|, (D.1)

Négyzetes hiba= i ( y i f( x i )) 2 . (D.2)