Mátrixok

Definíciók

A mátrix számokból álló, sorokra és oszlopokra bontott táblázat. Mátrixok jelölésére félkövér nagybetűket használunk, mint például A , de dőlt nagybetűket ( A ) is igénybe veszünk erre a célra. ,, m -szer n -es mátrix'' alatt olyan mátrixot értünk, melynek m sora és n oszlopa van. A lentebbi A mátrix például 2-szer 3-as. Ha m=n , akkor a mátrixot négyzetes mátrixnak nevezzük. A transzponáltja alatt azt az A T módon jelölt mátrixot értjük, melyet A -ból annak sorainak és oszlopainak felcserélésével kapunk.

A=[ 2 6 1 7 5 2 ]     A T =[ 2 7 6 5 1 2 ]

A mátrix elemeit alsóindexes kisbetűkkel jelöljük. Így például az A i -edik sorának és j -edik oszlopának elemét a ij jelöli. A sorokat fentről lefelé, az oszlopokat balról jobbra számozzuk. Az a 21 =7 a második sor első eleme A -ban.

Egy mátrix minden sora és oszlopa vektort definiál. Az A mátrix esetén az i -edik sorvektor az a i* módon jelölhető, míg a j -edik oszlopvektort a *j jelöli. Az előző példánál maradva, a 2* =[752] és a *3 = [12] T . Jegyezzük meg, hogy a sor- és oszlopvektorok is mátrixok; emiatt egy sor- és egy oszlopvektor hiába tartalmaz azonos számú és azonos elemet, attól azok még különböző mátrixokat reprezentálnak.

Mátrixok összeadása és skalárral való szorzása

A vektorokhoz hasonlóan adhatunk össze mátrixokat is, a megfelelő elemeiket (koordinátáikat) összeadva. (Ilyenkor megköveteljük, hogy az összeadandó mátrixok sorainak és oszlopainak száma rendre megegyezzen.) Precízebben fogalmazza ezt meg a következő definíció: A.3. Definíció

A.3. Definíció

(Mátrixok összeadása) Az A és B m -szer n -es mátrixok összege alatt azt a C mátrixot értjük, melynek elemeire:

c ij = a ij + b ij . (A.6)

Például,

[ 3 1 1 2 ]+[ 5 4 2 9 ]=[ 8 5 3 11 ].

A mátrixműveletek a következő tulajdonságokkal rendelkeznek:

  • Mátrixok összeadásának kommutativitása. Az összeadás sorrendje nem számít: A+B=B+A .

  • Mátrixok összeadásának asszociativitása. Az összeadás sorrendje nem számít: (A+B)+C=A+(B+C) .

  • Egységelem létezése az összeadásra nézve. Létezik egy csupa 0 elemből álló nulla mátrix, melyet egyszerűen 0 -ával jelölünk, és ez az egységelem. Bármely A mátrixra A+0=A .

  • Additív inverz létezése az összeadásra nézve. Minden A mátrixhoz létezik egy A additív inverz mátrix úgy, hogy A+(A)=0 . A a a ij elemekből áll.

Mátrixok is szorozhatók skalárral. Erről szól a következő definíció.

A.4. Definíció

(Mátrix skalárral való szorzása) Az α skalár és az A mátrix szorzata az a B=αA mátrix, melynek elemeit a következő összefüggés adja meg:

b ij =α  a ij . (11.7)

Ez a szorzás ugyanolyan tulajdonságokkal rendelkezik, mint azt a vektorok esetén már bemutattuk.

  • A skalárral való szorzás asszociativitása. Több skalár esetén a szorzás sorrendje nem számít: α(βA)=(αβ)A .

  • Disztributivitás skalárok összeadása esetén. Ha két skalárt összeadunk és az eredménnyel szorozzuk a mátrixot, akkor ugyanazt kapjuk, mintha először a skalárokkal külön-külön megszoroznánk a mátrixot és ezeket adnánk össze: (α+β)A=αA+βA .

  • Disztributivitás mátrixok összeadása esetén. Ha összeadunk két mátrixot, és aztán az eredményt egy skalárral megszorozzuk, akkor ugyanazt kapjuk, mintha először a skalárral külön-külön szoroznánk a mátrixokat és ezután adnánk őket össze: α(A+B)=αA+αB .

  • Létezik skalár egységelem. Ha α=1 , akkor bármely A mátrixra αA=A .

Egyik fenti tulajdonság sem meglepő, hiszen a mátrixokra úgy is tekinthetünk, mint amelyek sor- vagy oszlopvektorokból állnak. Így az összeadás vagy skalárral való szorzás a vektorokon végzett műveletekre vezethető vissza.

Mátrixok szorzása

Értelmezhető mátrixokon a szorzás művelete is. Először mátrix és vektor szorzását definiáljuk.

A.5. Definíció

(Mátrix szorzása oszlopvektorral) Egy m -szer n -es A mátrix és egy n -szer 1-es u oszlopmátrix szorzata egy m -szer 1-es v=Au mátrix, melynek elemeit a következő egyenlet adja meg:

v i = a i* u T . (A.8)

Más szavakkal, vesszük az u transzponáltjának skalárszorzatát A minden sorával. Fontos, hogy ilyenkor u sorai számának egyeznie kell A oszlopainak számával. Például

[ 3 1 1 2 ][ 5 2 ]=[ 17 9 ]

Hasonlóan értelmezhető mátrix balról való szorzása sorvektorral.

A.6. Definíció

(Mátrix szorzása sorvektorral) Egy 1 -szer m -es u sormátrix és egy m -szer n -es A mátrix szorzata egy 1 -szer n -es v=uA mátrix, melynek elemeit a következő egyenlet adja meg:

v i =u a *j . (A.9)

Más szavakkal, vesszük az u sorvektor skalárszorzatát A minden oszlopával. Példa:

[ 1 2 ][ 5 4 2 9 ]=[ 9 22 ]

A fenti definíciók kiterjesztésével nyerjük két általános méretű mátrix szorzatának értelmezését.

A.7. Definíció

Az m -szer n -es A , és n -szer p -s B mátrixok szorzata az az m -szer p -s C=AB mátrix, melynek elemeire

c ij = a i* ( b *j ) T . (A.10)

Szavakkal, C ij -edik eleme A i -edik sorvektorának és B j -edik oszlopvektora transzponáltjának skaláris szorzata.

[ 3 1 1 2 ][ 5 4 2 9 ]=[ 17 21 9 22 ]

A mátrixszorzás a következő tulajdonságokkal rendelkezik:

  • Mátrixok szorzásának asszociativitása. Mátrix szorzásának zárójelezése nem számít: (AB)C=A(BC) .

  • A mátrixszorzás disztributivitása. A mátrixszorzás disztributív az összeadásra nézve: A(B+C)=AB+AC és (B+C)A=BA+CA .

  • Létezik egységelem a mátrixszorzásra nézve. Ha I p az a p -szer p méretű mátrix, mely 1-est csak a főátlójában tartalmaz és mindenhol máshol 0 áll, akkor minden m -szer n -es A mátrixra, A I n =A és I m A=A . (Az egységmátrix példa diagonális mátrixra, mely olyan mátrix, aminek minden átlón kívüli eleme 0, vagyis a ij =0 , ha ij .)

A mátrixszorzás általában nem kommutatív: ABBA .

Lineáris transzformációk és inverz mátrixok

Ha van egy n -szer 1-es u oszlopvektorunk, és ezt egy m -szer n -es A mátrixszal balról megszorozzuk, akkor az eredményre úgy is tekinthetünk, mintha u -t egy v=Au m -dimenziós vektorrá transzformáltuk volna. Hasonlóan, ha A -t egy u=[ u 1 ,, u m ] sorvektorral balról megszorozzuk, akkor a v=uA eredményvektor u -nak egy n -dimenziós vektorrá történő transzformálásaként fogható fel. Ezért egy m -szer n -es A mátrix tekinthető úgy, mint egy vektorteret vektortérbe képező függvény.

Sok esetben a transzformáció (mátrix) könnyen érthető alakban írható.

  • Egy skálázási (nyújtási) mátrix változatlanul hagyja a vektor irányát, de megváltoztatja a hosszát. Ez egyenértékű egy olyan mátrixszal való szorzással, melyet az egységmátrixból kapunk skalárral való szorzás útján.

  • Egy forgatási mátrix megváltoztatja a vektor irányát, de változatlanul hagyja a hosszát. Ez a koordinátarendszer megváltoztatásához vezet.

  • Egy tükrözési mátrix tükrözi a vektort valamely -- vagy esetleg több -- koordinátatengelyre. Ez egyenértékű a vektor megfelelő koordinátáinak 1 -gyel való szorzásával, míg a többi koordináta változatlanul marad.

  • Egy projekció (vetítési mátrix) a vektort valamely alacsonyabb dimenziós altérbe képezi. A legegyszerűbb példa erre az egységmátrix olyan módosítása, melyben néhány 1-est 0-ra cserélünk. Egy ilyen mátrix lenullázza a vektorban a főátlóbeli nulláknak megfelelő koordinátákat, a többit változatlanul hagyja.

Természetesen egyetlen mátrix is megtestesíthet egyszerre több transzformációt, például skálázhat és forgathat egyidejűleg.

Ha a mátrixokat vektorterek között ható függvényeknek tekintjük, néhány egyszerű tulajdonság mutatható meg róluk.

  • A mátrixok lineáris traszformációk, azaz A(αu+βv)=αAu+βAv és (αu+βv)A=αuA+βvA .

  • Az összes A által transzformált sorvektorok halmazát sorvektortérnek nevezzük, mert A sorvektorai -- vagy valamely részhalmazuk -- az összes transzformált sorvektorok alterében bázist alkotnak. Ez a következő egyenletből nyilvánvaló, amely egy 1-szer m -es u=[ u 1 ,, u m ] sorvektor és egy m -szer n -es A mátrix szorzatát a mátrix sorainak lineáris kombinációjaként fejezi ki:

v=uA= i=1 m u i a i* . (A.11)

A sorvektortér dimenziója éppen A lineárisan független sorvektorainak számát adja meg.

  • Az A által transzformált összes oszlopvektorok halmazát oszlopvektortérnek nevezzük, mert A oszlopvektorai -- vagy valamely részhalmazuk -- az összes transzformált oszlopvektorok alterében bázist alkotnak. Ez a következő egyenletből nyilvánvaló, mely egy n -szer 1 -es u= [ u 1 ,, u m ] T oszlopvektor és egy m -szer n -es A mátrix szorzatát a mátrix oszlopainak lineáris kombinációjaként fejezi ki:

v=Au= j=1 n u j a *j . (A.12)

Az oszlopvektortér dimenziója pontosan A lineárisan független oszlopvektorainak számát adja meg.

  • A bal nulltér azon sorvektorok összessége, melyeket a mátrix 0 -ába képez.

  • A jobb nulltér (vagy egyszerűen csak nulltér) azon oszlopvektorok ö`sszessége, melyeket a mátrix 0 -ába képez.

Egy mátrix rangja a sorvektortér és oszlopvektortér dimenzióinak minimuma, és gyakran használatos szám a mátrix jellemzésére. Jelölése: rang(A) . Például ha veszünk egy 1-szer n -es sorvektort és m -szer egymás alá írjuk, olyan m -szer n -es mátrixot kapunk, melynek mindössze 1 a rangja.

Mind elméleti mind gyakorlati szempontból fontos kérdés, hogy vajon mely mátrixoknak lehet multiplikatív inverzük. Mindenekelőtt azt vehetjük észre, hogy a mátrixszorzás sajátosságai miatt (miszerint a dimenzióknak egyezniük kell) a mátrixnak négyzetesnek kell lennie ahhoz, hogy létezzen az inverz mátrix. Így azt kérdezzük, mely m -szer m -es A mátrixokhoz találhatunk olyan A 1 mátrixot, hogy A A 1 = A 1 A= I m . A válasz az, hogy egyesekhez találhatunk, másokhoz nem.

Kicsit elvontabban, egy m -szer m -es mátrixnak csak akkor létezik az inverze, ha mindkét nulltere csak a 0 vektort tartalmazza, vagy, ekvivalens módon, mind a sorvektortere mind az oszlopvektortere m dimenziós. (Ez azzal egyenértékű, hogy a mátrix rangja m .) Fogalmilag a fentiek azt jelentik, hogy egy m -szer m -es mátrixnak akkor és csak akkor van inverze, ha minden nullától különböző m dimenziós sor (vagy oszlop-)vektort egyértelműen képez nullától különböző, m dimenziós sor (vagy oszlop-)vektorra.

A mátrix inverzének létezése fontos, ha különböző mátrixegyenleteket kell megoldani.

Sajátérték és szinguláris érték felbontás

Most a lineáris algebra egy kiemelkedően fontos területét tárgyaljuk, a sajátérték és sajátvektor fogalmát vezetjük be. A sajátértékek és sajátvektorok -- a szinguláris értékek és vektorok mellett -- a mátrixok struktúrájáról árulnak el sokat, ráadásul segítségükkel a mátrixokat faktorizálni, egységes alakra tudjuk hozni. Ezen okok miatt hasznosak a fenti fogalmak egyenletrendszerek megoldásánál vagy éppen dimenzió és zaj csökkentésnél. A sajátérték és sajátvektor definíciójával kezdjük.

A.8. Definíció

(Sajátérték és sajátvektor) Egy m -szer n -es A mátrix sajátértékei és sajátvektorai azok a λ skalárok és u vektorok, amelyek megoldásai a következő egyenletnek

Au=λu. (A.13)

Más szavakkal, a sajátvektor olyan vektor, melynek csak a hossza változik, ha A -val szorozzuk, az iránya nem. A sajátérték éppen a hossz változásának mértéke. A fenti egyenlet az (AλI)u=0 alakban is írható.

Négyzetes mátrixokat a következő tétel szerint bonthatunk fel a sajátértékek és -vektorok segítségével.

A.1. Tétel.

Tegyük fel, hogy A egy n -szer n -es mátrix n darab független (ortogonális) u 1 ,, u n sajátvektorral, és n megfelelő λ 1 ,, λ n sajátvektorral. Legyen U=[ u 1 ,, u n ] az a mátrix, mely ezeket a sajátvektorokat tartalmazza, és legyen Λ egy diagonális mátrix, mely a λ i , 1in , sajátvektorokat tartalmazza. Ekkor A előáll

A=UΛ U 1 . (A.14)

alakban. A tehát felbomlik három mátrix szorzatára. U a sajátvektor mátrixa és Λ a sajátérték mátrixa.

Általánosabb állítás is tehető, melyben nem csak négyzetes, hanem tetszőleges méretű mátrixok szerepelnek. Nevezetesen, minden m -szer n -es A mátrix felbontható három mátrix szorzatára, ahogy a következő tételben szerepel.

A.2. Tétel.

Tegyük fel, hogy A egy m -szer n -es mátrix. Ekkor A előáll a következő alakban:

A=UΣ V T . (A.15)

Itt U egy m -szer m -es, Σ egy m -szer n -es, míg V egy n -szer n -es mátrix. Továbbá U és V ortonormális mátrixok, vagyis oszlopvektoraik egységnyi hosszúak és páronként ortogonálisak. Így U U T = I m és V V T = I n . Σ diagonális mátrix, elemei nemnegatívak és úgy vannak rendezve, hogy a nagyobb elemek feljebb helyezkednek el: σ i,i σ i+1,i+1 .

V oszlopvektorait, v 1 ,, v n -et jobb szinguláris vektoroknak, míg U oszlopait bal szinguláris vektoroknak nevezzük. Σ diagonális elemeire A szinguláris értékeiként hivatkozunk, és a σ 1 ,, σ n jelölést használjuk rájuk. Magát a Σ mátrixot szinguláris érték mátrixnak nevezzük. ( σ ezen használata nem tévesztendő össze a szórást jelölő σ -ával.) Legfeljebb rang(A)min(m,n) nemnulla szinguláris érték van.

Megmutatható, hogy A T A sajátvektorai éppen a jobb szinguláris vektorok (tehát V oszlopai), míg A A T sajátvektorai a bal szinguláris vektorok ( U oszlopai). A T A és A A T nemzérus sajátértékei pedig a σ i 2 számok, tehát a szinguláris értékek négyzetei. Ez azért van így, mert egy négyzetes mátrix sajátérték-felbontása tekinthető speciális szinguláris érték felbontásnak is.

Egy mátrix szinguláris érték felbontása (SVD -- Singular Value Decomposition) kifejezhető a következő egyenlettel is:

A= i=1 rang(A) σ i u i v i T (A.16)

Ehhez megjegyezzük, hogy az u i v i T belső szorzatnak tűnhet, de nem az, hanem egy 1 rangú m -szer n -es mátrix.

Ennek a felbontásnak a fontossága abban rejlik, hogy minden mátrix felírható szinguláris értékekkel súlyozott 1 rangú mátrixok összegeként. Mivel a csökkenő sorrendben szereplő szinguláris értékek nagysága gyakran gyorsan csökken, jó közelítését adhatjuk a mátrixnak mindössze néhány szinguláris érték és vektor használatával. Ez a dimenziócsökkentés esetén fontos, amint erre DimensionalityReduction. függelékben visszatérünk.

Mátrixok és adatelemzés

Adathalmazainkat adatmátrixba szervezhetjük úgy, hogy minden egyes sor egy adatobjektum, az egyes oszlopok pedig egy-egy attribútumot tárolnak. (Persze az oszlopok és sorok szerepe megcserélhető.) Ez a felírás az adataink jól struktúrált, tömör ábrázolását kínálja, továbbá a mátrixműveleteken keresztül az adatok és attribútumok könnyű kezelését is lehetővé teszi.

A lineáris egyenletrendszerek kínálják talán a legkézenfekvőbb példát a mátrixszal történő reprezentáció hasznosságára. Egy lineáris egyenletekből álló rendszer Ax=b alakú mátrixegyenletként is felírható és mátrixműveletekkel oldható meg. Részletesebben:

a 11 x 1 + a 12 x 2 ++ a 1n x n = b 1

a 21 x 1 + a 22 x 2 ++ a 2n x n = b 2

a m1 x 1 + a m2 x 2 ++ a mn x n = b m

Abban az esetben, ha A -nak van inverze, a megoldás egyszerűen előáll: x= A 1 b . Ha nincs, akkor az egyenletrendszernek vagy nincs megoldása, vagy épp ellenkezőleg: végtelen sok megoldása van. A fenti esetben a sorok (adatobjektumok) az egyenletek, míg az oszlopok (attribútumok) a változók.

Statisztikai vagy adatelemzési problémák esetén gyakran előfordul, hogy a fenti módon nem tudjuk a megoldást előállítani. Lehet például egy olyan adatmátrixunk, melynek soraiban betegeket, az oszlopokban a betegek egyes jellemzőit -- súly, magasság, életkor -- illetve valamilyen kezeléstől is függő értékeket (például vérnyomást) tárolunk. A vérnyomást, mint független változót, szeretnénk kifejezni a többi (függő) változó lineáris függvényeként. Ilyen esetben a fentihez hasonló mátrixegyenletet írhatunk fel. Abban az esetben azonban, amikor több a beteg, mint a változó -- márpedig ez az általános helyzet --, az inverz mátrix nem létezik.

Ilyenkor még lehet az a célunk, hogy megtaláljuk a legjobb megoldást, vagyis megkeressük a független változók legjobb lineáris kombinációját, hogy a függő változót előre jelezzük. Áttérve a lineáris algebra kifejezésmódjára, célunk, hogy megkeressük azt az Ax vektort, amely olyan közel van b -hez, amennyire csak lehet. Más szavakkal, minimalizálni szeretnénk a bAx értéket, vagyis a bAx vektor hosszát. Ez a legkisebb négyzetek problémája. Sok statisztikai módszer (mint például a B. függelékben tárgyalt lineáris regresszió) felhasználja a legkisebb négyzetek problémájának megoldását. Megmutatható, hogy az Ax=b egyenlet legkisebb négyzetes megoldása x= ( A T A) 1 A T b .

A szinguláris érték és sajátérték felbontás ugyancsak hasznos az adatelemzésben, speciálisan a dimenziócsökkentés területén, melyről DimensionalityReduction. függelékben ejtünk szót. Megjegyezzük, hogy a zaj csökkentése szintén a dimenziócsökkentés egy oldalhajtásának tekinthető.

Bár adtunk néhány példát a lineáris algebra alkalmazására, sok minden kimaradt. A differenciálegyenlet-rendszerek, optimalizációs problémák (mint például a lineáris programozás), vagy a gráf particionálás további olyan területek, ahol a feladatok megfogalmazása és megválaszolása lineáris algebrai eszközökkel (is) történik.