Bayes-féle osztályozók

Az attribútumhalmaz és az osztályváltozó közötti kapcsolat sok alkalmazásban nemdeterminisztikus. Más szóval, egy tesztrekord osztálycímkéje nem jelezhető előre teljes bizonyossággal még akkor sem, ha az attribútumhalmaza azonos valamelyik tanulóesettel. Ez a helyzet a zajos adatok vagy bizonyos zavaró, az osztályozást befolyásoló, de az elemzésben nem szereplő hatások jelenléte miatt merülhet fel. Vegyük például annak előrejelzésének feladatát, hogy egy személy ki van-e téve a szívbaj kockázatának, a személy étrendje és edzéseinek gyakorisága alapján. Bár a legtöbb egészségesen táplálkozó és rendszeresen mozgó embernél kisebb eséllyel alakul ki szívbaj, még mindig kialakulhat más tényezők miatt, mint például az öröklődés, a mértéktelen dohányzás és túlzott alkoholfogyasztás. Annak eldöntése is értelmezés kérdése, hogy egy személy étrendje egészséges-e, vagy hogy megfelelő-e az edzéseinek gyakorisága, amely viszont bizonytalanságokat vihet be a tanulási feladatba.

Ez a szakasz egy megközelítést mutat be az attribútumhalmaz és az osztályváltozó közötti valószínűségi kapcsolatok modellezésére. A szakasz a Bayes-tételbe való bevezetéssel kezdődik, amely egy statisztikai elv az osztályokra vonatkozó a priori tudásnak az adatokból gyűjtött új tényekkel történő kombinálására. Kifejtésre kerül majd a Bayes-tétel felhasználása osztályozási problémák megoldására, amelyet a Bayes-féle osztályozók két implementációjának, a naiv Bayes-féle osztályozó és a Bayes-féle bizonyosságháló leírása követ.

Bayes-tétel

Tekintsünk egy labdarúgó-mérkőzést két rivális csapat, az A csapat és a B csapat között. Tételezzük fel, hogy az esetek 65% -ában az A csapat nyer, a többi mérkőzést pedig a B csapat nyeri. Az A csapat által megnyert mérközések közül csak azok 30% -a származik a B csapat futballpályáján zajlott játékból. Másrészt a B csapat győzelmeinek 75% -át hazai pályán szerezte meg. Ha a B csapat ad otthont a két csapat közötti következő mérkőzésnek, melyik csapat fog győzni nagy valószínűséggel?

A kérdés a jól ismert Bayes-tétel segítségével válaszolható meg. A teljesség kedvéért néhány alapvető valószínűségszámítási definícióval kezdjük. A valószínűségszámítási fogalmakat nem ismerő olvasók 13. függelékhez fordulhatnak a téma egy tömör áttekintéséért.

Legyen X és Y véletlen változók. A P(X=x,Y=y) együttes valószínűség annak valószínűségét jelenti, hogy az X változó az x és az Y változó az y értéket veszi fel. A feltételes valószínűség annak valószínűsége, hogy egy véletlen változó egy bizonyos értéket vesz fel, feltéve, hogy ismert egy másik véletlen változó kimenetele. Például a P(Y=y|X=x) feltételes valószínűség annak valószínűségét jelenti, hogy az Y változó az y értéket veszi fel, feltéve, hogy X megfigyelt értéke x . X és Y együttes és feltételes valószínűsége között az alábbi összefüggés áll fenn:

P(X,Y)=P(Y|X)×P(X)=P(X|Y)×P(Y). (5.9)

(5.9) egyenletben az utolsó két kifejezés átrendezése a következő képlethez vezet, amelyet Bayes-tételnek nevezünk:

P(Y|X)= P(X|Y)P(Y) P(X) . (5.10)

A Bayes-tétel felhasználható a szakasz elején megfogalmazott előrejelzési feladat megoldásához. Jelölési könnyítésként legyen X a mérkőzésnek otthont adó csapatot reprezentáló véletlen változó és Y a mérkőzés győztesét reprezentáló véletlen változó. X és Y a {0,1} halmazból vehetnek fel értékeket, ahol 0 az A , 1 pedig a B csapatot jelöli. A problémában adott információkat a következőképpen foglalhatjuk össze:

  • Annak valószínűsége, hogy az A csapat nyer: P(Y=0)=0,65 .

  • Annak valószínűsége, hogy a B csapat nyer: P(Y=1)=1P(Y=0)=0,35 .

  • Annak valószínűsége, hogy a B csapat rendezi az általa nyert mérkőzést: P(X=1|Y=1)=0,75 .

  • Annak valószínűsége, hogy a B csapat rendezi az A csapat által nyert mérkőzést: P(X=1|Y=0)=0,3 .

Célunk P(Y=1|X=1) kiszámítása -- amely annak feltételes valószínűsége, hogy a B csapat nyeri a következő olyan mérkőzést, amelynek otthont ad -- és összehasonlítása a P(Y=0|X=1) valószínűséggel. A Bayes-tétel felhasználásával azt kapjuk, hogy

P(Y=1|X=1)= P(X=1|Y=1)×P(Y=1) P(X=1)

= P(X=1|Y=1)×P(Y=1) P(X=1,Y=1)+P(X=1,Y=0)

= P(X=1|Y=1)×P(Y=1) P(X=1|Y=1)P(Y=1)+P(X=1|Y=0)P(Y=0)

= 0,75×0,35 0,75×0,35+0,3×0,65

=0,5738,

ahol a teljes valószínűség tétele (lásd (13.5) egyenletet app:total_prob. oldalon) került alkalmazásra a második sorban. Továbbá P(Y=0|X=1)=1P(Y=1|X=1)=0,4262 . Mivel P(Y=1|X=1)P(Y=0|X=1) , a B csapatnak jobbak az esélyei a következő mérkőzés megnyerésére, mint az A csapatnak.

A Bayes-tétel felhasználása osztályozásra

Annak leírása előtt, hogy hogyan használható fel a Bayes-tétel osztályozáshoz, formalizáljuk az osztályozási problémát statisztikai nézőpontból. Jelölje X az attribútumhalmazt és Y az osztályváltozót. Ha az osztályváltozónak nemdeterminisztikus kapcsolata van az attribútumokkal, akkor X -et és Y -t véletlen változókként kezelhetjük és kapcsolatukat valószínűségileg P(Y|X) segítségével írhatjuk le. Ezt a feltételes valószínűséget Y a posteriori valószínűségének is nevezik, a P(Y) a priori valószínűségével szemben.

A tanítási fázis során a P(Y|X) a posteriori valószínűségeket X és Y minden kombinációjára meg kell tanulnunk a tanulóadatokból szerzett információk alapján. Ezen valószínűségek ismeretében egy X' tesztrekord úgy osztályozható, hogy megkeressük a P(Y'|X') a posteriori valószínűséget maximalizáló Y' osztályt. A módszer szemléltetéséhez tekintsük annak előrejelzésének feladatát, hogy vajon egy hitelfelvevő késedelmesen fog-e fizetni. Az 5.9. ábrán egy tanulóhalmaz látható a következő attribútumokkal: Lakástulajdonos, Családi állapot és Éves jövedelem. A fizetési késedelembe esett hitelfelvevőket Igen-ként osztályozzuk, míg Nem-ként azokat, akik visszafizették a kölcsönt.

5.9. ábra - Tanulóhalmaz a hitel vissza nem fizetési probléma prediktálásához

Tanulóhalmaz a hitel vissza nem fizetési probléma prediktálásához

Tételezzük fel, hogy adott egy tesztrekord a következő attribútumhalmazzal: X=(Lakástulajdonos = Nem, Családi állapot = Házas, Éves jövedelem = 120  000) . A rekord osztályozásához ki kell számolnunk a P(Igen|X) és P(Nem|X) a posteriori valószínűségeket a tanulóadatokban rendelkezésre álló információk alapján. Ha P(Igen|X)P(Nem|X) , akkor a rekordot Igen-ként osztályozzuk, egyébként Nem-ként osztályozzuk.

Bonyolult probléma pontosan becsülni az a posteriori valószínűségeket az osztálycímke és attribútumérték összes lehetséges kombinációjára, mivel nagyon nagy tanulóhalmazt igényel, még csekély számú attribútumra is. A Bayes-tétel azért hasznos, mert lehetővé teszi számunkra az a posteriori valószínűség kifejezését a P(Y) a priori valószínűség, a P(X|Y) osztályra vonatkozó feltételes valószínűség és a P(X) a priori valószínűség segítségével:

P(Y|X)= P(X|Y)×P(Y) P(X) . (5.11)

Különböző Y értékek a posteriori valószínűségeinek összehasonlításánál a P(X) nevező tag mindig állandó, és így figyelmen kívül hagyható. A P(Y) a priori valószínűség könnyen becsülhető a tanulóhalmazból az egyes osztályokhoz tartozó tanulórekordok arányának kiszámításával. A P(X|Y) osztályra vonatkozó feltételes valószínűségek becsléséhez a Bayes-féle osztályozási módszer két megvalósítását mutatjuk be: a naiv Bayes-féle osztályozót és a Bayes-féle bizonyossághálót. A megvalósítások az 5.3.3. és 5.3.5. szakaszokban kerülnek leírásra.

Naiv Bayes-féle osztályozó

A naiv Bayes-féle osztályozó (nave Bayes classifier) az osztályra vonatkozó feltételes valószínűséget azt feltételezve becsüli meg, hogy az attribútumok feltételesen függetlenek adott y osztálycímke mellett. A feltételes függetlenségi feltevés formálisan a következőképpen fejezhező ki:

P(X|Y=y)= i=1 d P( X i |Y=y), (5.12)

ahol minden X={ X 1 , X 2 ,, X d } attribútumhalmaz d attribútumból áll.

Feltételes függetlenség

Mielőtt mélyre hatolnánk a naiv Bayes-féle osztályozó működésének részleteibe, vizsgáljuk meg a feltételes függetlenség fogalmát. Jelöljék X , Y és Z valószínűségi változók három halmazát. Az X -beli változókat feltételesen függetleneknek mondjuk Y -tól Z mellett, ha teljesül a következő feltétel:

P(X|Y,Z)=P(X|Z). (5.13)

A feltételes függetlenség egy példája a karhossz és az olvasási készségek közötti kapcsolat. Úgy tapasztalhatnánk, hogy a hosszabb karú emberek többnyire magasabb szintű olvasási készségekkel rendelkeznek. Ez a kapcsolat egy zavaró tényező jelenlétével magyarázható, amely az életkor. Egy kisgyermeknek általában rövid karjai vannak és nem állnak rendelkezésére egy felnőtt olvasási készségei. Ha egy személy életkora rögzített, akkor eltűnik a karhossz és az olvasási készségek között megfigyelt kapcsolat. Megállapíthatjuk így, hogy a karhossz és az olvasási készségek feltételesen függetlenek, ha az életkor változó rögzített.

Az X és Y közötti feltételes függetlenség is felírható az (5.12) egyenlethez hasonló alakban:

P(X,Y|Z)= P(X,Y,Z) P(Z)

= P(X,Y,Z) P(Y,Z) × P(Y,Z) P(Z)

=P(X|Y,Z)×P(Y|Z)

=P(X|Z)×P(Y|Z), (5.14)

ahol az (5.13) egyenletet használtuk fel ahhoz, hogy megkapjuk az (5.14) egyenlet utolsó sorát[2].

A naiv Bayes-osztályozó működése

A feltételes függetlenségi feltevéssel az osztályra vonatkozó feltételes valószínűség X minden kombinációjához történő kiszámítása helyet csupán az egyes X i -k feltételes valószínűségét kell megbecsülnünk adott Y mellett. Az utóbbi megközelítés gyakorlati szempontból sokkal alkalmasabb, mivel nem igényel nagyon nagy tanulóhalmazt ahhoz, hogy jó becslést kapjuk a valószínűségre.

Egy tesztrekord osztályozásához a naiv Bayes-osztályozó minden egyes Y osztály a posteriori valószínűségét kiszámítja:

P(Y|X)= P(Y) i=1 d P( X i |Y) P(X) . (5.15)

Mivel P(X) rögzített minden Y -ra, elegendő a számlálót, P(Y) i=1 d P( X i |Y) -t, maximalizáló osztályt választani. A következő két alfejezetben néhány módszert írunk le kategorikus és folytonos attribútumok P( X i |Y) feltételes valószínűségeinek becslésére.

Kategorikus attribútumok feltételes valószínűségeinek becslése

Egy X i kategorikus attribútum P( X i = x i |Y=y) feltételes valószínűségének becslése az y osztályban egy bizonyos x i attribútumértéket felvevő tanulópéldányok aránya szerint történik. Például az 5.9. ábrán adott tanulóhalmazban a hét hitelét visszafizető ember közül háromnak van saját lakása is. Ennek következtében a P(Lakástulajdonos = Igen|Nem) feltételes valószínűség 3/7 -del egyenlő. Hasonlóképpen P(Családi állapot = Egyedülálló|Igen)=2/3 adja meg azoknak a nem fizető adósoknak a feltételes valószínűségét, akik egyedülállóak.

Folytonos attribútumok feltételes valószínűségeinek becslése

Két mód van folytonos attribútumok osztályra vonatkozó feltételes valószínűségeinek becslésére a naiv Bayes-féle osztályozókban:

  1. Diszkretizálhatunk minden folytonos tulajdonságot, majd ezt követően a megfelelő diszkrét intervallummal helyettesíthetjük a folytonos attribútumértékeket. A módszer ordinális attribútumokká alakítja a folytonos attribútumokat. A P( X i |Y=y) feltételes valószínűség becslése azoknak az y osztályba tartozó tanulórekordoknak az arányának kiszámításával történik, amelyek a megfelelő X i intervallumba esnek. A becslési hiba a diszkretizálási stratégiától függ (a 2.3.6. szakaszban az 59. oldalon leírtaknak megfelelően), valamint a diszkrét intervallumok számától. Ha túl nagy az intervallumok száma, túl kevés tanulórekord van az egyes intervallumokban P( X i |Y) -ra megbízható becslés biztosításához. Másrészt, ha túl kicsi az intervallumok száma, akkor bizonyos intervallumok különböző osztályokba tartozó rekordokat aggregálhatnak, és elhibázhatjuk a helyes döntési határt.

  2. A folytonos változóra feltételezhetünk egy bizonyos fajta valószínűségi eloszlást, és a tanulóadatok segítségével becsülhetjük meg az eloszlás paramétereit. A normális eloszlást gyakran választják folytonos attribútumok osztályra vonatkozó feltételes valószínűségének reprezentálásához. Az eloszlást két paraméter jellemzi, a μ átlag és σ 2 variancia. Az X i attribútum osztályra vonatkozó feltételes valószínűsége minden egyes y j osztály esetén

P( X i = x i |Y= y j )= 1 2π σ ij exp[ ( x i μ ij ) 2 2 σ ij 2 ]. (5.16)

A μ ij paraméter X i az y j osztályba tartozó rekordokra vett mintaátlaga ( x Ż ) alapján becsülhető meg. Hasonlóképpen, σ ij 2 az ilyen tanulórekordok empirikus varianciájából ( s 2 ) becsülhető meg. Tekintsük például az 5.9. ábrán látható éves jövedelem attribútumot. Az attribútum mintaátlaga és varianciája a Nem osztályra

x Ż = 125+100+70++75 7 =110,

s 2 = (125110) 2 + (100110) 2 ++ (75110) 2 7(6) =2975,

s= 2975 =54,54.

Egy 120 000 dollár adóköteles jövedelmű tesztrekordra a következőképpen számíthatjuk ki az osztályra vonatkozó feltételes valószínűségét:

P(Jövedelem = 120|Nem)= 1 2π (54,54) exp (120110) 2 2×2975 =0,0072.

Megjegyezzük, hogy az osztályra vonatkozó feltételes valószínűség előbbi értelmezése némileg félrevezető. Az (5.16) egyenlet jobb oldala egy f( X i ; μ ij , σ ij ) valószínűségi sűrűségfüggvénynek felel meg. Mivel a függvény folytonos, nulla annak valószínűsége, hogy az X i véletlen változó egy bizonyos értéket vesz fel. Ehelyett annak feltételes valószínűségét kell kiszámolni, hogy X i valamilyen x i és x i +ε intervallumba esik, ahol ε egy kicsi konstans:

P( x i X i x i +ε|Y= y j )= x i x i +ε f( X i ; μ ij , σ ij )d X i

f( x i ; μ ij , σ ij )×ε. (5.17)

Mivel ε minden egyes osztálynál konstans szorzótényezőként jelenik meg, P(Y|X) a posteriori valószínűségének normálásakor kiesik. Ezért továbbra is alkalmazhatjuk az (5.16) egyenletet a P( X i |Y) osztályra vonatkozó feltételes valószínűség közelítésére.

Példa a naiv Bayes-féle osztályozóra

Tekintsük az 5.10. (a) ábrán látható adatokat. Az előző alszakaszokban leírt módszertan segítségével minden egyes kategorikus attribútumra kiszámíthatjuk az osztályra vonatkozó feltételes valószínűséget a folytonos attribútum mintaátlagával és varianciájával együtt. Ezeket a valószínűségeket az 5.10. (b) ábra foglalja össze.

5.10. ábra - Naiv Bayes-féle osztályozó a hitel osztályozási problémához

Naiv Bayes-féle osztályozó a hitel osztályozási problémához

Az X=(Lakástulajdonos = Nem, Családi állapot = Házas, Jövedelem = 120) tesztrekord osztálycímkéjének előrejelzéséhez ki kell számolnunk a P(Nem|X) és P(Igen|X) a posteriori valószínűségeket.

Emlékezzünk arra a korábbi tárgyalásból, hogy ezekre az a posteriori valószínűségekre becslés adható, ha kiszámoljuk a P(Y) a priori valószínűség és a i P( X i |Y) osztályra vonatkozó feltételes valószínűségek szorzatát, amely az (5.15) egyenlet jobb oldala számlálójának felel meg.

Az egyes osztályok a priori valószínűsége megbecsülhető, ha minden osztályra kiszámoljuk az odatartozó tanulórekordok arányát. Mivel három Igen osztályba tartozó rekord és hét Nem osztályba tartozó rekord van, P(Igen)=0,3 és P(Nem)=0,7 . Az 5.10. (b) ábrán megadott információk felhasználásával az osztályra vonatkozó feltételes valószínűségek a következőképpen számíthatóak ki:

P(X|Nem)=P(Lakástulajdonos = Nem|Nem)×P(Állapot = Házas|Nem)

    ×  P(Éves jövedelem = 120|Nem)

=4/7×4/7×0,0072=0,0024.

P(X|Igen)=P(Lakástulajdonos = Nem|Igen)×P(Állapot = Házas|Igen)

    ×  P(Éves jövedelem = 120|Igen)

=1×0×1,2× 10 9 =0.

Ezeket kombinálva a Nem osztály a posteriori valószínűsége P(Nem|X)=α×7/10×0,0024=0,0016α , ahol α=1/P(X) konstans tag. Hasonló módszerrel mutathatjuk meg azt, hogy az Igen osztály a posteriori valószínűsége nulla, mert az osztályra vonatkozó feltételes valószínűsége nulla. Mivel P(Nem|X)P(Igen|X) , a rekordot Nem -ként osztályozzuk.

A feltételes valószínűség M -becslése

Az előbbi példa az a posteriori valószínűségek tanulóadatokból való becslésének egy lehetséges problémáját szemlélteti. Ha valamelyik attribútum osztályra vonatkozó feltételes valószínűsége nulla, akkor ennek az osztálynak az a posteriori valószínűsége nullává válik. Az osztályra vonatkozó feltételes valószínűség egyszerű törtekkel történő becslésének ez a módszere törékenynek tűnhet, különösen akkor, ha kevés tanulóeset áll rendelkezésre és nagy az attribútumok száma.

Egy szélsőségesebb esetben, ha a tanulóesetek sok attribútumértéket nem fednek le, lehet, hogy a tesztrekordok némelyikét nem fogjuk tudni osztályozni. Például ha P(Családi állapot = Elvált|Nem) 1/7 helyett nulla, akkor egy X= (Lakástulajdonos = Igen, Családi állapot = Elvált, Jövedelem = 120) attribútumhalmazú rekord osztályra vonatkozó feltételes valószínűségei a következők:

P(X|Nem)=3/7×0×0,0072=0

P(X|Igen)=0×1/3×1,2× 10 9 =0

A naiv Bayes-féle osztályozó nem lesz képes osztályozni a rekordot. Ez a probléma kezelhető az osztályra vonatkozó feltételes valószínűség becslésére szolgáló M -becslés módszer segítségével:

P( x i | y j )= n c +mp n+m , (5.18)

ahol n az y j osztályba tartozó összes példány száma, n c az y j osztályba tartozó tanulóesetek száma, amelyek x i értéket vesznek fel, m egy ekvivalens mintanagyságnak nevezett paraméter, p egy felhasználó által meghatározott paraméter. Ha nem áll rendelkezésre tanulóhalmaz (azaz n=0 ), akkor P( x i | y j )=p . Ezért p tekinthető úgy, mint az x i attribútumérték y j osztályba tartozó rekordok között megfigyelésének a priori valószínűsége. Az ekvivalens mintanagyság a p a priori valószínűség és az n c /n megfigyelt valószínűség közötti kompromisszumot határozza meg.

Az előző szakaszban megadott példában a feltételes valószínűség P(Állapot = Házas|Igen)=0 , mert az osztályba tartozó egyik tanulórekord sem rendelkezik a meghatározott attribútumértékkel. Az M -becslés módszert m=3 és p=1/3 mellett felhasználva a feltételes valószínűség már nem nulla:

P(Családi állapot = Házas|Igen)=(0+3×1/3)/(3+3)=1/6.

Ha p=1/3 feltevéssel élünk az Igen osztály minden attribútumára és p=2/3 feltevéssel a Nem osztály minden attribútumára, akkor

P(X|Nem)=P(Lakástulajdonos = Nem|Nem)×P(Állapot = Házas|Nem)

    ×  P(Éves jövedelem = 120|Nem)

=6/10×6/10×0,0072=0,0026.

P(X|Igen)=P(Lakástulajdonos = Nem|Igen)×P(Állapot = Házas|Igen)

    ×  P(Éves jövedelem = 120|Igen)

=4/6×1/6×1,2× 10 9 =1,3× 10 10 .

A Nem osztály a posteriori valószínűsége P(Nem|X)=α×7/10×0,0026=0,0018α , míg az Igen osztály a posteriori valószínűsége P(Igen|X)=α×3/10×1,3× 10 10 =4,0× 10 11 α . Noha az osztályozási döntés nem változott, az M -becslés szemléletmód általában robusztusabb módját biztosítja a valószínűségek becslésének akkor, ha kicsi a tanulóesetek száma.

A naiv Bayes-féle osztályozók jellemzői

A naiv Bayes-féle osztályozóknak általában a következő jellemzői vannak:

  • Robusztusak izolált zajos pontokra, mivel az ilyen pontok kiátlagolódnak a feltételes valószínűségek adatokból történő becslésénél. A naiv Bayes-féle osztályozók képesek hiányzó értékek kezelésére is, a modellépítés és osztályozás során figyelmen kívül hagyva az ilyeneket tartalmazó eseteket.

  • Robusztusak az irreleváns attribútumokra. Ha X i irreleváns attribútum, akkor P( X i |Y) majdnem egyenletes eloszlásúvá válik. Az X i osztályra vonatkozó feltételes valószínűségnek nincs hatása az a posteriori valószínűség kiszámítására.

  • Korrelált tulajdonságok leronthatják a naiv Bayes-féle osztályozó teljesítményét, mivel a feltételes függetlenségi feltevés már nem áll fenn az ilyen attribútumokra. Tekintsük például a következő valószínűségeket:

P(A=0|Y=0)=0,4,    P(A=1|Y=0)=0,6,

P(A=0|Y=1)=0,6,    P(A=1|Y=1)=0,4,

ahol A egy bináris attribútum és Y egy bináris osztályváltozó. Tegyük fel, hogy van egy másik B bináris változó, amely tökéletesen korrelált A -val Y=0 esetén, de független A -tól Y=1 esetén. Az egyszerűség kedvéért feltételezzük, hogy az osztályra vonatkozó feltételes valószínűség ugyanaz B -re, mint A -ra. Ha adott egy rekord, amelynek attribútumaira A=0 és B=0 teljesül, akkor a következőképpen számíthatjuk ki az posteriori valószínűségeket:

P(Y=0|A=0,B=0)= P(A=0|Y=0)P(B=0|Y=0)P(Y=0) P(A=0,B=0)

= 0,16×P(Y=0) P(A=0,B=0) .

P(Y=1|A=0,B=0)= P(A=0|Y=1)P(B=0|Y=1)P(Y=1) P(A=0,B=0)

= 0,36×P(Y=1) P(A=0,B=0) .

Ha P(Y=0)=P(Y=1) , akkor a naiv Bayes-féle osztályozó a rekordot az 1 osztályhoz rendelné. Azonban az igazság

P(A=0,B=0|Y=0)=P(A=0|Y=0)=0,4,

mivel A és B tökéletesen korreláltak Y=0 esetén. Következésképpen Y=0 a posteriori valószínűsége

P(Y=0|A=0,B=0)= P(A=0,B=0|Y=0)P(Y=0) P(A=0,B=0)

= 0,4×P(Y=0) P(A=0,B=0) ,

amely nagyobb, mint Y=1 -é. A rekordot 0 osztályúként kellett volna osztályozni.

Bayes-féle hibaarány

Tegyük fel, hogy ismerjük azt a valóságnak megfelelő valószínűségeloszlást, amely P(X|Y) -t vezérli. A Bayes-féle osztályozási módszer lehetővé teszi számunkra az ideális döntési határ meghatározását az osztályozási feladathoz, amint azt a következő példa szemlélteti.

5.3. Példa.

Vegyük azt a feladatot, amikor aligátorokat és krokodilokat kell felismerni a hosszuk alapján. Egy felnőtt krokodil átlagos hossza körülbelül 15 láb, míg egy felnőtt aligátor átlagos hossza megközelítőleg 12 láb. Feltéve, hogy az x hossz normális eloszlású 2 láb szórással, a következőképpen fejezhetjük ki az osztályra vonatkozó feltételes valószínűségeket:

P(X|Krokodil)= 1 2π 2 exp[ 1 2 ( X15 2 ) 2 ] (5.19)

P(X|Aligátor)= 1 2π 2 exp[ 1 2 ( X12 2 ) 2 ] (5.20)

5.11. ábra - Krokodil és aligátor likelihood-függvényének összehasonlítása

Krokodil és aligátor likelihood-függvényének összehasonlítása

Az 5.11. ábra mutatja egy krokodil és egy aligátor osztályra vonatkozó feltételes valószínűségének összehasonlítását. Feltéve, hogy az a priori valószínűségeik megegyeznek, az ideális döntési határ annál a bizonyos x ̂ -nál található, amelyre

P(X= x ̂ |Krokodil)=P(X= x ̂ |Aligátor).

Az (5.19) és (5.20) egyenletek felhasználásával azt kapjuk, hogy

( x ̂ 15 2 ) 2 = ( x ̂ 12 2 ) 2 ,

amely megoldható, x ̂ =13,5 eredményt kapva. A döntési határ ennél a példánál félúton helyezkedik el a két átlag között.

Amikor az a priori valószínűségek különbözőek, a döntési határ a kisebb a priori valószínűségű osztály felé tolódik el (lásd a 10. feladatot a 327. oldalon). Kiszámítható továbbá az adott adatokon bármely osztályozó által elérhető minimális hibaarány. Az ideális döntési határ az előbbi példában aligátorként osztályoz minden olyan élőlényt, amelyek hossza kisebb x ̂ -nál, és krokodilként, amelyek hossza nagyobb x ̂ -nál. Az osztályozó hibaarányát a krokodilok a posteriori valószínűségi görbéje alatti terület (0-tól x ̂ hosszig) és az aligátorok a posteriori valószínűségi görbéje alatti terület ( x ̂ -tól -ig) összege adja meg:

Hiba= 0 x ̂ P(Krokodil|X)dX+ x ̂ P(Aligátor|X)dX.

A teljes hibaarány a Bayes-féle hibaarány (Bayes error rate).

Bayes-féle bizonyossághálók

A naiv Bayes-féle osztályozó által tett feltételes függetlenségi feltevés túl szigorúnak tűnhet, különösen olyan osztályozási problémáknál, amelyekben az attribútumok némileg korreláltak. A szakasz egy rugalmasabb módszert mutat be a P(X|Y) osztályra vonatkozó feltételes valószínűségek modellezéséhez. Ahelyett, hogy adott osztály mellett az összes attribútum feltételes függetlenségét követelné meg, a módszer lehetővé teszi számunkra annak megadását, hogy mely attribútumpárok függetlenek feltételesen. Annak tárgyalásával kezdjük, hogy hogyan kell egy ilyen valószínűségi modellt ábrázolni és építeni, amelyet annak egy példája követ, hogy hogyan kell a modellből következtetéseket végezni.

Modell reprezentáció

5.12. ábra - Valószínűségi kapcsolatok reprezentálása irányított körmentes gráfok segítségével

Valószínűségi kapcsolatok reprezentálása irányított körmentes gráfok segítségével

Egy Bayes-féle bizonyosságháló (BBN -- Bayesian belief network) vagy egyszerűen Bayes-féle háló (Bayesian network) véletlen változók közötti valószínűségi kapcsolatok egy grafikus reprezentációját adja. Egy Bayes-féle hálónak két fő eleme van:

  1. A változók közötti függőségi kapcsolatokat leíró irányított körmentes gráf (dag -- directed acyclic graph).

  2. Egy valószínűségi tábla, amely minden egyes csúcsot a közvetlen szülőcsúcsaival kapcsol össze.

Vegyünk három véletlen változót, A -t, B -t és C -t, ahol A és B független változók és mindkettőnek közvetlen hatása van a harmadik változóra, C -re. A változók közötti kapcsolatokat az 5.12. (a) ábrán látható irányított körmentes gráfba lehet összefoglalni. A gráfban minden egyes csúcs egy változót reprezentál és minden egyes él a változópár közötti függőségi kapcsolatot fejezi ki. Ha egy irányított él vezet X -ből Y -ba, akkor X a szülője Y -nak és Y a gyermeke X -nek. Továbbá ha van a hálóban irányított út X -ből Z -be, akkor X egy őse Z -nek, míg Z egy leszármazottja X -nek. Például az 5.12. (b) ábrán látható diagramon A egy leszármazottja D -nek és D egy őse B -nek. B és D egyaránt nem leszármazottai A -nak. A következőképpen állapítható meg a Bayes-féle háló egy fontos tulajdonsága:

1.Tulajdonság

(feltételes függetlenség) Egy csúcs egy Bayes-féle hálóban feltételesen független a nem leszármazottaitól, ha ismertek a szülői.

Az 5.12. (b) ábrán látható diagramban A feltételesen független B -től és D -től is C mellett, mivel a B és D csúcsok nem leszármazottai az A csúcsnak. A naiv Bayes-féle osztályozó által tett feltételes függetlenségi feltevés is reprezentálható Bayes-féle háló segítségével, mint ahogy az 5.12. (c) ábra mutatja, ahol y a célosztály és { X 1 , X 2 ,, X d } az attribútumhalmaz.

A háló topológiája által meghatározott feltételes függetlenségi feltételek mellett minden egyes csúcshoz tartozik egy valószínűségi tábla is.

  1. Ha egy X csúcsnak nincs szülője, akkor a tábla csak a P(X) a priori valószínűséget tartalmazza.

  2. Ha egy X csúcsnak csak egy szülője van, Y, akkor a tábla a P(X|Y) feltételes valószínűséget tartalmazza.

  3. Ha egy X csúcsnak több szülője van, { Y 1 , Y 2 ,, Y k } , akkor a tábla a P(X| Y 1 , Y 2 ,, Y k ) feltételes valószínűséget tartalmazza.

5.13. ábra - Bayes-féle bizonyosságháló szívbaj és gyomorégés felismeréséhez betegeknél

Bayes-féle bizonyosságháló szívbaj és gyomorégés felismeréséhez betegeknél

Az 5.13 ábra egy szívbaj vagy gyomorégés miatt szenvedő betegeket modellező Bayes-féle hálóra mutat példát. A diagramban minden egyes változó kétértékűnek feltételezett. A szívbaj ( Sz ) szülőcsúcsai a betegséget befolyásoló kockázati tényezőknek felelnek meg, mint például a testmozgás ( T ) és az étrend ( E' ). A szívbaj gyermekcsúcsai a betegség tüneteinek felelnek meg, mint például a mellkasi fájdalom ( MF ) és a magas vérnyomás ( V ). Például a diagram azt mutatja, hogy a gyomorégés ( Gy ) eredhet egészségtelen táplálkozásból és vezethet mellkasi fájdalomhoz.

A kockázati tényezőkhöz tartozó csúcsok csak az a priori valószínűségeket tartalmazzák, míg a szívbaj, gyomorégés és ezek megfelelő tüneteinek csúcsai a feltételes valószínűségeket. Helytakarékossági okból néhány valószínűség el lett hagyva a diagramról. Az elhagyott valószínűségeket pótolni lehet, ha figyelembe vesszük, hogy P(X= x Ż )=1P(X=x) és P(X= x Ż |Y)=1P(X=x|Y) , ahol x Ż jelöli x ellenkező kimenetelét. Például

P(Szívbaj = Nem|Testmozgás = Nem, Étrend = Egészséges)

=1P(Szívbaj = Igen|Testmozgás = Nem, Étrend = Egészséges)

=10,55=0,45.

Modellépítés

A Bayes-féle hálókban a modellépítés két lépésből áll: (1) a hálózat szerkezetének létrehozása, és (2) a valószínűségi értékek becslése az egyes csúcsokhoz tartozó táblákban. A háló topológiáját megkaphatjuk a tárgyterület szakértőinek szubjektív tudását kódolva. Az 5.3. algoritmus egy szisztematikus eljárást mutat be a Bayes-háló topológiájának felépítéséhez.

5.3. algoritmus. Algoritmus Bayes-féle háló topológiájának létrehozásához

1: Jelölje T=( X 1 , X 2 ,, X d ) a változók egy teljes rendezését

2: for j=1 to d do

3: Jelölje X T(j) a j -edik legnagyobb változót T -ben

4: Jelölje π( X T(j) )={ X T(1) , X T(2) ,, X T(j1) } az X T(j) -t megelőző változók halmazát

5: Távolítsuk el π( X T(j) ) -ből azokat a változókat, amelyek nincsenek hatással X j -re (a priori tudás segítségével)

6: Hozzunk létre egy élt X T(j) és π( X T(j) ) megmaradt változói között

7: end for

5.4. Példa.

Tekintsük az 5.13. ábrán látható változókat. Az 1. lépés végrehajtása után tegyük fel, hogy a változók a következő módon vannak rendezve: (T,É,Sz,Gy,MF,V) . A 2.-tól a 7. lépésig az E' változóval kezdve az alábbi feltételes valószínűségeket kapjuk:

P(É|T) P(É) -re egyszerűsödik.

P(Sz|T,É) nem egyszerűsíthető.

P(Gy|Sz,T,É) P(Gy|É) -re egyszerűsödik.

P(MF|Gy,Sz,T,É) P(MF|Gy,Sz) -re egyszerűsödik.

P(V|MF,Gy,Sz,T,É) P(V|Sz) -re egyszerűsödik.

A fenti feltételes valószínűségek alapján éleket hozhatunk létre a (T,Sz) , (É,Sz) , (É,Gy) , (Sz,MF) , (Gy,MF) és (Sz,V) csúcsok között. Az élek az 5.13 ábrán látható hálózati struktúrát eredményezik.

Az 5.3. algoritmus egy olyan topológiát garantál, amely nem tartalmaz köröket. Ennek bizonyítása elég egyszerű. Ha létezik kör, akkor kell lennie legalább egy az alacsonyabb rendű csúcsokat a magasabb rendű csúcsokkal összekötő élnek, és legalább egy másik, a magasabb rendű csúcsokat az alacsonyabb rendű csúcsokkal összekötőnek. Mivel az 5.3. algoritmus megakadályozza, hogy az élek az alacsonyabb rendű csúcsokat kössék össze a magasabb rendű csúcsokkal, nem lehet kör a topológiában.

A hálózati topológia azonban megváltozhat, ha eltérő rendezési sémát alkalmazunk a változókra. Néhány topológia gyenge minőségű lehet, mert sok külöböző csúcspárt összekötő élt okoz. Elvileg lehet, hogy meg kell vizsgálnunk az összes lehetséges d! elrendezést a legmegfelelőbb topológia meghatározásához, amely számításigényes feladat lehet. Egy alternatív megközelítés a változók felosztása magyarázó és függő változókra, majd élek húzása minden egyes magyarázó változótól a megfelelő függő változóihoz. Ez a megközelítés megkönnyíti a Bayes-féle hálószerkezet építését.

Ha megtaláltuk a helyes topológiát, minden egyes csúcshoz meghatározásra kerül a hozzá tartozó valószínűségi tábla. Az ilyen valószínűségek becslése meglehetősen egyszerű és hasonló a naiv Bayes-féle osztályozó által felhasznált módszerhez.

Bayes-féle háló segítségével történő következtetés példája

Tegyük fel, hogy az 5.13. ábrán látható Bayes-féle háló felhasználása érdekel minket annak megállapításához, hogy vajon egy személynek van-e szívbaja. A következő esetek azt szemléltetik, hogy hogyan állítható fel a diagnózis különböző forgatókönyvek mellett.

1. eset: nincs a priori információ

A priori információ nélkül meghatározhatjuk, hogy vajon a személy vélhetőleg szívbajos-e, ha kiszámoljuk a P(Sz=Igen) és P(Sz=Nem) a priori valószínűségeket. A jelölés egyszerűsítése érdekében jelölje α{Igen, Nem} a Testmozgás bináris értékeit és jelölje β{Egészséges, Egészségtelen} az Étrend bináris értékeit.

P(Sz=Igen)= α β P(Sz=Igen|T=α,É=β)P(T=α,É=β)

= α β P(Sz=Igen|T=α,É=β)P(T=α)P(É=β)

=0,25×0,7×0,25+0,45×0,7×0,75+0,55×0,3×0,25

    +  0,75×0,3×0,75

=0,49.

Mivel P(Sz=Nem) = 1 P(Sz=Igen) = 0,51 , a személynek valamivel nagyobb esélye van nem megkapni a betegséget.

2. eset: magas vérnyomás

Ha a személy magas vérnyomású, diagnózist állíthatunk fel a szívbajról, ha a P(Sz=Igen|V=Magas) a posteriori valószínűséget összehasonlítjuk a P(Sz=Nem|V=Magas) a posteriori valószínűséggel. Ehhez ki kell számolnunk P(V=Magas) -t:

P(V=Magas)= γ P(V=Magas|Sz=γ)P(Sz=γ)

=0,85×0,49+0,2×0,51=0,5185,

ahol γ{Igen, Nem} . Ezért annak az a posteriori valószínűsége, hogy a személy szívbajos

P(Sz=Igen|V=Magas)= P(V=Magas|Sz=Igen)P(Sz=Igen) P(V=Magas)

= 0,85×0,49 0,5185 =0,8033.

Hasonlóan P(Sz=Nem|V=Magas)=10,8033=0,1967 . Ezért amikor egy személy vérnyomása magas, ez növeli a szívbaj kockázatát.

3. eset: magas vérnyomás, egészséges táplálkozás és rendszeres testmozgás

Tételezzük fel, hogy arról értesülünk, hogy a személy rendszeresen mozog és egészségesen étkezik. Hogyan befolyásolja az új információ a diagnózisunkat? Az új információval annak az a posteriori valószínűsége, hogy a személy szívbajos

P(Sz=Igen|V=Magas,É=Egészséges,T=Igen)

=[ P(V=Magas|Sz=Igen,É=Egészséges,T=Igen) P(V=Magas|É=Egészséges,T=Igen) ]

    ×  P(Sz=Igen|É=Egészséges,T=Igen)

= P(V=Magas|Sz=Igen)P(Sz=Igen|É=Egészséges,T=Igen) γ P(V=Magas|Sz=γ)P(Sz=γ|É=Egészséges,T=Igen)

= 0,85×0,25 0,85×0,25+0,2×0,75

=0,5862,

míg annak valószínűsége, hogy a személy nem szívbajos

P(Sz=Nem|V=Magas,É=Egészséges,T=Igen)=10,5862=0,4138.

A modell ezért arra enged következtetni, hogy az egészséges étkezés és a rendszeres testmozgás csökkentheti egy személy esetén a szívbaj kockázatát.

A Bayes-féle bizonyosságháló jellemzői

A Bayes-féle bizonyosságháló módszer néhány általános jellemzője az alábbi:

  1. A Bayes-féle háló módszert biztosít egy adott terület a priori tudásának rögzítéséhez egy grafikus modell segítségével. A háló felhasználható változók közötti okozati kapcsolatok kódolásához is.

  2. A háló létrehozása időigényes lehet és nagy erőfeszítést igényel. Ha azonban meghatározásra került a háló szerkezete, egy új változó hozzáadása elég egyszerű.

  3. Bayes-féle hálók kiválóan alkalmasak hiányos adatok kezelésére. Úgy lehet kezelni azokat a példányokat, amelyeknek hiányoznak az attribútumai, hogy összeadjuk vagy intergráljuk a valószínűségeket az attribútum összes lehetséges értékére.

  4. Mivel az adatok kombinálása valószínűségi alapon történik az a priori információkkal, a módszer elég robusztus a modell túlillesztésre.



[2] A fordító megjegyzése: A valószínűségszámítás absztrakt felépítésében valójában így definiáljuk a feltételes függetlenséget.