Az asszociációs mintázatok kiértékelése

Az asszociációkat elemző algoritmusok potenciálisan nagyon nagy számú mintázatot állíthatnak elő. A 6.1. táblázatban látható adathalmaz például csupán hat elemet tartalmaz, mégis a megfelelő támogatottsági és megbízhatósági értékek mellett akár több száz asszociációs szabály t is ki lehet belőle nyerni. Mivel a valós kereskedelmi adatbázisok mérete és kiterjedése nagyon nagy lehet, könnyen több ezer vagy akár több millió mintázattal is szembetalálhatjuk magunkat, mely mintázatok közül sok valószínűleg nem is érdekes. A mintázatok közül a legérdekesebbek kiszűrése nem egy triviális feladat, hiszen ``ami valakinek szemét, az lehet hogy másnak kincs''. Emiatt fontos összeállítani egy széles körben elfogadott kritériumlistát, mely alapján értékelni lehet az asszociációs mintázatok minőségét.

A kritériumok első csoportját statisztikai érvek határozhatják meg. A kölcsönösen független elemcsoportokat tartalmazó, vagy a nagyon kevés tranzakció t lefedő mintázatokat érdektelennek tekintjük, mivel az adathalmazban valószínűleg félrevezető összefüggéseket jelölnek. Az ilyen mintázatok kizárhatók egy objektív érdekességi mérték használatával. Egy ilyen mérték az adatokból nyert statisztikák alapján dönti el, hogy egy mintázat érdekes-e vagy sem. Objektív érdekességi mértékekre példa a támogatottság, a megbízhatóság, illetve a korreláció.

A kritériumok második csoportját szubjektív argumentumok adhatják. Egy mintázatot szubjektív szempontból érdektelennek tekintünk, ha nem mutat rá valamilyen váratlan információra, vagy ha nem nyújt olyan hasznos tudást, ami valamilyen jövedelmező tevékenységhez vezethet. Például a {vaj}{kenyér} a magas támogatottság és megbízhatóság ellenére nem igazán érdekes, mivel a szabály által reprezentált kapcsolat eléggé nyilvánvalónak tűnik. Ezzel szemben viszont a {pelenka}{sör} szabály érdekes, mivel ez a kapcsolat eléggé váratlan, és a viszonteladók számára új árukapcsolási lehetőséget adhat. A szubjektív tudás bevonása a mintázatok értékelésébe nehéz feladat, mivel jelentős mennyiségű információra van szükség, melyet az adott terület szakértőitől kell megszerezni.

Nézzünk néhány módszert arra, hogy a mintázatok feltárását hogyan tudjuk segíteni a szubjektív tudással:

Vizualizáció

Ennél a megközelítésnél egy felhasználóbarát környezetre van szükség. Ez a környezet lehetővé teszi a szakértők és az adatbányász rendszer közti kölcsönhatást, melynek során a szakértők értelmezik és ellenőrzik a felfedezett mintázatokat.

Sablon-alapú megközelítés

Ez a módszer lehetővé teszi a felhasználóknak, hogy az adatbányászati algoritmus által kinyert mintázatokra korlátozásokat vezessenek be. Ekkor az összes kinyert szabály helyett csak a felhasználó által megadott sablonnak megfelelő szabályokat kapja meg a felhasználó.

Szubjektív érdekességi mérték

Egy szubjektív mértéket egy adott terület információi ( például fogalmi hierarchiák, lásd a 7.3. alfejezetet; vagy árucikkek profit fedezete) alapján lehet definiálni. A mértékkel ezután ki lehet szűrni a nyilvánvaló és érdektelen mintázatokat.

A szubjektív érdekességi mértékek iránt érdeklődő olvasók további információt találhatnak a fejezet végén lévő irodalomjegyzékben.

Objektív érdekességi mértékek

Egy objektív mérték egy adatvezérelt megközelítés az asszociációs szabály ok minőségének értékelésére. Egy objektív mérték független a területtől és a felhasználóktól, csak minimális bementet igényel a kevésbé érdekes mintázatok kiszűréséhez szükséges hatérték megadásán kívül. Egy objektív mértéket általában egy kontigenciatáblázatban szereplő gyakorisági értékek alapján számítunk ki. A 6.7. táblázatban az A és B bináris változók kontingenciatáblázatát láthatjuk. Az A Ż ( B Ż ) jelöléssel az A ( B ) hiányát jelöljük egy tranzakció ban. A 2×2 -es táblázatban szereplő f ij értékek előfordulási gyakoriságokat jeleznek. Az f 11 például azt jelöli, hogy A és B hányszor szerepel együtt egy tranzakció ban; az f 01 pedig azt mutatja, hogy hány olyan tranzakció van, melyben szerepel B , de nem szerepel A . A sorvégi f 1+ az A támogatottsági szintjét, míg az oszlopok alján látható f +1 a B támogatottsági szintjét jelöli. Végezetül megjegyezzük, hogy annak ellenére, hogy a téma tárgyalása során főleg az aszimmetrikus bináris változókra koncentrálunk, a kontingenciatáblázatok más attribútumtípusok ( például szimmetrikus bináris, nominális és sorrendi változók) esetén is használhatóak.

6.7. táblázat - Az A és B változók 2×2 -es kontingenciatáblázata

B

B Ż

A

f 11

f 10

f 1+

A Ż

f 01

f 00

f 0+

f +1

f +0

N


A támogatottság-megbízhatóság korlátai

A hagyományos asszociációs szabály okat bányászó módszerek az érdektelen mintázatok kizárására a támogatottsági és megbízhatósági értékeket használják. A támogatottság hátrányáról a 6.8. szakaszban lesz szó, ahol látni fogjuk, hogy a támogatottsági küszöbérték számos olyan potenciálisan érdekes mintázatot is kizár, melyekben néhány alacsony támogatottságú elem is szerepel. A megbízhatóság hátrányát, amely jóval körmönfontabb, a következő példával tudjuk a legjobban szemléltetni.

6.3. Példa.

Tegyük fel, hogy a tea- és kávéfogyasztók közötti kapcsolatot szeretnénk elemezni. Egy csoport italfogyasztási szokásait összegyűjtve a válaszokat egy táblázatban foglalhatjuk össze (lásd a 6.8. táblázatot).

6.8. táblázat - Italfogyasztási szokások egy 1000 fős csoportban

kávé

kávé Ż

tea

150

50

200

tea Ż

650

150

800

800

200

1000


A táblázatban megadott információk alapján értékelni tudjuk a {tea}{kávé} asszociációs szabály t. Első ránézésre úgy tűnhet, hogy a teát fogyasztók hajlamosak kávét is inni, ugyanis a szabály támogatottsága (15%) és megbízhatósága (75%) meglehetősen magas. Ez az indoklás akár elfogadható is lenne, ha nem vennénk figyelembe a következőket: a kávéfogyasztók aránya (függetlenül attól, hogy isznak-e teát) 80%, míg azon teafogyasztók aránya akik kávét is isznak, csupán 75%. Vagyis annak tudatában, hogy valaki teát iszik, az illető kávéfogyasztási valószínűsége 80%-ról 75%-ra csökken! Ezért a {tea}{kávé} szabály a magas megbízhatóság ellenére félrevezető.

A megbízhatóság azért félrevezető, mert ez a mérték teljesen figyelmen kívül hagyja a szabály következményi oldalán szereplő elemhalmaz támogatottságát. Valóban, ha a kávét fogyasztók támogatottságát vesszük, akkor nem lepődünk meg azon, ha sok teát fogyasztó kávét is iszik egyben. Ennél meglepőbb viszont az, hogy azon teát fogyasztók aránya, akik kávét is isznak, valójában kisebb, mint a kávéfogyasztók összaránya. Ez egy fordított viszonyra enged következtetni a tea- és kávéfogyasztók között.

A támogatottság-megbízhatóság korlátai miatt számos objektív mértéket vezettek be az asszociációs mintázatok minőségének értékeléséhez. Az alábbiakban egy rövid áttekintést nyújtunk ezekről a mértékekről, és kitérünk az egyes mértékek előnyeire és korlátaira.

Érdekességi tényező

A tea-kávé példa rámutatott, hogy a magas megbízhatóságú szabály ok néha félrevezetők lehetnek, ugyanis a megbízhatósági mérték nem veszi figyelembe a szabály ok következményi oldalán szereplő elemhalmazok támogatottságát. Ezt a problémát például a lift nevű mértékkel lehet orvosolni:

Lift= c(AB) s(B) . (6.4)

Ez a mérték a szabály megbízhatósága és a szabály következményi oldalán szereplő elemhalmaz támogatottsága közti arányt számítja ki. Bináris változók esetén a lift ekvivalens az érdekességi tényező nevű objektív mértékkel, melyet a következőképpen definiálunk:

I(A,B)= s(A,B) s(A)×s(B) = N f 11 f 1+ f +1 . (6.5)

Az érdekességi tényező egy mintázat gyakoriságát hasonlítja össze a statisztikai függetlenség feltétele alatt kiszámított alapvonali gyakorisággal. Az alapvonali gyakoriság egy kölcsönösen független változópár esetén

f 11 N = f 1+ N × f +1 N ,      vagy ezzel egyenértékűen,       f 11 = f 1+ f +1 N . (6.6)

Ez a képlet azt a bevett megközelítést követi, mely szerint egyszerű törteket használunk a valószínűségek becslésére. Az f 11 /N tört a P(A,B) együttes valószínűség becslése, míg az f 1+ /N és f +1 /N a P(A) és P(B) becslései. Ha A és B statisztikailag függetlenek, akkor P(A,B)=P(A)×P(B) , s így megkapjuk a (6.6) képletben látható formulát. A (6.5) és (6.6) képletek felhasználásával a mértéket a következőképpen értelmezhetjük:

I(A,B){ =1,  ha  A  és  B  függetlenek;  ≥1,  ha  A  és  B  pozitívan  korrelálnak;  ≤1,  ha  A  és  B  negatívan  korrelálnak (6.7)

A 6.8. táblázatban szereplő tea-kávé példa esetén I= 0,15 0,2×0,8 =0,9375 . Ez az érték a tea- és kávéfogyasztók között egy enyhe negatív korrelációt sejtet.

Az érdekességi tényező korlátai

Az érdekességi tényező korlátait egy szövegbányászati példával szemléltetjük. Szövegek esetén joggal feltételezhetjük, hogy egy szópár tagjai közti asszociáció attól függ, hogy hány dokumentum tartalmazza mindkét szót. Például az erősebb asszociáció miatt azt várjuk, hogy az adat és bányászat szavak gyakrabban fordulnak elő számítástechnikai cikkekben mint a fordító és bányászat szavak.

A 6.9. táblázat két szópár ( {p,q} és {r,s} ) előfordulási gyakoriságát mutatja. A (6.5) képlet alapján {p,q} érdekességi tényezője 1,02 , míg {r,s} esetén ez az érték 4,08 . Ezek az eredmények némileg zavaróak a következő okok miatt. Bár p és q a dokumentum ok 88%-ában szerepel együtt, az érdekességi tényezőjük értéke 1-hez közeli, ami p és q statisztikai függetlenségét jelenti. Ezzel szemben {r,s} érdekességi tényezője magasabb, mint {p,q} esetén, pedig r és s alig fordulnak elő együtt a dokumentumokban. Ebben az esetben a megbízhatóság használata valószínűleg jobb választás, ugyanis a megbízhatóság a p és q közötti asszociációt (94,6%) sokkal erősebbnek értékeli, mint az r és s közöttit (28,6%).

6.9. táblázat - A { p , q } és { r , s } szópárok kontingenciatáblázatai

p

p Ż

r

r Ż

q

880

50

930

s

20

50

70

q Ż

50

20

70

s Ż

50

880

930

930

70

1000

70

930

1000


Korrelációanalízis

A korrelációanalízis egy statisztikai alapú módszer változópárok közti kapcsolatok elemzésére. Folytonos változók esetén a korrelációt a Pearson korrelációs együttható felhasználásával definiáljuk (lásd a (2.10) képletet a 79. oldalon). Bináris változók esetén a korrelációt a ϕ -együttható felhasználásával tudjuk kiszámítani, melyet a következőképpen definiálunk:

ϕ= f 11 f 00 f 01 f 10 f 1+ f +1 f 0+ f +0 . (6.8)

A korreláció értéke 1 -től (tökéletes negatív korreláció) +1 -ig (tökéletes pozitív korreláció) terjedhet. Statisztikailag független változók esetén ϕ=0 . Például a 6.8. táblázatban megadott tea- és kávéfogyasztók között a korreláció 0,0625 .

A korrelációanalízis korlátai

A korreláció használatának hátrányát jól mutatja a szópárokat tartalmazó példa a 6.9. táblázatban. Bár a p és q szavak gyakrabban fordulnak elő, mint az r és s , a ϕ -együtthatóik megegyeznek, azaz ϕ(p,q)=ϕ(r,s)=0,232 . Ez azért van, mert a tranzakció kban a ϕ -együttható azonos jelentőséget tulajdonít mind az elemek közös előfordulásának, mind pedig azok közös hiányának. Emiatt a korreláció jobban megfelel szimmetrikus bináris változók elemzésére. A mérték egy másik hátránya, hogy nem marad változatlan a minta méretében bekövetkező arányos változások esetén. Ezt a kérdést részletesebben is meg fogjuk vizsgálni az objektív mértékek jellemzőinek a leírásánál (lásd a 387. oldalon).

IS mérték

Az IS egy alternatív mérték az aszimmetrikus bináris változók kezelésére. A mérték definíciója a következő:

IS(A,B)= I(A,B)×s(A,B) = s(A,B) s(A)s(B) . (6.9)

Megjegyezzük, hogy az IS érték akkor nagy, ha a mintázat érdekességi tényezője és támogatottsága is nagy. Például a {p,q} és {r,s} szópárok (lásd a 6.9. táblázatot) IS értéke 0,946 és 0,286 . Az érdekességi tényező és a ϕ -együttható által visszaadott eredményekkel szemben az IS mérték szerint a p és q közti asszociáció erősebb, mint az r és s között. Ez az eredmény egybeesik a dokumentumokban szereplő szavak asszociációjával kapcsolatos elvárásainkkal.

Megmutatható, hogy az IS matematikailag ekvivalens a bináris változók koszinusz mértékével (lásd a (2.7) képletet a 77. oldalon). Ennek belátásához legyen A és B egy-egy bitvektor, AB=s(A,B) a két vektor belső szorzata, |A|= s(A) pedig az A vektor hossza. Következésképpen:

IS(A,B)= s(A,B) s(A)×s(B) = AB |A|×|B| =koszinusz(A,B). (6.10)

Az IS mérték egy bináris változópárból kinyert asszociációs szabály ok megbízhatóságának a mértani közepeként is kifejezhető:

IS(A,B)= s(A,B) s(A) × s(A,B) s(B) = c(AB)×c(BA) . (6.11)

Mivel két tetszőleges szám mértani közepe mindig a kisebb számhoz van közelebb, ezért egy {p,q} elemhalmaz IS értéke alacsony, ha az elemhalmazból kinyert bármely szabály ( pq vagy qp ) megbízhatósága alacsony.

Az IS mérték korlátai

Az IS érték a független A és B elemhalmazpár esetén:

I S független (A,B)= s(A,B) s(A)×s(B) = s(A)×s(B) s(A)×s(B) = s(A)×s(B) .

Mivel ez az érték s(A) -tól és s(B) -től függ, az IS mérték a megbízhatósági mértékhez hasonló problémával rendelkezik: a mérték értéke meglehetősen nagy lehet, és ez korrelációban nem lévő, vagy negatívan korreláló mintázatok esetén is fennáll. Például a 6.10. táblázatban a p és q elemek közti magas IS érték (0,889) még mindig elmarad attól az elvárt értéktől amikor az elemek statisztikailag függetlenek ( I S független =0,9 ).

6.10. táblázat - A p és q elemek kontingenciatáblázata

q

q Ż

p

800

100

900

p Ż

100

0

100

900

100

1000


Alternatív objektív érdekességi mértékek

Az eddig bemutatott mértékek mellett egyéb mértékek is léteznek bináris változópárok közti kapcsolatok elemzésére. Ezek a mértékek két kategóriába sorolhatók, úgy mint szimmetrikus és aszimmetrikus mértékek. Egy M mérték akkor szimmetrikus, ha M(AB)=M(BA) . Például az érdekességi tényező egy szimmetrikus mérték, ugyanis az AB és BA szabály ok esetén ugyanaz az értéke. Ezzel szemben a megbízhatóság egy aszimmetrikus mérték, mivel az AB és BA szabály ok megbízhatósága eltérő lehet. A szimmetrikus mértékeket általában elemhalmazok, míg az aszimmetrikus mértékeket inkább az asszociációs szabály ok elemzésére használjuk. A 6.11. és 6.12. táblázatokban megtalálható néhány ilyen mérték definíciója egy 2×2 -es kontingenciatáblázat gyakorisági értékeiben kifejezve.

6.11. táblázat - Szimmetrikus objektív mértékek az {A,B} elemhalmazra

mérték (szimbólum)

definíció

korreláció ( ϕ )

N f 11 f 1+ f +1 f 1+ f +1 f 0+ f +0

esélyhányados ( α )

( f 11 f 00 )/( f 10 f 01 )

kappa ( κ )

N f 11 +N f 00 f 1+ f +1 f 0+ f +0 N 2 f 1+ f +1 f 0+ f +0

érdekesség ( I )

(N f 11 )/( f 1+ f +1 )

koszinusz ( IS )

( f 11 )/( f 1+ f +1 )

Piatetsky-Shapiro ( PS )

f 11 N f 1+ f +1 N 2

együttes erő ( S )

f 11 + f 00 f 1+ f +1 + f 0+ f +0 × N f 1+ f +1 f 0+ f +0 N f 11 f 00

Jaccard ( ζ )

f 11 /( f 1+ + f +1 f 11 )

teljes-bizonyosság ( h )

min[ f 11 f 1+ , f 11 f +1 ]


6.12. táblázat - Aszimmetrikus objektív mértékek az AB szabályra

mérték (szimbólum)

definíció

Goodman-Kruskal ( λ )

( j max k f jk ma x k f +k )/(N max k f +k )

kölcsönös információ ( M )

( i j f ij N log N f ij f i+ f +j )/( i f i+ N log f i+ N )

J-mérték ( J )

f 11 N log N f 11 f 1+ f +1 + f 10 N log N f 10 f 1+ f +0

Gini index ( G )

f 1+ N × ( f 11 f 1+ ) 2 + ( f 10 f 1+ ) 2 ] ( f +1 N ) 2

+   f 0+ N ×[ ( f 01 f 0+ ) 2 + ( f 00 f 0+ ) 2 ] ( f +0 N ) 2

Laplace ( L )

( f 11 +1)/( f 1+ +2)

meggyőződés ( V )

( f 1+ f +0 )/(N f 10 )

bizonyossági tényező ( F )

( f 11 f 1+ f +1 N )/(1 f +1 N )

hozzáadott érték ( AV )

f 11 f 1+ f +1 N


Következetesség az objektív mértékek között

A mértékek széles skáláját látva joggal tehetjük fel a kérdést, hogy vajon hasonló eredményt adnak-e asszociációs mintázatok egy halmazán alkalmazva. Ha a mértékek következetesek (konzisztensek), akkor bármelyiket választhatjuk értékeléseinkhez. Ellenkező esetben viszont fontos megérteni a mértékek közti különbségeket ahhoz, hogy ki tudjuk választani a megfelelő mértéket a különböző típusú mintázatok elemzéséhez.

6.13. táblázat - Példa kontingenciatáblázatokra

példa

f 11

f 10

f 01

f 00

E 1

8123

83

424

1370

E 2

8330

2

622

1046

E 3

3954

3080

5

2961

E 4

2886

1363

1320

4431

E 5

1500

2000

500

6000

E 6

4000

2000

1000

3000

E 7

9481

298

127

94

E 8

4000

2000

2000

2000

E 9

7450

2483

4

63

E 10

61

2483

4

7452


Vegyük a 6.13. táblázatban látható tíz kontingenciatáblázatot, és alkalmazzuk rájuk a szimmetrikus és aszimmetrikus mértékeket. Ezeket a kontingenciatáblázatokat úgy választottuk, hogy szemléltetni tudjuk velük a mértékek közti különbségeket. A mértékek által felállított sorrendet a 6.14. és 6.15. táblázatban foglaltuk össze (ahol az 1 a legérdekesebb, a 10 pedig a legkevésbé érdekes kontingenciatáblázatot jelöli). Bár néhány mérték egymással konzisztensnek tűnik, bizonyos mértékek viszont alapvetően eltérő sorrendet javasolnak. Például a ϕ -együttható által adott rangsorolás egyezik a κ és az együttes erő eredményével, de eltér az érdekességi tényező és az esélyhányados által javasolt rangsortól. További példaként hozható fel az E 10 kontingenciatáblázat, melyet a ϕ -együttható utolsóként, az érdekességi tényező viszont elsőként rangsorolt.

6.14. táblázat - A kontingenciatáblázat ok rangsorolása a 6.11. táblázatban megadott szimmetrikus mértékek alapján

ϕ

α

κ

I

IS

PS

S

ζ

h

E 1

1

3

1

6

2

2

1

2

2

E 2

2

1

2

7

3

5

2

3

3

E 3

3

2

4

4

5

1

3

6

8

E 4

4

8

3

3

7

3

4

7

5

E 5

5

7

6

2

9

6

6

9

9

E 6

6

9

5

5

6

4

5

5

7

E 7

7

6

7

9

1

8

7

1

1

E 8

8

10

8

8

8

7

8

8

7

E 9

9

4

9

10

4

9

9

4

4

E 10

10

5

10

1

10

10

10

10

10


6.15. táblázat - A kontingenciatáblázat ok rangsorolása a 6.12. táblázatban megadott aszimmetrikus mértékek alapján

λ

M

J

G

L

V

F

AV

E 1

1

1

1

1

4

2

2

5

E 2

2

2

2

3

5

1

1

6

E 3

5

3

5

2

2

6

6

4

E 4

4

6

3

4

9

3

3

1

E 5

9

7

4

6

8

5

5

2

E 6

3

8

6

5

7

4

4

3

E 7

7

5

9

8

3

7

7

9

E 8

8

9

7

7

10

8

8

7

E 9

6

4

10

9

1

9

9

10

E 10

10

10

8

10

6

10

10

8


Az objektív mértékek jellemzői

A 6.14. táblázat eredményei arra engednek következtetni, hogy a mértékek jelentős része egymásnak ellentmondó eredményt ad a mintázatok minőségét illetően. A különbségek megértése érdekében meg kell vizsgálni ezeknek a mértékeknek a jellemzőit.

Az inverzió tulajdonság

Tekintsük a 6.28. ábrán látható bitvektorokat. Az oszlopvektorokban szereplő 0/1 bit azt jelöli, hogy egy tranzakció (sor) tartalmaz-e egy adott elemet (oszlop). Például az A vektorból az olvasható le, hogy az a elem az első és utolsó tranzakció ban szerepel. A B vektor esetében azt látjuk, hogy a b elem csak az ötödik tranzakció ban van jelen. A C és E vektorok kapcsolatban állnak az A vektorral: a két vektor bitjeit az A bitjeinek ellenkezőre állításával kaptuk, vagyis a 0-kat (elem hiánya) 1-re (elem jelenléte) cseréltük, és fordítva. Hasonlóképpen a D vektort is a B és F vektorok invertálásával kaptuk. Egy vektor bitjeinek az ilyesfajta felcserélését inverziónak nevezzük. Ha egy mérték változatlan (invariáns) az inverzió műveletre, akkor a (C,D) és (A,B) vektorpárokra kiszámított értékeknek egyezniük kell. Egy mérték inverzió tulajdonságát a következőképpen lehet letesztelni.

6.6. Definíció

(Inverzió tulajdonság) Egy M objektív mérték változatlan az inverzió műveletre, ha M értéke nem változik meg az f 11 gyakorisági számláló f 00 -ra, illetve az f 10 gyakorisági számláló f 01 -re való cseréje esetén.

6.28. ábra - Az inverzió művelet hatása. A C és E vektorokat az A vektor, míg a D vektort a B és F vektorok invertálásával kaptuk

Az inverzió művelet hatása. A C  és E  vektorokat az A vektor, míg a D vektort a B és F vektorok invertálásával kaptuk

A következő mértékek maradnak változatlanok erre a műveletre: ϕ -együttható, esélyhányados, κ , együttes erő. Ezek a mértékek nem igazán alkalmasak aszimmetrikus bináris adatok elemzésére. Például a ϕ -együttható értéke a C és D vektorok esetén megegyezik az A és B vektorok esetén kiszámított értékkel, pedig a c és d elemek gyakrabban fordulnak elő együtt, mint az a és b . Továbbá a C és D ϕ -együtthatója kisebb, mint az E és F ϕ -együtthatója, pedig az e és f elemek csupán egyetlenegyszer szerepelnek együtt! Ezt a kérdést már említettük a ϕ -együttható korlátainak a tárgyalásánál (lásd a 385. oldalon). Aszimmetrikus bináris adatok esetén azon mértékeket részesítjük előnyben, melyek nem maradnak változatlanok az inverzió műveletre. Ilyen mérték például az érdekességi tényező, az IS , a PS , illetve a Jaccard együttható.

A null-bővítés tulajdonság

Tegyük fel hogy egy dokumentumhalmazban az adat és a bányászat szópár közti kapcsolatot szeretnénk elemezni. Ha ehhez az adathalmazhoz jéghalászattal kapcsolatos cikkeket adunk hozzá, akkor ez vajon befolyásolja az adat és a bányászat közti asszociációt? Ezt a műveletet, vagyis amikor egy adathalmazhoz idegen adatokat (ebben az esetben dokumentumokat) adunk hozzá, null-bővítés (null addition) műveletnek nevezzük.

6.7. Definíció

(Null-bővítés tulajdonság) Egy M objektív mérték változatlan (invariáns) a null-bővítés műveletre, ha az f 00 növelése nincs hatással M -re (miközben a kontingenciatáblázat összes többi gyakorisága változatlan marad).

Az olyan alkalmazások esetén, mint például a dokumentumelemzés vagy a bevásárlókosarak analízise, azt várjuk el a mértéktől, hogy a null-bővítés művelettel szemben változatlan maradjon. Máskülönben a szavak közti kapcsolat megszűnhet, ha elegendő számú olyan dokumentumot adunk hozzá, amelyek egyik szót sem tartalmazzák! Az előző jellemzőnek a koszinusz ( IS ) és Jaccard ( ξ ) mértékek felelnek meg. A jellemzőt ki nem elégítő mértékek: érdekességi tényező, PS , esélyhányados, illetve a ϕ -együttható.

A skálázás tulajdonság

A 6.16. táblázat kontingenciatáblázatai nemek és osztályzatok gyakoriságát mutatja. A felmérés egy egyetemi kurzuson történt 1993-ban és 2004-ben. A táblázatokból látható, hogy a férfi hallgatók száma a duplájára nőtt 1993 óta, míg a női hallgatók száma megháromszorozódott. A 2004-es férfi hallgatók azonban semmivel sem teljesítenek jobban, mint az 1993-asok, ugyanis a magas pontszámot és az alacsony pontszámot szerzők aránya továbbra is 3:4. Hasonlóképpen a 2004-es női hallgatók sem jobbak, mint az 1993-asok. Az osztályzatok és a nemek közti asszociációtól a mintaeloszlásban történt változások ellenére nem várunk változást.

6.16. táblázat - Osztályzatok és nemek közti összefüggések

férfi

férfi

magas

30

20

50

magas

60

60

120

alacsony

40

10

50

alacsony

80

30

110

70

30

100

140

90

230

        

(a) Minta 1993-ból

   

(b) Minta 2004-ből

   

6.8. Definíció

(Skálainvariancia tulajdonság) Egy M objektív mérték változatlan a sort/oszlopot skálázó műveletre, ha M(T)=M(T') , ahol T egy kontingenciatáblázat a következő gyakorisági értékekkel: [ f 11 ; f 10 ; f 01 ; f 00 ] , T' egy skálázott gyakorisági értékekkel rendelkező kontingenciatáblázat: [ k 1 k 3 f 11 ; k 2 k 3 f 10 ; k 1 k 4 f 01 ; k 2 k 4 f 00 ] , k 1 , k 2 , k 3 , k 4 pedig pozitív konstansok.

Vegyük észre, hogy a 6.17. táblázatban egyedül az esélyhányados ( α ) változatlan a sort/oszlopot skálázó műveletekre. Az összes többi mérték ( például a ϕ -együttható, κ , IS , érdekességi tényező, együttes erő ( S )) értéke megváltozik a kontingenciatáblázat sorait/oszlopait érintő újraskálázás esetén. Bár nem tárgyaljuk az aszimmetrikus mértékek ( például megbízhatóság, J-mérték, Gini index, meggyőződés) jellemzőit, ezek a mértékek nyilvánvalóan nem tartják meg az értéküket az inverzió és a sort/oszlopot skálázó műveletek esetén, de a null-bővítés műveletre invariánsak.

6.17. táblázat - A szimmetrikus mértékek jellemzői

Szimbólum

Mérték

Inverzió

Null-bővítés

Skálázás

ϕ

ϕ -együttható

igen

nem

nem

α

esélyhányados

igen

nem

igen

κ

Cohen-féle

igen

nem

nem

I

érdekesség

nem

nem

nem

IS

koszinusz

nem

igen

nem

PS

Piatetsky-Shapiro

igen

nem

nem

S

együttes erő

igen

nem

nem

ζ

Jaccard

nem

igen

nem

h

teljes-bizonyosság

nem

nem

nem

s

támogatottság

nem

nem

nem


A bináris változópárokon túlmutató mértékek

A 6.11. és 6.12. táblázatban látható mértékek bináris változópárokra ( például 2-elemhalmazokra vagy asszociációs szabály okra) vannak definiálva. Több ezek közül azonban, mint például a támogatottság vagy a teljes-bizonyosság, nagyobb méretű elemhalmazokra is alkalmazható. Néhány mérték ( például érdekességi tényező, IS , PS , Jaccard-együttható) pedig kettőnél több változóra is kiterjeszthető egy többdimenziós kontingenciatáblázatba rendezett gyakorisági táblázatok felhasználásával. A 6.18. táblázatban egy háromdimenziós kontingenciatáblázatot láthatunk az a , b és c változókkal. Az f ijk értékek azt mutatják, hogy hány tranzakció tartalmazza az a , b és c elemek egy bizonyos kombinációját. Például az f 101 azon tranzakciók számát jelöli, melyek tartalmazzák a -t és c -t, de nem tartalmazzák b -t. Ezzel szemben a táblázat szélén szereplő f 1+1 gyakoriság például azon tranzakciók számát jelöli, melyek tartalmazzák a -t és c -t, függetlenül attól hogy szerepel-e b a tranzakcióban vagy sem.

6.18. táblázat - Példa háromdimenziós kontingenciatáblázatra

c

b

b Ż

c Ż

b

b Ż

a

f 111

f 101

f 1+1

a

f 110

f 100

f 1+0

a Ż

f 011

f 001

f 0+1

a Ż

f 010

f 000

f 0+0

f +11

f +01

f ++1

f +10

f +00

f ++0

        

Egy { i 1 , i 2 ,, i k } k -elemhalmaz esetén a statisztikai függetlenség feltétele a következő:

f i 1 i 2 i k = f i 1 ++ × f + i 2 + ×× f ++ i k N k1 . (6.12)

Ezt a definíciót felhasználva ki tudjuk terjeszteni az objektív mértékeket ( például az érdekességi tényezőt és a PS -t) kettőnél több változóra. Ezek a mértékek a statisztikai függetlenségtől való eltérésre épülnek.

I= N k1 × f i 1 i 2 i k f i 1 ++ × f + i 2 + ×× f ++ i k

PS= f i 1 i 2 i k N f i 1 ++ × f + i 2 + ×× f ++ i k N k

Az objektív mértékek definiálásának egy másik módja az, hogy vesszük egy mintázat elempárjai közti asszociációk maximumát, minimumát, vagy átlagát. Például egy adott X={ i 1 , i 2 ,, i k } k -elemhalmaz esetén X ϕ -együtthatóját úgy is definiálhatjuk, hogy vesszük az X -ben szereplő összes ( i p , i q ) elempárok ϕ -együtthatójának az átlagát. Mivel ekkor a mérték csak a páronkénti asszociációkra koncentrál, ezért elképzelhető, hogy egy mintázatban nem vesszük figyelembe az összes összefüggést.

A többdimenziós kontingenciatáblázatok elemzését megnehezíti az adatokban szereplő részleges kapcsolatok jelenléte. Némely társítások például megjelenhetnek vagy eltűnhetnek attól függően, hogy bizonyos változók milyen értékkel rendelkeznek. Ezt a problémát Simpson paradoxona néven is ismerjük, és a következő szakaszban mutatjuk be. Az ilyesfajta összefüggések elemzésére léteznek kifinomultabb statisztikai módszerek ( például loglineáris modellek), de ezen módszerek tárgyalása meghaladja e könyv kereteit.

Simpson paradoxona

A változók közötti asszociációk értelmezésekor óvatosan kell eljárni, ugyanis a megfigyelt összefüggéseket egyéb zavaró tényezők is befolyásolhatják ( például az elemzésben nem szereplő rejtett változók). Bizonyos esetekben a rejtett változók hatására a változópárok között megfigyelt összefüggés eltűnhet, vagy megváltozhat az iránya. Ezt a jelenséget Simpson paradoxona néven ismerjük. Ezen paradoxon természetét a következő példával szemléltetjük.

Tekintsük a nagyfelbontású televíziók (HDTV) és az edzőgépek közötti kapcsolatot (lásd a 6.19. táblázatot). A {HDTV=igen}{edzőgép=igen} szabály megbízhatósága 99/180=55% , míg a {HDTV=nem}{edzőgép=igen} szabály megbízhatósága 54/120=45% . Ezen két szabály alapján arra következtethetünk, hogy a HDTV-t vásárló vevők inkább vesznek edzőgépet, mint a HDTV-t nem vásárlók.

6.19. táblázat - Kétdimenziós kontingenciatáblázat nagyfelbontású televíziók és edzőgépek eladásáról

HDTV

edzőgép vétel

 

vétel

igen

nem

igen

99

81

180

nem

54

66

120

153

147

300


6.20. táblázat - # Példa háromdimenziós kontingenciatáblázatra

vásárlói

HDTV

edzőgép vétel

 

összeg

csoport

vétel

igen

nem

főiskolai diák

igen

1

9

10

nem

4

30

34

dolgozó felnőtt

igen

98

72

170

nem

50

36

86


Azonban egy mélyebb elemzésből kiderül, hogy ezeknek a termékeknek az eladása attól függ, hogy a vevő főiskolai diák vagy dolgozó felnőtt. A 6.20. táblázat összefoglalja a HDTV-k és edzőgépek közötti kapcsolatot a főiskolai diákok és dolgozó felnőttek körében. Vegyük észre, hogy a táblázatban szereplő főiskolai diákok és dolgozó felnőttek vásárlással kapcsolatos adatainak összege tab4:simpson_table1. táblázatban látható gyakorisági értékeknek felel meg. Ráadásul több dolgozó felnőtt veszi meg ezeket a cikkeket, mint főiskolai diák. Főiskolai diákok esetén:

c({HDTV=igen}{edzőgép=igen})=1/10=10%,

c({HDTV=nem}{edzőgép=igen})=4/34=11,8%,

míg dolgozó felnőttek esetén:

c({HDTV=igen}{edzőgép=igen})=98/170=57,7%,

c({HDTV=nem}{edzőgép=igen})=50/86=58,1%.

Mindkét csoport esetén az látható, hogy a HDTV-t nem vásárló vevők inkább vesznek edzőgépet, ami ellentmond az előző eredménynek mikor a két vásárlói csoport adatait összevonva kezeltük. Még az alternatív mértékek ( például korreláció, esélyhányados, vagy érdekesség) alkalmazása esetén is azt tapasztaljuk, hogy a HDTV-k és edzőgépek eladása pozitívan korrelál az összevont adathalmazban, de negatívan korrelál a rétegzett adatok esetén (lásd a 20. gyakorlatot a 426. oldalon). A kapcsolatok irányának ilyesfajta megfordulását Simpson paradoxonának hívjuk.

A paradoxont a következőképpen lehet megmagyarázni. Vegyük észre, hogy a HDTV-t vásárlók többsége dolgozó felnőtt. Ugyancsak a dolgozó felnőttek veszik az edzőgépeket a legnagyobb számban. Mivel a vevők közel 85%-a dolgozó felnőtt, a HDTV-k és edzőgépek között megfigyelt kapcsolat az összevont adatok esetén erősebb lesz, mint ha az adatokat rétegeztük volna. Ezt matematikailag a következőképpen szemléltethetjük. Tegyük fel, hogy

a/bc/d    és    p/qr/s,

ahol a/b és p/q az AB szabály megbízhatóságát jelöli két különböző rétegben, c/d és r/s pedig az A Ż B szabály megbízhatóságát jelöli a két rétegben. Ha az adatokat összevonjuk, akkor a szabályok megbízhatósági értékei (a+p)/(b+q) illetve (c+r)/(d+s) lesznek. Simpson paradoxona akkor áll fenn, mikor

a+p b+q c+r d+s ,

ami hibás következtetéshez vezet a változók közti összefüggést illetően. Tanulság: az adatokat megfelelő módon kell rétegezni ahhoz, hogy elkerüljük a Simpson paradoxonára visszavezethető hamis mintázatokat. Egy szupermarkethálózat bevásárlókosár adatait például az üzletek elhelyezkedése alapján kell rétegezni; a betegek kórtörténeti adatait olyan zavaró tényezők alapján kell rétegezni, mint az életkor vagy a nem, stb.