Folytonos attribútumok kezelése

Az előző szakaszban bemutatott internetes kérdőíves adatok tartalmazhatnak olyan folytonos attribútumokat is, mint amilyenek például a 7.3. táblázatban láthatóak. Az ilyen folytonos attribútumok bányászata olyan hasznos információkra deríthet fényt, mint például hogy ``a 120 000 dollár feletti éves keresettel rendelkező felhasználók a 45--60 év közötti korcsoportba tartoznak'', vagy hogy ``az olyan felhasználók, akik háromnál több e-mail címmel rendelkeznek és hetente 15-nél több órát töltenek online, gyakran aggódnak személyes adataik biztonságáért.'' A folytonos attribútumokat tartalmazó asszociációs szabályokat általában kvantitatív asszociációs szabályoknak nevezzük.

7.3. táblázat - Internetes kérdőíves adatok folytonos attribútumokkal

Nem

Kor

Éves

Hetente online

Email címek

Biztonsági

bevétel

töltött órák

száma

aggályok

26

90 000

20

4

igen

férfi

51

135 000

10

2

nem

férfi

29

80 000

10

3

igen

45

120 000

15

3

igen

31

95 000

20

5

igen

férfi

25

55 000

25

5

igen

férfi

37

100 000

10

1

nem

férfi

41

65 000

8

2

nem

26

85 000

12

1

nem


Ebben a szakaszban a folytonos adatokon alkalmazható asszociációs elemzés különböző módszertanaival foglalkozunk. Konkrétan a következő három módszertípust tárgyaljuk: (1) diszkretizálás-alapú módszerek, (2) statisztikán alapuló módszerek, és (3) nem diszkretizálási módszerek. Az ezekkel a módszerekkel előállított kvantitatív asszociációs szabályok tulajdonságai nagy mértékben különböznek egymástól.

Diszkretizálás-alapú módszerek

Folytonos attribútumok kezelésére a leggyakrabban alkalmazott megközelítés a diszkretizálás. Ez a megközelítés a folytonos attribútum egymáshoz közeli értékeit véges számú intervallumba csoportosítja. Például a Kor attribútumot feloszthatjuk a

Kor[12,16),Kor[16,20),Kor[20,24),,Kor[56,60)

intervallumokra, ahol [a,b) egy olyan intervallum, amely tartalmazza a -t, de b -t már nem. A diszkretizálást bármely, a 2.3.6. szakaszban leírt módszerrel elvégezhetjük (egyenlő intervallumhossz, egyenlő gyakoriság, entrópia-alapú vagy klaszterezés). A diszkrét intervallumokat ezután aszimmetrikus bináris attribútumokra képezzük le, hogy a meglévő asszociációs elemzési algoritmusok alkalmazhatóak legyenek rájuk. A 7.4. táblázatban az internetes kérdőíves adatokat láthatjuk diszkretizálás és binarizálás után.

7.4. táblázat - Internetes kérdőíves adatok a kategorikus és folytonos attribútumok binarizálása után

Férfi

Kor

Kor

Kor

Biztonsági

Biztonsági

13

[13,21)

[21,30)

aggályok

aggályok

= igen

= nem

0

1

0

0

1

1

0

1

0

0

0

0

0

1

1

0

0

0

1

1

0

0

1

0

0

0

1

0

0

1

0

0

0

1

0

1

0

0

0

1

1

0

1

0

0

0

0

0

1

1

0

0

0

0

0

1

0

1

0

0

1

0

1


Az attribútumok diszkretizálásának egyik legfontosabb paramétere az intervallumok száma, amelyekre az egyes attribútumokat felosztjuk. Ezt a paramétert általában a felhasználók adják meg, és általában az intervallumhosszal (az egyenlő intervallumhossz módszerénél), az egy intervallumra jutó átlagos tranzakciószámmal (az egyenlő gyakoriság módszerénél), vagy a klaszterek kívánt számával (a klaszterezés-alapú módszernél) fejezhető ki. A 7.5. táblázatban látható adatok a felmérésben résztvevő 250 felhasználó válaszait összesítik. Ezeken keresztül érzékeltethető a megfelelő intervallumszám meghatározásának nehézsége.

7.5. táblázat - Az online csevegésben résztvevő internet-felhasználók felosztása korcsoport szerint

Korcsoport

Online csevegés = igen

Online csevegés = nem

[12,16)

12

13

[16,20)

11

2

[20,24)

11

3

[24,28)

12

13

[28,32)

14

12

[32,36)

15

12

[36,40)

16

14

[40,44)

16

14

[44,48)

4

10

[48,52)

5

11

[52,56)

5

10

[56,60)

4

11


Az adatokból két erős szabály nyerhető ki:

R 1 :

Kor[16,24)Online csevegés = igen ( s=8,8% , c=81,5% )

R 2 :

Kor[44,60)Online csevegés = nem ( s=16,8% , c=70% )

Ezek a szabályok arra engednek következtetni, hogy a 16--24 év közötti korcsoportba tartozó felhasználók többsége gyakran vesz részt online csevegésben, míg a 44--60 év közötti korcsoportba tartozók kevésbé hajlamosak erre. Ebben a példában csak akkor tekintünk érdekesnek egy szabályt, ha annak s támogatottsága meghaladja az 5%-ot, c megbízhatósága pedig meghaladja a 65%-ot. A Kor attribútum diszkretizálása során felmerülő egyik probléma annak eldöntése, hogy hogyan határozzuk meg az intervallumok hosszát.

1. Ha az intervallumok túl tágak, alacsony megbízhatóságuk miatt elveszíthetünk néhány mintázatot. Például ha az intervallumhossz 24 év, az R 1 és R 2 szabályokat a következők váltják fel:

R 1' :

Kor[12,36)Online csevegés = igen ( s=30% , c=57,7% )

R 2' :

Kor[36,60)Online csevegés = nem ( s=28% , c=58,3% )

Bár támogatottságuk magasabb, a tágabb intervallumok hatására mindkét szabály megbízhatósága az alsó megbízhatósági küszöbérték alá esett, melynek eredményeképpen mindkét mintázat elvész a diszkretizálás után.

2. Ha az intervallumok túl szűkek, alacsony támogatottságuk miatt veszíthetünk el néhány mintázatot. Például ha az intervallumhossz 4 év, akkor R 1 a következő két részszabályra bomlik fel:

R 11 (4) :

Kor[16,20)Online csevegés = igen ( s=4,4% , c=84,6% )

R 12 (4) :

Kor[20,24)Online csevegés = igen ( s=4,4% , c=78,6% )

Mivel a részszabályok támogatottsága nem éri el a támogatottsági küszöbértéket, R 1 elvész a diszkretizálás során. Hasonlóan veszítjük el az R 2 szabályt is, amely négy részszabályra bomlik fel, melyek mindegyikének kisebb a támogatottsága a támogatottsági határértéknél.

3. Ha az intervallumhossz 8 év, akkor az R 2 szabály a következő két részszabályra bomlik fel:

R 21 (8) :

Kor[44,52)Online csevegés = nem ( s=8,4% , c=70% )

R 22 (8) :

Kor[52,60)Online csevegés = nem ( s=8,4% , c=70% )

Mivel az R 21 (8) és R 22 (8) szabályok elegendő támogatottsággal és megbízhatósággal rendelkeznek, R 2 visszanyerhető a két szabály összevonásával. Eközben R 1 a következő két részszabályra bomlik fel:

R 11 (8) :

Kor[12,20)Online csevegés = igen ( s=9,2% , c=60,5% )

R 12 (8) :

Kor[20,28)Online csevegés = igen ( s=9,2% , c=60,0% )

Az R 2 -vel ellentétben az R 1 szabályt nem tudjuk helyreállítani a két részszabály összevonásával, mivel egyik részszabály sem éri el a megbízhatósági küszöbértéket.

Ezeket a problémákat kezelhetjük úgy, hogy megvizsgáljuk a szomszédos intervallumok minden lehetséges csoportosítását. Megállapíthatunk kezdetben például 4 éves intervallumhosszt, majd a szomszédos intervallumok egyesítésével létrehozhatunk tágabb intervallumokat: Kor[12,16) , Kor[12,20) , , Kor[12,60) , Kor[16,20) , Kor[16,24) , stb. Ezzel a megközelítéssel kimutathatjuk, hogy R 1 és R 2 is erős szabályok, ugyanakkor ez a következő számítási problémákhoz vezet:

  1. A számítás rendkívül költségessé válik. Ha kezdetben k intervallumra osztjuk fel a tartományt, akkor k(k1)/2 bináris elem generálása szükséges ahhoz, hogy az összes lehetséges intervallumot reprezentálni tudjuk. Továbbá, ha egy, az [a,b) intervallumba tartozó elem gyakori, akkor minden olyan elemnek is gyakorinak kell lennie, amely tartalmazza [a,b) -t, így ezzel a megközelítéssel könnyen túl sok elemhalmaz jelöltet és gyakori elemhalmazt generálhatunk. Ezen problémák megoldása lehet egy felső támogatottsági küszöbérték bevezetése, hogy megelőzzük a nagyon tág intervallumokhoz tartozó elemek generálását és csökkentsük az elemhalmazok számát.

  2. Sok felesleges szabály kerül kinyerésre. Tekintsük például a következő szabálypárt:

R 3 :

{Kor[16,20),Nem=férfi}{Online csevegés = igen} ,

R 4 :

{Kor[16,24),Nem = férfi}{Online csevegés = igen} .

Az R 4 az R 3 egy általánosítása ( R 3 pedig az R 4 egy specializációja), mert R 4 -ben a Kor attribútumhoz tágabb intervallum van megadva. Ha a két szabály megbízhatósága egyenlő, akkor R 4 -nek érdekesebbnek kell lennie, mert több esetet fed le -- beleértve azokat is, amelyeket R 3 lefed. Ebből következik, hogy R 3 egy felesleges szabály.

Statisztikán alapuló módszerek

Kvantitatív asszociációs szabályok segítségével kikövetkeztethetjük egy populáció statisztikai tulajdonságait. Tegyük fel például, hogy ki szeretnénk deríteni internet-felhasználók bizonyos csoportjainak átlagéletkorát a 7.1. és 7.3. táblázatokban megadott adatok alapján. Az ebben a szakaszban leírt statisztikán alapuló módszerrel az alábbihoz hasonló kvantitatív asszociációs szabályokat nyerhetünk:

{Éves bevétel100E,  Online vásárlás = igen}Kor:  Átlag=38.

A szabály azt állapítja meg, hogy átlagosan 38 évesek az olyan internet-felhasználók, akik éves bevétele meghaladja a 100 ezer dollárt és rendszeresen vásárolnak online.

Szabálygenerálás

Statisztikán alapuló asszociációs szabályok generálásához meg kell határoznunk azt a célattribútumot, amellyel leírjuk a populáció érdekes szegmenseit. A célattribútumot kihagyva az adatállomány többi kategorikus és folytonos attribútumát az előző szakaszban tárgyalt módszerekkel binarizáljuk. Ezután olyan meglévő algoritmusokkal nyerjük ki a gyakori elemhalmazokat a binarizált adatokból, mint például az Apriori vagy az FP-bővítés. Minden gyakori elemcsoport a populáció egy számunkra érdekes szegmensét azonosítja. A célattribútum eloszlását minden szegmensben olyan leíró statisztikákkal összegezhetjük, mint például az átlag, a medián, a szórásnégyzet és az abszolút eltérés. Az előbbi szabályt úgy nyertük például, hogy átlagoltuk azon internet-felhasználók életkorát, akik támogatják az {Éves bevétel100E,Online vásárlás = igen} gyakori elemhalmazt.

Ha ezt a módszert alkalmazzuk, a feltárt kvantitatív asszociációs szabályok száma egyenlő lesz a kinyert gyakori elemhalmazok számával. A kvantitatív asszociációs szabályokra definiálásuk módja miatt nem alkalmazható a megbízhatóság fogalma. Ezért a következőkben egy alternatív módszert mutatunk be kvantitatív asszociációs szabályok ellenőrzésére.

Szabályok ellenőrzése

Egy kvantitatív asszociációs szabály csak akkor érdekes számunkra, ha az általa lefedett tranzakciókból származó statisztikák eltérnek azoktól, amelyeket azokból a tranzakciókból számítunk, amelyeket nem fed le. A szakasz elején megadott szabály például csak akkor érdekes, ha 38 évnél szignifikánsan magasabb vagy alacsonyabb azon internet-felhasználók átlagéletkora, akik nem támogatják az {Éves bevétel100E,Online vásárlás = igen} gyakori elemcsoportot. Annak eldöntésére, hogy az átlagéletkorok különbsége statisztikailag szignifikáns-e, a statisztikai hipotézisvizsgálat módszereit fogjuk alkalmazni.

Tekintsük az At:μ kvantitatív asszociációs szabályt, ahol A egy gyakori elemhalmaz, t a folytonos célattribútum, μ pedig t átlagértéke az A által lefedett tranzakciókra nézve. Jelölje továbbá μ' a t átlagértékét az A által nem lefedett tranzakciókra nézve. A cél annak eldöntése, hogy μ és μ' különbsége nagyobb-e, mint egy, a felhasználó által meghatározott Δ küszöbérték. A statisztikai hipotézisvizsgálatok során két ellentétes állítást adunk meg, melyeket nullhipotézisnek és alternatív hipotézisnek nevezünk. A hipotézisvizsgálatot pedig annak eldöntésére hajtjuk végre, hogy a két hipotézis közül melyiket fogadjuk el az adatokból gyűjtött bizonyítékokra támaszkodva (lásd a C. függeléket).

Ebben az esetben azt feltételezzük, hogy μμ' , így a nullhipotézis H 0 :μ'=μ+Δ , míg az alternatív hipotézis H 1 :μ'μ+Δ . A következő Z -statisztika kiszámításával döntjük el, hogy melyik hipotézist fogadjuk el:

Z= μ'μΔ s 1 2 n 1 + s 2 2 n 2 , (7.1)

ahol n 1 az A -t támogató tranzakciók száma, n 2 az A -t nem támogató tranzakciók száma, s 1 az A -t támogató tranzakciók t értékének szórása, s 2 pedig az A -t nem támogató tranzakciók t értékének szórása. A nullhipotézis fennállása mellett Z eloszlása standard normális, melynek várható értéke 0, szórásnégyzete 1. Z értékét a (7.1) egyenlet alapján számítjuk ki, majd összehasonlítjuk egy kritikus értékkel, Z α -val, amely egy, a kívánt megbízhatósági szinttől függő küszöbérték. Ha Z Z α , akkor a nullhipotézist elutasítjuk és arra a következtetésre juthatunk, hogy az adott kvantitatív asszociációs szabály érdekes. Ha nem így van, az azt jelenti, hogy nem tudunk elegendő bizonyítékot nyerni az adatokból annak alátámasztására, hogy az átlagok különbsége statisztikailag szignifikáns.

7.1. Példa.

Tekintsük a

{Bevétel100E,Online vásárlás = igen}Kor:  μ=38

kvantitatív asszociációs szabályt. Tegyük fel, hogy az előző szabály előfeltételét 50 internet-felhasználó támogatja, akik életkorának szórása 3,5. Másrészt viszont 30 az átlagéletkora annak a 200 felhasználónak, akik a szabály előfeltételét nem támogatják, életkoruk szórása pedig 6,5. Tegyük fel, hogy egy kvantitatív asszociációs szabály csak akkor érdekes számunkra, ha a μ és μ' közötti különbség 5 évnél több. A (7.1) egyenlet felhasználásával a következőt kapjuk:

Z= 38305 3,5 2 50 + 6,5 2 200 =4,4414.

Ha egy egyoldali hipotézist vizsgálunk 95%-os konfidenciaszinten, a kritikus érték a nullhipotézis elvetéséhez 1,64. Mivel Z1,64 , a nullhipotézist elvethetjük. Így arra a következtetésre jutunk, hogy a kvantitatív asszociációs szabály érdekes, mivel az előző szabály előfeltételét támogató, illetve nem támogató felhasználók átlagéletkora közötti különbség 5 évnél több.

Nem diszkretizálási módszerek

Bizonyos alkalmazásoknál az elemzők sokkal inkább az iránt érdeklődnek, hogy a folytonos attribútumok között találjanak összefüggéseket, mint hogy a folytonos attribútumok diszkrét intervallumai között. Tekintsük például a szavak közti összefüggések feltárásának problémáját, mint ahogy az a 7.6. táblázatban is látható. A dokumentum-szó mátrix minden egyes eleme egy, az adott dokumentumban megjelenő szó normalizált gyakorisági száma. Az adatok normalizálását úgy végezzük el, hogy minden egyes szó gyakoriságát elosztjuk a szónak a teljes dokumentumhalmazon vett gyakoriságával. Ennek egyik oka az, hogy így biztosan 0 és 1 közé esik az eredményül kapott támogatottsági érték. Ennél azonban fontosabb azt biztosítani, hogy az adatok ugyanazon a skálán mozogjanak, így a hasonló eloszlású szavaknak hasonlóak lesznek a támogatottsági értékei.

7.6. táblázat - Normalizált dokumentum-szó mátrix

Dokumentum

sz ó 1

sz ó 2

sz ó 3

sz ó 4

sz ó 5

sz ó 6

d 1

0.3

0.6

0

0

0

0.2

d 2

0.1

0.2

0

0

0

0.2

d 3

0.4

0.2

0.7

0

0

0.2

d 4

0.2

0

0.3

0

0

0.1

d 5

0

0

0

1.0

1.0

0.3


A szövegbányászatban az elemzőket sokkal jobban érdekli a szavak közti összefüggések (például adat és bányászat) feltárása, mint a szavak gyakoriságainak tartományai közöttieké (például adat[1,4] és bányászat[2,3] ). Ezt úgy is megtehetjük, hogy az adatokat egy 0/1 mátrixszá alakítjuk, melyben egy adott elem értéke 1, ha a normalizált gyakorisági szám meghalad egy t küszöbértéket, egyébként pedig 0. Ezzel a megközelítéssel az elemzők alkalmazni tudják a már meglévő, gyakori elemhalmazokat generáló algoritmusokat a binarizált adatállományra, ugyanakkor igen bonyolult lehet a megfelelő küszöbérték meghatározása a binarizáláshoz. Ha a küszöbértéket túl magasra állítjuk, akkor előfordulhat, hogy érdekes összefüggéseket hagyunk ki. Ellenben ha túl alacsonyra állítjuk, akkor előfordulhat, hogy nagy számú hamis összefüggést generálunk.

Ebben a szakaszban egy másik módszertant is bemutatunk a szavak közötti összefüggések feltárására, a min-Apriori-t. A hagyományos asszociációs elemzéshez hasonlóan elemhalmaznak szavak egy csoportját tekintjük, melynek támogatottsága méri a szavak közötti összefüggés mértékét. Egy elemhalmaz támogatottságát a beletartozó szavak normalizált gyakorisága alapján számíthatjuk ki. Tekintsük például a 7.6. táblázatban látható d 1 dokumentumot, melyben a sz ó 1 és sz ó 2 gyakoriságai 0,3 illetve 0,6. Azt gondolhatnánk, hogy a két szó közötti asszociáció kiszámításának az lehet az ésszerű módja, hogy a normalizált gyakoriságaik átlagát vesszük: (0,3+0,6)/2=0,45 . Ekkor egy elemhalmaz támogatottságát úgy számíthatjuk ki, hogy az átlagolt normalizált gyakoriságokat az összes dokumentumra összesítjük:

s({sz ó 1 ,sz ó 2 })= 0,3+0,6 2 + 0,1+0,2 2 + 0,4+0,2 2 + 0,2+0 2 =1.

Ez az eredmény semmi esetre sem véletlen. Mivel minden szó gyakoriságát 1-re normalizáltuk, a normalizált gyakoriságok átlagolásával minden elemhalmaz támogatottsága 1 lesz. Így ezt a megközelítést használva minden elemhalmaz gyakori lesz, tehát alkalmatlan az érdekes mintázatok azonosítására.

A min-Apriori módszerben a szavak közötti asszociációt egy dokumentumban úgy kapjuk meg, hogy a normalizált gyakoriságaik minimumát vesszük, azaz min(sz ó 1 ,sz ó 2 )=min(0,3;0,6)=0,3 . Egy elemhalmaz támogatottságát úgy számítjuk ki, hogy az összes dokumentumra összegezzük az asszociációt:

s({sz ó 1 ,sz ó 2 })=min(0,3;0,6)+min(0,1;0,2)+min(0,4;0,2)+min(0,2;0)

=0,6.

A min-Apriori-ban meghatározott támogatottsági mérték a következő elvárt tulajdonságokkal rendelkezik, melyek alkalmassá teszik arra, hogy segítségével szavak közötti kapcsolatokat tárjunk fel dokumentumokban:

  1. A támogatottság monoton nő a szavak normalizált gyakoriságának növekedésével.

  2. A támogatottság monoton nő az adott szót tartalmazó dokumentumok számának növekedésével.

  3. A támogatottság rendelkezik egy anti-monoton tulajdonsággal. Vegyük például az {A,B} és {A,B,C} elemhalmaz-párt. Mivel min({A,B})min({A,B,C}) , s({A,B})s({A,B,C}) , így a támogatottság monoton csökken egy elemhalmaz szavai számának növekedésével.

A standard Apriori algoritmus módosítható úgy, hogy az új támogatottsági definíció szerint tárja fel a kapcsolatokat a szavak között.