Asszociációs szabályok kinyerése nem tranzakciós adathalmazból

Leírás

A folyamat azt mutatja meg a Titanic adatállomány esetén, hogy hogyan tudunk asszociációs szabályokat kinyerni egy nem tranzakciós adathalmazból. Ahhoz, hogy egy ilyen adathalmazból asszociációs szabályokat tudjunk kinyerni, először tranzakciós adathalmazzá kell alakítanunk. Ilyen esetekben az eredeti adathalmaz felépítésétől függ, hogy csak a jelenlévő elemeken van a hangsúly, vagy pedig a változók 0 értékét is értelmeznünk kell. Az ilyen adatállományokat át kell alakítanunk tömörítetlen ritka mátrix reprezentációba, melyben minden rekord az összes lehetséges elemhez tartalmaz egy bináris értéket, ezután az asszociációs szabályok kinyerése már komolyabb transzformáció nélkül végrehajtható. Kinyerhetjük az adathalmazban előforduló gyakori elemhalmazokat, majd ezekből megkaphatjuk az érvényes asszociációs szabályokat.

Bemenet

Titanic [Titanic]

Kimenet

Az adatállomány segítségével azt vizsgálhatjuk, hogy a Titanic utasainak kora és neme, illetve az, hogy milyen osztályon utaztak, hatással volt-e a túlélésükre. Mivel az osztály (Class) változó nem bináris típusú, ezt először kétértékűvé kell konvertálnunk, mielőtt ki tudnánk nyerni a gyakori elemhalmazokat:

10.4. ábra - Operátor beállításai a szükséges adatkonverzióhoz

Operátor beállításai a szükséges adatkonverzióhoz

10.5. ábra - Az adathalmaz konvertált verziója

Az adathalmaz konvertált verziója

Ez alapján már létrehozhatunk gyakori elemhalmazokat, melyekből generálhatjuk az adathalmazra érvényes asszociációs szabályokat:

10.6. ábra - A generált gyakori elemhalmazok listája

A generált gyakori elemhalmazok listája

10.7. ábra - A generált asszociációs szabályok listája

A generált asszociációs szabályok listája

Az eredmények értékelése

A létrejött gyakori elemhalmazok és asszociációs szabályok alapján kitűnik, hogy az adathalmaz kezelése nem megfelelő. Ha tekintjük az adathalmaz dokumentációját, láthatjuk, hogy minden változónál, a bináris változóknál is különálló jelentéssel bír a 0 érték (pl. ez reprezentálja a kor változónál a gyerekeket, vagy az osztály változónál a személyzetet). Ennek megfelelően ahhoz, hogy megfelelő tranzakciós rekordokat kapjunk, ezeket a változókat is szét kell bontanunk két különálló változóra, melyek a két lehetséges érték meglétét vagy hiányát reprezentálják. Ekkor a következő adathalmazt kapjuk eredményül:

10.8. ábra - Operátor beállításai a megfelelő adatkonverzióhoz

Operátor beállításai a megfelelő adatkonverzióhoz

10.9. ábra - Az adathalmaz megfelelő konvertált verziója

Az adathalmaz megfelelő konvertált verziója

Ezek alapján kinyerhetőek a gyakori elemhalmazok, majd ebből az asszociációs szabályok. Ezen létrejött szabályok alapján már mélyebb következtetések vonhatók le az adatok közötti összefüggéseket illetően, és kiszűrhetjük azokat a tényezőket, melyek befolyásolják az utasok túlélési esélyeit. Ennek segítésére elérhető többek között a létrejött szabályok táblázatos ábrázolása, melyben különböző szűrések segítségével válogathatjuk ki a számunkra érdekes szabályokat, például a kimenetel, vagy a megbízhatóság szerint:

10.10. ábra - A generált gyakori elemhalmazok javított listája

A generált gyakori elemhalmazok javított listája

10.11. ábra - A generált asszociációs szabályok javított listája

A generált asszociációs szabályok javított listája

A táblázatos ábrázolás mellett grafikus reprezentációt is használhatunk, az előzőéhez hasonló lehetséges szűrőfeltételekkel:

10.12. ábra - A generált asszociációs szabályok grafikus reprezentációja

A generált asszociációs szabályok grafikus reprezentációja

Videó

Folyamat

assoc_exp2.rmp

Kulcsszavak

gyakori elemhalmazok
asszociációs szabályok
nem tranzakciós adatok
bináris attribútumok
adattranszformáció

Operátorok

Create Association Rules
FP-Growth
Multiply
Nominal to Binominal
Read AML