Asszociációs szabályok hatékonysága – a Simpson paradoxon

Leírás

A folyamat azt mutatja meg a Titanic adatállomány esetén, hogy amennyiben asszociációs szabályokat nyerünk ki egy adathalmazra vonatkozóan, hogyan tudjuk növelni azok használhatóságát, hatékonyságát, azáltal, hogy az adathalmaz összefüggéseire alapozva részhalmazokat képezünk belőle, és ezen részhalmazokra külön-külön hozunk létre asszociációs szabályokat. Az asszociációs szabályok kinyerése után ellenőrizhetjük azok támogatottságát, illetve az osztályozási feladatokhoz hasonlóan vizsgálhatjuk, hogy az adatállomány eredeti értékeit milyen mértékben tudjuk előrejelezni a létrejött szabályok alapján. Amennyiben ezek az értékek elmaradnak a várttól, ennek egyik oka lehet az ún. Simpson paradoxon, mely azt jelenti, hogy egyes rejtett tényezők hatására a változók közötti kapcsolatok gyengülhetnek, eltűnhetnek, vagy akár az irányuk is megfordulhat. Ha feltárunk ilyen tényezőket, ezek mentén felbontva az adathalmazt javíthatjuk az asszociációs szabályaink hatékonyságát.

Bemenet

Titanic [Titanic]

Kimenet

Az adatállomány segítségével azt vizsgálhatjuk, hogy a Titanic utasainak kora és neme, illetve az, hogy milyen osztályon utaztak, hatással volt-e a túlélésükre. A változók megfelelő konverziója után feloszthatjuk az adathalmazt egy tanuló- és egy teszthalmazra, majd a teszthalmazon alkalmazva a tanuló halmaz alapján kinyert asszociációs szabályokat, meghatározhatjuk, hogy az eredményül kapott asszociációs szabályok mennyire használhatóak. Azonban ha az egész adathalmazra tesszük ezt, viszonylag gyenge eredményeket kapunk, mind támogatottság, mind pedig ebből fakadóan hatékonyság terén:

10.20. ábra - A túléléssel kapcsolatos generált asszociációs szabályok listája

A túléléssel kapcsolatos generált asszociációs szabályok listája

10.21. ábra - A generált asszociációs szabályok alkalmazásának teljesítményvektora

A generált asszociációs szabályok alkalmazásának teljesítményvektora

Viszont ha tekintjük az adathalmaz kontingenciatáblázatát, például az utasok kora, és azon belül az osztály szerinti bontásban, akkor arra a következtetésre juthatunk, hogy egyes változók olyan mértékben befolyásolják a számunkra érdekes változó, a túlélés értékét, hogy az egyes csoportokon belül ható erők a teljes adatállományban kiolthatják egymást, így előnyösebb lehet ezen változók szerint szétbontva az adatállományt, az egyes részhalmazokban külön feltárni az asszociációs szabályokat:

10.22. ábra - Az adathalmaz kontingencia táblázata

Az adathalmaz kontingencia táblázata

Ehhez, ha például az utasok kora szerint kívánjuk szétbontani az adatállományt, először ki kell szűrnünk a megfelelő rekordokat, majd a már szűrési feltételként használt változókat el is távolíthatjuk, mert a részhalmazokban már redundánsnak számító információkat hordoznak:

10.23. ábra - Rekordszűrés alkalmazása

Rekordszűrés alkalmazása

10.24. ábra - A rekordok szűrése után redundánssá váló attribútumok eltávolítása

A rekordok szűrése után redundánssá váló attribútumok eltávolítása

Az eredmények értékelése

Ezután a felnőttek és gyermekek különálló adathalmazaira is létrehozzuk a tanuló- és teszthalmazokat, majd kinyerjük a vonatkozó asszociációs szabályokat, és kiértékeljük a hatékonyságukat. A felnőttek részhalmaza esetében a következő eredmények adódnak:

10.25. ábra - A túléléssel kapcsolatos generált asszociációs szabályok listája a felnőttek részhalmaza esetén

A túléléssel kapcsolatos generált asszociációs szabályok listája a felnőttek részhalmaza esetén

10.26. ábra - A generált asszociációs szabályok alkalmazásának teljesítményvektora a felnőttek részhalmaza esetén

A generált asszociációs szabályok alkalmazásának teljesítményvektora a felnőttek részhalmaza esetén

A gyermekek részhalmaza esetében pedig a következő eredmények adódnak:

10.27. ábra - A túléléssel kapcsolatos generált asszociációs szabályok listája a gyermekek részhalmaza esetén

A túléléssel kapcsolatos generált asszociációs szabályok listája a gyermekek részhalmaza esetén

10.28. ábra - A generált asszociációs szabályok alkalmazásának teljesítményvektora a gyermekek részhalmaza esetén

A generált asszociációs szabályok alkalmazásának teljesítményvektora a gyermekek részhalmaza esetén

Láthatjuk, hogy nagyban javítható a hatékonyság a halmazok ilyen szétbontásával, mert ezzel kiiktatható a csoportok hatásainak interferenciája. A gyermekek halmaza esetében jóval kisebb teljesítményjavulás tapasztalható, azonban ez magyarázható a részhalmaz jóval kisebb elemszámával.

Videó

Folyamat

assoc_exp4.rmp

Kulcsszavak

gyakori elemhalmazok
asszociációs szabályok
teljesítmény
támogatottság
Simpson paradoxon

Operátorok

Apply Association Rules
Create Association Rules
Discretize by User Specification
Filter Examples
FP-Growth
Multiply
Nominal to Binominal
Performance
Read AML
Select Attributes
Set Role
Split Data