Feladatok

1. Tekintsük a 7.10. táblázatban látható, közlekedési balesetekre vonatkozó adatokat.

7.10. táblázat - Közlekedési balesetek adatai

Időjárási viszonyok

Vezető állapota

Közlekedési kihágás

Biztonsági öv

Ütközés súlyossága

ittas

Sebességkorlát túllépése

nem

súlyos

rossz

józan

Nem volt

igen

könnyű

józan

Megállás elmulasztása

igen

könnyű

józan

Sebességkorlát túllépése

igen

súlyos

rossz

józan

Közlekedési tábla figyelmen kívül hagyása

nem

súlyos

ittas

Megállás elmulasztása

igen

könnyű

rossz

ittas

Nem volt

igen

súlyos

józan

Közlekedési tábla figyelmen kívül hagyása

igen

súlyos

ittas

Nem volt

nem

súlyos

rossz

józan

Közlekedési tábla figyelmen kívül hagyása

nem

súlyos

ittas

Sebességkorlát túllépése

igen

súlyos

rossz

józan

Megállás elmulasztása

igen

könnyű


  1. Adja meg az adatállomány egy binarizált változatát.

  2. Mi a tranzakciók maximális szélessége a binarizált adatállományban?

  3. Tegyük fel, hogy a támogatottsági küszöb 30%. Ekkor hány elemhalmaz jelölt és gyakori elemhalmaz kerül generálásra?

  4. Hozzon létre egy olyan adatállományt, amely csak a következő aszimmetrikus bináris attribútumokat tartalmazza: Időjárás = rossz , Vezető állapota = ittas , Közlekedési kihágás = igen , Biztonsági öv = nem , Ütközés súlyossága = súlyos . A Közlekedési kihágás csak Nem volt esetben 0 értékű, minden más attribútumérték esetén 1 értéket rendelünk hozzá. Tegyük fel, hogy a támogatottsági küszöb 30%, ekkor hány elemhalmaz jelölt és gyakori elemhalmaz kerül generálásra?

  5. Hasonlítsa össze a (c) és (d) részekben generált elemhalmaz jelöltek és gyakori elemhalmazok számát.

2.

  1. Tekintsük a 7.11. táblázatban látható adatállományt. Tegyük fel, hogy a következő diszkretizálási stratégiákat alkalmazzuk az adatállomány folytonos attribútumaira.

D1:

Minden folytonos attribútum terjedelmét három egyforma méretű részre osztjuk fel.

D2:

Minden folytonos attribútum terjedelmét három olyan részre osztjuk fel, amelyek egyforma számú tranzakciót tartalmaznak.

Mindkét stratégiára nézve válaszolja meg a következő kérdéseket:

  1. Készítse el az adatállomány egy binarizált változatát.

  2. Állítsa elő az összes gyakori elemhalmazt, amelyek támogatottsága 30%.

7.11. táblázat - Adatállomány a 2. feladathoz

TID

Hőmérséklet

Nyomás

Riasztó 1

Riasztó 2

Riasztó 3

1

95

1105

0

0

1

2

85

1040

1

1

0

3

103

1090

1

1

1

4

97

1084

1

0

0

5

80

1038

0

1

1

6

100

1080

1

1

0

7

83

1025

1

0

1

8

86

1030

1

0

0

9

101

1100

1

1

1


  1. A folytonos attribútum klaszterezés-alapú megközelítéssel is diszkretizálható.

    1. Rajzoljon fel egy hőmérséklet-nyomás grafikont a 7.11. táblázatban látható adatpontokhoz.

    2. Hány természetes klaszter figyelhető meg a grafikonon? Minden klasztert lásson el ( C 1 , C 2 , stb.) címkével a grafikonon.

    3. Ön szerint milyen klaszterezési algoritmus lenne alkalmazható a klaszterek azonosítására? Világosan indokolja válaszát.

    4. A 7.11. táblázat hőmérséklet és nyomás adatait cserélje le a C 1 , C 2 , stb. aszimmetrikus bináris attribútumokra. Írjon fel egy tranzakciós mátrixot az új attribútumok felhasználásával (a Riasztó 1, Riasztó 2, Riasztó 3 attribútumokkal együtt).

    5. Állítsa elő a binarizált adatállományból az összes olyan gyakori elemhalmazt, melyek támogatottsága 30%.

3. Tekintsük a 7.12. táblázatban látható adatállományt. Az első attribútum folytonos, míg a másik két attribútum szimmetrikus bináris. Akkor tekintünk erősnek egy szabályt, ha támogatottsága meghaladja a 15% -ot, megbízhatósága pedig a 60% -ot. A 7.12. táblázatban megadott adatok a következő két erős szabályt támogatják:

  1. {(1A2),B=1}{C=1}

  2. {(5A8),B=1}{C=1}

7.12. táblázat - Adatállomány a 3. feladathoz

A

B

C

1

1

1

2

1

1

3

1

0

4

1

0

5

1

1

6

0

1

7

0

0

8

1

1

9

0

0

10

0

0

11

0

0

12

0

1


  1. Számítsa ki mindkét szabály támogatottságát és megbízhatóságát.

  2. Ahhoz, hogy a szabályokat a hagyományos Apriori algoritmussal megtaláljuk, diszkretizálni kell az A folytonos attribútumot. Tegyük fel, hogy egyenlő hosszúságú kosarakat (bins) alkalmazunk az adatok diszkretizálásához, ahol kosárhossz=2,3,4 . Minden kosárhossz -ra adja meg, hogy a fenti két szabályt feltárja-e az Apriori algoritmus. (Megjegyezzük, hogy a szabályok nem feltétlenül lesznek a korábbival teljesen megegyező formájúak, mivel tartalmazhatják A tágabb vagy szűkebb intervallumait). Minden, a fenti két szabály valamelyikének megfelelő szabályra számítsa ki annak támogatottságát és megbízhatóságát.

  3. Értékelje, hogy mennyire hatékony az egyenlő hossz megközelítés alkalmazása a fenti adatállományra. Van-e olyan kosárhossz , amely mellett mindkét szabály megfelelően feltárható? Ha nem, milyen más megközelítéssel biztosíthatja mindkét szabály feltárását?

4. Tekintsük a 7.13. táblázatban látható adatállományt.

7.13. táblázat - Adatállomány a 4. feladathoz

Életkor ( A )

Hetente online töltött órák száma ( B )

    

0--5

5--10

10--20

20--30

30--40

10--15

2

3

5

3

2

15--25

2

5

10

10

3

25--35

10

15

5

3

2

35--50

4

6

5

3

2


  1. Határozza meg minden alább megadott szabálykombinációra, hogy melyik szabály megbízhatósága a legnagyobb.

  1. A. 15A2510B20 , 10A2510B20 és 15A3510B20

  2. B. 15A2510B20 , 15A255B20 és 15A255B30

  3. C. 15A2510B20 és 10A355B30

  1. Tegyük fel, hogy azt szeretnénk megtudni, hogy a 15 és 35 év közötti korú internet-felhasználók hetente átlagosan hány órát töltenek online. Adja meg a felhasználói szegmenst leíró megfelelő statisztika-alapú asszociációs szabályt. Az átlagosan online töltött órák kiszámításához közelítsen minden intervallumot a középpontjának értékével (ábrázolja például B=7,5 -tel a 5B10 intervallumot).

  2. Ellenőrizze, hogy a (b) részben megadott kvantitatív asszociációs szabály statisztikailag szignifikáns-e úgy, hogy összehasonlítja az átlagát a más korcsoportokba tartozó felhasználók által online töltött órák átlagos számával.

5. Fejtse ki, hogy az alább megadott attribútumokkal rendelkező adatállományt hogyan konvertálná olyan bináris tranzakciós adatállománnyá, amely alkalmas asszociációs elemzésre. Konkrétan írja le az eredeti adatállomány összes attribútumára, hogy

  1. hány bináris attribútum tartozna hozzá a tranzakciós adatállományban,

  2. hogyan képezné le az eredeti attribútum értékeit a bináris attribútum értékeire, és

  3. van-e valamilyen hierarchikus struktúra egy attribútum adatértékei között, amely segítheti az adatok kevesebb számú bináris attribútumba csoportosítását.

A következőkben egy attribútumlistát adunk meg az adatállományhoz, a lehetséges értékeikkel együtt. Tegyük fel, hogy minden attribútum értékeit hallgatónként gyűjtjük be.

6. Tekintsük a 7.14. táblázatban megadott adatállományt. Tegyük fel, hogy a következő asszociációs szabályt akarjuk kinyerni:

{ α 1 Kor α 2 ,Zongorázik=igen}{Kedveliakomolyzenét=igen}.

7.14. táblázat - Adatállomány a 6. feladathoz

Életkor

Zongorázik

Kedveli a komolyzenét

9

igen

igen

11

igen

igen

14

igen

nem

17

igen

nem

19

igen

igen

21

nem

nem

25

nem

nem

29

igen

igen

33

nem

nem

39

nem

igen

41

nem

nem

47

nem

igen


A folytonos attribútum kezelésére az egyenlő gyakoriság megközelítést alkalmazzuk 3, 4, illetve 6 intervallummal. A kategorikus attribútumokat úgy kezeljük, hogy annyi új aszimmetrikus bináris attribútumot vezetünk be, ahány kategorikus érték tartozik hozzájuk. Tegyük fel, hogy a támogatottsági küszöb 10% , a megbízhatósági küszöb pedig 70% .

  1. Tegyük fel, hogy a Kor attribútumot 3 egyenlő gyakoriságú intervallumra osztva diszkretizáljuk. Adjon meg egy olyan α 1 és α 2 értéket, amelyek kielégítik a minimális támogatottsági és minimális megbízhatósági követelményeket.

  2. Ismételje meg az (a) részt úgy, hogy a Kor attribútumot 4 egyenlő gyakoriságú intervallumra osztva diszkretizálja. Hasonlítsa össze az így kinyert szabályokat azokkal, amelyeket az (a) részben kapott.

  3. Ismételje meg az (a) részt úgy, hogy a Kor attribútumot 6 egyenlő gyakoriságú intervallumra osztva diszkretizálja. Hasonlítsa össze az így kinyert szabályokat azokkal, amelyeket az (a) részben kapott.

  4. Fejtse ki az (a), (b) és (c) részekben kapott eredmények alapján, hogy a diszkretizálásnál használt intervallumok száma milyen hatással van az asszociációs szabály bányászati algoritmusokkal kinyert szabályokra.

7. Tekintsük a 7.15. táblázatban látható tranzakciókat, melyekre a 7.25. ábrán megadott termék taxonómia vonatkozik.

7.15. táblázat - Példa vásárlói kosár tranzakciókra

Tranzakció azon.

Vásárolt termékek

1

chips, keksz, normál üdítő, sonka

2

chips, sonka, filézett csirke, cukormentes üdítő

3

sonka, szalonna, egész csirke, normál üdítő

4

chips, sonka, filézett csirke, cukormentes üdítő

5

chips, szalonna, filézett csirke

6

chips, sonka, szalonna, egész csirke, normál üdítő

7

chips, keksz, filézett csirke, cukormentes üdítő


  1. Milyen főbb kihívások merülnek fel, ha termék taxonómia felhasználásával bányászunk asszociációs szabályokat?

  2. Tekintsük azt a megközelítést, amelyben a t tranzakciót egy olyan kiegészített t' tranzakcióval helyettesítjük, amely t minden elemét és azok felmenőit is tartalmazza. A t={chips, keksz} tranzakciót például a t'={chips, keksz, rágcsálnivaló, élelmiszer} fogja felváltani. Nyerje ki ezzel a megközelítéssel az összes olyan (legfeljebb 4-elemű) gyakori elemhalmazt, melynek támogatottsága 70% .

  3. Tekintsünk most egy eltérő megközelítést, amelyben szintenként generáljuk a gyakori elemhalmazokat. Először az összes olyan gyakori elemhalmazt generáljuk, amelyek a hierarchia legfelső szintjéhez tartozó elemeket tartalmaznak. Ezután a hierarchia magasabb szintjein feltárt gyakori elemhalmazok segítségével generáljuk a hierarchia alacsonyabb szintjeihez tartozó elemeket tartalmazó elemhalmaz jelölteket. Például a {chips, cukormentes üdítő} elemhalmaz jelöltet csak akkor generáljuk, ha a {rágcsálnivaló, üdítő} gyakori. Nyerje ki ezzel a megközelítéssel az összes olyan (legfeljebb 4-elemű) gyakori elemhalmazt, melynek támogatottsága 70% .

  4. Hasonlítsa össze a (b) és (c) részekben feltárt gyakori elemhalmazokat. Írja le az algoritmusok hatékonyságával és teljességével kapcsolatos észrevételeit.

8. A következő kérdések azt vizsgálják, hogy hogyan változhat egy asszociációs szabály támogatottsága és megbízhatósága egy fogalomhierarchia jelenlétében.

  1. Tekintsünk egy x elemet egy adott fogalomhierarchiában. Jelölje x Ż 1 , x Ż 2 , , x Ż k az x k számú gyermekét a fogalomhierarchiában. Mutassa meg, hogy s(x) i=1 k s( x Ż i ) , ahol s() egy elem támogatottsága. Milyen feltételek mellett fog egyenlőség teljesülni?

  2. Legyenek p és q elemek, p ̂ és q ̂ pedig a szülőik a fogalomhierarchiában. Ha s({p,q})minsup , a következő elemhalmazok közül melyek lesznek garantáltan gyakoriak? (i) s({ p ̂ ,q}) , (ii) s({p, q ̂ }) és (iii) s({ p ̂ , q ̂ }) .

  3. Tekintsük a {p}{q} asszociációs szabályt. Tegyük fel, hogy a szabály megbízhatósága meghaladja minconf értékét. A következő szabályok közül melyeknek lesz garantáltan nagyobb a megbízhatósága, mint minconf ? (i) {p}{ q ̂ } , (ii) { p ̂ }{q} és (iii) { p ̂ }{ q ̂ } .

9.

  1. Sorolja fel a következő adatsorozatban található összes 4-részsorozatot:

    {1,3} {2} {2,3} {4}

feltéve, hogy nincsenek időbeli megszorítások.

  1. Sorolja fel az (a) részben látható adatsorozatban található összes 3-részsorozatot feltéve, hogy időbeli megszorítások nem vonatkoznak rá.

  2. Sorolja fel az (a) részben látható adatsorozatban található összes 4-részsorozatot feltéve, hogy az időbeli megszorítások rugalmasak .

  1. Sorolja fel az (a) részben látható adatsorozatban található összes 3-részsorozatot feltéve, hogy az időbeli megszorítások rugalmasak .

10. Keresse meg a 7.16. táblázatban megadott sorozat adatbázisban az összes olyan gyakori részsorozatot, melynek támogatottsága 50% . Tegyük fel, hogy a sorozatokra nem vonatkoznak időbeli megszorítások.

7.16. táblázat - Példa különböző érzékelők által generált eseménysorozatokra

Érzékelő

Időbélyeg

Események

S1

1

A, B

2

C

3

D, E

4

C

S2

1

A, B

2

C, D

3

E

S3

1

B

2

A

3

B

4

D, E

S4

1

C

2

D, E

3

C

4

E

S5

1

B

2

A

3

B, C

4

A, D


11.

  1. Az alább megadott w= e 1 e 2 e i e i+1 e utolsó sorozatok mindegyikére határozza meg, hogy az

    {1,2,3}{2,4}{2,4,5}{3,5}{6}

    sorozat részsorozatai-e a következő időbeli megszorítások mellett:

mingap=0

( e i utolsó eseménye és e i+1 első eseménye közötti intervallum 0)

maxgap=3

( e i első eseménye és e i+1 utolsó eseménye közötti intervallum 3)

maxspan=5

( e 1 első eseménye és e utolsó utolsó eseménye közötti intervallum 5)

ws = 1

( e i első és utolsó eseménye közötti idő 1)

12. Az alábbi w= e 1 ,, e utolsó sorozatok mindegyikére határozza meg, hogy részsorozata-e az

{A,B}{C,D}{A,B}{C,D}{A,B}{C,D}

adatsorozatnak a következő időbeli megszorítások mellett:

mingap=0

( e i utolsó eseménye és e i+1 első eseménye közötti intervallum 0)

maxgap=2

( e i első eseménye és e i+1 utolsó eseménye közötti intervallum 2)

maxspan=6

( e 1 első eseménye és e utolsó utolsó eseménye közötti intervallum 6)

ws = 1

( e i első és utolsó eseménye közötti idő 1)

  1. w={A}{B}{C}{D}

  2. w={A}{B,C,D}{A}

  3. w={A}{A,B,C,D}{A}

  4. w={B,C}{A,D}{B,C}

  5. w={A,B,C,D}{A,B,C,D}

13. Tekintsük a következő gyakori 3-sorozatokat:

{1,2,3} , {1,2}{3} , {1}{2,3} , {1,2}{4} ,

{1,3}{4} , {1,2,4} , {2,3}{3} , {2,3}{4} ,

{2}{3}{3} és {2}{3}{4} .

  1. Sorolja fel az összes olyan 4-sorozat jelöltet, amelyeket a GSP algoritmus jelölteket generáló lépése hoz létre.

  2. Sorolja fel az összes olyan 4-sorozat jelöltet, amelyeket a GSP algoritmus jelölteket generáló lépése hoz létre, feltéve, hogy nincsenek időbeli megszorítások.

  3. Sorolja fel az összes olyan 4-sorozat jelöltet, amelyeket a GSP algoritmus jelölteket generáló lépése hoz létre, feltéve, hogy maxgap=1 .

14. Tekintsük a 7.17. táblázatban látható adatsorozatot egy adott objektumra. Számlálja meg a {p}{q}{r} sorozat előfordulásait a következő számlálási módszerek szerint:

  1. COBJ (objektumonként egy előfordulás)

  2. CWIN (csúszó ablakonként egy előfordulás)

  3. CMINWIN (az előfordulások minimális ablakainak száma)

  4. CDIST_O (egyedi előfordulások az események és az időbélyegek lehetséges átfedésével)

  5. CDIST (egyedi előfordulások az események és időbélyegek átfedésének tiltásával)

7.17. táblázat - Példa eseménysorozat adatokra a 14. feladathoz

Időbélyeg

Események

1

p , q

2

r

3

s

4

p , q

5

r , s

6

p

7

q , r

8

q , s

9

p

10

q , r , s


15. Írja le az ahhoz szükséges módosításokat, hogy egy gyakori részgráf bányászati algoritmus kezelni tudja a következőket:

  1. Irányított gráfok

  2. Címkézetlen gráfok

  3. Körmentes gráfok

  4. Nem összefüggő gráfok

Minden a fentiekben megadott gráftípusra írja le, hogy az algoritmus mely lépését fogja érinteni a változtatás (jelöltgenerálás, jelöltek nyesése, a támogatottság kiszámítása), és írjon le minden olyan további optimalizációs lehetőséget, amelyekkel az algoritmus hatékonysága javítható.

16. Rajzolja le az összes olyan részgráf jelöltet, amelyet a 7.28. ábrán látható gráfok közül kettő egyesítésével kaphatunk. Tegyük fel, hogy a részgráfok kiterjesztéséhez élnöveléses módszert alkalmazunk.

7.28. ábra - Gráfok a 16. feladathoz

Gráfok a 16. feladathoz

17. Rajzolja le az összes olyan részgráf jelöltet, amelyet 5. ábrán látható gráfok közül kettő egyesítésével kaphatunk. Tegyük fel, hogy a részgráfok kiterjesztéséhez élnöveléses módszert alkalmazunk.

7.29. ábra - Gráfok a 17. feladathoz

Gráfok a 17. feladathoz

18.

  1. Mutassa meg, hogy ha a támogatottságot a feszített részgráfok kapcsolatával definiáljuk, akkor a g 1 g 2 szabály megbízhatósága nagyobb lehet 1-nél, ha g 1 és g 2 csúcshalmazai átfedhetik egymást.

  2. Milyen időbonyolultságú egy |V| csúcsból álló gráf kanonikus címkéjének meghatározása?

  3. Egy részgráf magjának több automorfizmusa is lehet. Ez növeli a visszakapott részgráf jelöltek számát, ha két olyan gyakori részgráfot egyesítünk, amelyeknek közös a magja. Határozza meg az olyan részgráf jelöltek maximális számát, amelyeket egy k méretű mag automorfizmusának köszönhetően nyerünk ki.

  4. Két k méretű gyakori részgráf több közös maggal is rendelkezhet. Határozza meg, hogy két gyakori részgráf legfeljebb hány közös maggal rendelkezhet.

19.

  1. Tekintsünk egy gráfbányászati algoritmust, amely élnöveléses módszerrel egyesíti az alábbi ábrán látható két irányítatlan és súlyozatlan részgráfot.

  1. Rajzolja fel az összes különböző magot, amelyet a két részgráf egyesítésekor kap.

  2. Hány jelölt kerül generálásra a következő mag használatakor?

20. Az eredeti asszociációs szabály bányászati keretrendszer csak az elemek egyazon tranzakción belüli együttes jelenlétét veszi figyelembe. Vannak olyan helyzetek, amelyekben a ritka elemhalmazok is informatívak lehetnek. Például a {tv, DVD¬videomagnó} elemhalmaz azt sugallja, hogy nem vesz videomagnót az olyan vásárlók többsége, akik tv-t és DVD-t vásárolnak.

Ebben a feladatban az asszociációs szabály keretrendszert kell kiterjeszteni negatív elemekre (azaz olyan elemhalmazokra, amelyek elemek jelenlétét és hiányát is tartalmazzák). Az elemek hiányát a negáció szimbólummal ( ¬ ) jelöljük.

  1. A negatív elemhalmazok előállításának legegyszerűbb naív módja, ha kiterjesztjük a tranzakciót, hogy az elemek hiányát is tartalmazza, mint ahogy az a 7.18. táblázatban is látható.

7.18. táblázat - Példa numerikus adatállományra

TID

TV

¬ TV

DVD

¬ DVD

Videomagnó

¬ Videomagnó

1

1

0

0

1

0

1

2

1

0

0

1

0

1


  1. Tegyük fel, hogy a tranzakciós adatbázis 1000 különböző elemet tartalmaz. Összesen mennyi pozitív elemhalmaz generálható ezekből az elemekből? (Megjegyzés: a pozitív elemhalmazok nem tartalmaznak negatív elemeket).

  2. Legfeljebb hány gyakori elemhalmaz generálható ezekből a tranzakciókból? (Tegyük fel, hogy a gyakori elemhalmaz tartalmazhat pozitív, negatív, vagy mindkettő féle elemeket is)

  1. Magyarázza meg, miért nem praktikus a negatív elemhalmazok feltárásához egy olyan naív módszer, mellyel minden egyes tranzakciót negatív elemekkel egészítünk ki.

  1. Tekintsük a 7.15. táblázatban megadott adatokat. Mennyi lesz a következő, normál és cukormentes üdítőket tartalmazó negatív asszociációs szabályok támogatottsági és megbízhatósági értéke?

    1. ¬NormálCukormentes .

    2. Normál¬Cukormentes .

  1. ¬CukormentesNormál .

  1. Cukormentes¬Normál .

21. Tegyük fel, hogy pozitív és negatív elemhalmazokat akarunk kinyerni egy olyan adatállományból, amely d elemet tartalmaz.

  1. Tekintsünk egy olyan megközelítést, melyben egy új változót vezetünk be minden egyes negatív elem ábrázolására. Ezt a megközelítést alkalmazva az elemszám d -ről 2d -re nő. Mennyi lesz az elemhalmaz rácsának teljes mérete, feltéve, hogy egy elemhalmaz az ugyanazon változóra vonatkozó pozitív és negatív elemeket is tartalmazhatja?

  2. Tegyük fel, hogy az elemhalmazok csak különböző változókból tartalmazhatnak pozitív és negatív elemeket. Például az {a, a Ż ,b, c Ż } elemhalmaz érvénytelen, mert az a változóhoz pozitív és negatív elemeket is tartalmaz. Mennyi ekkor az elemhalmaz rácsának teljes mérete?

22. Az alább definiált mintázatok mindegyikére határozza meg, hogy támogatottsági mértékük monoton, antimonoton, vagy nem monoton (azaz se nem monoton, se nem antimonoton) az elemhalmaz-méret növekedésére nézve.

  1. Olyan elemhalmazok, amelyek pozitív és negatív elemeket is tartalmaznak, mint például {a,b, c Ż , d Ż } . A támogatottsági mérték monoton, antimonoton, vagy nem monoton ilyen mintázatokra alkalmazva?

  2. Olyan Boole-féle logikai mintázatok, mint például {(abc),d,e} , amelyek elemek diszjunkcióit és konjunkcióit tartalmazhatják. A támogatottsági mérték monoton, antimonoton, vagy nem monoton ilyen mintázatokra alkalmazva?

23. Sok asszociációs elemzési algoritmus egy Apriori-szerű megközelítésre alapozva tárja fel a gyakori mintázatokat. Az alábbiakban az algoritmus általános felépítését adjuk meg.

7.3. algoritmus. Apriori-szerű algoritmus

1: k=1

2: F k ={i|iI σ({i}) N minsup} {gyakori 1-elemű mintázatok feltárása}

3: repeat

4: k=k+1

5: C k =GenJelölt( F k1 ) {jelöltgenerálás}

6: C k =NyesJelölt( C k , F k1 ) {jelöltek nyesése}

7: C k =Számol( C k ,D) {ámogatottság kiszámítása}

8: F k ={c|c C k σ(c) N minsup } {gyakori mintázatok kinyerése}

9: until F k =

10: Eredmény= F k

Tegyük fel, hogy olyan Boole-féle logikai szabályokat akarunk feltárni, amelyek elemek diszjunkcióit és konjunkcióit is tartalmazhatják, mint például

{ab}{c,d}.

A megfelelő elemhalmazt {(ab),c,d} alakban írhatjuk fel.

  1. Az ilyen elemhalmazokra is érvényes az apriori-elv?

  2. Hogyan kell módosítani a jelöltgenerálási lépést, hogy ilyen mintázatokat tudjunk feltárni?

  3. Hogyan kell módosítani a jelöltek nyesésének lépését, hogy ilyen mintázatokat tudjunk feltárni?

  4. Hogyan kell módosítani a támogatottság kiszámításának lépését, hogy ilyen mintázatokat tudjunk feltárni?