1. Tekintsük a 7.10. táblázatban látható, közlekedési balesetekre vonatkozó adatokat.
7.10. táblázat - Közlekedési balesetek adatai
Időjárási viszonyok | Vezető állapota | Közlekedési kihágás | Biztonsági öv | Ütközés súlyossága |
jó | ittas | Sebességkorlát túllépése | nem | súlyos |
rossz | józan | Nem volt | igen | könnyű |
jó | józan | Megállás elmulasztása | igen | könnyű |
jó | józan | Sebességkorlát túllépése | igen | súlyos |
rossz | józan | Közlekedési tábla figyelmen kívül hagyása | nem | súlyos |
jó | ittas | Megállás elmulasztása | igen | könnyű |
rossz | ittas | Nem volt | igen | súlyos |
jó | józan | Közlekedési tábla figyelmen kívül hagyása | igen | súlyos |
jó | ittas | Nem volt | nem | súlyos |
rossz | józan | Közlekedési tábla figyelmen kívül hagyása | nem | súlyos |
jó | ittas | Sebességkorlát túllépése | igen | súlyos |
rossz | józan | Megállás elmulasztása | igen | könnyű |
Adja meg az adatállomány egy binarizált változatát.
Mi a tranzakciók maximális szélessége a binarizált adatállományban?
Tegyük fel, hogy a támogatottsági küszöb 30%. Ekkor hány elemhalmaz jelölt és gyakori elemhalmaz kerül generálásra?
Hozzon létre egy olyan adatállományt, amely csak a következő
aszimmetrikus bináris attribútumokat tartalmazza:
Hasonlítsa össze a (c) és (d) részekben generált elemhalmaz jelöltek és gyakori elemhalmazok számát.
2.
Tekintsük a 7.11. táblázatban látható adatállományt. Tegyük fel, hogy a következő diszkretizálási stratégiákat alkalmazzuk az adatállomány folytonos attribútumaira.
D1: | Minden folytonos attribútum terjedelmét három egyforma méretű részre osztjuk fel. |
D2: | Minden folytonos attribútum terjedelmét három olyan részre osztjuk fel, amelyek egyforma számú tranzakciót tartalmaznak. |
Mindkét stratégiára nézve válaszolja meg a következő kérdéseket:
Készítse el az adatállomány egy binarizált változatát.
Állítsa elő az összes gyakori elemhalmazt, amelyek
támogatottsága
7.11. táblázat - Adatállomány a 2. feladathoz
TID | Hőmérséklet | Nyomás | Riasztó 1 | Riasztó 2 | Riasztó 3 |
1 | 95 | 1105 | 0 | 0 | 1 |
2 | 85 | 1040 | 1 | 1 | 0 |
3 | 103 | 1090 | 1 | 1 | 1 |
4 | 97 | 1084 | 1 | 0 | 0 |
5 | 80 | 1038 | 0 | 1 | 1 |
6 | 100 | 1080 | 1 | 1 | 0 |
7 | 83 | 1025 | 1 | 0 | 1 |
8 | 86 | 1030 | 1 | 0 | 0 |
9 | 101 | 1100 | 1 | 1 | 1 |
A folytonos attribútum klaszterezés-alapú megközelítéssel is diszkretizálható.
Rajzoljon fel egy hőmérséklet-nyomás grafikont a 7.11. táblázatban látható adatpontokhoz.
Hány természetes klaszter figyelhető meg a grafikonon?
Minden klasztert lásson el (
Ön szerint milyen klaszterezési algoritmus lenne alkalmazható a klaszterek azonosítására? Világosan indokolja válaszát.
A 7.11. táblázat hőmérséklet és nyomás adatait cserélje le
a
Állítsa elő a binarizált adatállományból az összes olyan
gyakori elemhalmazt, melyek támogatottsága
3. Tekintsük a 7.12. táblázatban látható adatállományt. Az első
attribútum folytonos, míg a másik két attribútum szimmetrikus bináris.
Akkor tekintünk erősnek egy szabályt, ha támogatottsága meghaladja a
7.12. táblázat - Adatállomány a 3. feladathoz
|
|
|
1 | 1 | 1 |
2 | 1 | 1 |
3 | 1 | 0 |
4 | 1 | 0 |
5 | 1 | 1 |
6 | 0 | 1 |
7 | 0 | 0 |
8 | 1 | 1 |
9 | 0 | 0 |
10 | 0 | 0 |
11 | 0 | 0 |
12 | 0 | 1 |
Számítsa ki mindkét szabály támogatottságát és megbízhatóságát.
Ahhoz, hogy a szabályokat a hagyományos Apriori algoritmussal
megtaláljuk, diszkretizálni kell az
Értékelje, hogy mennyire hatékony az egyenlő hossz
megközelítés alkalmazása a fenti adatállományra. Van-e olyan
4. Tekintsük a 7.13. táblázatban látható adatállományt.
7.13. táblázat - Adatállomány a 4. feladathoz
Életkor (
| Hetente online töltött órák száma (
| ||||
0--5 | 5--10 | 10--20 | 20--30 | 30--40 | |
10--15 | 2 | 3 | 5 | 3 | 2 |
15--25 | 2 | 5 | 10 | 10 | 3 |
25--35 | 10 | 15 | 5 | 3 | 2 |
35--50 | 4 | 6 | 5 | 3 | 2 |
Határozza meg minden alább megadott szabálykombinációra, hogy melyik szabály megbízhatósága a legnagyobb.
A.
B.
C.
Tegyük fel, hogy azt szeretnénk megtudni, hogy a 15 és 35 év
közötti korú internet-felhasználók hetente átlagosan hány órát
töltenek online. Adja meg a felhasználói szegmenst leíró megfelelő
statisztika-alapú asszociációs szabályt. Az átlagosan online töltött
órák kiszámításához közelítsen minden intervallumot a középpontjának
értékével (ábrázolja például
Ellenőrizze, hogy a (b) részben megadott kvantitatív asszociációs szabály statisztikailag szignifikáns-e úgy, hogy összehasonlítja az átlagát a más korcsoportokba tartozó felhasználók által online töltött órák átlagos számával.
5. Fejtse ki, hogy az alább megadott attribútumokkal rendelkező adatállományt hogyan konvertálná olyan bináris tranzakciós adatállománnyá, amely alkalmas asszociációs elemzésre. Konkrétan írja le az eredeti adatállomány összes attribútumára, hogy
hány bináris attribútum tartozna hozzá a tranzakciós adatállományban,
hogyan képezné le az eredeti attribútum értékeit a bináris attribútum értékeire, és
van-e valamilyen hierarchikus struktúra egy attribútum adatértékei között, amely segítheti az adatok kevesebb számú bináris attribútumba csoportosítását.
A következőkben egy attribútumlistát adunk meg az adatállományhoz, a lehetséges értékeikkel együtt. Tegyük fel, hogy minden attribútum értékeit hallgatónként gyűjtjük be.
Év: elsőéves, másodéves, harmadéves, negyedéves, végzős:mester, végzős:PhD, diplomás
Irányítószám: amerikai állampolgárságú hallgatók lakcímének irányítószáma, nem amerikai állampolgárságú hallgatók helyi címének irányítószáma
Egyetem: mezőgazdaság, építészet, továbbképzés, oktatás, művészetek, műszaki tudományok, természettudományok, kereskedelem, jog, orvostudomány, fogorvostudomány, gyógyszerészet, betegápolás, állatorvos-tudomány
Campuson: 1, ha a hallgató az egyetemi campuson él, 0 egyébként
A következők mindegyike egy külön attribútum, melyek értéke 1, ha az adott személy beszéli az adott nyelvet, 0 egyébként:
Arab
Bengáli
Kínai (mandarin)
Angol
Portugál
Orosz
Spanyol
6. Tekintsük a 7.14. táblázatban megadott adatállományt. Tegyük fel, hogy a következő asszociációs szabályt akarjuk kinyerni:
7.14. táblázat - Adatállomány a 6. feladathoz
Életkor | Zongorázik | Kedveli a komolyzenét |
9 | igen | igen |
11 | igen | igen |
14 | igen | nem |
17 | igen | nem |
19 | igen | igen |
21 | nem | nem |
25 | nem | nem |
29 | igen | igen |
33 | nem | nem |
39 | nem | igen |
41 | nem | nem |
47 | nem | igen |
A folytonos attribútum kezelésére az egyenlő gyakoriság
megközelítést alkalmazzuk 3, 4, illetve 6 intervallummal. A kategorikus
attribútumokat úgy kezeljük, hogy annyi új aszimmetrikus bináris
attribútumot vezetünk be, ahány kategorikus érték tartozik hozzájuk.
Tegyük fel, hogy a támogatottsági küszöb
Tegyük fel, hogy a Kor attribútumot 3 egyenlő gyakoriságú
intervallumra osztva diszkretizáljuk. Adjon meg egy olyan
Ismételje meg az (a) részt úgy, hogy a Kor attribútumot 4 egyenlő gyakoriságú intervallumra osztva diszkretizálja. Hasonlítsa össze az így kinyert szabályokat azokkal, amelyeket az (a) részben kapott.
Ismételje meg az (a) részt úgy, hogy a Kor attribútumot 6 egyenlő gyakoriságú intervallumra osztva diszkretizálja. Hasonlítsa össze az így kinyert szabályokat azokkal, amelyeket az (a) részben kapott.
Fejtse ki az (a), (b) és (c) részekben kapott eredmények alapján, hogy a diszkretizálásnál használt intervallumok száma milyen hatással van az asszociációs szabály bányászati algoritmusokkal kinyert szabályokra.
7. Tekintsük a 7.15. táblázatban látható tranzakciókat, melyekre a 7.25. ábrán megadott termék taxonómia vonatkozik.
7.15. táblázat - Példa vásárlói kosár tranzakciókra
Tranzakció azon. | Vásárolt termékek |
1 | chips, keksz, normál üdítő, sonka |
2 | chips, sonka, filézett csirke, cukormentes üdítő |
3 | sonka, szalonna, egész csirke, normál üdítő |
4 | chips, sonka, filézett csirke, cukormentes üdítő |
5 | chips, szalonna, filézett csirke |
6 | chips, sonka, szalonna, egész csirke, normál üdítő |
7 | chips, keksz, filézett csirke, cukormentes üdítő |
Milyen főbb kihívások merülnek fel, ha termék taxonómia felhasználásával bányászunk asszociációs szabályokat?
Tekintsük azt a megközelítést, amelyben a
Tekintsünk most egy eltérő megközelítést, amelyben szintenként
generáljuk a gyakori elemhalmazokat. Először az összes olyan gyakori
elemhalmazt generáljuk, amelyek a hierarchia legfelső szintjéhez
tartozó elemeket tartalmaznak. Ezután a hierarchia magasabb
szintjein feltárt gyakori elemhalmazok segítségével generáljuk a
hierarchia alacsonyabb szintjeihez tartozó elemeket tartalmazó
elemhalmaz jelölteket. Például a
Hasonlítsa össze a (b) és (c) részekben feltárt gyakori elemhalmazokat. Írja le az algoritmusok hatékonyságával és teljességével kapcsolatos észrevételeit.
8. A következő kérdések azt vizsgálják, hogy hogyan változhat egy asszociációs szabály támogatottsága és megbízhatósága egy fogalomhierarchia jelenlétében.
Tekintsünk egy
Legyenek
Tekintsük a
9.
Sorolja fel a következő adatsorozatban található összes 4-részsorozatot:
feltéve, hogy nincsenek időbeli megszorítások.
Sorolja fel az (a) részben látható adatsorozatban található összes 3-részsorozatot feltéve, hogy időbeli megszorítások nem vonatkoznak rá.
Sorolja fel az (a) részben látható adatsorozatban található összes 4-részsorozatot feltéve, hogy az időbeli megszorítások rugalmasak .
Sorolja fel az (a) részben látható adatsorozatban található összes 3-részsorozatot feltéve, hogy az időbeli megszorítások rugalmasak .
10. Keresse meg a 7.16. táblázatban megadott sorozat adatbázisban
az összes olyan gyakori részsorozatot, melynek támogatottsága
7.16. táblázat - Példa különböző érzékelők által generált eseménysorozatokra
Érzékelő | Időbélyeg | Események |
S1 | 1 | A, B |
2 | C | |
3 | D, E | |
4 | C | |
S2 | 1 | A, B |
2 | C, D | |
3 | E | |
S3 | 1 | B |
2 | A | |
3 | B | |
4 | D, E | |
S4 | 1 | C |
2 | D, E | |
3 | C | |
4 | E | |
S5 | 1 | B |
2 | A | |
3 | B, C | |
4 | A, D |
11.
Az alább megadott
sorozat részsorozatai-e a következő időbeli megszorítások mellett:
| (
|
| (
|
| (
|
| (
|
Határozza meg, hogy az előző kérdésben megadott
12. Az alábbi
adatsorozatnak a következő időbeli megszorítások mellett:
| (
|
| (
|
| (
|
| (
|
13. Tekintsük a következő gyakori 3-sorozatokat:
Sorolja fel az összes olyan 4-sorozat jelöltet, amelyeket a GSP algoritmus jelölteket generáló lépése hoz létre.
Sorolja fel az összes olyan 4-sorozat jelöltet, amelyeket a GSP algoritmus jelölteket generáló lépése hoz létre, feltéve, hogy nincsenek időbeli megszorítások.
Sorolja fel az összes olyan 4-sorozat jelöltet, amelyeket a
GSP algoritmus jelölteket generáló lépése hoz létre, feltéve, hogy
14. Tekintsük a 7.17. táblázatban látható adatsorozatot egy adott
objektumra. Számlálja meg a
COBJ (objektumonként egy előfordulás)
CWIN (csúszó ablakonként egy előfordulás)
CMINWIN (az előfordulások minimális ablakainak száma)
CDIST_O (egyedi előfordulások az események és az időbélyegek lehetséges átfedésével)
CDIST (egyedi előfordulások az események és időbélyegek átfedésének tiltásával)
7.17. táblázat - Példa eseménysorozat adatokra a 14. feladathoz
Időbélyeg | Események |
1 |
|
2 |
|
3 |
|
4 |
|
5 |
|
6 |
|
7 |
|
8 |
|
9 |
|
10 |
|
15. Írja le az ahhoz szükséges módosításokat, hogy egy gyakori részgráf bányászati algoritmus kezelni tudja a következőket:
Irányított gráfok
Címkézetlen gráfok
Körmentes gráfok
Nem összefüggő gráfok
Minden a fentiekben megadott gráftípusra írja le, hogy az algoritmus mely lépését fogja érinteni a változtatás (jelöltgenerálás, jelöltek nyesése, a támogatottság kiszámítása), és írjon le minden olyan további optimalizációs lehetőséget, amelyekkel az algoritmus hatékonysága javítható.
16. Rajzolja le az összes olyan részgráf jelöltet, amelyet a 7.28. ábrán látható gráfok közül kettő egyesítésével kaphatunk. Tegyük fel, hogy a részgráfok kiterjesztéséhez élnöveléses módszert alkalmazunk.
17. Rajzolja le az összes olyan részgráf jelöltet, amelyet 5. ábrán látható gráfok közül kettő egyesítésével kaphatunk. Tegyük fel, hogy a részgráfok kiterjesztéséhez élnöveléses módszert alkalmazunk.
18.
Mutassa meg, hogy ha a támogatottságot a feszített részgráfok
kapcsolatával definiáljuk, akkor a
Milyen időbonyolultságú egy
Egy részgráf magjának több automorfizmusa is lehet. Ez növeli
a visszakapott részgráf jelöltek számát, ha két olyan gyakori
részgráfot egyesítünk, amelyeknek közös a magja. Határozza meg az
olyan részgráf jelöltek maximális számát, amelyeket egy
Két
19.
Tekintsünk egy gráfbányászati algoritmust, amely élnöveléses módszerrel egyesíti az alábbi ábrán látható két irányítatlan és súlyozatlan részgráfot.
Rajzolja fel az összes különböző magot, amelyet a két részgráf egyesítésekor kap.
Hány jelölt kerül generálásra a következő mag használatakor?
20. Az eredeti asszociációs szabály bányászati keretrendszer csak
az elemek egyazon tranzakción belüli együttes jelenlétét veszi
figyelembe. Vannak olyan helyzetek, amelyekben a ritka elemhalmazok is
informatívak lehetnek. Például a
Ebben a feladatban az asszociációs szabály keretrendszert kell
kiterjeszteni negatív elemekre (azaz olyan elemhalmazokra, amelyek
elemek jelenlétét és hiányát is tartalmazzák). Az elemek hiányát a
negáció szimbólummal (
A negatív elemhalmazok előállításának legegyszerűbb naív módja, ha kiterjesztjük a tranzakciót, hogy az elemek hiányát is tartalmazza, mint ahogy az a 7.18. táblázatban is látható.
7.18. táblázat - Példa numerikus adatállományra
TID | TV |
| DVD |
| Videomagnó |
|
|
1 | 1 | 0 | 0 | 1 | 0 | 1 |
|
2 | 1 | 0 | 0 | 1 | 0 | 1 |
|
Tegyük fel, hogy a tranzakciós adatbázis 1000 különböző elemet tartalmaz. Összesen mennyi pozitív elemhalmaz generálható ezekből az elemekből? (Megjegyzés: a pozitív elemhalmazok nem tartalmaznak negatív elemeket).
Legfeljebb hány gyakori elemhalmaz generálható ezekből a tranzakciókból? (Tegyük fel, hogy a gyakori elemhalmaz tartalmazhat pozitív, negatív, vagy mindkettő féle elemeket is)
Magyarázza meg, miért nem praktikus a negatív elemhalmazok feltárásához egy olyan naív módszer, mellyel minden egyes tranzakciót negatív elemekkel egészítünk ki.
Tekintsük a 7.15. táblázatban megadott adatokat. Mennyi lesz a következő, normál és cukormentes üdítőket tartalmazó negatív asszociációs szabályok támogatottsági és megbízhatósági értéke?
21. Tegyük fel, hogy pozitív és negatív elemhalmazokat akarunk
kinyerni egy olyan adatállományból, amely
Tekintsünk egy olyan megközelítést, melyben egy új változót
vezetünk be minden egyes negatív elem ábrázolására. Ezt a
megközelítést alkalmazva az elemszám
Tegyük fel, hogy az elemhalmazok csak különböző változókból
tartalmazhatnak pozitív és negatív elemeket. Például az
22. Az alább definiált mintázatok mindegyikére határozza meg, hogy támogatottsági mértékük monoton, antimonoton, vagy nem monoton (azaz se nem monoton, se nem antimonoton) az elemhalmaz-méret növekedésére nézve.
Olyan elemhalmazok, amelyek pozitív és negatív elemeket is
tartalmaznak, mint például
Olyan Boole-féle logikai mintázatok, mint például
23. Sok asszociációs elemzési algoritmus egy Apriori-szerű megközelítésre alapozva tárja fel a gyakori mintázatokat. Az alábbiakban az algoritmus általános felépítését adjuk meg.
7.3. algoritmus. Apriori-szerű algoritmus |
1:
2:
3: repeat 4:
5:
6:
7:
8:
9: until
10:
|
Tegyük fel, hogy olyan Boole-féle logikai szabályokat akarunk feltárni, amelyek elemek diszjunkcióit és konjunkcióit is tartalmazhatják, mint például
A megfelelő elemhalmazt
Az ilyen elemhalmazokra is érvényes az apriori-elv?
Hogyan kell módosítani a jelöltgenerálási lépést, hogy ilyen mintázatokat tudjunk feltárni?
Hogyan kell módosítani a jelöltek nyesésének lépését, hogy ilyen mintázatokat tudjunk feltárni?
Hogyan kell módosítani a támogatottság kiszámításának lépését, hogy ilyen mintázatokat tudjunk feltárni?