Feladatok

1. Tekintsünk egy bináris osztályozási problémát a következő attribútumhalmazzal és attribútumértékekkel:

Tegyük fel, hogy egy szabályalapú osztályozó a következő szabályhalmazt állítja elő:

Futott km = Magas Érték = Alacsony

Futott km = Alacsony Érték = Magas

Légkondicionáló = Működik, Motor = Érték = Magas

Légkondicionáló = Működik, Motor = Rossz Érték = Alacsony

Légkondicionáló = Hibás Érték = Alacsony

  1. Egymást kölcsönösen kizáróak-e a szabályok?

  2. Kimerítő-e a szabályhalmaz?

  3. Szükséges-e a szabályhalmazhoz rendezés?

  4. Szükséges-e a szabályhalmazhoz alapértelmezett osztály?

2. A RIPPER algoritmus (Cohen [4717]) egy korábbi, IREP nevű algoritmus (Fürnkranz és Widmer [4739]) kiterjesztése. Mindkét algoritmus a redukált hibanyesés (reduced-error pruning) módszert alkalmazza annak eldöntéséhez, hogy egy szabályt kell-e nyesni. A redukált hibanyesés módszer egy validációs halmazt használ egy osztályozó általánosítási hibájának becslésére. Tekintsük a következő szabálypárt:

R 1 : AC

R 2 : ABC

Az R 2 szabályt úgy kapjuk, hogy egy új B konjunktot adunk hozzá az R 1 szabály bal oldalához. Ennél a kérdésnél arra kell, hogy válaszoljon, hogy a szabályépítés és szabálynyesés szempontjából R 2 vajon előnyt élvez-e R 1 -gyel szemben. Az IREP a következő mértéket számítja ki annak megállapításához, hogy egy szabály nyesésre kerüljön-e:

v IREP = p+(Nn) P+N ,

ahol P az összes pozitív eset száma az ellenőrző halmazban, N az összes negatív eset száma a validációs halmazban, p a szabály által lefedett pozitív esetek száma a validációs halmazban, n pedig a szabály által lefedett negatív esetek száma a validációs halmazban. Valójában v IREP hasonló a validációs halmaz osztályozási pontosságához. Az IREP a nagyobb v IREP értékű szabályokat részesíti előnyben. Ugyanakkor a RIPPER a következő mértéket alkalmazza annak eldöntéséhez, hogy egy szabály nyesésre kerüljön-e:

v RIPPER = pn p+n .

  1. Tételezzük fel, hogy R 1 -et 350 pozitív eset és 150 negatív eset fedi le, míg R 2 -t 300 pozitív eset és 50 negatív eset fedi le. Számolja ki az R 2 szabály R 1 szabályra vonatkozó FOIL-féle információ-nyereségét.

  2. Vegyünk egy 500 pozitív esetet és 500 negatív esetet tartalmazó validációs halmazt. Az R 1 szabályról tételezzük fel, hogy 200 pozitív esetet és 50 negatív esetet fed le. Az R 2 szabályról tételezzük fel, hogy 100 pozitív esetet és 5 negatív esetet fed le. Mindkét szabályra számolja ki v IREP értékét. Melyik szabályt preferálja az IREP?

  3. Számolja ki v RIPPER értékét az előző problémára. Melyik szabályt preferálja a RIPPER?

3. A C4.5rules egy döntési fából szabályokat generáló indirekt módszerek egy implementációja. A RIPPER a közvetlenül az adatokból szabályokat generáló direkt módszerek egy implementációja.

  1. Fejtse ki mindkét módszer előnyeit és hátrányait.

  2. Tekintsünk egy olyan adathalmazt, amelyben nagyon eltérő az osztályok mérete (azaz egyes oszályok sokkal nagyobbak a többinél). A C4.5rules és RIPPER közül melyik jobb a kis osztályokhoz nagypontosságú szabályok találása tekintetében?

4. Tekintsünk egy 100 pozitív esetet és 400 negatív esetet tartalmazó tanulóhalmazt. Határozza meg, hogy a

R 1 : A+ (4 pozitív és 1 negatív esetet fed le),

R 2 : B+ (30 pozitív és 10 negatív esetet fed le),

R 3 : C+ (100 pozitív és 90 negatív esetet fed le),

szabályjelöltek közül melyik a legjobb és legrosszabb az alábbiak szerint:

  1. a szabály pontossága,

  2. FOIL-féle információ-nyereség,

  3. likelihood-hányados statisztika,

  4. Laplace-mérték,

  5. M -becslés mérték ( k=2 és p + =0,2 mellett).

5. Az 5.4. ábra az R1 , R2 és R3 osztályozási szabályok lefedettségét szemlélteti. Határozza meg, hogy melyik a legjobb és legrosszabb szabály az alábbiak szerint:

  1. likelihood-hányados statisztika,

  2. Laplace-mérték,

  3. (c) M -becslés mérték ( k=2 és p + =0,58 mellett).

  4. A szabály pontossága R1 felfedezése után, ahol egyik R1 által lefedett eset sem kerül elhagyásra.

  5. A szabály pontossága R1 felfedezése után, ahol csak az R1 által lefedett pozitív esetek kerülnek elhagyásra.

  6. A szabály pontossága R1 felfedezése után, ahol elhagyásra kerülnek az R1 által lefedett pozitív és negatív esetek.

6.

  1. Tételezzük fel, hogy az alapképzésben résztvevő diákok 15% -a dohányzik, és hogy a mesterszakos diákok 23% -a dohányzik. Ha a diákok egyötöde mesterszakos, a többi pedig alapképzésben vesz részt, akkor mi annak a valószínűsége, hogy egy dohányzó diák mesterszakos?

  2. Az (a) részben adott információk mellett egy véletlenszerűen kiválasztott diák mesterszakos vagy alapképzésben vesz részt nagyobb valószínűséggel?

  3. Ismételje meg a (b) részt, azt feltételezve, hogy a diák dohányzik.

  4. Tételezzük fel, hogy a mesterszakos diákok 30% -a lakik kollégiumban, de csak az alapképzésben résztvevő diákok 10% -a lakik kollégiumban. Ha egy diák dohányzik és kollégiumban lakik, akkor mesterszakos vagy alapképzésben résztvevő nagyobb valószínűséggel? Függetlenséget feltételezhetünk a dohányzó és kollégiumban lakó diákok között.

7. Tekintsük az 5.10. táblázatban látható adatokat.

5.10. táblázat - Adatok a 7. feladathoz

Rekord

A

B

C

Osztály

1

0

0

0

+

2

0

0

1

3

0

1

1

4

0

1

1

5

0

0

1

+

6

1

0

1

+

7

1

0

1

8

1

0

1

9

1

1

1

+

10

1

0

1

+


  1. Becsülje meg a P(A|+) , P(B|+) , P(C|+) , P(A|) , P(B|) és P(C|) feltételes valószínűségeket.

  2. Használja fel a feltételes valószínűségek az előző kérdésben megadott becsléseit egy ( A=0,B=1,C=0 ) tesztminta osztálycímkéjének naiv Bayes-féle módszer segítségével történő prediktálásához.

  3. Adja meg a feltételes valószínűségek becslését az M -becslés módszer segítségével p=1/2 és m=4 mellett.

  4. Ismételje meg a (b) részt a (c) részben megadott feltételes valószínűségek felhasználásával.

  5. Hasonlítsa össze a valószínűségeket becslő két módszert. Melyik módszer jobb, és miért?

8. Tekintsük az 5.11. táblázatban látható adatokat.

5.11. táblázat - Adatok a 8. feladathoz

Példány

A

B

C

Osztály

1

0

0

1

2

1

0

1

+

3

0

1

0

4

1

0

0

5

1

0

1

+

6

0

0

1

+

7

1

1

0

8

0

0

0

9

0

1

0

+

10

1

1

1

+


  1. Becsülje meg a P(A=1|+) , P(B=1|+) , P(C=1|+) , P(A=1|) , P(B=1|) és P(C=1|) feltételes valószínűségeket ugyanazzal a módszerrel, mint az előző feladatban.

  2. Használja fel az (a) rész feltételes valószínűségeit egy (A=1,B=1,C=1) tesztminta osztálycímkéjének a naiv Bayes-féle módszer segítségével történő prediktálásához.

  3. Hasonlítsa össze a P(A=1) , P(B=1) és P(A=1,B=1) valószínűségeket. Adja meg az A és B közötti kapcsolatot.

  4. Ismételje meg a (c) részbeli elemzést P(A=1), P(B=0) és P(A=1, B=0) felhasználásával.

  5. Hasonlítsa össze P(A=1, B=1 | Osztály =+)-t a P(A=1 | Osztály +=) és P(B=1 | Osztály =+) valószínűségekkel. Feltételesen függetlenek-e a változók, ha meg van adva az osztály?

9.

  1. Magyarázza meg, hogy hogyan működik a naiv Bayes módszer az 5.46. ábrán látható adatokra.

5.46. ábra - Adatok a 9. feladathoz

Adatok a 9. feladathoz

  1. Jobban teljesít-e a naiv Bayes módszer akkor, ha minden osztályt úgy osztunk tovább, hogy négy osztály lesz (A1, A2, B1 és B2)?

  2. Hogyan teljesít egy döntési fa az adatokon a kétosztályos problémára? Mi a helyzet négy osztály esetén?

10. Ismételje meg 5.3.4. példában bemutatott elemzést a döntési határ helyének meghatározásához a következő információk felhasználásával:

(a) Az a priori valószínűségekre P(Krokodil)=2×P(Aligátor) .

(b) Az a priori valószínűségekre P(Aligátor)=2×P(Krokodil) .

(c) Az a priori valószínűségek megegyeznek, de a szórásuk különböző, azaz σ(Krokodil) =4 és σ(Aligátor) =2 .

11. Az 5.47. ábra az 5.12. táblázatban látható adatok Bayes-féle bizonyossághálóját szemlélteti. (Tételezzük fel, hogy minden attribútum bináris.)

5.47. ábra - Bayes-féle bizonyosságháló

Bayes-féle bizonyosságháló

5.12. táblázat - Adatok a 11. feladathoz

Futott km

Motor

Légkondicionáló

Rekordok száma

Rekordok száma

(Érték=Magas)

(Érték=Alacsony)

Magas

Működik

3

4

Magas

Hibás

1

2

Magas

Rossz

Működik

1

5

Magas

Rossz

Hibás

0

4

Alacsony

Működik

9

0

Alacsony

Hibás

5

1

Alacsony

Rossz

Működik

1

2

Alacsony

Rossz

Hibás

0

2


  1. Rajzolja fel a hálóban minden csúcshoz a valószínűségi táblát.

  2. Használja a Bayes-féle hálót P(Motor = Rossz,Légkondicionáló = Hibás) kiszámításához.

12. Számolja ki a következő valószínűségeket az 5.48. ábrán adott Bayes-féle háló esetén:

  1. P(Akkumulátor = jó, Üzemanyag = üres, Benzinszintjelző = üres, Indulás = igen).

  2. P(Akkumulátor = rossz, Üzemanyag = üres, Benzinszintjelző = nem üres, Indulás = nem).

  3. Számítsa ki annak valószínűségét, hogy az autó elindul akkor, ha rossz az akkumulátor.

5.48. ábra - Bayes-féle bizonyosságháló a 12. feladathoz

Bayes-féle bizonyosságháló a 12. feladathoz

13. Tekintsük az 5.13. táblázatban látható egydimenziós adatokat.

5.13. táblázat - Adatok a 2. feladathoz

x

0,5

3,0

4,5

4,6

4,9

5,2

5,3

5,5

7,0

9,5

y

+

+

+

+


  1. Osztályozza az x=5,0 adatpontot az 1-, 3-, 5- és 9-legközelebbi szomszédja szerint (többségi szavazás segítségével).

  2. Ismételje meg az előző elemzést az 5.2.1. részben leírt távolsággal súlyozott szavazási módszer segítségével.

14. Az 5.2. szakaszban leírt legközelebbi szomszéd algoritmus kiterjeszthető nominális attribútumok kezelésére is. Az algoritmus egy PEBLS-nek (Parallel Examplar-Based Learning System) nevezett változata (Cost és Salzberg [4719]) egy nominális attribútum két értékének távolságát a módosított érték különbség metrika (MVDM -- modified value difference metric) segítségével méri. Ha adott egy nominális attribútumértékpár, V 1 és V 2 , akkor az ezek közötti távolságot az alábbi módon definiáljuk:

d( V 1 , V 2 )= i=1 k | n i1 n 1 n i2 n 2 |, (5.84)

ahol n ij a V j attribútumértékű esetek száma az i osztályból és n j a V j attribútumértékű esetek száma.

Tekintsük a hitel osztályozási problémához 5.3.2. ábrán látható tanulóhalmazt. Használja az MVDM mértéket a Lakástulajdonos és Családi állapot attribútumokra minden attribútumértékpár közötti távolság kiszámításához.

15. Adja meg minden alábbi logikai függvényhez, hogy a probléma lineárisan szeparálható-e.

(a) A AND B AND C

(b) NOT A AND B

(c) ( A OR B ) AND ( A OR C )

(d) ( A XOR B ) AND ( A OR B )

16.

  1. Mutassa be, hogy hogyan reprezentálhatók egy perceptron modell segítségével a két logikai változó közötti AND és OR függvények.

  2. Értékelje lineáris függvények többrétegű neurális hálók aktivációs függvényeként történő használatának hátrányát.

17. Értékelje két osztályozási modell, M 1 és M 2 teljesítményét. A teszthalmaz 26 bináris, A -tól Z -ig címkézett attribútumot tartalmaz.

Az 5.14. táblázat mutatja a modellek teszthalmazra alkalmazásával kapott a posteriori valószínűségeket. (Csak a pozitív osztály a posteriori valószínűségeit láthatjuk.) Mivel ez egy kétosztályos probléma, P()=1P(+) és P(|A,,Z)=1P(+|A,,Z) . Tételezzük fel, hogy elsősorban a pozitív osztály példányainak észlelése érdekes számunkra.

5.14. táblázat - A posteriori valószínűségek a 17. feladathoz

Példány

Tényleges osztály

P(+|A,,Z, M 1 )

P(+|A,,Z, M 2 )

1

+

0,73

0,61

2

+

0,69

0,03

3

0,44

0,68

4

0,55

0,31

5

+

0,67

0,45

6

+

0,47

0,09

7

0,08

0,38

8

0,15

0,05

9

+

0,45

0,01

10

0,35

0,04


  1. Ábrázolja M 1 és M 2 ROC-görbéjét. (Tegye ezt ugyanazon az ábrán.) Ön szerint melyik modell jobb? Magyarázza meg az okait.

  2. Tételezzük fel, hogy a vágási küszöböt t=0,5 -nek választja az M 1 modellhez. Más szóval, pozitív esetként osztályozunk minden olyan tesztesetet, amelynek a posteriori valószínűsége nagyobb, mint t . Számítsa ki a modell precizitását, felidézését és F -mértékét ennél a küszöbértéknél.

  3. Ismételje meg a (b) rész elemezését az M 2 modellre ugyanazzal a vágási küszöbbel. Hasonlítsa össze az F -mérték eredményeket a két modellre. Melyik modell jobb? Összhangban vannak-e az eredmények azzal, amit a ROC-görbétől vár?

  4. Ismételje meg a (b) részt az M 1 modellre a t=0,1 küszöb használatával. Melyik küszöböt tartja jobbnak, t=0,5 -et vagy t=0,1 -et? Összhangban vannak-e az eredmények azzal, amit a ROC-görbétől vár?

18. A következő adatok két attribútumot ( X és Y ) és két osztálycímkét (`` + '' és `` '') tartalmaznak. Minden attribútum három különböző értéket vehet fel: 0 , 1 vagy 2 .

30.5cm X

30.5cm Y

Példányok

 

száma

 

0

0

0

100

1

0

0

0

2

0

0

100

0

1

10

100

1

1

10

0

2

1

10

100

0

2

0

100

1

2

0

0

2

2

0

100

Az elgondolás az, hogy a ``+'' osztály az Y=1 , a `` '' osztály pedig az X=0X=2 feltételnek felel meg.

  1. Építsen egy döntési fát az adatokhoz. Eleget tesz-e a fa a `` + '' és `` '' osztályokra feltételezetteknek?

  2. Mi a döntési fa pontossága, precizitása, felidézése és F 1 -mértéke? (Megjegyezzük, hogy a precizitást, felidézést és F 1 -mértéket a `` + '' osztály szerint definiáltuk.)

  3. Építsen egy új döntési fát a következő költségfüggvénnyel:

C(i,j)={ 0, ha E  i  =  j; 1, ha  i  =  +,  j  =  ; példányok száma +példányok száma , ha  i  =  ,  j  =  +.

(Útmutatás: csak a régi döntési fa levélcsúcsait kell megváltoztatni.) Eleget tesz-e a fa a `` + '' osztályra vonatkozó feltételnek?

  1. Mi az új döntési fa pontossága, precizitása, felidézése és F 1 -mértéke?

19.

  1. Tekintsük egy kétosztályos probléma költségmátrixát. Legyen C(+,+)=C(,)=p , C(+,)=C(,+)=q és qp . Mutassa meg, hogy a költségfüggvény minimalizálása ekvivalens az osztályozó pontosságának maximalizálásával.

  2. Mutassa meg, hogy a költségmátrix skála-invariáns. Ha például a költségmátrixot C(i,j)βC(i,j) módon skálázzuk, ahol β a skálafaktor, akkor a döntési küszöb ((5.82) egyenlet) változatlan marad.

  3. Mutassa meg, hogy a költségmátrix eltolás-invariáns. Más szavakkal, egy konstans tényezőnek a költségmátrix minden eleméhez való hozzáadása nem befolyásolja a döntési küszöböt ((5.82) egyenlet).

20. Tekintsük egy osztályozó véletlen adatokból építésének feladatát, ahol az attribútumértékeket véletlenszerűen generáljuk az osztálycímkéktől függetlenül. Feltételezzük, hogy az adatok két osztályból (`` + '' és `` '') tartalmaznak rekordokat. Az adatok felét használjuk fel tanításhoz, míg a maradék felét teszteléshez.

  1. Tegyük fel, hogy azonos számú pozitív és negatív rekord van az adatokban, és hogy a döntési fa osztályozó minden tesztrekordot pozitívként prediktál. Mi az osztályozó várható hibaaránya a tesztadatokon?

  2. Ismételje meg az előző elemzést azt feltételezve, hogy az osztályozó minden egyes tesztrekordot 0,8 valószínűséggel prediktál pozitív osztályúként és 0,2 valószínűséggel negatív osztályúként.

  3. Tegyük fel, hogy az adatok kétharmada tartozik a pozitív osztályhoz, és hogy a maradék egyharmad a negatív osztályhoz tartozik. Mi egy minden tesztrekordot pozitívként prediktáló osztályozó várható hibája?

  4. Ismételje meg az előző elemzést azt feltételezve, hogy az osztályozó minden egyes tesztrekordot 2/3 valószínűséggel prediktál pozitív osztályúként és 1/3 valószínűséggel negatív osztályúként.

21. Vezesse le nem szeparálható adatokra a lineáris SVM duális Lagrange-függvényét, ahol a célfüggvény

f(w)= w 2 2 +C ( i=1 N ξ i ) 2 .

22. Tekintsük az XOR problémát, ahol négy tanulópont van:

(1,1,),(1,0,+),(0,1,+),(0,0,).

Transzformálja az adatokat a következő tulajdonságtérbe:

Φ=(1, 2 x 1 , 2 x 2 , 2 x 1 x 2 , x 1 2 , x 2 2 ).

Határozza meg a transzformált térben a maximális margójú lineáris döntési határt.

23. Ha adottak az 5.49. ábrán látható adatok, magyarázza meg, hogyan teljesítenének ezeken a döntési fa, naiv Bayes-féle és a k -legközelebbi szomszéd

5.49. ábra - Adatok a 23. feladathoz

Adatok a 23. feladathoz