Feladatok

1. Rajzoljuk fel négy Boole attribútum, A , B , C és D , paritás függvényének a teljes döntési fáját. Lehetséges-e egyszerűsíteni a fát?

2. Tekintsük egy bináris osztályozási feladat a 4.7. táblázatbeli tanulóeseteit.

4.7. táblázat - A 2. feladathoz tartozó adatállomány

Ügyfélazonosító

Nem

Autótípus

Ingméret

Osztály

1

F

Családi

Kicsi

C0

2

F

Sport

Közepes

C0

3

F

Sport

Közepes

C0

4

F

Sport

Nagy

C0

5

F

Sport

Extra

C0

6

F

Sport

Extra

C0

7

N

Sport

Kicsi

C0

8

N

Sport

Kicsi

C0

9

N

Sport

Közepes

C0

10

N

Luxus

Nagy

C0

11

F

Családi

Nagy

C1

12

F

Családi

Extra

C1

13

F

Családi

Közepes

C1

14

F

Luxus

Extra

C1

15

N

Luxus

Kicsi

C1

16

N

Luxus

Kicsi

C1

17

N

Luxus

Közepes

C1

18

N

Luxus

Közepes

C1

19

N

Luxus

Közepes

C1

20

N

Luxus

Nagy

C1


  1. Számítsa ki a Gini-indexet a tanulóesetek teljes együttesére.

  2. Számítsa ki a Gini-indexet az Ügyfélazonosító attribútumra.

  3. Számítsa ki a Gini-indexet a Nem attribútumra.

  4. Számítsa ki a Gini-indexet az Autótípus attribútumra többágú vágást használva.

  5. Számítsa ki a Gini-indexet a Ingméret attribútumra többágú vágást használva.

  6. Melyik attribútum a jobb: a Nem, Autótípus vagy Ingméret?

  7. Magyarázza meg, miért nem szabad az Ügyfélazonosító-t attribútum tesztfeltételként használni annak ellenére, hogy a legkisebb Gini értékkel rendelkezik.

3. Tekintsük egy bináris osztályozási feladat a 4.8. táblázatbeli tanulóeseteit.

4.8. táblázat - A 3. feladathoz tartozó adatállomány

Eset

a 1

a 2

a 3

Célosztály

1

I

I

1.0

+

2

I

I

6.0

+

3

I

H

5.0

4

H

H

4.0

+

5

H

I

7.0

6

H

I

3.0

7

H

H

8.0

8

I

H

7.0

+

9

H

I

5.0


  1. Mi a tanulóesetek ezen összességének az entrópiája az osztály attribútumra nézve?

  2. Mekkora a 1 és a 2 információ-nyeresége ezen tanulóesetekre vonatkozóan?

  3. Számítsuk ki az információ-nyereséget az a 3 folytonos attribútumra minden lehetséges vágás esetén.

  4. Mi a legjobb vágás a 1 , a 2 és a 3 között az információ-nyereség alapján?

  5. Mi a legjobb vágás a 1 és a 2 között az osztályozási hibaarány alapján?

  6. Mi a legjobb vágás a 1 és a 2 között a Gini-index alapján?

4. Mutassuk meg, hogy egy csúcs entrópiája sosem nő, miután kisebb utódcsúcsokra osztjuk.

5. Tekintsük a következő adatállományt egy bináris osztályozási feladathoz.

A

B

Osztálycímke

I

H

+

I

I

+

I

I

+

I

H

I

I

+

H

H

H

H

H

H

I

I

I

H

  1. Számítsuk ki az információ-nyereséget, amikor az A és B alapján vágunk. Melyik attribútumot választaná a döntési fa következtetés algoritmusa?

  2. Számítsuk ki a nyereséget a Gini-indexben, amikor az A és B alapján vágunk. Melyik attribútumot választaná a döntési fa következtetés algoritmusa?

  3. A 4.13. ábra azt mutatja, hogy az entrópia és a Gini-index egyaránt monoton növekvő a [0;0,5] tartományon, és mindkettő monoton csökkenő a [0,5;1] tartományon. Lehetséges-e, hogy az információ-nyereség és a Gini-index melletti nyereség különböző attribútumokat részesít előnyben? Magyarázza is meg.

6. Tekintsük tanulóesetek a következő halmazát.

X

Y

Z

C1 osztálybeli esetek száma

C2 osztálybeli esetek száma

0

0

0

5

40

0

0

1

0

15

0

1

0

10

5

0

1

1

45

0

1

0

0

10

5

1

0

1

25

0

1

1

0

5

20

1

1

1

0

15

  1. Építsünk fel egy kétszintes döntési fát az ebben a fejezetben leírt mohó megközelítés segítségével. Használjuk az osztályozási hibaarány kritériumot a vágásra. Mi az eredményül kapott fa teljes hibaaránya?

  2. Ismételjük meg az (a) részt úgy, hogy X -et használjuk az első vágási attribútumnak, majd aztán a legjobb fennmaradó attribútumot választjuk a két utódcsúcs mindegyikénél. Mi az eredményül kapott fa hibaaránya?

  3. Hasonlítsuk össze az (a) és (b) részek eredményeit. Magyarázzuk meg a vágási attribútum kiválasztásánál használt mohó heurisztika alkalmasságát.

7. Az alábbi táblázat egy három attribútumból ( A , B , C ) és két osztálycímkéből ( + , ) álló adathalmazt összegez. Építsünk egy kétszintű döntési fát.

3.5cm A

3.5cm B

3.5cm C

Esetek

 

száma

 

+

I

I

I

5

0

H

I

I

0

20

I

H

I

20

0

H

H

I

0

5

I

I

H

0

0

H

I

H

25

0

I

H

H

0

0

H

H

H

0

25

  1. Az osztályozási hibaarány alapján melyik attribútumot választanánk első vágó attribútumnak? Határozzuk meg minden egyes attribútumnál a kontingencia táblát és az osztályozási hibaaránybeli nyereséget.

  2. Ismételje meg a fentieket a gyökér csúcs két gyerekére.

  1. Hány esetben osztályoz tévesen az eredményül kapott döntési fa?

  1. Ismételje meg az (a), (b) és (c) részeket a C -t mint a vágó attribútumot használva.

  1. Használja a © és (d) részek eredményeit a döntési fa alapú következtetési algoritmus mohó jellegének igazolására.

8. Tekintsük a 4.30. ábrán látható döntési fát.

4.30. ábra - A 8. feladathoz tartozó adatállományok és döntési fa

A 8. feladathoz tartozó adatállományok és döntési fa

  1. Számítsa ki a fa általánosítási hibaarányát az optimista megközelítést használva.

  2. Számítsa ki a fa általánosítási hibaarányát a pesszimista megközelítést használva. (Az egyszerűség kedvéért használjuk azt a stratégiát, amely egy 0,5 -es tényezőt ad hozzá minden egyes levélcsúcshoz.)

  3. Számítsa ki a fa általánosítási hibaarányát a fent látható validációs halmazt használva. Ez a megközelítés az úgynevezett csökkentett hibanyesés (reduced error pruning).

9. Tekintsük a 4.31. ábrán mutatott döntési fákat. Tegyük fel, hogy azokat egy olyan adathalmazból állítottuk elő, amely 16 bináris attribútumot és 3 osztályt ( C 1 , C 2 és C 3 ) tartalmaz.

2.2. ábra - A 9. feladat döntési fája

A 9. feladat döntési fája

Számolja ki mindegyik döntési fa teljes leíró hosszát a legkisebb leíró hossz elve szerint.

Költség(fa,adatok)=Költség(fa)+Költség(adatok|fa).

Melyik döntési fa a legjobb az MDL elv alapján?

10. Míg a 0,632 -es bootstrap megközelítés hasznos arra, hogy megbízható becslést kapjunk a modell pontosságára, van egy ismert korlátja [4798]. Vegyünk egy olyan két osztályos feladatot, ahol az adatokban egyenlő számú pozitív és negatív eset van. Tegyük fel, hogy az esetek osztálycímkéit véletlenszerűen generáljuk. Használjuk a nyesetlen döntési fa osztályozót (azaz a tökéletes memorizálót). Határozza meg az osztályozó pontosságát az alábbi módszerek segítségével.

  1. A visszatartó módszer, ahol az adatok kétharmadát a tanításra, a fennmaradó egyharmadát a tesztelésre használjuk.

  2. A tízszeres keresztellenőrzés.

  3. A 0,632 -es bootstrap módszer.

  4. Az (a), (b) és (c) részek eredményei alapján melyik módszer nyújtja az osztályozó pontosságának megbízhatóbb értékelését?

11. Tekintsük a következő megközelítést annak tesztelésére, hogy egy A osztályozó legyőz-e egy másik B osztályozót. Legyen N egy adott adatállomány mérete, p A az A osztályozó pontossága, p B a B osztályozó pontossága, és legyen p=( p A + p B )/2 mindkét osztályozó átlagos pontossága. Annak vizsgálatára, hogy az A osztályozó lényegesen jobb-e mint B , a következő Z -statisztikát használjuk:

Z= p A p B 2p(1p) N .

Az A osztályozót jobbnak fogadjuk el a B osztályozónál, ha Z1,96 .

A 4.9. táblázat három különböző osztályozó, a döntési fa osztályozók, a naiv Bayes osztályozók és a tartóvektor-gépek pontosságát hasonlítja össze különböző adatállományokon. (Az utóbbi két osztályozót 5. fejezetben ismertetjük.)

4.9. táblázat - Különböző osztályozási módszerek pontosságának az összehasonlítása

Adatállomány

Méret

Döntési

Naiv

Tartóvektor-

( N )

fa (%)

Bayes (%)

gép (%)

Anneal

898

92.09

79.62

87.19

Australia

690

85.51

76.81

84.78

Auto

205

81.95

58.05

70.73

Breast

699

95.14

95.99

96.42

Cleve

303

76.24

83.50

84.49

Credit

690

85.80

77.54

85.07

Diabetes

768

72.40

75.91

76.82

German

1000

70.90

74.70

74.40

Glass

214

67.29

48.59

59.81

Heart

270

80.00

84.07

83.70

Hepatitis

155

81.94

83.23

87.10

Horse

368

85.33

78.80

82.61

Ionosphere

351

89.17

82.34

88.89

Iris

150

94.67

95.33

96.00

Labor

57

78.95

94.74

92.98

Led7

3200

73.34

73.16

73.56

Lymphography

148

77.03

83.11

86.49

Pima

768

74.35

76.04

76.95

Sonar

208

78.85

69.71

76.92

Tic-tac-toe

958

83.72

70.04

98.33

Vehicle

846

71.04

45.04

74.94

Wine

178

94.38

96.63

98.88

Zoo

101

93.07

93.07

96.04


Összegezze a 4.9. táblázatbeli osztályozók teljesítményét a következő 3×3 -as táblázat segítségével:

győzelem-vereség-döntetlen

Döntési fa

Naďve Bayes

Tartóvektor-

gép

Döntési fa

0--0--23

Naiv Bayes

0--0--23

Tartóvektor-gép

0--0--23

A táblázat minden cellája győzelmek, vereségek és döntetlenek számát tartalmazza, amikor egy adott sorbeli osztályozót összehasonlítunk az adott oszlopbeli osztályozóval.

12. Legyen X egy binomiális eloszlású valószínűségi változó Np várható értékkel és Np(1p) szórásnégyzettel. Mutassuk meg, hogy az X/N hányados binomiális eloszlású p várható értékkel és p(1p)/N szórásnégyzettel.