Feladatok

1. Tekintsünk egy 2 20 adatvektort tartalmazó adathalmazt, melynek minden vektora 32 elemű, és minden elem egy 4 bájtos érték. Tegyük fel, hogy tömörítésre alkalmaztunk vektor kvantálást, és hogy 2 16 prototípus vektort használtunk. Hány bájtnyi tárterületet foglal az adathalmaz a tömörítés előtt és után, mekkora továbbá a tömörítési arány?

2. Keressen meg minden jól elkülönülő klasztert 6. ábrán látható ponthalmazban.

8.35. ábra - A 2. feladathoz tartozó pontok

A 2. feladathoz tartozó pontok

3. Sok felosztó klaszterező algoritmus, mely automatikusan határozza meg a klaszterek számát, azt állítja, hogy ez előnyt jelent. Soroljon fel két olyan helyzetet, amelyekben hamis ez az állítás.

4. Ha adott K egyenlő nagyságú klaszter, akkor 1/K annak valószínűsége, hogy egy véletlenszerűen kiválasztott kiindulási középpont egy adott klaszterbe tartozzon, viszont sokkal kisebb annak valószínűsége, hogy minden klaszter pontosan egy kiindulási középpontot tartalmazzon. (Világos kell legyen, hogy a K -közép módszer számára egy jó kiinduló helyzet az, ha minden klaszterben található egy kezdő középpont.) Általánosan, ha K klaszter van és minden klaszter n pontot tartalmaz, akkor (8.15) képlet adja meg annak p valószínűségét, hogy egy K elemű mintába minden klaszterből kiválasztásra kerül egy középpont. (Visszatevéses mintavételt feltételezve.) A formulából kiszámíthatjuk például azt, hogy 4!/ 4 4 =0,0938 annak az esélye, hogy 4 klaszter mindegyikébe egy kezdő középpont esik.

p= annak száma, hogy hányféle módon választható ki minden klaszterből egy középpont annak száma, hogy hányféle módon választható ki K középpont = K! n K (Kn) K = K! K K (8.20)

  1. Ábrázolja annak valószínűségét, hogy minden klaszterből egy pont kerül kiválasztásra egy K elemű mintába, ahol K értéke 2 és 100 közötti.

  2. K klaszter esetén, ahol K=10,100,1000 , határozza meg annak valószínűségét, hogy egy 2K méretű minta minden klaszterből tartalmaz legalább egy elemet. A válasz meghatározásához használhat matematikai módszereket vagy statisztikai szimulációt is.

5. Azonosítsa a klasztereket a 8.36. ábrán a középpont, szomszédság- és sűrűség-alapú definíciók segítségével. Minden esetben adja meg a klaszterek számát is, valamint adjon rövid indoklást. Megjegyezzük, hogy a sötétség vagy pontok száma a sűrűséget jelzi. Amennyiben ez segít, tételezze fel, hogy a középpont-alapú definíció a K -közép módszert, a szomszédság-alapú az egyszerű kapcsolást, a sűrűség-alapú pedig a DBSCAN algoritmust jelenti.

8.36. ábra - Az 5. feladathoz tartozó klaszterek

Az 5. feladathoz tartozó klaszterek

6. Az alábbi kétdimenziós ponthalmazok esetén (1) vázolja fel, hogy hogyan vágná szét őket megadott számú klaszterré a K -közép módszer, és (2) megközelítőleg mutassa meg, hogy hol lennének az eredményül kapott középpontok. Tételezzük fel, hogy a négyzetes hiba célfüggvényt használjuk. Ha úgy véli, hogy egynél több lehetséges megoldás van, akkor minden egyes megoldáshoz tüntesse fel, hogy az lokális vagy globális minimum. Megjegyezzük, hogy a 8.37. ábra minden diagramjának felirata megfelel ezen kérdés vonatkozó részének, például a 8.37. (a) ábra az (a) részhez tartozik.

8.37. ábra - A 6. feladathoz tartozó diagramok

A 6. feladathoz tartozó diagramok

  1. K=2 . Tételezzük fel, hogy a pontok egyenletesen oszlanak el a körben. Hány lehetséges módja van (elméletileg) a pontok két klaszterre történő felosztásának? Mit tud mondani a két középpont helyzetéről? (Most sem kell megadnia a középpontok pontos helyét, csak egy kvalitatív leírást adjon.)

  2. K=3 . A körök szélei közötti távolság kissé nagyobb, mint a körök sugara.

  3. K=3 . A körök szélei közötti távolság sokkal kisebb, mint a körök sugara.

  4. K=2 .

  5. K=3 . Útmutatás: Használja fel a helyzet szimmetriáját, és emlékezzen arra, hogy csupán egy durva vázlatát keressük annak, hogy mi lenne az eredmény.

7. Tegyük fel egy adathalmazról, hogy

Az alábbiak közül melyik kell, hogy teljesüljön az adathalmazra a négyzetes hiba K klaszter keresése esetén történő minimalizálásához?

  1. A középpontoknak egyenlően kell eloszlaniuk a sűrűbb és kevésbé sűrű területek között.

  2. Több középpontnak kell lennie a kevésbé sűrű területen.

  3. Több középpontnak kell lennie a sűrűbb területen.

Megjegyzés: Ne vonják el a figyelmét rendkívüli esetek, és a sűrűségen kívül ne vegyen figyelembe más tényezőt. Ha úgy érzi azonban, hogy a helyes válasz különbözik a fentebb felsoroltaktól, akkor indokolja válaszát.

8. Tekintsük egy olyan objektumokból álló klaszter átlagát, amelyek egy bináris tranzakciós adathalmazból származnak. Melyek az átlag koordinátáinak legkisebb és legnagyobb értékei? Mi a klaszterátlag koordinátáinak értelmezése? Mely koordináták jellemzik legpontosabban a klaszter objektumait?

9. Adjon egy példát olyan adathalmazra, amely három természetes klasztert tartalmaz, és amelyre a K -közép módszer (majdnem minden esetben) jó eséllyel a helyes klasztereket találná meg, a kettéosztó K -közép módszer azonban nem.

10. A koszinusz mérték lenne-e a megfelelő hasonlóság mérték idősor adatok K -közép módszerrel történő klaszterezéséhez? Miért, vagy miért nem? Ha nem, akkor mely hasonlósági mérték lenne megfelelőbb?

11. A teljes SSE a különböző attribútumokhoz tartozó SSE értékek összege. Mit jelent az, ha az egyik változóhoz tartozó SSE minden klaszter esetén kicsi? Ha csak egy klaszter esetében kicsi? Ha nagy minden klaszter esetén? Ha csak egy klaszternél nagy? Hogyan tudná a klaszterezés javítására felhasználni a változónkénti SSE információkat?

12. A vezér algoritmus (leader algorithm, Hartigan [5008]) minden klasztert egy pont segítségével ábrázol, melyet vezérnek (leader) nevezünk, és minden pontot a hozzá legközelebbi vezérnek megfelelő klaszterhez rendel hozzá, hacsak nem nagyobb a vezértől mért távolság egy, a felhasználó által megadott küszöbértéknél. Ebben az esetben a pont egy új klaszter vezére lesz.

  1. Melyek a vezér algoritmus előnyei és hátrányai a K -közép módszerhez képest?

  2. Tegyen javaslatokat, melyek révén javítható a vezér algoritmus.

13. A sík egy K elemű ponthalmazának Voronoi diagramja a sík összes pontjának egy K számú területre történő olyan felosztása, ahol a sík minden pontját az adott K pont közül a hozzá legközelebbihez rendeljük hozzá. (Lásd 9. ábrát.) Mi a kapcsolat a Voronoi diagram és a K -közép módszer klaszterei között? Mit mondanak a Voronoi diagramok a K -közép klaszterek lehetséges alakjáról?

8.38. ábra - Voronoi diagram 1m. feladathoz

Voronoi diagram 1m. feladathoz

14. Adott egy 100 rekordból álló adathalmaz, feladatunk pedig az adatok klaszterezése. K -közép módszert használunk az adatok klaszterezésére, de az algoritmus csak egy nem üres klasztert ad vissza minden K értékre, ahol 1K100 . Ezután a K -közép algoritmus egy növekményes változatát alkalmazzuk, de pontosan ugyanezt az eredményt kapjuk. Hogyan lehetséges ez? Hogyan kezelne az egyszerű kapcsolás vagy a DBSCAN ilyen adatokat?

15. A hagyományos hierarchikus klaszterező eljárások minden lépésben két klasztert olvasztanak össze. Valószínűnek tűnik-e, hogy egy ilyen megközelítés pontosan tükrözi adatpontok egy halmazának (egymásba ágyazott) klaszterszerkezetét? Ha nem, akkor fejtse ki, hogy milyen utófeldolgozást végezhetne az adatokon, hogy pontosabb képet kapjon a klaszterszerkezetről.

16. Használja a 8.13. táblázat hasonlósági mátrixát egyszerű kapcsolású és teljes kapcsolású hierarchikus klaszterezés végrehajtására. Ábrázolja az eredményt egy dendrogram rajzolásával. A dendrogram egyértelműen kell hogy mutassa a pontok összevonásának sorrendjét.

8.13. táblázat - Hasonlósági mátrix a 16. feladathoz

p1

p2

p3

p4

p5

p1

1,00

0,10

0,41

0,55

0,35

p2

0,10

1,00

0,64

0,47

0,98

p3

0,41

0,64

1,00

0,44

0,85

p4

0,55

0,47

0,44

1,00

0,76

p5

0,35

0,98

0,85

0,76

1,00


17. A hierarchikus klaszterezést néha úgy használják K1 számú klaszter létrehozására, hogy a dendrogram K -adik szintjén lévő klasztereket veszik. (A gyökér az 1. szinten helyezkedik el.) Megvizsgálva az ilyen módon létrehozott klasztereket értékelhetjük a hierarchikus klaszterezés különböző típusú adatokon és klasztereken történő viselkedését, valamint összehasonlíthatjuk a hierarchikus megközelítéseket a K -közép módszerrel is.

Adott egydimenziós pontok következő halmaza: {6,12,18,24,30,42,48} .

  1. Az alábbi kiinduló középpont-halmazok mindegyike esetén hozzon létre két klasztert úgy, hogy minden pontot a legközelebbi középponthoz rendel hozzá, utána pedig minden esetben számítsa ki a teljes négyzetes hibát mindkét klaszterre. Minden középpont-halmaz esetén adja meg a klasztereket és a teljes négyzetes hibát.

    1. {18,45}

    2. {15,40}

  2. Stabil megoldást képvisel-e mindkét középpont-halmaz? Azaz, ha a K -közép algoritmust ugyanezen a ponthalmazon hajtottuk volna végre az adott középpontokat használva kiindulási középpontokként, akkor történne-e változás a létrejövő klaszterekben?

  3. Mely két klasztert állítja elő az egyszerű kapcsolás?

  4. Mely módszer, a K -közép vagy az egyszerű kapcsolás, állítja elő látszólag a ``legtermészetesebb'' klaszterezést ebben a helyzetben? (A K -közép módszer esetén tekintsük a legkisebb négyzetes hibával járó klaszterezést.)

  5. A klaszterezés mely definíciójának (definícióinak) felel meg ez a természetes klaszterezés? (Jól-elkülönülő, középpont-alapú, szomszédság-alapú, vagy sűrűség-alapú?)

  6. A K -közép algoritmus mely jól ismert jellemzője okozza az előbbi viselkedést?

18. Tegyük fel, hogy K klasztert találunk a Ward módszerrel, a kettéosztó K -közép módszerrel és a hagyományos K -közép módszerrel. Ezen megoldások közül melyik képvisel lokális vagy globális minimumot? Magyarázza meg, hogy miért.

19. A hierarchikus klaszterező algoritmusok O( m 2 log(m)) időigényűek, ebből kifolyólag nem praktikus a nagyobb adathalmazokon történő közvetlen használatuk. A szükséges idő csökkentésének egyik módszere az adathalmaz mintavételezése. Ha például K klasztert szeretnénk létrehozni és m pontot mintavételeztünk m számú pontból, akkor egy hierarchikus klaszterező algoritmus nagyjából O(m) idő alatt állít elő egy hierarchikus klaszterezést. Úgy nyerhetünk ki K klasztert ebből a hierarchikus klaszterezésből, hogy a dendrogram K -adik szintjén lévő klasztereket vesszük. A fennmaradó pontokat ezután több stratégia segítségével lineáris időben sorolhatjuk klaszterekbe. Hogy egy konkrét példát adjunk, kiszámíthatjuk a K klaszter középpontjait, majd az m m fennmaradó pont mindegyikét a legközelebbi középponthoz tartozó klaszterhez rendelhetjük hozzá.

Minden, a következőkben felsorolt adat- és klasztertípus esetén vitassa meg röviden, hogy (1) okoz-e a mintavétel problémákat a fenti megközelítésnél, és hogy (2) melyek ezek a problémák. Tegyük fel, hogy a mintavételezési módszer véletlenszerűen választ pontokat az összesen m pontból, és hogy az adatok vagy klaszterek minden nem említett jellemzője a lehető legoptimálisabb. Más szóval, csak a megadott jellemzőkből adódó hibákra összpontosítson. Tegyük fel végül, hogy K sokkal kisebb, mint m .

  1. Nagyon eltérő méretű klasztereket tartalmazó adatok.

  2. Magas dimenziójú adatok.

  3. Kiugró értékeket, azaz a tipikustól eltérő pontokat tartalmazó adatok.

  4. Szabálytalan területeket tartalmazó adatok.

  5. Gömb alakú klasztereket tartalmazó adatok.

  6. Nagyon eltérő sűrűségű adatok.

  7. Csekély mennyiségű zajos pontot tartalmazó adatok.

  8. Nem-euklideszi adatok.

  9. Euklideszi adatok.

  10. Sok különböző típusú attribútumot tartalmazó adatok.

20. Tekintsük a 8.39. ábrán látható négy arcot. A sötétség vagy a pontok száma ismét a sűrűséget jelzi. A vonalak csupán területeket különítenek el, nem pedig pontokat ábrázolnak.

8.39. ábra - A 20. feladathoz tartozó ábra

A 20. feladathoz tartozó ábra

  1. Meg tudná-e találni egyszerű kapcsolás segítségével az orr, a szem és a száj által reprezentált mintázatokat az összes ábrán? Indokolja meg, hogy miért.

  2. Meg tudná-e találni K -közép módszer segítségével az orr, a szem és a száj által reprezentált mintázatokat az összes ábrán? Indokolja meg, hogy miért.

  3. Milyen korlátokkal rendelkezik a klaszterezés a 8.39. (c) ábrán a pontok által alkotott összes mintázat észlelését illetően?

21. Számítsa ki az entrópiát és a tisztaságot a 8.14. táblázatban látható tévesztési mátrixra.

8.14. táblázat - Tévesztési mátrix a 21. feladathoz

Klaszter

Szórakozás

Pénzügy

Külügy

Helyi hírek

Belföld

Sport

Összesen

1.

1

1

0

11

4

676

693

2.

27

89

333

827

253

33

1562

3.

326

465

8

105

16

29

949

Összesen

354

555

341

943

273

738

3204


22. Adott két, 100 olyan pontból álló halmaz, amelyek az egységnégyzeten belül helyezkednek el. Az egyik adathalmaz olyan módon elrendezett, hogy a pontok egymástól egyenlő távolságra helyezkednek el. A másik adathalmazt az egységnégyzeten egyenletes eloszlásból generáljuk.

  1. Van-e különbség a két ponthalmaz között?

  2. Ha van, akkor általában melyik ponthalmazon lesz kisebb az SSE értéke K=10 számú klaszter esetén?

  3. Hogyan fog viselkedni a DBSCAN a rendezett adathalmazon? Hogyan a véletlen adathalmazon?

23. A 24.. feladat adatait felhasználva számítsa ki a sziluett együttható értékét minden egyes pontra, mindkét klaszterre és a teljes klaszterezésre.

24. Adott a 8.15 és a 8.16. táblázatban látható klasztercímke halmaz és hasonlósági mátrix. Számítsa ki a hasonlósági mátrix és az ideális hasonlósági mátrix közötti korrelációt. (Az ideális hasonlósági mátrix ij -edik eleme 1, ha a megfelelő két objektum ugyanabba a klaszterbe tartozik, 0 egyébként.)

8.15. táblázat - A klasztercímkék táblázata a 24. feladathoz

Pont

Klasztercímke

P1

1

P2

1

P3

2

P4

2


8.16. táblázat - Hasonlósági mátrix a 24. feladathoz

Pont

P1

P2

P3

P4

P1

1

0,8

0,65

0,55

P2

0,8

1

0,7

0,6

P3

0,65

0,7

1

0,9

P4

0,55

0,6

0,9

1


25. Számítsa ki a hierarchikus F -mértéket 11. ábrán látható nyolc objektumra ( p1 , p2 , p3 , p4 , p5 , p6 , p7 , p8 ) és hierarchikus klaszterezésre. Az A osztály a p1 , p2 és p3 pontokat tartalmazza, míg a p4 , p5 , p6 , p7 és p8 a B osztályhoz tartozik.

8.40. ábra - Hierarchikus klaszterezés a 25. feladathoz

Hierarchikus klaszterezés a 25. feladathoz

26. Számítsa ki a kofenetikus korrelációs együtthatót a 16. feladat hierarchikus klaszterezéseire. (A hasonlóságokat különbözőségekké kell alakítania.)

27. Bizonyítsa be (8.14) egyenletet.

28. Bizonyítsa be (8.16) egyenletet.

29. Bizonyítsa be, hogy i=1 K x C i (x m i )(m m i )=0 . Ezt a tényt használtuk fel a 8.5.2. szakaszban annak bizonyításánál, hogy TSS = SSE + SSB.

30. Dokumentumok klasztereit összegezhetjük úgy, hogy megkeressük a legmagasabb rangú kifejezéseket (szavakat) a klaszter dokumentumaiban, azaz a k leggyakoribb kifejezést véve, ahol k egy konstans, például 10, vagy az összes olyan kifejezést véve, melyek egy adott küszöbértéknél gyakrabban fordulnak elő. Tegyük fel, hogy a K -közép módszert használjuk arra, hogy egy dokumentum adathalmazban megkeressük a dokumentumok és szavak klasztereit is.

  1. Mennyiben térhet el a dokumentum klaszterek legmagasabb rangú kifejezései által meghatározott kifejezés klaszterek halmaza a kifejezések K -közép módszerrel történő klaszterezésével kapott kifejezés klaszterektől?

  2. Hogyan használhatnánk a kifejezések klaszterezését a dokumentumok klasztereinek meghatározására?

32. Egy adathalmaz ábrázolható objektum-csúcsok egy és attribútum-csúcsok egy halmazaként, ahol minden objektum és minden attribútum között egy él van, és ahol egy él súlya az adott attribútum az objektumhoz tartozó értéke. Ritka adatok esetén elhagyunk egy élt, ha az érték 0. A páros klaszterezés (bipartite clustering) ezt a gráfot próbálja diszjunkt klaszterekre osztani, ahol minden egyes klaszter objektum- és attribútum-csúcsokból áll. A cél az objektum- és attribútum-csúcsok közötti élek súlyainak maximalizálása egy klaszteren belül, és egyidejűleg a különböző klaszterekhez tartozó objektum- és attribútum-csúcsok közötti élek súlyainak minimalizálása. Ezt a típusú klaszterezést együttes klaszterezésnek (co-clustering) is nevezik, mivel az objektumok és az attribútumok klaszterezése egyidejűleg történik.

  1. Mennyiben különbözik a páros klaszterezés (együttes klaszterezés) attól, ha az objektum- és attribútumhalmazokat külön-külön klaszterezzük?

  2. Vannak-e olyan esetek, melyekben a két szemléletmód ugyanazokat a klasztereket állítja elő?

  3. Melyek az együttes klaszterezés erősségei és gyengéi a hagyományos klaszterezéshez képest?

33. Párosítsa össze a 8.41. ábrán látható és a klasztercímkék szerint rendezett hasonlósági mátrixokat az ábra ponthalmazaival. A klasztereket eltérő színezés és szimbólumok különböztetik meg, valamint minden ponthalmaz 100 pontot és 3 klasztert tartalmaz. A 2-es ponthalmazban 3 nagyon szoros, azonos méretű klaszter van.

8.41. ábra - Pontok és hasonlósági mátrixok a 32. feladathoz

Pontok és hasonlósági mátrixok a 32. feladathoz