1. Tekintsünk egy
2. Keressen meg minden jól elkülönülő klasztert 6. ábrán látható ponthalmazban.
3. Sok felosztó klaszterező algoritmus, mely automatikusan határozza meg a klaszterek számát, azt állítja, hogy ez előnyt jelent. Soroljon fel két olyan helyzetet, amelyekben hamis ez az állítás.
4. Ha adott
Ábrázolja annak valószínűségét, hogy minden klaszterből egy
pont kerül kiválasztásra egy
5. Azonosítsa a klasztereket a 8.36. ábrán a középpont,
szomszédság- és sűrűség-alapú definíciók segítségével. Minden esetben
adja meg a klaszterek számát is, valamint adjon rövid indoklást.
Megjegyezzük, hogy a sötétség vagy pontok száma a sűrűséget jelzi.
Amennyiben ez segít, tételezze fel, hogy a középpont-alapú definíció a
6. Az alábbi kétdimenziós ponthalmazok esetén (1) vázolja fel,
hogy hogyan vágná szét őket megadott számú klaszterré a
7. Tegyük fel egy adathalmazról, hogy
*
a pontok és klaszterek fele ``sűrűbb'' területeken helyezkedik el,
a pontok és klaszterek fele ``ritkább'' területeken helyezkedik el, és
a két terület jól elkülönül egymástól.
Az alábbiak közül melyik kell, hogy teljesüljön az adathalmazra a
négyzetes hiba
A középpontoknak egyenlően kell eloszlaniuk a sűrűbb és kevésbé sűrű területek között.
Több középpontnak kell lennie a kevésbé sűrű területen.
Több középpontnak kell lennie a sűrűbb területen.
Megjegyzés: Ne vonják el a figyelmét rendkívüli esetek, és a sűrűségen kívül ne vegyen figyelembe más tényezőt. Ha úgy érzi azonban, hogy a helyes válasz különbözik a fentebb felsoroltaktól, akkor indokolja válaszát.
8. Tekintsük egy olyan objektumokból álló klaszter átlagát, amelyek egy bináris tranzakciós adathalmazból származnak. Melyek az átlag koordinátáinak legkisebb és legnagyobb értékei? Mi a klaszterátlag koordinátáinak értelmezése? Mely koordináták jellemzik legpontosabban a klaszter objektumait?
9. Adjon egy példát olyan adathalmazra, amely három természetes
klasztert tartalmaz, és amelyre a
10. A koszinusz mérték lenne-e a megfelelő hasonlóság mérték
idősor adatok
11. A teljes SSE a különböző attribútumokhoz tartozó SSE értékek összege. Mit jelent az, ha az egyik változóhoz tartozó SSE minden klaszter esetén kicsi? Ha csak egy klaszter esetében kicsi? Ha nagy minden klaszter esetén? Ha csak egy klaszternél nagy? Hogyan tudná a klaszterezés javítására felhasználni a változónkénti SSE információkat?
12. A vezér algoritmus (leader algorithm, Hartigan [5008]) minden klasztert egy pont segítségével ábrázol, melyet vezérnek (leader) nevezünk, és minden pontot a hozzá legközelebbi vezérnek megfelelő klaszterhez rendel hozzá, hacsak nem nagyobb a vezértől mért távolság egy, a felhasználó által megadott küszöbértéknél. Ebben az esetben a pont egy új klaszter vezére lesz.
Melyek a vezér algoritmus előnyei és hátrányai a
Tegyen javaslatokat, melyek révén javítható a vezér algoritmus.
13. A sík egy
14. Adott egy 100 rekordból álló adathalmaz, feladatunk pedig az
adatok klaszterezése.
15. A hagyományos hierarchikus klaszterező eljárások minden lépésben két klasztert olvasztanak össze. Valószínűnek tűnik-e, hogy egy ilyen megközelítés pontosan tükrözi adatpontok egy halmazának (egymásba ágyazott) klaszterszerkezetét? Ha nem, akkor fejtse ki, hogy milyen utófeldolgozást végezhetne az adatokon, hogy pontosabb képet kapjon a klaszterszerkezetről.
16. Használja a 8.13. táblázat hasonlósági mátrixát egyszerű kapcsolású és teljes kapcsolású hierarchikus klaszterezés végrehajtására. Ábrázolja az eredményt egy dendrogram rajzolásával. A dendrogram egyértelműen kell hogy mutassa a pontok összevonásának sorrendjét.
8.13. táblázat - Hasonlósági mátrix a 16. feladathoz
p1 | p2 | p3 | p4 | p5 | |
p1 | 1,00 | 0,10 | 0,41 | 0,55 | 0,35 |
p2 | 0,10 | 1,00 | 0,64 | 0,47 | 0,98 |
p3 | 0,41 | 0,64 | 1,00 | 0,44 | 0,85 |
p4 | 0,55 | 0,47 | 0,44 | 1,00 | 0,76 |
p5 | 0,35 | 0,98 | 0,85 | 0,76 | 1,00 |
17. A hierarchikus klaszterezést néha úgy használják
Adott egydimenziós pontok következő halmaza:
Az alábbi kiinduló középpont-halmazok mindegyike esetén hozzon létre két klasztert úgy, hogy minden pontot a legközelebbi középponthoz rendel hozzá, utána pedig minden esetben számítsa ki a teljes négyzetes hibát mindkét klaszterre. Minden középpont-halmaz esetén adja meg a klasztereket és a teljes négyzetes hibát.
Stabil megoldást képvisel-e mindkét középpont-halmaz? Azaz, ha
a
Mely két klasztert állítja elő az egyszerű kapcsolás?
Mely módszer, a
A klaszterezés mely definíciójának (definícióinak) felel meg ez a természetes klaszterezés? (Jól-elkülönülő, középpont-alapú, szomszédság-alapú, vagy sűrűség-alapú?)
A
18. Tegyük fel, hogy
19. A hierarchikus klaszterező algoritmusok
Minden, a következőkben felsorolt adat- és klasztertípus esetén
vitassa meg röviden, hogy (1) okoz-e a mintavétel problémákat a fenti
megközelítésnél, és hogy (2) melyek ezek a problémák. Tegyük fel, hogy a
mintavételezési módszer véletlenszerűen választ pontokat az összesen
Nagyon eltérő méretű klasztereket tartalmazó adatok.
Magas dimenziójú adatok.
Kiugró értékeket, azaz a tipikustól eltérő pontokat tartalmazó adatok.
Szabálytalan területeket tartalmazó adatok.
Gömb alakú klasztereket tartalmazó adatok.
Nagyon eltérő sűrűségű adatok.
Csekély mennyiségű zajos pontot tartalmazó adatok.
Nem-euklideszi adatok.
Euklideszi adatok.
Sok különböző típusú attribútumot tartalmazó adatok.
20. Tekintsük a 8.39. ábrán látható négy arcot. A sötétség vagy a pontok száma ismét a sűrűséget jelzi. A vonalak csupán területeket különítenek el, nem pedig pontokat ábrázolnak.
Meg tudná-e találni egyszerű kapcsolás segítségével az orr, a szem és a száj által reprezentált mintázatokat az összes ábrán? Indokolja meg, hogy miért.
Meg tudná-e találni
Milyen korlátokkal rendelkezik a klaszterezés a 8.39. (c) ábrán a pontok által alkotott összes mintázat észlelését illetően?
21. Számítsa ki az entrópiát és a tisztaságot a 8.14. táblázatban látható tévesztési mátrixra.
8.14. táblázat - Tévesztési mátrix a 21. feladathoz
Klaszter | Szórakozás | Pénzügy | Külügy | Helyi hírek | Belföld | Sport | Összesen |
1. | 1 | 1 | 0 | 11 | 4 | 676 | 693 |
2. | 27 | 89 | 333 | 827 | 253 | 33 | 1562 |
3. | 326 | 465 | 8 | 105 | 16 | 29 | 949 |
Összesen | 354 | 555 | 341 | 943 | 273 | 738 | 3204 |
22. Adott két, 100 olyan pontból álló halmaz, amelyek az egységnégyzeten belül helyezkednek el. Az egyik adathalmaz olyan módon elrendezett, hogy a pontok egymástól egyenlő távolságra helyezkednek el. A másik adathalmazt az egységnégyzeten egyenletes eloszlásból generáljuk.
Van-e különbség a két ponthalmaz között?
Ha van, akkor általában melyik ponthalmazon lesz kisebb az SSE
értéke
Hogyan fog viselkedni a DBSCAN a rendezett adathalmazon? Hogyan a véletlen adathalmazon?
23. A 24.. feladat adatait felhasználva számítsa ki a sziluett együttható értékét minden egyes pontra, mindkét klaszterre és a teljes klaszterezésre.
24. Adott a 8.15 és a 8.16. táblázatban látható klasztercímke
halmaz és hasonlósági mátrix. Számítsa ki a hasonlósági mátrix és az
ideális hasonlósági mátrix közötti korrelációt. (Az ideális hasonlósági
mátrix
8.16. táblázat - Hasonlósági mátrix a 24. feladathoz
Pont | P1 | P2 | P3 | P4 |
P1 | 1 | 0,8 | 0,65 | 0,55 |
P2 | 0,8 | 1 | 0,7 | 0,6 |
P3 | 0,65 | 0,7 | 1 | 0,9 |
P4 | 0,55 | 0,6 | 0,9 | 1 |
25. Számítsa ki a hierarchikus
26. Számítsa ki a kofenetikus korrelációs együtthatót a 16. feladat hierarchikus klaszterezéseire. (A hasonlóságokat különbözőségekké kell alakítania.)
27. Bizonyítsa be (8.14) egyenletet.
28. Bizonyítsa be (8.16) egyenletet.
29. Bizonyítsa be, hogy
30. Dokumentumok klasztereit összegezhetjük úgy, hogy megkeressük
a legmagasabb rangú kifejezéseket (szavakat) a klaszter dokumentumaiban,
azaz a
Mennyiben térhet el a dokumentum klaszterek legmagasabb rangú
kifejezései által meghatározott kifejezés klaszterek halmaza a
kifejezések
Hogyan használhatnánk a kifejezések klaszterezését a dokumentumok klasztereinek meghatározására?
32. Egy adathalmaz ábrázolható objektum-csúcsok egy és attribútum-csúcsok egy halmazaként, ahol minden objektum és minden attribútum között egy él van, és ahol egy él súlya az adott attribútum az objektumhoz tartozó értéke. Ritka adatok esetén elhagyunk egy élt, ha az érték 0. A páros klaszterezés (bipartite clustering) ezt a gráfot próbálja diszjunkt klaszterekre osztani, ahol minden egyes klaszter objektum- és attribútum-csúcsokból áll. A cél az objektum- és attribútum-csúcsok közötti élek súlyainak maximalizálása egy klaszteren belül, és egyidejűleg a különböző klaszterekhez tartozó objektum- és attribútum-csúcsok közötti élek súlyainak minimalizálása. Ezt a típusú klaszterezést együttes klaszterezésnek (co-clustering) is nevezik, mivel az objektumok és az attribútumok klaszterezése egyidejűleg történik.
Mennyiben különbözik a páros klaszterezés (együttes klaszterezés) attól, ha az objektum- és attribútumhalmazokat külön-külön klaszterezzük?
Vannak-e olyan esetek, melyekben a két szemléletmód ugyanazokat a klasztereket állítja elő?
Melyek az együttes klaszterezés erősségei és gyengéi a hagyományos klaszterezéshez képest?
33. Párosítsa össze a 8.41. ábrán látható és a klasztercímkék szerint rendezett hasonlósági mátrixokat az ábra ponthalmazaival. A klasztereket eltérő színezés és szimbólumok különböztetik meg, valamint minden ponthalmaz 100 pontot és 3 klasztert tartalmaz. A 2-es ponthalmazban 3 nagyon szoros, azonos méretű klaszter van.