A felügyelt tanításnál az eredményül kapott osztályozási modell kiértékelése szerves része az osztályozási modell kidolgozása folyamatának, és erre széles körben elfogadott kiértékelési mértékek és eljárások léteznek, például a pontosság és a keresztellenőrzés. A klaszter kiértékelés azonban természeténél fogva nem egy jól kidolgozott vagy gyakran használt része a klaszteranalízisnek.
Lehet némi zavar azzal kapcsolatban, hogy miért is szükséges a
klaszter kiértékelés. Sokszor a feltáró adatelemzés részeként folytatják
le a klaszteranalízist. Ezért a kiértékelés egy hétköznapinak gondolt
folyamat felesleges bonyolításának tűnhet. Továbbá, mivel a
klasztereknek számos különböző típusa van -- bizonyos esetekben egyes
klaszterező algoritmusok saját klasztertípust definiálnak --, úgy
tűnhet, hogy minden esetben más kiértékelési mértékre van szükség.
Például a
Mindazonáltal a klaszter kiértékelés minden klaszteranalízis része
kell, hogy legyen. Egy kulcsfontosságú indok az, hogy majdnem minden
klaszterező algoritmus klasztereket fog találni egy adathalmazban, még
akkor is, ha az adathalmaznak nincs természetes klaszterszerkezete.
Tekintsük például a 8.26. ábrát, amelyen 100 olyan pont klaszterezésének
eredménye látható, amelyek véletlenszerűen (egyenletesen) oszlanak el az
egységnégyzeten. Az eredeti pontok a 8.26. (a) ábrán láthatóak, míg a
DBSCAN, a
Képesnek lenni annak megkülönböztetésére, hogy van-e az adatokban nem-véletlen szerkezet, csupán a klaszterellenőrzés egyik fontos szempontja. Az alábbiakban a klaszterellenőrzés néhány fontos kérdését soroljuk fel.
Egy adathalmaz klaszterezhetőségének (clustering tendency) megállapítása, azaz annak megkülönböztetése, hogy az adatokban ténylegesen van-e nem-véletlen szerkezet.
A klaszterek helyes számának meghatározása.
Annak kiértékelése külső információkra való hivatkozás nélkül, hogy egy klaszteranalízis eredménye milyen jól illeszkedik az adatokra.
Egy klaszteranalízis eredményének összehasonlítása külsőleg ismert eredményekkel, mint például külsőleg biztosított osztálycímkék.
Két klaszterhalmaz összehasonlítása annak meghatározására, hogy melyik a jobb.
Vegyük észre, hogy az 1., 2. és 3. pont nem használ fel semmiféle külső információt -- ezek felügyelet nélküli módszerek --, míg a 4. pont külső információkat igényel. Az 5. pont elvégezhető felügyelt vagy felügyelet nélkül módon is. A 3., 4. és 5. pontok tekintetében egy további különbséget tehetünk: a teljes klaszterezést vagy az egyes klasztereket szeretnénk értékelni?
Bár lehetséges különféle számszerű mértékek alkotása a klaszter érvényesség fent említett különböző szempontjainak mérésére, számos kihívás van. Először is, elég korlátozott lehet egy klaszter érvényességi mérték alkalmazhatósága. A klaszterezhetőség mértékeivel kapcsolatos legtöbb munka például két- vagy háromdimenziós térbeli adatokra irányult. Másodszor, bármiféle mérőszám értelmezéséhez egy keretrendszer szükséges. Ha a 10 értéket kapjuk egy azt értékelő mérték esetén, hogy milyen jól illeszkednek klasztercímkék külsőleg biztosított osztálycímkékre, akkor ez az érték jó, elfogadható vagy rossz illeszkedést jelent? Az illeszkedés jósága gyakran mérhető ezen érték statisztikai eloszlásának vizsgálata révén, azaz azáltal, hogy mennyire valószínű az, hogy az érték véletlenül fordul elő. Végül, ha túl bonyolult egy mérték alkalmazása vagy megértése, csak kevesen fogják használni.
Hagyományosan a következő három típusba sorolják azokat a kiértékelési mértékeket vagy indexeket, amelyeket a klaszter érvényesség különféle szempontjainak értékelésére alkalmaznak.
Felügyelet nélküli
Egy klaszterezési szerkezet jóságát méri külső információk felhasználása nélkül. Ennek egy példája az SSE. A klaszter érvényesség felügyelet nélküli mértékeit gyakran két további osztályra bontják: a klaszter kohézió (cluster cohesion) (tömörség, szorosság) mértékei, melyek azt határozzák meg, hogy milyen szorosan kapcsolódnak az objektumok egy klaszterben, valamint a klaszter elkülönülés (cluster separation) (izoláció) mértékei, melyek azt határozzák meg, hogy egy klaszter mennyire elhatárolható vagy jól elkülönülő a többi klasztertől. A felügyelet nélküli mértékeket gyakran belső indexeknek (internal indices) hívják, mivel csak olyan információkat használnak fel, amelyek az adathalmazban találhatóak.
Felügyelt
Annak fokát méri, hogy a klaszterező algoritmus által feltárt klaszterezési szerkezet mennyire illeszkedik valamilyen külső szerkezetre. A felügyelt indexek egy példája az entrópia, amely azt méri, hogy milyen jól illeszkednek a klasztercímkék külsőleg adott osztálycímkékre. A felügyelt mértékeket gyakran külső indexeknek (external indices) nevezik, mert olyan információkat használnak fel, amelyek nem az adathalmaz részét alkotják.
Relatív
ülönböző klaszterezéseket vagy klasztereket hasonlít össze. Egy
relatív klaszter kiértékelési mérték egy olyan felügyelt vagy
felügyelet nélküli kiértékelési mérték, amely összehasonlítási célra
szolgál. A relatív mértékek tehát valójában nem a klaszter
kiértékelési mértékek egy külön típusát képviselik, hanem inkább ilyen
mértékek egy speciális felhasználást jelentik. Például két
A szakasz hátralevő részében a klaszter érvényesség konkrét részleteit adjuk meg. Először a felügyelet nélküli klaszter kiértékeléshez kapcsolódó témákat írunk le, (1) a klaszterek kohézióján és elkülönülésén alapuló mértékekkel és (2) két, a szomszédsági mátrixon alapuló módszerrel kezdve. Mivel ezek a módszerek csak felosztó klaszterező módszerek által létrehozott klaszterhalmazok esetén hasznosak, leírjuk a népszerű kofenetikus korrelációs együtthatót is, amely egy hierarchikus klaszterezés felügyelet nélküli kiértékelésére használható. A felügyelet nélküli kiértékelés tárgyalását a helyes klaszterszám meghatározásáról és a klaszterezhetőség kiértékeléséről szóló rövid fejtegetéssel zárjuk. Ezt követően a klaszter érvényesség felügyelt megközelítéseit tekintjük, mint például az entrópia, a tisztaság és a Jaccard-mérték. A szakaszt egy arról szóló rövid tárgyalással zárjuk, hogy miként értelmezhetőek a (felügyelt és felügyelet nélküli) érvényességi mértékek értékei.
A klaszter érvényesség sok belső mértéke, amelyeket a felosztó klaszterező sémákhoz használnak, épül a kohézió és elkülönülés fogalmára. Ebben a szakaszban a prototípus- és gráf-alapú klaszterező módszerek érvényességi mértékeit használjuk ezen fogalmak bizonyos mélységű vizsgálatára. Ennek során néhány érdekes összefüggést is látni fogunk a prototípus- és a gráf-alapú klaszterezés között.
Általánosan,
Az érvényesség függvény lehet kohézió, elkülönülés, vagy ezen mennyiségek valamilyen kombinációja. A súlyok a klaszter érvényességi mértéktől függően változnak. Néhány esetben a súlyok értéke egyszerűen 1 vagy a klaszterméret, míg más esetekben a súlyok egy bonyolultabb tulajdonságot tükröznek, mint például a kohézió négyzetgyöke. (Lásd a 8.6. táblázatot.) Ha az érvényességi függvény a kohézió, akkor a nagyobb értékek jobbak, ha az elkülönülés, akkor pedig a kisebbek.
A kohézió és elkülönülés gráf-alapú szemlélete
Gráf-alapú klaszterek esetén egy klaszter kohéziója definiálható a szomszédsági gráf azon éleihez tartozó súlyok összegeként, amelyek a klaszteren belül kötnek össze pontokat. (Lásd a 8.27. (a) ábrát.) (Emlékezzünk arra, hogy a szomszédsági gráf csúcsai adatobjektumok, minden adatobjektum-pár között egy él van, és minden élhez egy súly tartozik, amely az él által összekötött két adatobjektum közötti közelség.) Két klaszter közötti elkülönülés hasonlóan mérhető az egyik klaszter pontjaiból a másik klaszter pontjaiba vezető élek súlyainak összegeként. (Ezt a 8.27. (b) ábra szemlélteti.)
Egy gráf-alapú klaszter kohéziója és elkülönülése matematikailag a (8.9) és (8.10) egyenletek segítségével fejezhető ki. A közelség függvény lehet egy hasonlóság, egy különbözőség, vagy ezek egy egyszerű függvénye.
A kohézió és elkülönülés prototípus-alapú nézete
A prototípus-alapú klaszterek esetén egy klaszter kohéziója a prototípushoz (középponthoz vagy medoidhoz) viszonyított közelségek összegeként definiálható. Két klaszter elkülönülése hasonlóan mérhető a két klaszter közelségével. A 8.28. ábra szemlélteti ezt, ahol a ``+'' szimbólum egy klaszter középpontját jelzi.
Egy prototípus-alapú klaszter kohézióját a (8.11) egyenlet adja
meg, míg az elkülönülés két mértékét a (8.12) és a (8.13) egyenlet,
ahol
A kohézió és az elkülönülés teljes mértéke
A klaszter kohézió és elkülönülés előbbi definíciói a klaszter érvényesség egyszerű és jól meghatározott mértékeit adják, melyeket a klaszter érvényesség egy teljes mértékévé kombinálhatunk egy súlyozott összeg használata révén, ahogyan ezt a (8.8) egyenlet mutatja. El kell döntenünk azonban, hogy milyen súlyokat használjunk. Nem meglepő, hogy a használt súlyok széles tartományban változhatnak, bár tipikusan a klaszterméret valamilyen mérőszámai.
A 8.6. táblázat a kohézión és elkülönülésen alapuló érvényességi
mértékekre ad példákat. Az
8.6. táblázat - Gráf-alapú klaszter kiértékelési mértékek táblázata
Név | Klasztermérték | Klasztersúly | Típus |
|
|
| gráf-alapú kohézió |
|
| 1 | prototípus-alapú kohézió |
|
|
| prototípus-alapú elkülönülés |
|
|
| gráf-alapú elkülönülés és kohézió |
Megjegyezzük, hogy bármely felügyelet nélküli klaszter
érvényességi mérték potenciális célfüggvényként alkalmazható egy
klaszterező algoritmushoz, és viszont. A CLUstering TOolkit (CLUTO)
(lásd az irodalmi megjegyzéseket) a 8.6. táblázatban leírt klaszter
kiértékelési mértékeket használja a klaszterező eljárás
működtetéséhez, valamint néhány további mértéket is használ, amelyek
itt nem kerülnek említésre. Egy olyan algoritmus segítségével hajtja
ezt végre, amely hasonló a 8.2.2. szakaszban tárgyalt
A prototípus-alapú kohézió és gráf-alapú kohézió közötti kapcsolat
Bár eltérőnek látszanak az egy klaszter kohéziójának és elkülönülésének mérésére szolgáló gráf-alapú és prototípus-alapú megközelítések, néhány közelségi mérték esetén ekvivalensek. Megmutatható például az SSE és euklideszi térbeli pontok esetén (lásd a (8.14) egyenletet), hogy egy klaszter pontjai közötti átlagos páronkénti távolság ekvivalens a klaszter SSE értékével. (Lásd a 27. feladatot az 585. oldalon.)
A prototípus-alapú elkülönülés két szemlélete
Amennyiben a közelséget euklideszi távolsággal mérjük, akkor a
klaszterek közötti elkülönülés hagyományos mértéke a csoportok közötti
négyzetösszeg (SSB -- between group sum of squares), amely egy
Egyszerű megmutatni, hogy a teljes SSB közvetlenül összefügg a
középpontok közötti páronkénti távolságokkal. Különösen akkor, ha a
klaszterek egyenlő nagyságúak, azaz
A kohézió és elkülönülés közötti kapcsolat
Néhány esetben a kohézió és az elkülönülés között is erős kapcsolat van. Pontosabban, megmutatható, hogy a teljes SSE és a teljes SSB összege konstans, azaz egyenlő a teljes négyzetösszeggel (TSS -- total sum of squares), amely az egyes pontok az adatok teljes átlagtól vett távolságának négyzetösszege. Ennek az eredménynek az a fontossága, hogy a SSE (kohézió) minimalizálása ekvivalens az SSB (elkülönülés) maximalizálásával.
Ezen tény bizonyítását adjuk alább, mivel a megközelítés olyan
módszereket is bemutat, amelyek alkalmazhatóak az utolsó két
szakaszban meghatározott kapcsolatok igazolására is. A jelölés
egyszerűsítésének érdekében feltesszük, hogy az adatok egydimenziósak,
azaz
Egyéni klaszterek és objektumok kiértékelése
Eddig a kohézió és elkülönülés klaszterek egy csoportjának teljes kiértékeléséhez való felhasználására koncentráltunk. Ezen klaszter érvényességi mértékek közül számos használható egyéni klaszterek és objektumok kiértékelésére is. Rangsorolhatunk például klasztereket valamely klaszter érvényességi értékük, azaz a klaszter kohézió vagy elkülönülés szerint. Egy nagy kohéziójú klasztert jobbnak tekinthetünk, mint egy kisebb kohéziójút. Ez az információ gyakran felhasználható a klaszterezés minőségének javítására. Ha például egy klaszter nem erősen összetartozó, akkor esetleg több alklaszterre kívánjuk szétvágni. Ugyanakkor, ha két klaszter viszonylag összetartozó, akkor esetleg egyetlen klaszterbe kívánjuk összeolvasztani őket.
Egy klaszteren belüli objektumokat értékelhetünk a klaszter teljes kohéziójához vagy elkülönüléséhez való hozzájárulásuk szempontjából is. Azok az objektumok, melyek nagyobb mértékben járulnak a kohézióhoz és az elkülönüléshez, a klaszter ``belsejének'' közelében vannak. Azok az objektumok, melyekre ennek ellenkezője igaz, valószínűleg a klaszter ``szélének'' közelében vannak. A következő szakaszban egy olyan klaszter kiértékelési mértéket tekintünk, amely egy, a fenti meggondolásokra épülő megközelítést használ pontok, klaszterek és teljes klaszterhalmazok kiértékelésére.
A sziluett együttható
A népszerű sziluett együttható a kohéziót és elkülönülést kombinálja. A következő lépések magyarázzák el a sziluett együttható kiszámításának módját egy egyedi pontra, amely folyamat a következő három lépésből áll. Távolságokat használunk, de egy hasonló megközelítés használható hasonlóságokra.
Számítsuk ki az
Az
Az
A sziluett együttható értéke
Egy klaszter átlagos sziluett együtthatóját kiszámíthatjuk úgy, hogy egyszerűen a klaszterhez tartozó pontok sziluett együtthatóinak átlagát vesszük. Egy klaszterezés teljes jóságának mértékét megkaphatjuk az összes pont sziluett együtthatója átlagának kiszámításával.
8.8. Példa
(Sziluett együttható) A 8.29. ábrán tíz klaszter pontjai sziluett együtthatóinak ábrázolása látható. A sötétebb árnyalatok kisebb sziluett együtthatókat jeleznek.
Ebben a szakaszban két olyan, a klaszter érvényesség értékelésére szolgáló felügyelet nélküli megközelítést vizsgálunk, amelyek a szomszédsági mátrixra épülnek. Az első egy valós és idealizált szomszédsági mátrixot hasonlít össze, míg a második vizualizációt használ.
Klaszter érvényesség mérése korreláción keresztül
Amennyiben adott egy adathalmaz hasonlósági mátrixa és adottak az adathalmaz egy klaszteranalíziséből származó klasztercímkék, akkor kiértékelhetjük a klaszterezés ``jóságát'' megvizsgálva a hasonlósági mátrix és annak egy, a klasztercímkéken alapuló ideális változata közötti korrelációt. (Kisebb változtatásokkal az alábbiak a szomszédsági mátrixokra is vonatkoznak, de az egyszerűség kedvéért csak a hasonlósági mátrixokat tárgyaljuk.) Pontosabban, ideális klaszter egy olyan, amely pontjainak 1 a hasonlósága minden klaszterbeli ponthoz, és 0 minden más klaszterbeli ponthoz. Ha tehát úgy rendezzük a hasonlósági mátrix sorait és oszlopait, hogy az ugyanahhoz az osztályhoz tartozó objektumok egymáshoz közel helyezkednek el, akkor az ideális hasonlósági mátrix blokkdiagonális (block diagonal) felépítésű. Más szóval, a hasonlóság nem nulla (azaz 1) a hasonlósági mátrix azon blokkjain belül, melyek elemei klaszteren belüli hasonlóságot jelentenek, máshol pedig 0. Az ideális hasonlósági mátrixot úgy hozzuk létre, hogy egy olyan mátrixot alkotunk, amely minden adatponthoz egy sort és egy oszlopot tartalmaz -- egy tényleges hasonlósági mátrixhoz hasonlóan --, és 1 értéket rendelünk egy elemhez akkor, ha a hozzá tartozó pontpár ugyanahhoz a klaszterhez tartozik. Az összes többi elem pedig 0 lesz.
Az ideális és a tényleges hasonlósági mátrix közötti magas
korreláció azt jelzi, hogy az ugyanabba a klaszterbe tartozó pontok
közel vannak egymáshoz, míg az alacsony korreláció ennek ellenkezőjét.
(Mivel a tényleges és az ideális hasonlósági mátrix szimmetrikus, a
korrelációt csak a mátrixok főátlója alatti vagy feletti
8.9. Példa
(Tényleges és ideális hasonlósági mátrixok korrelációja) A
mérték szemléltetésére kiszámoltuk a tényleges és ideális hasonlósági
mátrixok közötti korrelációt a 8.26. (c) ábrán látható (véletlen
adatokból származó) és a 8.30. (a) ábrán látható (három jól
elkülönülő)
Klaszterezés megítélése vizuálisan a hasonlósági mátrixa alapján
Az előző módszer egy általánosabb, minőségi megközelítést sugall klaszterek egy halmazának megítélésére: rendezzük a hasonlósági mátrixot a klasztercímkék szerint, majd ábrázoljuk. Elméletileg, ha jól elkülönülő klasztereink vannak, akkor a hasonlósági mátrix nagyjából blokkdiagonális kell hogy legyen. Ha nem ez a helyzet, akkor a hasonlósági mátrixban látható mintázatok klaszterek közötti összefüggéseket fedhetnek fel. Mindez ismét alkalmazható különbözőségi mátrixokra is, de az egyszerűség kedvéért csak a hasonlósági mátrixokat tárgyaljuk.
8.10. Példa
(A hasonlósági mátrix megjelenítése) Tekintsük a 8.30. (a) ábra
pontjait, amelyek három, jól elkülönülő klasztert alkotnak. Ha a
A 8.30. ábra jól elkülönülő klaszterei nagyon erős
blokkdiagonális mintázatot mutatnak az átrendezett hasonlósági
mátrixban. Gyenge blokkdiagonális mintázatok is vannak azonban (lásd a
8.31. ábrát) a véletlenszerű adatokban a
Ez a módszer reménytelenül költségesnek tűnhet nagy
adathalmazokra, mivel a szomszédsági mátrix kiszámítása
Az előző klaszter kiértékelési megközelítéseket a felosztó
klaszterezésekhez szánják. Itt a kofenetikus korrelációt (cophenetic
correlation) tárgyaljuk, amely egy népszerű mérték hierarchikus
klaszterezések kiértékelésére. Két objektum közötti kofenetikus távolság (cophenetic distance) az a közelség, amelynél
egy összevonó hierarchikus klaszterező módszer már az első alkalommal
ugyanabba a klaszterbe sorolja a szóban forgó objektumokat. Ha például
az agglomeratív hierarchikus klaszterezési folyamat egy bizonyos
pontján egybeolvasztott két klaszter közötti legkisebb távolság
8.11. Példa
(Kofenetikus távolságmátrix) A 8.7. táblázat a 8.16. ábrán látható egyszerű kapcsolású klaszterezés kofenetikus távolságmátrixát tartalmazza. (Az ábrához tartozó adatok a 8.3. táblázatban adott 6 kétdimenziós pontból állnak.)
8.7. táblázat - Kofenetikus távolságmátrix az egyszerű kapcsolásra és a 8.3. táblázat adataira
Pont | P1 | P2 | P3 | P4 | P5 | P6 |
P1 | 0 | 0,222 | 0,222 | 0,222 | 0,222 | 0,222 |
P2 | 0,222 | 0 | 0,148 | 0,151 | 0,139 | 0,148 |
P3 | 0,222 | 0,148 | 0 | 0,151 | 0,148 | 0,110 |
P4 | 0,222 | 0,151 | 0,151 | 0 | 0,151 | 0,151 |
P5 | 0,222 | 0,139 | 0,148 | 0,151 | 0 | 0,148 |
P6 | 0,222 | 0,148 | 0,110 | 0,151 | 0,148 | 0 |
A kofenetikus korrelációs együttható (CPCC -- CoPhenetic Correlation Coefficient) a fenti mátrix és az eredeti különbözőségi mátrix elemei közötti korreláció, és egy standard mértéke annak, hogy milyen jól illeszkedik az adatokra egy (bizonyos típusú) hierarchikus klaszterezés. Ezen mérték leggyakoribb felhasználásainak egyike annak megállapítása, hogy mely típusú hierarchikus klaszterezés a legmegfelelőbb adott típusú adatokra.
8.12. Példa
(Kofenetikus korrelációs együttható) A CPCC értékeket a 8.16-8.19. ábrákon látható hierarchikus klaszterezésekre számítottuk ki. Az értékeket a 8.8. táblázatban tüntettük fel. Az egyszerű kapcsolású módszer által előállított hierarchikus klaszterezés látszólag kevésbé jól illeszkedik az adatokra, mint a teljes kapcsolás, a csoportátlag és a Ward módszer által előállított klaszterezések.
8.8. táblázat - Kofenetikus korrelációs együttható a 8.3. táblázat adataira és négy összevonó hierarchikus klaszterezési módszerre
Módszer | CPCC |
Egyszerű kapcsolás | 0,44 |
Teljes kapcsolás | 0,63 |
Csoportátlag | 0,66 |
Ward | 0,64 |
Különféle felügyelet nélküli klaszter kiértékelési mértékek használhatóak a klaszterek helyes vagy természetes számának hozzávetőleges meghatározására.
8.13. Példa
(A klaszterek száma) A 8.29. ábrán látható adathalmaz 10
természetes klasztert tartalmaz. A 8.32. ábrán az adathalmaz
(kettéosztó)
Megpróbálhatjuk tehát úgy meghatározni a klaszterek természetes számát az adathalmazban, hogy megkeressük azt a klaszterszámot, amelynél egy hajlat, csúcs vagy mélyedés van a kiértékelési mérték grafikonján, amikor azt a klaszterszám függvényében ábrázoljuk. Természetesen nem minden esetben működik jól egy ilyen megközelítés. A klaszterek összefonódottabbak vagy átfedőbbek lehetnek, mint a 8.29. ábrán láthatóak. Az adatok egymásba ágyazott klaszterekből is állhatnak. A 8.29. ábrán látható klaszterek valójában egy kissé egymásba ágyazottak, azaz 5 klaszterpár van, mivel a klaszterek felülről lefelé közelebb vannak egymáshoz, mint balról jobbra. Az SSE görbén ezt egy hajlat jelzi, de a sziluett együttható görbéje nem ilyen tiszta. Összességében elmondhatjuk, hogy bár óvatosnak kell lennünk, a leírt módszer betekintést nyújthat a klaszterek számáról az adatokban.
8.33. ábra - Az átlagos sziluett együttható értéke a klaszterek számának függvényében a 8.29. ábra adataira
Az egyik nyilvánvaló mód annak meghatározására, hogy egy adathalmaz tartalmaz-e klasztereket, az, hogy megpróbáljuk klaszterezni. Azonban majdnem minden klaszterező algoritmus kötelességtudóan klasztereket fog találni, amikor adatokat kap. A probléma kezelésére megvizsgálhatjuk a létrejövő klasztereket, és csak akkor jelentjük ki, hogy az adathalmaz klasztereket tartalmaz, ha legalább néhány klaszter jó minőségű. Ez a megközelítés azonban figyelmen kívül hagyja azt a tényt, hogy az adatok klaszterei más típusúak is lehetnek, mint a klaszterező eljárás által keresettek. Ezt a további problémát kezelhetjük azáltal, hogy több algoritmust használunk és ismét kiértékeljük az eredményül kapott klasztereket. Ha a klaszterek egységesen rossz minőségűek, akkor az valóban azt jelezheti, hogy nincsenek is klaszterek az adatokban.
Vagylagosan, és erre összpontosítanak a klaszterezhetőség mértékei, klaszterezés nélkül is megpróbálhatjuk kiértékelni, hogy az adathalmazban vannak-e klaszterek. A leggyakoribb megközelítés, különösen az euklideszi térben lévő adatokra, az adatok térbeli véletlenszerűségére vonatkozó statisztikai próbák használata. Nagy kihívást jelent sajnos a helyes modell kiválasztása, a paraméterek becslése, és annak a hipotézisnek a statisztikai szignifikanciájának értékelése, hogy az adatok nem véletlenszerűek. Mindazonáltal számos megközelítést fejlesztettek ki, többségüket alacsony dimenziójú euklideszi térbeli pontokra.
8.14. Példa
(Hopkins statisztika) Ehhez a megközelítéshez
Ha a véletlenszerűen generált pontoknak és az adatokból vett
mintapontoknak nagyjából ugyanazok a legközelebbi szomszéd
távolságaik, akkor
Amikor az adatokról rendelkezésünkre áll külső információ, az tipikusan az adatobjektumokhoz tartozó külsőleg meghatározott osztálycímkék képében adott. Ilyen esetekben a szokásos eljárás az, hogy megmérjük a megfelelés fokát a klaszter- illetve az osztálycímkék között. De miért is fontos ez? Elvégre ha ismerjük az osztálycímkéket, akkor mi értelme van a klaszteranalízis elvégzésének? Egy ilyen analízis indítéka a klaszterező módszerek összevetése az ``alapigazsággal'', vagy annak megállapítása, hogy egy manuális osztályozási folyamat milyen mértékben automatizálható klaszteranalízis révén.
Két eltérő szemléletet mutatunk be. A módszerek első halmaza
osztályozási mértékeket használ, mint az entrópia, a tisztaság és az
A klaszterérvényesség osztályozás-orientált mértékei
Számos mérőszám létezik -- entrópia, tisztaság, pontosság,
felidézés és az
Entrópia: Azt méri, hogy az
egyes klaszterek milyen mértékben állnak egyetlen osztály
objektumaiból. Először minden klaszterre kiszámítjuk az adatok
osztályeloszlását, azaz az
Tisztaság: Egy másik
mérőszáma annak, hogy egy klaszter milyen mértékben tartalmaz egyetlen
osztályból objektumokat. Az előző terminológia felhasználásával az
Precizitás:Egy klaszter azon
hányada, amely egy adott osztály objektumaiból áll. Az
Felidézés:Annak mérőszáma,
hogy egy klaszter milyen mértékben tartalmazza egy meghatározott
osztály összes elemét. Az
F-mérték:
A pontosság és a felidézés egy kombinációja, amely annak mérőszáma,
hogy egy klaszter milyen mértékben tartalmazza
csak egy meghatározott osztály objektumait és
ennek az osztálynak az összes elemét. Az
8.15. Példa
(Felügyelt kiértékelési mértékek) Egy példát mutatunk be ezen
mérőszámok szemléltetésére. Nevezetesen a
8.9. táblázat - Az LA Times dokumentum adathalmaz
Klaszter | Szórakozás | Pénzügy | Külügy | Helyi hírek | Belföld | Sport | Entrópia | Tisztaság |
1 | 3 | 5 | 40 | 506 | 96 | 27 | 1,2270 | 0,7474 |
2 | 4 | 7 | 280 | 29 | 39 | 2 | 1,1472 | 0,7756 |
3 | 1 | 1 | 1 | 7 | 4 | 671 | 0,1813 | 0,9796 |
4 | 10 | 162 | 3 | 119 | 73 | 2 | 1,7487 | 0,4390 |
5 | 331 | 22 | 5 | 70 | 13 | 23 | 1,3976 | 0,7134 |
6 | 5 | 358 | 12 | 212 | 48 | 13 | 1,5523 | 0,5525 |
Összesen | 354 | 555 | 341 | 943 | 273 | 738 | 1,1450 | 0,7203 |
Ideális esetben minden klaszter csak egyetlen osztályból származó dokumentumokat tartalmaz. A valóságban minden klaszter több osztályból tartalmaz dokumentumokat. Mindazonáltal sok klaszter tartalmaz dokumentumokat elsősorban egy osztályból. Különösen a 3. klaszter, amely főleg a Sport rovatból származó dokumentumokat tartalmaz, jó kivételesen, mind a tisztaság, mind az entrópia tekintetében. A többi klaszter tisztasága és entrópiája nem olyan jó, de általában nagymértékben javítható, ha az adatokat nagyobb számú klaszterre bontjuk.
A precizitás, felidézés és
A klaszter érvényesség hasonlóság-központú mértékei
Az ebben a szakaszban tárgyalt mértékek mind azon a feltevésen
alapulnak, hogy ugyanabban a klaszterben lévő bármely két objektum
ugyanabba az osztályba kell hogy tartozzon, és fordítva. Erre a
klaszter érvényességi szemléletre úgy is tekinthetünk, mint a
következő két mátrix összehasonlítására: (1) a korábban tárgyalt
ideális klaszter hasonlósági
mátrix, amelynek
8.16. Példa
(A klaszter- és osztálymátrix közötti korreláció) Az elképzelés
konkrétabb bemutatására egy öt adatpontból (
8.10. táblázat - Ideális klaszter hasonlósági mátrix
Pont | p1 | p2 | p3 | p4 | p5 |
p1 | 1 | 1 | 1 | 0 | 0 |
p2 | 1 | 1 | 1 | 0 | 0 |
p3 | 1 | 1 | 1 | 0 | 0 |
p4 | 0 | 0 | 0 | 1 | 1 |
p5 | 0 | 0 | 0 | 1 | 1 |
8.11. táblázat - Ideális osztály hasonlósági mátrix
Pont | p1 | p2 | p3 | p4 | p5 |
p1 | 1 | 1 | 0 | 0 | 0 |
p2 | 1 | 1 | 0 | 0 | 0 |
p3 | 0 | 0 | 1 | 1 | 1 |
p4 | 0 | 0 | 1 | 1 | 1 |
p5 | 0 | 0 | 1 | 1 | 1 |
Általánosabban bármely a 2.4.5. szakaszban látott bináris
hasonlósági mértéket használhatjuk. (A két mátrixot bináris vektorokká
alakíthatjuk például a sorokat egymás után illesztve.) Megismételjük
annak a négy mennyiségnek a definícióját, melyeket ezen hasonlósági
mértékek definiálására használtunk, úgy módosítjuk azonban a leíró
szöveget, hogy illeszkedjen a jelenlegi környezetbe. Konkrétan az
alábbi négy mennyiséget kell kiszámítanunk minden eltérő objektumpár
esetén. (Ha
Az egyszerű egyezési együttható (simple matching coefficient), amelyet Rand statisztikának hívnak ebben a szövegkörnyezetben, és a Jaccard együttható a két leggyakrabban használt klaszter érvényességi mérték:
8.17. Példa
(A Rand és a Jaccard mérték) Ezen képletek alapján könnyen
kiszámíthatjuk a Rand statisztika és a Jaccard együttható értékét a
8.10. és 8.11. táblázatokon alapuló példára. Megjegyezve, hogy
Megjegyezzük továbbá, hogy a négy mennyiség,
8.12. táblázat - Kétirányú kontingenciatáblázat annak meghatározására, hogy az objektumpárok azonos osztályba és azonos klaszterbe esnek-e
| Azonos klaszter | Különböző klaszter |
Azonos osztály |
|
|
Különböző osztály |
|
|
Korábban, az asszociációs elemzéssel összefüggésben -- lásd a 6.7.1.. szakaszt -- átfogó tárgyalást adtunk az olyan asszociációs mértékekről, melyeket az ilyen típusú kontingenciatáblázathoz használhatunk. (Hasonlítsuk össze a 8.12. és a 6.7. táblázatot.) Az említett mértékek alkalmazhatóak a klaszter érvényességre is.
Klaszter érvényesség hierarchikus klaszterezésekre
A szakaszban eddig csak a felosztó klaszterezésekre vonatkozó felügyelt klaszter érvényességi mértékeket tárgyaltuk. Egy hierarchikus klaszterezés felügyelt kiértékelése több különböző okból is nehezebb, beleértve azt a tényt, hogy gyakran nem áll rendelkezésre egy már létező hierarchikus szerkezet. A továbbiakban egy példát adunk egy olyan megközelítésre, amely egy hierarchikus klaszterezést (sima) osztálycímkéket figyelembe véve értékel, melyek nagyobb valószínűséggel állnak rendelkezésre, mint meglevő hierarchikus szerkezetek.
A megközelítés lényege annak kiértékelése, hogy egy hierarchikus
klaszterezés tartalmaz-e minden osztályhoz legalább egy olyan
klasztert, ami viszonylag tiszta és magában foglalja az osztály
objektumainak többségét. Egy hierarchikus klaszterezés ezen célnak
megfelelő kiértékeléséhez minden osztályra kiszámítjuk az
ahol a maximumot minden szint minden
A klaszter érvényességi mértékeknek az a célja, hogy segítsék a kapott klaszterek jóságának mérését. Valóban, a jóság mértékeként jellemzően egyetlen számot adnak. Ezután azonban szembe kell néznünk a kapott szám szignifikanciájának értelmezésével, amely feladat még nehezebb lehet.
A klaszter érvényességi mértékek legkisebb és legnagyobb értéke sok esetben útmutatást adhat. A 0 tisztaság például definíció szerint rossz, míg az 1 tisztaság jó, legalábbis akkor, ha megbízunk az osztálycímkéinkben és azt szeretnénk, hogy a klaszterszerkezet az osztályszerkezetet tükrözze. Hasonlóképpen jó a 0 entrópia, csakúgy, mint a 0 SSE érték.
Néha azonban előfordulhat, hogy nincs legkisebb vagy legnagyobb érték, vagy hogy az adatok skálája hatással van az értelmezésre. Még ha ismerjük is a legkisebb és legnagyobb értékeket a nyilvánvaló magyarázatukkal együtt, a közbülső értékeket akkor is értelmezni kell. Néhány esetben egy abszolút normát használhatunk. Ha például hasznosítási céllal klaszterezünk, akkor lehet, hogy csak egy bizonyos mértékű hibát vagyunk hajlandóak tolerálni a pontok egy klaszterközépponttal történő közelítésénél.
Ha azonban nem ez a helyzet, akkor valami mást kell tennünk. Egy gyakori megközelítés az érvényességi mérték értékének statisztikai értelmezése. Nevezetesen azt próbáljuk megítélni, hogy mennyire valószínű az, hogy a megfigyelt érték véletlenül adódhatott. Az érték akkor jó, ha szokatlan, azaz ha valószínűtlen az, hogy a véletlennek köszönhető. Az indíték ezen megközelítés mögött az, hogy csak azok a klaszterek érdekesek számunkra, amelyek nem véletlenszerű szerkezetet mutatnak az adatokban, az ilyen felépítések pedig általában nagy (kicsi) klaszter érvényességi értékeket eredményeznek, legalábbis akkor, ha az érvényességi mértékeket úgy tervezték, hogy tükrözzék az erős klaszterszerkezet jelenlétét.
8.18. Példa
(A SSE szignifikanciája) Hogy bemutassuk azt, hogy mindez hogyan
működik, egy példát adunk a
Befejezésképpen azt hangsúlyozuk, hogy a klaszter kiértékelés -- akár felügyelt, akár felügyelet nélküli -- több egy numerikus klaszter érvényességi mérőszám előállításánál. Hacsak nincs az értéknek egy, a mérték definícióján alapuló természetes értelmezése, nekünk kell azt valamilyen módon értelmeznünk. Ha a klaszter kiértékelési mértékünket úgy definiáltuk, hogy a kisebb értékek erősebb klasztereket jeleznek, akkor statisztika segítségével dönthetjük el, hogy a kapott érték szokatlanul kicsi-e, feltéve, hogy ismerjük a kiértékelési mérték eloszlását. Bemutattunk egy példát arra, hogy hogyan találhatunk egy ilyen eloszlást, a témában azonban jelentősen több rejlik, az Olvasó az irodalmi megjegyzésekhez fordulhat további utalásokért.
Végezetül, még ha a kiértékelési mértéket relatív mérőszámként használtuk is, azaz két klaszterezés összehasonlítására, akkor is meg kell állapítani a két klaszterezésből származó mérőszámok közötti különbség szignifikanciáját. Bár az egyik érték majdnem minden esetben nagyobb a másiknál, nehéz lehet annak megállapítása, hogy az eltérés szignifikáns-e. Megjegyezzük, hogy ennek a szignifikanciának két szempontja van: hogy az eltérés statisztikailag szignifikáns-e (megismételhető-e), és hogy az eltérés nagyságrendje jelentéssel bír-e az alkalmazás szempontjából. Sokan nem tekintenének egy 0,1%-os eltérést szignifikánsnak, még ha az következetesen reprodukálható is.