Irodalmi megjegyzések

A fuzzy klaszterezés részletes tárgyalását -- beleértve a fuzzy c -közép eljárást és 9.2.1. szakaszban bemutatott képletek formális levezetését -- meg lehet találni Höppner és társai fuzzy klaszteranalízisről szóló könyvében [?]. Bár nem tárgyaltuk ebben a szakaszban, a Cheeseman és társai által írt AutoClass [4983] az egyik legkorábbi és legkiemelkedőbb keverék-modell klaszterező program. Bevezetést ad a keverék modellekbe Bilmes jegyzete [4977], Mitchell könyve [4831] (ami azt is leírja, hogyan kapható meg a K -közép algoritmus egy keverék modell megközelítésből), valamint Fraley és Raftery cikke [4995].

Az adatfeltárást, a SOM-ot és felügyelt tanítású változatát, a tanuló vektorkvantálást (LVQ -- Learning Vector Quantization) sok célra használták: képszegmentálásra, dokumentum állományok rendezésére és beszédfeldolgozásra. Mi a SOM tárgyalását a prototípus-alapú klaszterezés terminológiájába öntöttük. Kohonen és társai SOM-ről szóló könyve [5025] részletes bevezetést ad a SOM-ba, ami a módszer neurális hálós eredetét hangsúlyozza, valamint néhány változatát és alkalmazását is tartalmazza. Az egyik fontos SOM-hoz kapcsolódó klaszterezési eredmény a generatív topográfiai térkép (GTM -- Generative Topographic Map) algoritmus (Bishop és társai [4978]), ami az EM algoritmust használja kétdimenziós topográfiai feltételeket kielégítő Gauss-modellek keresésére.

A Chameleon leírása Karypis és társai cikkében [5019] található. A Chameleon-éihoz hasonló, bár azokkal nem azonos képességeket valósított meg a CLUTO klaszterező csomagban Karypis [5056]. Mindkét program, valamint Strehl és Ghosh OPOSSUM klaszterező algoritmusa [5053] Karypis és Kumar METIS gráfparticionáló csomagját [5021] használja a gráfparticionálás végrehajtásához. Az SNN hasonlóság fogalmát Jarvis és Patrick [5015] vezette be. Egy hasonló fogalmon, a közös legközelebbi szomszédokon (mutual nearest neighbors) alapuló hierarchikus klaszterező sémát javasolt Gowda és Krishna [5000]. Guha és társai [5003] alkották meg a ROCK-ot, egy hierarchikus gráf-alapú klaszterező algoritmust tranzakciós adatok klaszterezésére, ami egyéb érdekes tulajdonságai mellett a Jarvis és Patrick által kidolgozott SNN hasonlósághoz nagyon hasonló közös szomszédokon alapuló hasonlóság-fogalmat használ. Az SNN sűrűség-alapú klaszterező eljárás leírása megtalálható Ertöz és társai közleményeiben [4987, 4988]. Az SNN sűrűség-alapú klaszterezést alkalmazták Steinbach és társai [5066] klímaindexek keresésére.

Rács-alapú klaszterező algoritmusra példák az OptiGrid (Hinneburg és Keim [5009]), a BANG klaszterező rendszer (Schikuta és Erhart [5046]), valamint a WaveCluster (Sheikholeslami és társai [5047]). A CLIQUE algoritmust Guha és társai cikke [4878] írja le. A MAFIA (Nagesh és társai [5038]) a CLIQUE módosítása, amelynek célja a hatékonyság növelése. Kailing és társai [5018] fejlesztették ki a SUBCLU-t (density-connected SUBspace CLUstering -- sűrűség-kapcsolt altér klaszterezés), egy a DBSCAN-en alapuló altér klaszterező algoritmust. A DENCLUE algoritmust Hinneburg és Keim [5010] javasolták.

A skálázhatóságról szóló tárgyalásunkra nagy hatással volt Ghosh cikke [4998]. A nagy adatállományok klaszterezésére szolgáló különleges módszerek egy széleskörű tárgyalása Murtagh cikkében [5036] található meg. A CURE Guha és társai [5002] munkája, míg a BIRCH részleteit Zhang és társai cikke [5055] tartalmazza. A CLARANS (Ng és Han [5039]) egy algoritmus a K -medoid klaszterezés nagyméretű adatállományokra történő skálázására. Az EM és K -közép klaszterezés nagy adathalmazokra történő skálázásának tárgyalását adják Bradley és társai [5057, 4982].

A klaszterezésnek sok olyan aspektusa van, amelyeket nem érintettünk. Ezekhez az előző fejezet irodalmi megjegyzéseiben megemlített könyvek és tanulmányok adnak további útmutatókat. Itt csupán négy területet említünk, sajnos sok mást kihagyva. A tranzakciós adatok klaszterezése (Ganti és társai [4996], Gibson és társai [4999], Han és társai [5062], valamint Peters és Zaki [5041]) egy fontos terület, mivel a tranzakciós adatok gyakoriak és kereskedelmi jelentőségűek. Az adatfolyamok is egyre gyakoribbak és fontosabbak a kommunikációs és szenzorhálózatok terjedésével. Bevezetést nyújt az adatfolyamok klaszterezésébe Barbará [4975], valamint Guha és társai [5001] cikke. A fogalmi klaszterezés (Fisher és Langley [4994], Jonyer és társai [5017], Mishra és társai [5034], Michalski és Stepp [5031], Stepp és Michalski [5052]) a klaszterek olyan bonyolultabb definícióját használja, ami gyakran jobban megfelel a klaszter emberi fogalmának, és egy olyan területe a klaszterezésnek, aminek a potenciális lehetőségeit feltehetően még nem teljesen aknázták ki. Végül nagyon sok munka született az adattömörítés céljából végzett klaszterezésről a vektorkvantálás területén. Gersho és Gray könyve [4997] standard hivatkozás ezen a területen.