Irodalmi megjegyzések

A fejezet tárgyalását legerősebben Jain és Dubes [5012], Anderberg [4941], valamint Kaufman és Rousseeuw [5022] klaszteranalízis témakörében írt könyvei befolyásolták. A klaszterezésről szóló további olyan könyvek, amelyek érdeklődésre tarthatnak számot, Aldenderfer és Blashfield [4940], Everitt és társai [4991], Hartigan [5008], Mirkin [5033], Murtagh [5037], Romesburg [5043] és Späth [5049]. A klaszterezés egy statisztika orientáltabb megközelítését adja Duda és társai mintázat felismerési könyve [4985], Mitchell gépi tanulási könyve [4831], valamint Hastie és társai a statisztikus tanulásról szóló könyve [4769]. A klaszterezés egy általános áttekintését adják Jain és társai [5013], a térbeli adatbányászati módszerek áttekintését pedig Han és társai [5007]. Behrkin [4976] az adatbányászati klaszterező módszerekről nyújt egy áttekintést. Az adatbányászat területén kívül eső klaszterező eljárásokhoz egy jó hivatkozási forrás Arabie és Hubert cikke [4942]. Kleinberg egy tanulmánya [5023] a klaszterező algoritmusok által hozott kompromisszumokról értekezik, és igazolja annak lehetetlenségét, hogy egy klaszterező algoritmus egy időben három egyszerű tulajdonsággal rendelkezzen.

A K -közép módszer hosszú múltra tekint vissza, de a mai napig kutatják. Az eredeti K -közép módszert MacQueen javasolta [5030]. Ball és Hall ISODATA algoritmusa [4943] a K -közép módszer egy korai, de kifinomult változata, amely különféle elő- és utófeldolgozási módszereket használ az alapalgoritmus javítására. A K -közép algoritmust és annak számos változatát részletesen írja le Anderberg [4941], valamint Jain és Dubes [5012] könyve. A fejezetben tárgyalt kettéosztó K -közép módszert Steinbach és társai írták le egy cikkben [5051]. Ennek és más klaszterező megközelítéseknek egy implementációja tudományos célokra szabadon rendelkezésre áll a CLUTO (CLUstering TOolkit) csomagban, melyet Karypis készített [5056]. Boley [4980] egy felosztó klaszterező algoritmust (PDDP) készített, amely az adatok első főkomponensének (irányának) megkeresésén alapul, az eljárás kapcsolatát a kettéosztó K -közép módszerrel pedig Savaresi és Boley vizsgálta [5045]. A K -közép újabb keletű változatai a K -közép módszer egy új, növekményes változata (Dhillon és társai [5059]), az X-közép (Pelleg és Moore [5040]), és a K -harmonikus közép (Zhang és társai [5070]). Hamerly és Elkan [5006] néhány olyan klaszterező algoritmust tárgyal, amelyek jobb eredményt állítanak elő, mint a K -közép módszer. Bár néhány korábban említett szemlélet foglalkozott valamilyen módon a K -közép módszer kezdőértékadási problémájával, ennek javítására más módszerek is találhatóak Bradley és Fayyad [4981] munkájában. Dhillon és Modha [5060] a K -közép módszer egy általánosítását mutatja be, amelyet szferikus K -közép módszernek (spherical K -means) neveztek el, és amely általánosan használt hasonlósági mértékekkel működik. Banerjee és társai [4944] alkották meg a K -közép klaszterezés egy általános keretrendszerét, mely a Bregman divergencián alapuló különbözőségi függvényeket használ.

A hierarchikus klaszterezés szintén régi múltra tekint vissza. A terület kutatásai kezdetben a taxonómia területére irányultak, amelyet Jardine és Sibson [5014], valamint Sneath és Sokal [5048] könyve tárgyal. A hierarchikus klaszterezés általános célú tárgyalását a fentebb említett klaszterezési könyvek is tartalmazzák. A hierarchikus klaszterezés területén kifejtett munka legnagyobb része az összevonó hierarchikus klaszterezésre irányul, de a felosztó megközelítések is kaptak bizonyos figyelmet. Zahn [5054] például egy olyan felosztó hierarchikus módszert ír le, mely egy gráf minimális feszítőfáját használja fel. Bár mind a felosztó, mind az összevonó szemléletmódok véglegesnek tekintik az összevonó (vágó) műveleteket, bizonyos munka történt Fisher [4993], valamint Karypis és társai [5020] által ezen korlátok leküzdésére.

Ester és társai javasolták a DBSCAN eljárást [4990], melyet később Sanders és társai a GDBSCAN algoritmusra [5044] általánosítottak, hogy általánosabb adattípusokat és távolságmértékeket is kezeljen, például poligonokat, melyek közelségét az átfedés mértéke határozza meg. A DBSCAN egy növekményes változatát Kriegel és társai [4989] fejlesztették ki. A DBSCAN egyik érdekes kinövése az OPTICS (Ordering Points To Identify the Clustering Structure) (Ankerst és társai [4974]), amely lehetővé teszi a klaszterszerkezet megjelenítését és hierarchikus klaszterezésre is felhasználható.

A klaszter érvényesség egy irányadó tárgyalását, mely erősen befolyásolta fejezetünk tárgyalását, Jain és Dubes klaszterezésről szóló könyvének [5012] negyedik fejezete tartalmazza. A klaszter érvényesség újabb keletű áttekintését adják Halkidi és társai [5004, 5005], valamint Milligan [5032]. A sziluett együtthatókat Kaufman és Rousseeuw klaszterezési könyve [5022] írja le. 49. táblázatban szereplő kohéziós és elkülönülési mértékek forrása Zhao és Karypis egy tanulmánya [5071], amely az entrópia, a tisztaság, valamint a hierarchikus F -mérték tárgyalását is tartalmazza. A hierarchikus F -mértéket eredetileg Larsen és Aone cikke [5027] tárgyalja.