Irodalmi megjegyzések

Elengedhetetlen az elemzésre szánt adatok jellegének megértése, és alapvető szinten ez a méréselmélet tárgya. Az attribútumtípusok definiálásának főleg az volt az egyik indítóoka, hogy pontosan meg tudjuk határozni, az adatok mely fajtáira milyen statisztikai műveletek értelmezhetőek. A méréselméletet az alapján tekintettük át, ahogy azt kezdetben S. S. Stevens [4965] írta le klasszikus cikkében. (a 2.2. és a 2.3. táblázatok a Stevens [4964] által bemutatottakból származtak.) Bár ez a nézőpont a leggyakoribb, és ésszerűen könnyű megérteni és alkalmazni, a méréselmélet természetesen ennél jóval több. A méréselmélet alapjainak megbízható tárgyalása található a [4955, 4958, 4966] három kötetben. Érdeklődésre tarthat még számot Hand [4952] sokat felölelő cikke, ami a méréselmélettel és a statisztikával foglalkozik, és a terület más kutatóinak megjegyzései követik. Végül számos könyv és cikk található, amelyek a konkrét tudományos és műszaki területek mérési kérdéseit írják le.

Az adatminőség egy kiterjedt téma, ami minden tudományágon átível, ami adatokat használ. A pontosságot, torzítást, helyességet és a szignifikáns számjegyeket számos tudományos bevezető, műszaki és statisztikai tankönyv tárgyalja. Az adatminőség ``felhasználásra való alkalmasság'' nézőpontjának leírása részletesebben Redman [5042] könyvében található meg. Akiket érdekel az adatminőség, azokat érdekelheti az MIT Totális Adatminőség Menedzsment (Total Data Quality Management) programja is [4973, 4970]. Azonban azokat az ismereteket, melyek ahhoz szükségesek, hogy egy adott szakterület specifikus adatminőségi kérdéseit kezelni tudjuk, gyakran csak akkor tudjuk megszerezni, ha az adott területen dolgozó kutatók adatminőség-kezelési gyakorlatát megvizsgáljuk.

Az aggregálás nem olyan jól definiált, mint sok más előfeldolgozási feladat. Mindamellett, az aggregálás a közvetlen analitikus feldolgozás (OLAP -- On-Line Analytical Processing) adatbáziskezelési terület egyik fő módszere, amivel részletesebben 3. fejezetben foglalkozunk. A szimbolikus adatelemzés területén fontos munka például Bock és Diday [4945]. Ezen terület egyik célja, hogy a hagyományos rekord típusú adatokat olyan szimbolikus adatobjektumokban összesítse, amelyek attribútumai összetettebbek, mint a hagyományos attribútumok. Speciálisan ezen attribútumoknak lehetnek olyan értékeik, melyek értékhalmazok (kategóriák), intervallumok, vagy súlyokkal rendelkező értékhalmazok (hisztogramok). A szimbolikus adatelemzés egy másik célkitűzése a klaszterezés, osztályozás és más adatelemzési módok elvégzésének lehetővé tétele olyan adatokon, amelyek szimbolikus adatobjektumokból állnak.

A mintavétel egy olyan téma, amit kimerítően tanulmányozott a statisztika és más vele összefüggő területek. Sok bevezető statisztikai könyv, mint például Lindgren [4957], tárgyalja a mintavételezést, de egész könyveket is szenteltek a témának, mint például Cochran klasszikus műve [4947]. Az adatbányászat számára történő mintavételezés egy áttekintését adja Gu és Liu [4950], míg az adatbázisok számára történő mintavételezés egy áttekintése Olken és Rotem [4959]. Számos más adatbányászati és adatbázisokkal kapcsolatos mintavételezési hivatkozás érdekes lehet, beleértve a Palmer és Faloutsos [4961], Provost és társai [4963], Toivoen [4967], valamint Zaki és társai [4971] cikkeket.

A statisztikában a dimenzió csökkentésének hagyományos módszerei a többdimenziós skálázás (MDS -- Multidimensional Scaling) (Borg és Groenen [4946], Kruskal és Uslaner [5026]) valamint a főkomponens analízis (PCA -- Principal Component Analysis) (Jolliffe [5016]), ami hasonló a szinguláris érték felbontáshoz (SVD -- Single Value Decomposition) (Demmel [4948]). Részletesebben a B. függelékben foglalkozunk a dimenzió csökkentésével.

A diszkretizálás az a téma, amelyet nagymértékben kutattak az adatbányászatban. Néhány osztályozó algoritmus csak kategorikus adatokkal működik, az asszociációs elemzéshez pedig bináris adatokra van szükség, így jelentős a motiváció annak kiderítésére, hogy hogyan lehet folytonos attribútumokat a legjobban binarizálni és diszkretizálni. Az asszociációs elemzéssel kapcsolatban Srikant és Agrawal [5050] munkájára hivatkozunk, míg az osztályozás területén végzett diszkretizálás témájában hasznos megemlíteni többek között Dougherty és társai [4984], Elomaa és Rousu [4986], Fayyad és Irani [4992], valamint Hussein és társai [5011] munkáit.

A jellemzők kiválasztásának témakörében szintén igen kiterjedt kutatások folytak az adatbányászatban. Ezt a témát széleskörűen lefedi Molina és társai áttekintése [5035] és Liu és Motada két könyve [4972, 5029]. Ezen túl többek között Blum és Langley [4979], Kohavi és John [5024] valamint Liu és társai [5028] cikkei is hasznosak lehetnek.

A jellemzők transzformációjának témájában nehéz hivatkozásokat adni, mivel a módszerek szakterületenként változnak. Sok statisztikai könyvben foglalkoznak a transzformációkkal, de ez általában csak egy konkrét célra használt transzformációkra korlátozódik, mint például egy változó normalitásának biztosítása, vagy a változók egyenlő szórásának biztosítása. Két művet ajánlunk: Osborne [4960] és Tukey [4968] munkáját.

Bár tárgyaltunk néhányat a leggyakrabban használt távolsági és hasonlósági mértékek közül, több száz ilyen mérték létezik, és mindig jönnek létre újak. Mint ahogy sok más témánál ebben a fejezetben, sok ezek közül a mértékek közül egy konkrét területhez tartozik; például az idősorok területén lásd Kalpakis és társai [5063] valamint Keogh és Pazzani [5064] cikkeit. A klaszterezéssel foglalkozó könyvek adják a legjobb általános tárgyalást. Különösen ajánljuk a következő könyveket: Anderberg [4941], Jain és Dubes [5012], Kaufmann és Rousseeuw [5022], valamint Sneath és Sokal [5048].