Irodalmi megjegyzések

Az adatbányászat témája sok tankönyvet ihletett. Bevezető tankönyvek többek között Dunham [4734], Han és Kamber [4763], Hand és társai [4767], Roiger és Geatz [4866]. Az üzleti alkalmazásokra nagyobb hangsúlyt fektető adatbányászati könyvek közé tartozik Berry és Linoff [4692], Pyle [4857] és Parr Rud [4846]. A statisztikai tanulást hangsúlyozó könyvek többek között Cherkassky és Mulier [4713], valamint Hastie és társai [4769]. Egyes könyvek a gépi tanulásra vagy az alakfelismerésre helyeznek nagyobb nyomatékot, ilyen például Duda és társai [4732], Kantardzic [4794], Mitchell [4831], Webb [4915], valamint Witten és Frank [4919]. További szakkönyvek: Chakrabarti [4708] (web bányászat), Fayyad és társai [4877] (korai adatbányászati cikkek gyűjteménye), Fayyad és társai [5072] (vizualizáció), Grossman és társai [4936] (természet és műszaki tudományok), Kargupta és Chan [4876] (elosztott adatbányászat), Wang és társai [40] (bioinformatika), valamint Zaki és Ho [4938] (párhuzamos adatbányászat).

Számos adatbányászattal kapcsolatos konferencia ismert. Az ezen területnek szentelt néhány legfontosabb konferencia a következő: ACM SIGKDD (Association for Computing Machinery -- (Nemzetközi) Számítógéptudományi Társaság; Special Interest Groups on Knowledge Discovery and Data Mining -- Tudásfeltárással és adatbányászattal foglalkozó csoport) International Conference on Knowledge Discovery and Data Mining (KDD, Nemzetközi Tudásfeltárási és Adatbányászati Konferencia), IEEE (The Institute of Electrical and Electronics Engineers -- Villamosmérnökök (Nemzetközi) Egyesülete) International Conference on Data Mining (ICDM, Nemzetközi Adatbányászati Konferencia), SIAM (Society for Industrial and Applied Mathematics -- Ipari és Alkalmazott Matematikai Társaság) International Conference on Data Mining (SDM, Nemzetközi Adatbányászati Konferencia), European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD, Európai Konferencia az Adatbázisokból való Tudásfeltárás Elveiről és Gyakorlatáról), Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD, Csendes-óceán-Ázsiai Tudásfeltárási és Adatbányászati Konferencia). Adatbányászat cikkek olyan más jelentős konferenciákon is megjelennek, mint például az ACM SIGMOD/PODS (Special Interest Group on Management of Data -- Adatkezeléssel foglalkozó csoport; Symposium on Principles of Database Systems -- Szimpózium az Adatbáziskezelő-rendszerek Alapelveiről) konferencia, International Conference on Very Large Data Bases (VLDB, Nemzetközi Konferencia a Nagyon Nagy Adatbázisokról), Conference on Information and Knowledge Management (CIKM, Információ- és Tudásmenedzsment Konferencia), International Conference on Data Engineering (ICDE, Adatfeldolgozási Nemzetközi Konferencia), International Conference on Machine Learning (ICML, Nemzetközi Konferencia a Gépi Tanulásról) és National Conference on Artificial Intelligence (AAAI, Országos Mesterséges Intelligencia Konferencia).

Adatbányászati cikkeket tartalmazó folyóiratok többek között: IEEE Transactions on Knowledge and Data Engineering, Data Mining and Knowledge Discovery, Knowledge and Information Systems, Intelligent Data Analysis, Information Systems és Journal of Intelligent Information Systems.

Számos olyan általános adatbányászati cikk született, amely az adatbányászatnak más területekkel, különösen a statisztikával való kapcsolatát tisztázza. Fayyad és társai [4742] leírják, hogyan illeszthető be az adatbányászat a teljes tudásfeltárási folyamatba. Chen és társai [4879] az adatbányászat adatbázis szemléletű tárgyalását adják. Ramakrishnan és Grama [4862] az adatbányászat egy általános tárgyalását adja több szempontot is bemutatva. Hand [4766], akárcsak Friedman [4748], leírja miben tér el az adatbányászat a statisztikától. Lambert [4807] megvizsgálja, hogyan alkalmazható a statisztika nagy adatállományokra, és további megjegyzéseket fűz az adatbányászat és a statisztika viszonylagos szerepéről. Glymour és társai [4754] azokat a tanulságokat tekintik át, amelyeket a statisztika az adatbányászatnak nyújthat. Smyth és társai [4890] bemutatják hogyan hatottak az adatbányászat fejlődésére olyan új típusú adatok és alkalmazások, mint például az adatfolyamok, a gráfok és a szöveges állományok megjelenése. Az adatbányászatban felmerülő alkalmazásokat tekintik át Han és társai [4765], míg Smyth [4889] néhány adatbányászati kutatási kihívást mutat be. Wu és társai [4921] azt elemzik hogyan váltható gyakorlati eszközökké az adatbányászati kutatásban elért fejlődés. Adatbányászati szabványok a tárgyai Grossman és társai [4755] cikkének. Bradley [4697] adatbányászati algoritmusok nagy adatállományokra való skálázhatóságát elemzi.

Az újonnan felmerülő adatbányászati alkalmazásokkal új kihívások jönnek, amelyekkel foglalkozni kell. Például a magánéletnek az adatbányászati eredmények általi megsértésével kapcsolatos aggodalmak is fokozódtak az elmúlt években, különösen az olyan alkalmazási területeken mint a web-kereskedelem és az egészségügy. Ennek eredményeképpen egyre nagyobb az érdeklődés az olyan adatbányászati algoritmusok kifejlesztése iránt, amelyek tiszteletben tartják a felhasználó magánéletét. A titkosított vagy randomizált adatok bányászatának most kifejlődő módszerei magánszférát védő (privacy-preserving) adatbányászatként ismertek. Néhány általános hivatkozás ezen a területen többek között Agrawal és Srikant [4939], Clifton és társai [4937], valamint Kargupta és társai [4953]. Egy jó áttekintést ad Vassilios és társai [4969].

Az elmúlt években növekvő számú olyan alkalmazásnak voltunk tanúi, amelyek gyorsan állítanak elő folytonos adatfolyamokat. Adatfolyamokra példák a hálózati forgalom, a multimédiás adatfolyamok és a tőzsdei árfolyamok. Több kérdést kell figyelembe venni amikor adatfolyamokban bányászunk, többek között a korlátozottan rendelkezésre álló memóriát, az online elemzés szükségességét és az adatok idővel való módosulását. Az adatfolyamok adatbányászata az adatbányászat egy fontos területévé vált. Néhány válogatott publikáció Domingos és Hulten [4949] (osztályozás), Giannella és társai [4951] (asszociációs elemzés), Guha és társai [5001] (klaszterezés), Kifer és társai [4954] (változás észlelés), Papadimitriou és társai [4962] (idősorok), végül Law és társai [4956] (dimenziócsökkentés).