Előszó

Az adatok előállításának és összegyűjtésének fejlődése nagy méretű adatállományokat hozott létre a kereskedelemben és a különböző tudományágakban. Adattárházak tárolják vásárlások és üzleti műveletek részleteit, a Föld körül keringő műholdak nagy felbontású képeket és érzékelők adatait sugározzák vissza a Földre, valamint a genetikai kísérletek egyre több élőlény szekvenciáit, strukturális és funkcionális adatait állítják elő. Az a könnyedség, amellyel napjainkban az adatokat gyűjteni és tárolni lehet, egy újfajta hozzáállást hozott létre az adatelemzésben: gyűjtsünk össze bármilyen adatot bármikor és bárhol, ahol csak lehetséges. Dogmává vált, hogy az összegyűjtött adatoknak értéke van, vagy abból a célból, amelyet összegyűjtésük kezdetben indokolt, vagy pedig előre még nem látottból.

Az adatbányászat területe az általános adatelemzési módszerek azon korlátaiból nőtt ki, amelyeket ezen új típusú adatállományok által felvetett kihívások kezelése jelentett. Az adatbányászat nem helyettesíti az adatelemzés más területeit, hanem inkább tevékenyége nagy részének alapjává teszi őket. Míg az adatbányászat egyes területei -- mint az asszociációs elemzés -- egyediek, más területeken -- mint a klaszterezés, az osztályozás és a rendellenesség-észlelés -- a munkának már hosszú története van. Valójában az adatbányászati kutatóknak a meglévő módszerekre való támaszkodási hajlandósága jelentősen hozzájárult a szakterület megerősödéséhez, elterjedéséhez és gyors növekedéséhez.

A terület egy másik erőssége a más területeken kutatókkal való együttműködésnek a hangsúlyozása. Nem lehet eleget tenni annak a kihívásnak, amelyet az új típusú adatok elemzése jelent, az adatelemzési módszereknek azoktól elszigetelten való egyszerű alkalmazásával, akik ismerik az adatokat és azt a területet, amelyből azok származnak. Gyakran a multidiszciplináris csoportok felépítésében való szakértelem vezet adatbányászati projektek sikeréhez és új, innovatív algoritmusok létrehozásához. Ahogy történetileg a statisztikában sok előrelépést a mezőgazdaság, az ipar, az orvostudomány és a gazdaság igénye vezérelt, az adatbányászatban jelenleg sok fejlesztést ugyanezeknek a területeknek az igénye hajt előre.

Jelen könyv azokból a jegyzetekből és előadás diákból nőtt ki, amelyek a Minnesotai Egyetem mester és diplomás hallgatói számára 1998 tavasza óta tartott adatbányászati kurzusra készültek. A bemutató diák és a feladatok ez alatt egyre nőttek az idővel és a könyv gerincét adták. Egy az adatbányászatban alkalmazott klaszterezési módszerekről szóló áttekintés, melyet eredetileg ezen a területen végzendő kutatásra való felkészüléskor készítettünk, szolgált a könyv egyik fejezetének kiindulópontjaként. Idővel a klaszterezési fejezet kiegészült az adatokról, az osztályozásról, az asszociációs elemzésről és a rendellenesség-keresésről szóló fejezetekkel. A könyvet jelenlegi formájában már teszteltük a gyakorlatban a szerzők intézményeiben -- a Minnesotai Egyetemen és a Michigani Állami Egyetemen -- csakúgy, mint számos más egyetemen.

Időközben számos adatbányászati könyv jelent meg, azonban ezek nem bizonyultak teljesen kielégítőnek a diákjaink számára, akik elsősorban számítógép-tudománnyal foglalkozó egyetemista és diplomás hallgatók, de van közöttük az iparból és számos más tudományágból érkező is. A matematikai és számítástechnikai hátterük igen eltérő volt, azonban osztoztak egy közös célban: az adatbányászatról akartak tanulni olyan közvetlenül, ahogy csak lehetséges, annak érdekében, hogy gyorsan alkalmazzák azt saját tudományáguk problémáinál. Így sokuknak közülük nem tetszettek az alapos matematikai vagy statisztikai előismereteket feltételező szövegek, ahogy azok sem, amelyek jelentős adatbázis hátteret igényeltek, vagy az algoritmusok leírására összpontosítottak. A könyv ezeknek a tanulóknak az igényeire válaszolva alakult ki, annyira közvetlenül a legfontosabb adatbányászati fogalmakra koncentrálva, amennyire ez csak lehetséges, a fogalmakat példákkal illusztrálva, az alapvető algoritmusokat egyszerűen leírva és gyakorlatokkal kiegészítve.

Áttekintés

A könyv kimondottan átfogó bevezetést kíván nyújtani az adatbányászatba, úgy lett megszerkesztve, hogy befogadható és hasznos legyen diákok, oktatók, kutatók és szakemberek számára. Az általa felölelt területek közé tartozik az adatok elő- és utófeldolgozása, a vizualizáció, a prediktív modellezés, az asszociációs elemzés, a klaszterezés és a rendellenesség-észlelés. A cél az alapvető fogalmak és algoritmusok bemutatása mindegyik téma esetén, így biztosítva az Olvasónak a szükséges hátteret, hogy az adatbányászatot valós problémákra alkalmazhassa. Ezen túlmenően a könyv kiindulópontot is ad azoknak az olvasóknak, akik az adatbányászat, illetve kapcsolódó területein folytatandó kutatás iránt érdeklődnek.

A könyv öt fő témát ölel fel: adatok, osztályozás, asszociációs elemzés, klaszterezés és rendellenesség-észlelés. A rendellenesség-észlelést kivéve mindegyik területet egy-egy fejezet-pár tárgyalja. Az osztályozás, az asszociációs elemzés és a klaszterezés témáknál a bevezető fejezet az alapfogalmakat, a tipikus algoritmusokat és a kiértékelési eljárásokat tartalmazza, míg a másik fejezet a haladóbb fogalmakat és algoritmusokat tárgyalja. A cél az, hogy az Olvasó alaposan megértse az adatbányászat alapjait, mindemellett sok fontos haladó témát is érintsünk. Ezen megközelítés miatt a könyv egyaránt hasznos tanulási eszköz és referencia.

Annak érdekében, hogy az olvasók jobban megértsék a bemutatott fogalmakat, példák, ábrák és gyakorlatok kiterjedt sokaságát adjuk. Az egyes fejezetek végén irodalmi megjegyzések találhatóak azon olvasók számára, akik érdeklődnek a haladó témák, történelmileg fontos cikkek és a legújabb irányok iránt. A könyv továbbá átfogó tárgy- és névmutatót is tartalmaz.

Az oktatóknak

Mint tankönyv a könyv diákok széles körének az igényeit kielégíti, felsőbb egyetemi és posztgraduális szinten egyaránt. Mivel az e tárgyat felvett diákok olyan változatos háttérrel rendelkeznek, amely nem feltétlen terjed ki a statisztika vagy az adatbázisok alapos ismeretére, könyvünk minimális előismereteket feltételez -- nem szükséges az adatbázisok ismerete, és csak szerény hátteret feltételezünk a statisztika vagy a matematika területén. E célból a könyv olyan önállóra lett szerkesztve, amennyire ez csak lehetséges volt. A statisztikából, lineáris algebrából és gépi tanulásból szükséges ismereteket vagy a szöveg törzsébe integráltuk, vagy néhány speciális téma esetén a függelékekre hagytuk.

Mivel a főbb adatbányászati témákat felölelő fejezetek önállóak, a témák sorrendje elég rugalmasan választható meg. Az anyag gerince a 2., 4., 6., 8. és 10. fejezet. Bár az adatokat tárgyaló, bevezető 2. fejezetnek kell először sorra kerülni, az alapvető osztályozással, asszociációs elemzéssel és klaszterezéssel foglalkozó (4., 6. és 8.) fejezetek már bármilyen sorrendben olvashatóak. Mivel a rendellenesség-észlelés (10. fejezet) kapcsolódik az osztályozáshoz (4. fejezet) és a klaszterezéshez (8. fejezet), ezeknek a fejezeteknek meg kell előzniük a 10. fejezetet. Az órarendnek illetve az oktató és a hallgatók igényeinek megfelelően változatos témák választhatóak a haladó osztályozás, asszociációs elemzés és klaszterezés (5., 7. és 9.) fejezetekből. Azt is javasoljuk, hogy az előadásokat bővítsük ki adatbányászati projektekkel vagy gyakorlati feladatokkal. Bár ezek időigényesek, az ilyen gyakorlati feladatok nagy mértékben növelik a kurzus értékét.

Segédanyagok

A könyv mellékletei elérhetőek az Addison-Wesley honlapján a http://www.aw.com/cssupport címen. A könyv összes olvasója számára elérhető segédanyagok az alábbiakat foglalják magukba:

További segédanyagok, beleértve a feladatokra adott megoldásokat, csak azon oktatók számára érhetőek el, akik beillesztik a tankönyvet az iskolai használatba. Kérjük forduljon felvilágosításért iskolája Addison-Wesley képviselőjéhez, hogy hogyan férhet hozzá ehhez az anyaghoz. Észrevételeket és javaslatokat, valamint hibalistákat a dmbook@cs.umn.edu címen keresztül lehet eljuttatni a szerzőkhöz.

Köszönetnyilvánítás

Sokan járultak hozzá a könyvhöz. Kezdjük rögtön családjaink -- akiknek a könyvet is ajánljuk -- felé tett köszönetnyilvánítással. Az ő türelmük és támogatásuk nélkül ez a projekt nem valósulhatott volna meg.

Szeretnénk köszönetet mondani közreműködésükért adatbányászati csoportjaink jelenlegi és egykori diákjainak a Minnesotai Egyetemen és a Michigani Állami Egyetemen. Eui-Hong (Sam), Han (iXmatch) és Mahesh Joshi (SAS) segített az első adatbányászati kurzusoknál. Egyes általuk létrehozott feladatok és bemutató diák megtalálhatóak a könyvben, és az azt kísérő diasorozatban is. Adatbányászati csoportjainkból az alábbi diákok fűztek megjegyzéseket a könyv tervezetéhez, vagy járultak hozzá más módon: Shyam Boriah, Haibin Cheng, Varun Chandola, Eric Eilertson, Levent Ertöz, Jing Gao, Rohit Gupta, Sridhar Iyer, Jung-Eun Lee, Benjamin Mayer, Aysel Özgür, Uygar Oztekin, Gaurav Pandey, Kashif Riaz, Jerry Scripps, György Simon, Hui Xiong, Jieping Ye és Pusheng Zhang. Ezúton is szeretnénk köszönetet mondani adatbányász kurzusaink azon diákjainak a Minnesotai Egyetemen és a Michigan Állami Egyetemen, akik a könyv korai tervezeteivel dolgoztak, és felbecsülhetetlen visszajelzést adtak. Külön megjegyezzük Bernardo Craemer, Arifin Ruslim, Jamshid Vayghan és Yu Wei hasznos javaslatait.

Joydeep Ghosh (Texasi Egyetem) és Sanjay Ranka (Floridai Egyetem) kurzusaikon a könyv korai változatait tesztelték. A Texasi Egyetem következő diákjaitól közvetlenül mi is sok hasznos javaslatot kaptunk: Pankaj Adhikari, Rajiv Bhatia, Frederic Bosche, Arindam Chakraborty, Meghana Deodhar, Chris Everson, David Gardner, Saad Godil, Todd Hay, Clint Jones, Ajay Joshi, Joonsoo Lee, Yue Luo, Anuj Nanavati, Tyler Olsen, Sunyoung Park, Aashish Phansalkar, Geoff Prewett, Michael Ryoo, Daryl Shannon és Mei Yang.

Ronald Kostoff (ONR) a klaszterezési fejezet egy korábbi változatát olvasta és számos javaslatot ajánlott. George Karypis felbecsülhetetlen segítséget nyújtott LaTeX -ben a szerzők indexének elkészítéséhez. Irene Moulitsas szintén segített LaTeX -ben, és átnézett néhány függeléket. Musetta Steinbach nagyon hasznosnak bizonyult az ábrák hibáinak keresésénél.

Szeretnénk megköszönni munkatársainknak a Minnesotai Egyetemen és a Michigani Állami Egyetemen, hogy segítettek az adatbányászati kutatások számára kedvező környezetet kialakítani. Ezek közé tartozik Dan Boley, Joyce Chai, Anil Jain, Ravi Janardan, Rong Jin, George Karypis, Haesun Park, William F. Punch, Shashi Shekhar és Jaideep Srivastava. A számos adatbányászati projektünkön közreműködőknek ugyancsak hálával tartozunk: Ramesh Agrawal, Steve Cannon, Piet C. de Groen, Fran Hill, Yongdae Kim, Steve Klooster, Kerry Long, Nihar Mahapatra, Chris Potter, Jonathan Shapiro, Kevin Silverstein, Nevin Young és Zhi-Li Zhang.

A Minnesotai Egyetem és a Michigani Állami Egyetem Számítástudomány és Informatika tanszékei gondoskodtak a számítási erőforrásokról és a támogató környezetről a projekt számára. Az ARDA, ARL, ARO, DOE, NASA és NSF alapok biztosították a kutatási támogatást Pang-Ning Tan, Michael Steinbach és Vipin Kumar számára. Különösen szeretnénk köszönetet mondani az alábbiaknak: Kamal Abdali, Dick Brackney, Jagdish Chandra, Joe Coughlan, Michael Coyle, Stephen Davis, Frederica Darema, Richard Hirsch, Chandrika Kamath, Raju Namburu, N. Radhakrishnan, James Sidoran, Bhavani Thuraisingham, Walt Tiernin, Maria Zemankova és Xiaodong Zhang.

Öröm volt a Pearson Education segítőkész személyzetével dolgozni. Különösen szeretnénk köszönetet mondani a következő személyeknek: Michelle Brown, Matt Goldstein, Katherine Harutunian, Marilyn Lloyd, Kathy Smith és Joyce Wells. Szintén szeretnénk köszönetet mondani George Nichols-nak, aki a grafikában segített, és Paul Anagnostopoulos-nak, aki a LaTeX-támogatást nyújtotta. A következő Pearson bírálóknak vagyunk hálásak: Chien-Chung Chan (University of Akron), Zhengxin Chen (University of Nebraska at Omaha), Chris Clifton (Purdue University), Joydeep Ghosh (University of Texas, Austin), Nazli Goharian (Illinois Institute of Technology), J. Michael Hardin (University of Alabama), James Hearne (Western Washington University), Hillol Kargupta (University of Maryland, Baltimore County and Agnik, LLC), Eamonn Keogh (University of California-Riverside), Liu Bing (University of Illinois at Chicago), Mariofanna Milanova (University of Arkansas at Little Rock), Srinivasan Parthasarathy (Ohio State University), Zbigniew W. Ras (University of North Carolina at Charlotte), Xintao Wu (University of North Carolina at Charlotte) és Mohammed J. Zaki (Rensselaer Polytechnic Institute).