A könyv témája és szerkezete

A könyv az adatbányászatban alkalmazott legfontosabb elveket és módszereket mutatja be algoritmikus szempontból. Ezen elvek és módszerek tanulmányozása alapvető fontosságú annak jobb megértéséhez, hogyan alkalmazható az adatbányászati technológia különféle adatokra. A könyv kiinduló pontként is szolgál azon olvasóknak, akik ezen a területen való kutatás iránt érdeklődnek.

A szakmai tárgyalás egy az adatokról szóló fejezettel (2. fejezet) indul a könyvben, amely az alapvető adattípusokat, az adatok minőségét, az előfeldolgozási módszereket és a hasonlóság illetve távolság mértékeket tárgyalja. Bár ezt az anyagot az Olvasó gyorsan átfuthatja, nélkülözhetetlen alapot nyújt az adatelemzéshez. Az adatfeltárásról szóló 3. fejezet az összegző statisztikákat, a vizualizációs módszereket és a közvetlen analitikus feldolgozást (OLAP -- On-Line Analytical Processing) tárgyalja. Ezek a módszerek biztosítják azokat az eszközöket, hogy rövid idő alatt közelképet kapjunk egy adathalmazról.

4. és 5. fejezet az osztályozással foglalkozik. 4. fejezet megfelelő alapot nyújt a döntési fa osztályozók és számos olyan, az osztályozásnál fontos kérdés megvitatásával, mint a túlillesztés, a teljesítmény kiértékelés és a különböző osztályozási modellek összehasonlítása. Erre alapozva 5. fejezet számos egyéb fontos osztályozási módszert ismertet: szabály-alapú rendszerek, legközelebbi szomszéd osztályozók, Bayes osztályozók, mesterséges neurális hálók, tartóvektor-gépek, és együttes osztályozók, amelyek osztályozók gyűjteményei. A többosztályos és osztály-kiegyensúlyozatlansági problémákra is kitérünk. Ezek a témák egymástól függetlenül is olvashatóak.

Az asszociációs elemzést 6. és 7. fejezetben tárgyaljuk. 6. fejezetben az asszociációs elemzés alapjait ismertetjük: gyakori tételcsoportok, asszociációs szabályok és néhány algoritmus az előállításukra. Szintén itt tárgyalunk olyan speciális típusú gyakori tételcsoportokat, mint maximális, zárt és hiperklikk tételcsoportok, amelyek fontosak az adatbányászat számára. A fejezet az asszociációs elemzés értékelési mérőszámainak tárgyalásával zárul. 7. fejezetben változatos haladó témákat tekintünk át, többek között hogyan alkalmazhatunk asszociációs elemzést kategorikus és folytonos adatokra, vagy olyan adatokra, ahol egy fogalom-hierarchia is adott. (A fogalom-hierarchia objektumok hierarchikus osztályozása, lásd például bolti áruk, ruházati termékek, cipők, tornacipők.) Ebben a fejezetben azt is bemutatjuk, hogyan terjeszthetjük ki az asszociációs elemzést szekvenciális mintázatokra (sorrendet is tartalmazó mintázatokra), gráfbeli mintázatokra és negatív kapcsolatokra (ha egy tétel jelen van, akkor egy másik nincs).

8. és 9. fejezetben a klaszterezést tárgyaljuk. 8. fejezetben először a klaszterek különböző típusait ismertetjük, majd három konkrét klaszterezési módszert mutatunk be: K -közép, összevonó hierarchikus klaszterezés és DBSCAN. Ezt a klaszterező algoritmusok eredményeit ellenőrző módszerek megvitatása követi. További klaszterezéssel kapcsolatos fogalmakat és módszereket vizsgálunk meg 9. fejezetben, beleértve a fuzzy és valószínűségi klaszterezést, az önszerveződő térképeket (SOM -- Self-Organizing Maps), a gráf-alapú klaszterezést és a sűrűség-alapú klaszterezést. Megvitatjuk azokat a skálázhatósági kérdéseket és tényezőket is, amelyeket figyelembe kell venni amikor klaszterezési algoritmust választunk.

Az utolsó, 10. fejezet a rendellenesség-észlelésről szól. Néhány alapvető definíció után számos különböző rendellenesség-észlelési módszert ismertetünk: statisztikai, távolság-alapú, sűrűség-alapú és klaszterezés-alapú. A.-tól E.-ig terjedő mellékletekben rövid áttekintést adunk azokról a legfontosabb témákról, amelyeket a könyv egyes részeiben használunk: lineáris algebra, dimenzió-csökkentés, statisztika, regresszió és optimalizálás.

Az adatbányászat témaköre, bár viszonylag fiatal a statisztikához vagy a gépi tanuláshoz képest, túl nagy ahhoz, hogy egyetlen könyvben lefedjük. Az olyan, csak röviden érintett témakörökre vonatkozó válogatott hivatkozások, mint például az adatminőség, a megfelelő fejezetet követő irodalmi megjegyzésekben találhatóak. A könyv által nem tárgyalt olyan témákkal kapcsolatos hivatkozások, mint például az adatfolyamok adatbányászata és a magánszférát védő adatbányászat, ennek a fejezetnek az irodalmi megjegyzéseiben találhatóak.