1. fejezet - Bevezetés

Tartalom

Mi az adatbányászat?
Ösztönző kihívások
Az adatbányászat eredete
Adatbányászati feladatok
A könyv témája és szerkezete
Irodalmi megjegyzések
Feladatok

Az adatgyűjtési és tárolási technológiák gyors fejlődésével a szervezetek képessé váltak arra, hogy nagy mennyiségű adatot halmozzanak fel. A hasznos információk kinyerése azonban már rendkívüli kihívásnak bizonyult. A hagyományos adatelemzési eszközök és módszerek gyakran nem használhatóak a hatalmas adattömeg miatt. Esetenként az adatok nem hagyományos természetűek, ami azt jelenti, hogy a hagyományos megközelítések még viszonylag kicsi adatállomány esetén sem alkalmazhatóak. Máskor a megválaszolandó kérdések nem kezelhetőek a meglévő adatelemzési módszerekkel, és így új módszereket kell kidolgozni.

Az adatbányászat egy olyan technológia nagy mennyiségű adat feldolgozására, amely hagyományos adatelemzési módszerek és kifinomult algoritmusok elegye. Ez a technológia izgalmas lehetőségeket nyitott meg új típusú adatok feltárására és elemzésére, továbbá régi típusú adatok új módon való vizsgálatára. Ebben a bevezető fejezetben áttekintést adunk az adatbányászatról, és felvázoljuk a könyv legfontosabb témáit. A leírást néhány olyan jól ismert alkalmazással kezdjük, amelyeknél az adatok elemzése új módszereket követel meg.

Üzlet Az automatizált vásárlásnál alkalmazott adatrögzítés (vonalkód leolvasók, rádiófrekvenciás azonosítás (RFID) és az okoskártya (smart card) technológia) lehetővé teszi, hogy áruházaik pénztárainál a kereskedők összegyűjtsék ügyfeleik vásárlásairól a legfrissebb adatokat. A kereskedők ezután arra használhatják ezt az információt, továbbá más olyan, az üzletet kritikusan érintő adatokat, mint az elektronikus kereskedelem webes naplóit és a vevőszolgálatok ügyféladatait, hogy segítségükkel ügyfeleik igényeit jobban megértsék, és megalapozottabb üzleti döntéseket hozzanak.

Az adatbányászati módszerek olyan széles körű üzleti intelligencia alkalmazások támogatására használhatóak, mint ügyfélprofil készítés, célzott marketing, üzleti folyamatok menedzsmentje, üzlethelyiségek berendezése és csalásfelderítés. Ezek a módszerek abban is segítenek a kereskedőknek, hogy választ kapjanak olyan fontos üzleti kérdésekre, mint ,,Kik a legjövedelmezőbb ügyfelek?'', ,,Milyen termékeket lehet keresztértékesíteni vagy leértékelni?'' és ,,Milyen a cég bevételi kilátása a következő évben?'' E kérdések némelyike motiválta egy új adatelemzési módszer, az asszociációs szabály elemzés megalkotását (lásd 6. és 7. fejezeteket).

Orvos-, természet- és műszaki tudományok A kutatók az orvos-, természet- és műszaki tudományok területén gyorsan halmoznak fel olyan adatokat, amelyek kulcsfontosságúak a fontos új felfedezésekhez. Például a Föld éghajlati rendszerének jobb megértése felé tett fontos lépésként, a NASA egy sor Föld körüli műholdat telepített, amelyek folyamatosan globális megfigyeléseket szolgáltatnak a földfelszínről, az óceánokról és a légkörről. Azonban az adatok mérete és tér-időbeli természete miatt a hagyományos módszerek gyakran nem alkalmasak ezeknek az adatállományoknak az elemzésére. Az adatbányászatban kifejlesztett módszerek segíthetnek a Földet vizsgáló tudósoknak az olyan kérdések megválaszolásában, mint ,,Mi a kapcsolat az olyan ökoszisztéma zavarok gyakorisága és intenzitása között, mint például az aszályok és hurrikánok, egészen a globális felmelegedésig?'', ,,Milyen hatással van a földfelszíni csapadék és hőmérséklet az óceán felszínének hőmérsékletére?'' és ,,Milyen jól tudjuk megjósolni a tenyészidőszak kezdetét és végét egy régióban?''

Egy másik példában a molekuláris biológia kutatói remélik, hogy a mostanában összegyűjtött nagy mennyiségű genomikai adat segítségével jobban megértik a gének szerkezetét és funkcióit. A múltban a molekuláris biológia hagyományos módszerei csak néhány gén egy időben való tanulmányozását tették lehetővé a tudósok számára egy adott kísérletben. A microarray technológia legújabb áttörése révén a tudósok viszont már össze tudják hasonlítani több ezer gén viselkedését különböző helyzetekben. Az ilyen összehasonlítás segítheti minden egyes gén funkciójának a meghatározását, és talán azon gének elkülönítését is, amelyek bizonyos betegségekért felelősek. Azonban az adatok zajos és sokdimenziós természete új típusú adatelemzési módszereket igényel. Ezen kívül, a genetikai adatok elemzése mellett, az adatbányászat alkalmazható olyan más fontos biológiai kihívások kezelésére, mint a fehérjék szerkezetének előrejelzése, több szekvencia illesztése (multiple alignment), biokémiai utak modellezése és a filogenetika.

Mi az adatbányászat?

Az adatbányászat az a folyamat, amellyel hasznos információ fedezhető fel automatikus módon nagy adattárakban. Adatbányászati módszereket vetnek be nagy adatbázisok átkutatására annak érdekében, hogy olyan új és hasznos mintázatokat találjanak, amelyek egyébként ismeretlenek maradnának. Ezek a módszerek továbbá képesek előre megjósolni egy olyan jövőbeli megfigyelés kimenetelét, mint az például, hogy egy újonnan érkezett vásárló többet költ-e egy áruházban, mint 100 dollár.

Nem minden információ feltárási feladat tekinthető adatbányászatnak. Például olyan feladatok, mint egyedi rekordok kikeresése egy adatbázis-kezelő rendszer segítségével, vagy bizonyos weblapok megtalálása egy internetes keresőprogramban való lekérdezés útján, az információkeresés (information retrieval) területével vannak kapcsolatban. Bár az ilyen feladatok fontosak és kifinomult algoritmusok és adatszerkezetek használatával is járhatnak, hagyományos számítógép-tudományi módszerekre és az adatok olyan kézenfekvő jellemzésére támaszkodnak, mint a hatékony szervezésre és információkeresésre létrehozott index struktúrák. Mindazonáltal, adatbányászati módszereket alkalmaznak információkereső rendszerek hatékonyságának fokozására.

Adatbányászat és tudásfeltárás

Az adatbányászat szerves részét képezi az adatbázisokban végzett tudásfeltárás (KDD -- Knowledge Discovery in Databases) folyamatának, amely a nyers adatoknak hasznos információvá való átalakításának a teljes folyamata, amint azt az 1.1. ábra mutatja. Ez a folyamat transzformációs lépéseknek az adatok előfeldolgozásától az adatbányászati eredmények utófeldolgozásáig terjedő sorozatából áll.

1.1. ábra - Az adatbázisokban végzett tudásfeltárás (KDD) folyamata

Az adatbázisokban végzett tudásfeltárás (KDD) folyamata

A bemenő adatokat különböző formátumokban tárolhatjuk (szövegfájlok, táblázatok vagy relációs táblák) és egyaránt lehetnek központi adattárolón vagy több hely között elosztva. Az előfeldolgozás (preprocessing) célja, hogy a nyers bemenő adatokat a későbbi elemzésnek megfelelő formátumba alakítsa. Az adatok előfeldolgozásának lépései tartalmazzák az adatok több forrásból való egyesítését, az adatok tisztítását a zaj és az ismétlődő megfigyelések eltávolításával, és azon rekordok és változók kiválasztását, amelyek lényegesek az aktuális adatbányászati feladatnál. Mivel az adatokat sokféleképpen lehet összegyűjteni és tárolni, az adatok előfeldolgozása talán a leginkább fáradságos és időigényes lépés az adatbázisokban végzett tudásfeltárás folyamatában.

A visszacsatolás kifejezést gyakran használják arra, hogy az adatbányászat eredményeinek a döntéstámogató rendszerekbe való beágyazásának folyamatára utaljanak. Üzleti alkalmazásokban például az adatbányászati eredmények által nyújtott közelkép kiegészítheti a kampánymenedzsment eszközöket úgy, hogy általuk hatékony értékesítési reklámkampányok vezethetőek le és mérhetőek vissza. Az ilyen integráció egy olyan utófeldolgozási (postprocessing) lépést igényel, amely biztosítja, hogy csak az érvényes és hasznos eredmények épüljenek be a döntéstámogató rendszerbe. Egy példa utófeldolgozásra a vizualizáció (lásd 3. fejezetet), amely az elemzőknek lehetővé teszi, hogy az adatokat és az adatbányászat eredményeit különböző nézőpontokból vizsgálják meg. Az utófeldolgozás során statisztikai mérőszámok vagy hipotézisvizsgálati módszerek is alkalmazhatóak azért, hogy a félrevezető adatbányászati eredményeket eltávolítsuk.