Ösztönző kihívások

Mint korábban említettük, a hagyományos adatelemzési módszerek sokszor gyakorlati nehézségekkel találják szembe magukat, amikor új adatállományok által felvetett kihívásokkal találkoznak. Az alábbiakban néhány olyan konkrét kihívást sorolunk fel, amely az adatbányászat fejlődését ösztönözte.

Skálázhatóság Az adatok előállításában és összegyűjtésében elért fejlődés miatt egyre gyakoribbak a gigabájt, terabájt, vagy akár petabájt méretű adatállományok. Ha az adatbányász algoritmusok kezelni akarják ezeket a hatalmas adatállományokat, akkor skálázhatóaknak kell lenniük. Sok adatbányász algoritmus speciális keresési stratégiát alkalmaz, hogy az exponenciális keresési problémákat kezelni tudja. A skálázhatóság új adatszerkezetek implementálását is megkövetelheti azért, hogy az egyedi rekordokat hatékonyan elérhessük. Például memórián kívül futó algoritmusokra lehet szükségünk, amennyiben a feldolgozandó adatállomány nem fér bele a fő memóriába. A skálázhatóság javítható mintavételezés vagy fejlett párhuzamos és elosztott algoritmusok használatával is.

Magas dimenzió Mostanában, a néhány évtizeddel ezelőtt általános maroknyi méretűekkel szemben, gyakran találkozunk olyan adatállományokkal, amelyek több száz vagy ezer attribútumot tartalmaznak. A bioinformatikában a microarray technológia fejlődése olyan génkifejeződés adatokat állított elő, amelyek jellemzők ezreit hozták magukkal. Az időbeli vagy térbeli összetevőkkel bíró adatállományok is hajlamosak arra, hogy magas dimenziójúak legyenek. Tekintsünk például egy olyan adatállományt, amely hőmérséklet méréseket tartalmaz különböző helyeken. Ha a méréseket többször is elvégezzük egy hosszabb időszakban, akkor a dimenziók (jellemzők) száma arányosan nő a mérések számával. Azok a hagyományos adatelemzési módszerek, amelyeket a kis dimenziójú adatokra dolgoztak ki, gyakran nem működnek jól az ilyen magas dimenziójú adatoknál. Néhány adatelemző algoritmusnál a számítási bonyolultság is gyorsan nő, ahogy a dimenzió (a jellemzők száma) növekszik.

Heterogén és összetett adatok A hagyományos adatelemzési módszerek általában olyan adatállományokkal foglalkoznak, amelyek ugyanolyan típusú, vagy folytonos vagy pedig kategorikus attribútumokat tartalmaznak. Ahogy nőtt az adatbányászat szerepe az üzleti, tudományos, orvosi és más területeken, úgy váltak szükségessé azok a módszerek, amelyek képesek kezelni heterogén attribútumokat. Az elmúlt években is egyre összetettebb adatobjektumok jelentek meg. Ilyen nem hagyományos típusú adatokra példa weboldalak félig-strukturált szöveget és hiperhivatkozásokat tartalmazó gyűjteménye, DNS adatok szekvenciális és három-dimenziós strukturája, és idősorokból (hőmérséklet, nyomás, stb.) álló éghajlati adatok, melyeket a Föld felszín különböző pontjain mértek. Az ilyen összetett objektumok bányászatára kifejlesztett módszereknek figyelembe kell venni az adatokban lévő kapcsolatokat, mint például az időbeli és térbeli autokorreláció, a gráf-összefüggőség, valamint a szülő-gyermek viszony a félig-strukturált szövegek és az XML dokumentumok elemei között.

Az adatok tulajdonjoga és megosztása Néha az egy elemzéshez szükséges adatokat nem egy helyen tárolják, vagy a tulajdonosuk nem egy szervezet. Ehelyett az adatok földrajzilag elosztottak több szervezethez tartozó források között. Ez megköveteli az elosztott adatbányászati módszerek fejlesztését. Az alábbiak a legfontosabb kihívások, amelyekkel szembe találkozunk elosztott adatbányászati algoritmusoknál: (1) hogyan lehet csökkenteni a szükséges kommunikáció mennyiségét az elosztott számítások végrehajtása során, (2) hogyan kell hatékonyan egyesíteni a több forrásból kapott adatbányászati eredményeket, és (3) hogyan kezeljük az adatbiztonsági kérdéseket.

Nem hagyományos elemzés A hagyományos statisztikai megközelítés a hipotézis és próba paradigmán alapszik. Más szóval, először egy hipotézist javaslunk, majd kísérletet tervezünk az adatok összegyűjtésére, végül a hipotézist eldöntendő elemezzük az adatokat. Sajnos ez a folyamat rendkívül munkaigényes. Napjaink adatelemzési feladatai gyakran hipotézisek ezreinek felállítását és kiértékelését követelik meg, következésképp egyes adatbányászati módszerek kifejlődését éppen az azutáni vágy motiválta, hogy a hipotézis felállítás és kiértékelés folyamatát automatizáljuk. Emellett az adatbányászat során elemzett adatállományok jellemzően nem gondosan megtervezett kísérletek eredményeként adódnak, és gyakran véletlen minta helyett inkább az adatok alkalomszerű mintáit mutatják. Ezentúl az adatállományok gyakran nem hagyományos típusú adatokból állnak, és nem hagyományos adateloszlásokkal bírnak.