I. rész - Adatbányászati eszközök

Bevezetés

Ebben a részben az adatbányászati eszközöket, szoftvereket tekintjük át. Az adatbányászatnak három feltétele van. Szükség van először is egy megfelelő adatállományra, amelyen az adatbányászatot el akarjuk végezni. Ez a gyakorlatban legtöbbször egy a vállalati adattárházból előállított feladat-orientált adatállomány. Az oktatásban, és így ebben a tananyagban is, az adatállományokat ismert adatgyűjteményekből (data repository) vesszük. Minden egyes kísérletnél megadtuk a benne felhasznált adatállomány elérhetőségét. A másik fontos feltétel az adatbányászathoz értő szakember, reméljük ezek képzéséhez tud majd hozzájárulni ez a tananyag. Végül a legfontosabb az a szoftver, amivel az adatbányászatot végezzük. Ezeket több szempont alapján is osztályozhatjuk, úgymint üzleti-szabad, önálló-integrált, általános-speciális, témaorientált vagy sem. A témáról a legtöbb és naprakész információ a KDnuggets™ portálon található. Szintén innen juthat az olvasó friss információhoz az aktuális álláslehetőségekről, kurzusokról, konferenciákról.

A tananyagban két szoftvert mutatunk be részletesen: a szabad adatbányászati szoftverek között vezető RapidMiner 5.3 számú és az üzleti adatbányász szoftverek közül az egyik legelterjedtebb SAS® Enterprise Miner™ 7.1 számú verzióját.