Adatbányászati esettanulmányok

Fülöp, András

e-Ventures Kft.

Gonda, László

Debreceni Egyetem
Informatikai Kar

Ispány, Márton

Debreceni Egyetem
Informatikai Kar

Jeszenszky, Péter

Debreceni Egyetem
Informatikai Kar

Szathmáry, László

Debreceni Egyetem
Informatikai Kar

A tananyag a TÁMOP-4.1.2.A/1-11/1-2011-0103 azonosítójú pályázat keretében valósulhatott meg.

2014


Tartalom

Előszó
A tananyag használatáról
I. Adatbányászati eszközök
1. Üzleti adatbányászati szoftverek
2. Szabad adatbányászati szoftverek
II. RapidMiner
3. Adatforrások
Adatok importálása CSV állományból
Adatok importálása Excel állományból
AML állomány létrehozása adatállomány beolvasásához
Adatok importálása XML állományból
Adatok importálása adatbázisból
4. Előfeldolgozás
Problémás adatok kezelése – Hiányzó, inkonzisztens és duplikált értékek
Mintavételezés és aggregáció
Attribútumok létrehozása és szűrése
Attribútumok diszkretizálása és súlyozása
5. Osztályozási eljárások 1.
Osztályozás döntési fa segítségével
Döntési fás osztályozás alul- és túlillesztése
Döntési fás osztályozás hatékonyságának kiértékelése
Döntési fás osztályozás hatékonyságának kiértékelése 2
Döntési fás osztályozók összehasonlítása
6. Osztályozási eljárások 2.
Szabályalapú osztályozó használata (1)
Szabályalapú osztályozó használata (2)
Döntési fa átalakítása ekvivalens szabályhalmazzá
7. Osztályozási eljárások 3.
Lineáris regresszió
Osztályozás lineáris regresszióval
Lineáris regressziós osztályozó hatékonyságának kiértékelése
Lineáris regressziós osztályozó hatékonyságának kiértékelése 2
8. Osztályozási eljárások 4.
Perceptron használata lineárisan szeparálható bináris osztályozási probléma megoldására
Előrecsatolt neurális háló használata osztályozási probléma megoldására
A rejtett neuronok számának hatása az előrecsatolt neurális háló teljesítményére
Lineáris SVM használata lineárisan szeparálható bináris osztályozási probléma megoldására
A C paraméter hatása a lineáris SVM teljesítményére (1)
A C paraméter hatása a lineáris SVM teljesítményére (2)
A C paraméter hatása a lineáris SVM teljesítményére (3)
A tanulóhalmaz méretének hatása a lineáris SVM teljesítményére
A két spirál probléma megoldása nemlineáris SVM-mel
A magfüggvény szélesség paraméter értékének hatása az RBF magfüggvényű SVM teljesítményére
Az RBF magfüggvényű SVM optimális paraméter értékeinek keresése
SVM használata többosztályos osztályozási probléma megoldására
SVM használata regressziós probléma megoldásához
9. Osztályozási eljárások 5.
Az együttes módszerek bevezetése: a zsákolás
Az alaposztályozók számának hatása a zsákolás teljesítményére
Az alaposztályozók számának hatása az AdaBoost eljárás teljesítményére
Az alaposztályozók számának hatása a véletlen erdő teljesítményére
10. Asszociációs elemzés
Asszociációs szabályok kinyerése
Asszociációs szabályok kinyerése nem tranzakciós adathalmazból
Asszociációs szabályok hatékonyságának értékelése
Asszociációs szabályok hatékonysága – a Simpson paradoxon
11. Klaszterezés 1.
Klaszterezés - K-közép módszer
Klaszterezés - K-medoid módszer
Klaszterezés - DBSCAN módszer
Klaszterezés - Aggregáló módszer
Klaszterezés - Felosztó módszer
12. Klaszterezés 2.
Klaszterezés - Tartóvektor klaszterezés
Klaszterezés - Paraméterválasztás
Klaszterezés - Klaszterkiértékelés
Klaszterezés - Centroidok
Klaszterezés - Szövegklaszterezés
13. Kiugró értékek keresése (rendellenesség/anomália keresés)
Kiugró értékek keresése
Kiugró értékek felügyelet nélküli keresése
Kiugró értékek statisztikai alapú felügyelet nélküli keresése
Kiugró értékek keresése klaszterekben
III. SAS® Enterprise Miner
14. Adatforrások
Meglévő SAS adatállomány beolvasása
Adatok importálása CSV állományból
Adatok importálása Excel állományból
15. Előfeldolgozás
Metaadatok előállítása és automatikus változó szelektálás
Többdimenziós adatok megjelenítése és dimenziócsökkentése PCA-val
Változók helyettesítése és hiányzó értékek pótlása
16. Osztályozási eljárások 1.
Osztályozás döntési fa segítségével
Döntési fa osztályozók összehasonlítása és kiértékelése
17. Osztályozási eljárások 2.
Szabályindukció ritka esetekre
18. Osztályozási eljárások 3.
Logisztikus regresszió
Többértékű célváltozó előrejelzése regresszióval
19. Osztályozási eljárások 4.
Lineárisan szeparálható bináris osztályozási probléma megoldása ANN-nel és SVM-mel
Mesterséges neurális hálók illesztése
Tartóvektor-gépek (SVM) illesztése
20. Osztályozási eljárások 5.
Együttes módszerek: osztályozók egyesítése
Együttes módszerek: zsákolás (bagging)
Együttes módszerek: gyorsítás (boosting)
21. Asszociációs elemzés
Asszociációs szabályok kinyerése
22. Klaszterezés 1.
Klaszterezés - K-közép módszer
Klaszterezés - Hierarchikus összevonó módszerek
Klaszterezés - Módszerek összehasonlítása
23. Klaszterezés 2.
Haladottabb klaszterezés - Attribútum klaszterezés SVM-mel
Haladottabb klaszterezés - SOM és VQ
24. Regresszió folytonos célváltozóra
Logisztikus regresszió
Többértékű célváltozó előrejelzése regresszióval
Felügyelt adatbányászati modellek folytonos célváltozóra
25. Rendellenesség-keresés
Kiugró értékek keresése
Irodalomjegyzék

Az ábrák listája

3.1. Az eredményül kapott ExampleSet metaadatai
3.2. Az eredményül kapott ExampleSet egy kis részlete
3.3. Az eredményül kapott ExampleSet metaadatai
3.4. Az eredményül kapott ExampleSet egy kis részlete
3.5. Az eredményül előálló AML állomány
3.6. A kísérletben használt The World Bank: Population (Total) adatállomány egy kis részlete
3.7. Az eredményül kapott ExampleSet metaadatai
3.8. Az eredményül kapott ExampleSet egy kis részlete
3.9. Az eredményül kapott ExampleSet metaadatai
3.10. Az eredményül kapott ExampleSet egy kis részlete
4.1. A globális és konyhai energiafogyasztás grafikus ábrázolása az idő függvényében
4.2. A háztartás tagjainak feltételezett szokásai alapján lehetséges kiugró értékek
4.3. A lehetséges kiugró értékek kiszűrése rekordszűrő segítségével
4.4. Aggregáló függvények kiválasztása az attribútumokhoz
4.5. Az adathalmazból való mintavétel beállításai
4.6. Az adathalmazból való rekordszűrés beállításai
4.7. Az adathalmazból való mintavétel után előálló eredményhalmaz
4.8. Az adathalmazból való rekordszűrés után előálló eredményhalmaz
4.9. Új attribútum meghatározása egy, a meglévő attribútumokra támaszkodó kifejezéssel
4.10. A redundánssá vált attribútumok eltávolításához használható operátor beállításai
4.11. A csökkentett méretű adathalmazban megmaradó attribútumok kiválasztása
4.12. A származtatott attribútum megjelenése a módosított adathalmazban
4.13. A megfelelő diszkretizáló operátor kiválasztása
4.14. A diszkretizáló operátor beállításainak megadása
4.15. A megfelelő súlyozó operátor kiválasztása
4.16. Az egyes attribútumok súlyainak beállítása
4.17. Az adathalmaz súlyozott és súlyozatlan példányainak összehasonlítása
5.1. A döntési fa építésének beállításai
5.2. Az adathalmaz tanuló- és teszthalmazra bontásának beállításai
5.3. Az adathalmaz partíciók relatív méreteinek beállítása
5.4. A létrejövő döntési fa grafikus reprezentációja
5.5. A rekordok a döntési fán alapuló osztályozása
5.6. Határérték beállítása a döntési fa maximális mélységéhez
5.7. A létrejövő döntési fa grafikus reprezentációja
5.8. A rekordok a döntési fán alapuló osztályozásának grafikus reprezentációja
5.9. A megnövelt maximális mélységgel létrejövő döntési fa grafikus reprezentációja
5.10. A rekordok a megnövelt maximális mélységű döntési fán alapuló osztályozásának grafikus reprezentációja
5.11. A tovább növelt maximális mélységgel létrejövő döntési fa grafikus reprezentációja
5.12. A rekordok a tovább növelt maximális mélységű döntési fán alapuló osztályozásának grafikus reprezentációja
5.13. A döntési fa építésének beállításai
5.14. A létrejövő döntési fa grafikus reprezentációja
5.15. A rekordok a döntési fán alapuló osztályozásának grafikus reprezentációja
5.16. A döntési fán alapuló osztályozás teljesítményvektora
5.17. Módosítások a döntési fa építésének beállításain
5.18. A módosított beállításokkal létrejövő döntési fa grafikus reprezentációja
5.19. A módosított beállításokkal létrehozott döntési fán alapuló osztályozás teljesítményvektora
5.20. A validációs operátor által végzett mintavétel beállításai
5.21. A validációs operátor alfolyamatai
5.22. A létrejövő döntési fa grafikus reprezentációja
5.23. A döntési fán alapuló osztályozás teljesítményvektora
5.24. A keresztvalidációs operátor beállításai
5.25. A keresztvalidációs operátorban elvégzett osztályozások összesített teljesítményvektora
5.26. A keresztvalidációs operátorban elvégzett osztályozások összesített teljesítményvektora a hagyj-ki-egyet módszer alkalmazásakor
5.27. A Gini-index kritériumon alapuló döntési fa építésének beállításai
5.28. A nyereségarány kritériumon alapuló döntési fa építésének beállításai
5.29. A nyereségarány kritérium alapján létrejövő döntési fa grafikus reprezentációja
5.30. A nyereségarány kritérium alapján épített döntési fán alapuló osztályozás teljesítményvektora
5.31. A Gini-index kritérium alapján létrejövő döntési fa grafikus reprezentációja
5.32. A Gini-index kritérium alapján épített döntési fán alapuló osztályozás teljesítményvektora
5.33. A ROC-görbék összehasonlítását végző operátor beállításai
5.34. A ROC-görbéket összehasonlító operátor alfolyamata
5.35. A két döntési fás osztályozó ROC-görbéinek összehasonlítása
6.1. Az adatállományon tanított szabályalapú osztályozó szabályhalmaza
6.2. A szabályalapú osztályozó osztályozási pontossága az adatállományon
6.3. A szabályalapú osztályozó szabályhalmaza
6.4. A szabályalapú osztályozó osztályozási pontossága a tanulóhalmazon
6.5. A szabályalapú osztályozó osztályozási pontossága a teszthalmazon
6.6. Az adatállományon épített döntési fa
6.7. A döntési fának megfelelő ekvivalens szabályhalmaz
6.8. A szabályalapú osztályozó osztályozási pontossága az adatállományon
7.1. A lineáris regresszió operátor tulajdonságai
7.2. Az eredményül létrejövő lineáris regressziós modell
7.3. A lineáris regressziós modell alapján kiszámított osztály predikció értékek
7.4. A regressziós modellel osztályozó operátor alfolyamata
7.5. Az eredményként előálló lineáris regressziós modell
7.6. A regressziós modell alapján kiszámított predikciókból származtatott osztálycímkék
7.7. A regressziós modellel osztályozó operátor alfolyamata
7.8. Az eredményként előálló lineáris regressziós modell
7.9. A regressziós modell alapján történt osztályozás teljesítményvektora
7.10. A keresztvalidációs operátor alfolyamata
7.11. A regressziós modellel osztályozó operátor alfolyamata
7.12. Az eredményként előálló lineáris regressziós modell
7.13. A keresztvalidációs operátor testreszabható beállításai
7.14. A keresztvalidációs operátorban definiált regressziós modell alapján végzett osztályozások összesített teljesítményvektora
7.15. A keresztvalidációs operátorban definiált regressziós modell alapján végzett osztályozások összesített teljesítményvektora a hagyj-ki-egyet módszer alkalmazása esetében
8.1. A Wine adatállomány [UCI MLR] egy lineárisan szeparálható, a kísérletben felhasznált részhalmaza (az összesen 3 osztály közül 2, az összesen 13 attribútum közül pedig 2 került kiválasztásra)
8.2. A perceptron döntési határa
8.3. A perceptron osztályozási pontossága az adatállományon
8.4. A neurális háló osztályozási pontossága az adatállományon
8.5. A 10-szeres keresztellenőrzés révén nyert átlagos hibaarány a rejtett neuronok számának függvényében
8.6. A Wine adatállomány [UCI MLR] egy lineárisan szeparálható, a kísérletben felhasznált részhalmaza (az összesen 3 osztály közül 2, az összesen 13 attribútum közül pedig 2 került kiválasztásra)
8.7. A lineáris SVM kernelmodellje
8.8. A lineáris SVM osztályozási pontossága az adatállományon
8.9. A Wine adatállomány egy, a kísérletben felhasznált részhalmaza (az összesen 3 osztály közül 2, az összesen 13 attribútum közül pedig 2 került kiválasztásra). Megjegyezzük, hogy az osztályok nem lineárisan szeparálhatóak.
8.10. A lineáris SVM osztályozási hibaaránya a C paraméter értékének függvényében
8.11. A tartóvektorok száma a C paraméter értékének függvényében
8.12. A lineáris SVM 10-szeres keresztellenőrzés révén nyert átlagos osztályozási hibaaránya a C paraméter értékének függvényében, ahol a vízszintes tengely logaritmikus beosztású
8.13. A lineáris SVM osztályozási hibaaránya a tanuló- és a teszthalmazon a C paraméter értékének függvényében
8.14. A tartóvektorok száma a C paraméter értékének függvényében
8.15. A lineáris SVM osztályozási hibaaránya a tanuló- és a teszthalmazon a tanulóhalmaz méretének függvényében
8.16. A tartóvektorok száma a tanulóhalmaz méretének függvényében
8.17. Az SVM tanításához szükséges CPU végrehajtási idő a tanulóhalmaz méretének függvényében
8.18. A két spirál adatállomány
8.19. Az adatállományt előállító R kód, mely az R Extension Execute Script (R) operátorával kerül végrehajtásra
8.20. A nemlineáris SVM osztályozási pontossága az adatállományon
8.21. Az SVM osztályozási hibaaránya a tanuló- és a teszthalmazon az RBF magfüggvény szélesség paraméter értékének függvényében
8.22. Az RBF magfüggvényű SVM paramétereinek optimális értékei
8.23. Az RBF magfüggvényű SVM osztályozási pontossága az adatállományon
8.24. A lineáris SVM kernelmodellje
8.25. A lineáris SVM osztályozási pontossága az adatállományon
8.26. Az RBF magfüggvényű SVM gamma paraméterének optimális értéke
8.27. Az RBF magfüggvényű SVM 10-szeres keresztellenőrzésből nyert átlagos RMS hibája a gamma paraméter értékének függvényében, ahol a vízszintes tengely logaritmikus beosztású
8.28. Az optimális RBF magfüggvényű SVM kernelmodellje
8.29. Az optimális RBF magfüggvényű SVM által adott predikció a függő változó megfigyelt értékének függvényében
9.1. Egyetlen döntési tönk 10-szeres keresztellenőrzésből nyert átlagos osztályozási hibaaránya
9.2. A zsákolás 10-szeres keresztellenőrzésből nyert átlagos osztályozási hibaaránya, ahol 10 döntési tönköt használtunk alaposztályozóként
9.3. A 10-szeres keresztellenőrzés révén nyert átlagos osztályozási hibaarány az alaposztályozók számának függvényében
9.4. A 10-szeres keresztellenőrzés révén nyert átlagos osztályozási hibaarány az alaposztályozók számának függvényében
9.5. A véletlen erdő 10-szeres keresztellenőrzés révén nyert átlagos osztályozási hibaaránya az alaposztályozók számának függvényében
10.1. A generált gyakori elemhalmazok listája
10.2. A generált asszociációs szabályok listája
10.3. A generált asszociációs szabályok grafikus reprezentációja
10.4. Operátor beállításai a szükséges adatkonverzióhoz
10.5. Az adathalmaz konvertált verziója
10.6. A generált gyakori elemhalmazok listája
10.7. A generált asszociációs szabályok listája
10.8. Operátor beállításai a megfelelő adatkonverzióhoz
10.9. Az adathalmaz megfelelő konvertált verziója
10.10. A generált gyakori elemhalmazok javított listája
10.11. A generált asszociációs szabályok javított listája
10.12. A generált asszociációs szabályok grafikus reprezentációja
10.13. Operátor beállításai a szükséges adatkonverzióhoz
10.14. A label szerepkör kiosztása a teljesítményméréshez
10.15. A prediction szerepkör kiosztása a teljesítményméréshez
10.16. Operátor beállításai a teljesítményméréshez szükséges adatkonverzióhoz
10.17. A túléléssel kapcsolatos generált asszociációs szabályok grafikus reprezentációja
10.18. A túléléssel kapcsolatos generált asszociációs szabályok listája
10.19. A generált asszociációs szabályok alkalmazásának teljesítményvektora
10.20. A túléléssel kapcsolatos generált asszociációs szabályok listája
10.21. A generált asszociációs szabályok alkalmazásának teljesítményvektora
10.22. Az adathalmaz kontingencia táblázata
10.23. Rekordszűrés alkalmazása
10.24. A rekordok szűrése után redundánssá váló attribútumok eltávolítása
10.25. A túléléssel kapcsolatos generált asszociációs szabályok listája a felnőttek részhalmaza esetén
10.26. A generált asszociációs szabályok alkalmazásának teljesítményvektora a felnőttek részhalmaza esetén
10.27. A túléléssel kapcsolatos generált asszociációs szabályok listája a gyermekek részhalmaza esetén
10.28. A generált asszociációs szabályok alkalmazásának teljesítményvektora a gyermekek részhalmaza esetén
11.1. A 7 elkülönülő csoport
11.2. Klaszterezés alapbeállításokkal
11.3. A távolságfüggvény beállítása
11.4. Klaszterezés Mahalanobis távolságfüggvénnyel
11.5. Az adathalmaz
11.6. A klaszterezés paramétereinek beállítása
11.7. A klaszterezanalízis eredményeként létrejött klaszterek
11.8. A változó sűrűségű csoportok
11.9. A módszer eredménye alapbeállításokkal
11.10. A 15 csoport
11.11. A létrejött dendrogram
11.12. A dendrogrammokból képzett klaszterezés
11.13. A 600 kétdimenziós vektor
11.14. Az alfolyamat
11.15. A klaszterelemzés riportja
11.16. Az elemzés kimenete
12.1. A két csoport
12.2. Tartóvektor klaszterezés polinomiális kernellel és p=0.21 beállítással
12.3. Sikertelen klaszterezés
12.4. Klaszterezés RBF kernellel
12.5. Biztatóbb eredmények
12.6. A 240 vektorból álló két csoport
12.7. A optimalizáció alfolyamata
12.8. Az optimalizáció paraméterei
12.9. Az eljárás által készített jelentés
12.10. A legjobb paraméterekkel végrehajtott klaszterezés kimenete
12.11. A 788 vektor
12.12. A kiértékelő alfolyamat
12.13. A paraméterek beállítása
12.14. A naplózandó beállítások
12.15. Klaszterek sűrűsége a k klaszterszám függvényében
12.16. Klaszterekben található pontok eloszlása a k klaszterszám függvényében
12.17. A 31 klaszterbe bontható vektorok
12.18. A kinyert centroidok
12.19. A centroidokat prototípuspontként felhasználva, a k legközelebbi szomszéd módszer kimenete
12.20. Az előfeldolgozó alfolyamat
12.21. A klaszterezés beállítása
12.22. Az eredmények igazságmátrixa
13.1. A lehetséges kiugró értékek grafikus reprezentációja
13.2. Az érzékelt outlier-ek számának változása a távolsági határérték növelése mellett
13.3. Legközelebbi szomszédokon alapuló operátorok az Anomaly Detection csomagban
13.4. A LOF beállításai.
13.5. Az egyes rekordokhoz k legközelebbi szomszéd alapján kiosztott kiugró érték pontszámok
13.6. Az egyes rekordokhoz LOF alapján kiosztott kiugró érték pontszámok
13.7. A rekordok szűrése kiugró érték pontszámuk alapján
13.8. A k-NN pontszám alapján szűrt adathalmaz
13.9. A LOF pontszám alapján szűrt adathalmaz
13.10. A hisztogramalapú kiugró érték pontszám globális beállításai
13.11. A hisztogramalapú kiugró érték pontszám oszlopszintű beállításai
13.12. Pontszámok és attribútumok felosztása egyenlő méretű, tetszőleges számú osztály használata esetén
13.13. A kiugró érték pontszámok grafikus ábrázolása
13.14. Pontszámok és attribútumok felosztása változó méretű, tetszőleges számú osztály használata esetén
13.15. A javított kiugró érték pontszámok grafikus ábrázolása
13.16. A felhasznált k-közép klaszterezés beállításai
13.17. A felhasznált DBSCAN klaszterezés beállításai
13.18. A k-közép klaszterezéshez kiszámított kiugró érték pontszámok
13.19. A k-közép adathalmazának klaszterbesorolásai grafikusan ábrázolva
13.20. A k-közép adathalmazának kiugró érték pontszámai grafikusan ábrázolva
13.21. A DBSCAN adathalmazának klaszterbesorolásai grafikusan ábrázolva
13.22. A DBSCAN adathalmazának kiugró érték pontszámai grafikusan ábrázolva
13.23. A DBSCAN adathalmazának sűrűségalapú kiugró érték pontszámai grafikusan ábrázolva
13.24. A DBSCAN adathalmazának javított sűrűségalapú kiugró érték pontszámai grafikusan ábrázolva
14.1. Az eredményül kapott adatállomány metaadatai
14.2. A Sample operátor beállításai
14.3. Az eredményül kapott adatállomány legfontosabb metaadatai és egy kis részlete
14.4. A File Import operátorral beolvasható fájlok
14.5. A File Import operátor legfontosabb paraméterei
14.6. Az eredményül kapott adatállomány egy kis részlete
14.7. Az eredményül kapott adatállomány néhány metaadata
14.8. Az eredményül kapott adatállomány egy kis részlete
15.1. A DMDB operátor által kapott metaadatok egy része
15.2. A Variable Selection operátor beállításai
15.3. A változók listája a változó szelekció után
15.4. Szekvenciális R-négyzet grafikon
15.5. A változó szelekció után megmaradó két legfontosabb input attribútum függvényében a bináris célváltozó
15.6. Az Iris adatállomány megjelenítése párhuzamos tengelyekkel
15.7. A PCA kumulált magyarázó variancia görbéje
15.8. Az Iris adatállomány megjelenítése az első két főkomponens terében
15.9. A helyettesítés varázslója
15.10. Az imputáció outputja
15.11. Egy input és a célváltozó kapcsolata az imputáció előtt
15.12. Egy input és a célváltozó kapcsolata az imputáció után
16.1. Az adatállomány particionálásának beállításai
16.2. A döntési fa
16.3. A döntési fa válaszgörbéje
16.4. A döntési fa illeszkedési statisztikái
16.5. A döntési fa osztályozási oszlopdiagramja
16.6. A döntési fa kumulatív lift görbéje
16.7. Az attribútumok fontossága
16.8. A partícionálás paramétereinek beállítása
16.9. A döntési fa chi-négyzet mérőszám esetén
16.10. A döntési fa entrópia mérőszám esetén
16.11. A döntési fa Gini-index mérőszám esetén
16.12. A döntési fák kumulált válaszgörbéje
16.13. Az osztályozási oszlopdiagram
16.14. A döntési fák (nem-kumulált) válaszgörbéi
16.15. A döntési fák pontszám eloszlásai
16.16. A döntési fák legfontosabb statisztikai mutatói
17.1. A szabályindukció eredményéül kapott téves osztályozási ráták
17.2. A szabályindukció osztályozási (tévesztési) mátrixa
17.3. A szabályindukció osztályozási oszlopdiagramja
17.4. A szabályindukciók és a döntési fa ROC görbéi
17.5. Egy szabályindukciós operátor kimenete
18.1. A logisztikus regresszió tévesztési mátrixa
18.2. A logisztikus regresszió hatásgrafikonja
18.3. A lépésenkénti logisztikus regresszió tévesztési mátrixa
18.4. A lépésenkénti logisztikus regresszió hatásgrafikonja
18.5. A logisztikus regressziós modelleket összehasonlító statisztikai mutatók
18.6. A logisztikus regressziós modellek osztályozási oszlopdiagramjai
18.7. A logisztikus regressziós modellek kumulatív lift görbéi
18.8. A logisztikus regressziós modellek ROC görbéi
18.9. A logisztikus regresszió tévesztési mátrixa
18.10. A logisztikus regresszió osztályozási oszlopgrafikonja
18.11. A logisztikus regresszió hatásgrafikonja
19.1. A Wine adatállomány egy lineárisan szeparálható részhalmaza
19.2. A perceptron illeszkedési statisztikái
19.3. A perceptron tévesztési mátrixa
19.4. A perceptron modell kumulatív lift görbéje
19.5. Az SVM illeszkedési statisztikái
19.6. Az SVM tévesztési mátrixa
19.7. Az SVM kumulatív lift görbéje
19.8. A tartóvektorok listája
19.9. A többrétegű perceptron illeszkedési statisztikái
19.10. A többrétegű perceptron tévesztési mátrixa
19.11. A többrétegű perceptron modell kumulatív lift görbéje
19.12. A többrétegű perceptron neuronjainak súlyai
19.13. A többrétegű perceptron tanulási görbéje
19.14. Lépésenkénti optimalizációs statisztika a DMNeural operátorra
19.15. Az AutoNeural operátorral kapott háló neuronjainak súlyai
19.16. A neurális hálók illeszkedési statisztikái
19.17. Az osztályozási mátrixok oszlopdiagramjai
19.18. A neurális hálók kumulatív lift görbéi
19.19. A neurális hálók ROC görbéi
19.20. A lineáris kernelű SVM illeszkedési statisztikái
19.21. A lineáris kernelű SVM tévesztési mátrixa
19.22. A lineáris kernelű SVM tartóvektorai (kivonat)
19.23. A lineáris kernelű SVM Lagrange multiplikátorainak eloszlása
19.24. A polinomiális kernelű SVM paraméterei
19.25. A polinomiális kernelű SVM illeszkedési statisztikái
19.26. A polinomiális kernelű SVM tévesztési mátrixa
19.27. A polinomiális kernelű SVM tartóvektorai (kivonat)
19.28. A tartóvektor-gépek illeszkedési statisztikái
19.29. A tartóvektor-gépek osztályozási oszlopdiagramjai
19.30. A tartóvektor-gépek kumulatív lift görbéinek összehasonlítása
19.31. A tartóvektor-gépek kumulatív lift görbéinek összehasonlítása az alap és a legjobb viszonylatában
19.32. A tartóvektor-gépek ROC görbéi
20.1. Az együttes osztályozási modell illeszkedési statisztikái
20.2. Az együttes osztályozási modell tévesztési mátrixa
20.3. Az együttes osztályozási modell kumulatív lift görbéje
20.4. Az együttes osztályozási modell és az SVM téves osztályozási rátája
20.5. Az együttes osztályozási modell és az SVM tévesztési mátrixa
20.6. Az együttes osztályozási modell és az SVM kumulatív lift görbéje
20.7. Az együttes osztályozási modell, az SVM és a legjobb elméleti modell kumulatív lift görbéje
20.8. Az együttes osztályozási modell és az SVM ROC görbéje
20.9. A zsákolási osztályozó tévesztési mátrixa
20.10. A zsákolási osztályozó hibagörbéje
20.11. A zsákolási osztályozó és a döntési fa téves osztályozási aránya
20.12. A zsákolási osztályozó és a döntési fa tévesztési mátrixa
20.13. A zsákolási osztályozó és a döntési fa válaszgörbéje
20.14. A zsákolási osztályozó és a döntési fa válaszgörbéje az alaphoz és a legjobbhoz hasonlítva
20.15. A zsákolási osztályozó és a döntési fa ROC görbéje
20.16. A gyorsítással kapott osztályozó tévesztési mátrixa
20.17. A gyorsítási modellek hibagörbéje
20.18. A gyorsítási osztályozó és az SVM téves osztályozási aránya
20.19. A gyorsítási osztályozó és az SVM tévesztési mátrixa
20.20. A gyorsítási osztályozó és az SVM kumulált válaszgörbéje
20.21. A gyorsítási osztályozó és az SVM válaszgörbéje az alap és a legjobb viszonylatában
20.22. A gyorsítási osztályozó és az SVM ROC görbéje
21.1. A tételek listája
21.2. Az asszociációs szabályok a támogatottság és megbízhatóság függvényében
21.3. A lift értékek grafikonja
21.4. A generált asszociációs szabályok listája
22.1. Az Aggregation adatállomány
22.2. A Cluster operátor beállításai
22.3. A K-közép klaszterezés eredménye 7 klaszter mellett
22.4. A MacQueen-féle klaszterezés paraméter beállításai
22.5. A MacQueen-féle klaszterezés végeredménye
22.6. A klaszterezés eredménye 8 klaszter választása esetén
22.7. A Cluster operátor eredményablaka
22.8. A klaszterek átlagait mutató pontdiagram
22.9. A klaszterezés döntési fája
22.10. A Maximum Variance (R15) adatállomány megjelenítése
22.11. Az átlagos kapcsolású hierarchikus klaszterezés eredménye
22.12. A klaszterezés kiértékelése térbeli oszlopgrafikonnal
22.13. A Ward-féle hierarchikus klaszterezés eredménye
22.14. Az automatikus klaszterezés CCC grafikonja
22.15. Az automatikus klaszterezés proximitási grafikonja
22.16. A Maximum Variance (D31) adatállomány
22.17. Az automatikus klaszterezés eredménye
22.18. Az automatikus klaszterezés CCC grafikonja
22.19. Az automatikus klaszterezés proximitási ábrája
22.20. A K-közép klaszterezés eredménye
22.21. A K-közép klaszterezés proximitási ábrája
22.22. Az egyes szegmensek (klaszterek) profiljai
23.1. Az attribútum klaszterezés dendrogramja
23.2. A klaszterek és attribútumok gráfja
23.3. A klaszterek felépítése
23.4. Az attribútumok korrelációs ábrája
23.5. Egy attribútum és a klaszterek közötti korreláció
23.6. Az SVM modellek osztályozási oszlopdiagramjai
23.7. Az SVM modellek válaszgörbéi
23.8. Az SVM modellek kumulatív lift függvényei
23.9. Az SVM modellek ROC görbéi
23.10. A Maximum Variance (R15) adatállomány pontdiagramja
23.11. A Kohonen-féle vektor-kvantálás eredménye
23.12. A klaszternagyságok kördiagramja
23.13. A klasztereket leíró statisztikák
23.14. A SOM grafikus képe
23.15. A SOM eredményének pontdiagramja
24.1. A logisztikus regresszió tévesztési mátrixa
24.2. A logisztikus regresszió hatásgrafikonja
24.3. A lépésenkénti logisztikus regresszió tévesztési mátrixa
24.4. A lépésenkénti logisztikus regresszió hatásgrafikonja
24.5. A logisztikus regressziós modelleket összehasonlító statisztikai mutatók
24.6. A logisztikus regressziós modellek osztályozási oszlopdiagramjai
24.7. A logisztikus regressziós modellek kumulatív lift görbéi
24.8. A logisztikus regressziós modellek ROC görbéi
24.9. A logisztikus regresszió tévesztési mátrixa
24.10. A logisztikus regresszió osztályozási oszlopgrafikonja
24.11. A logisztikus regresszió hatásgrafikonja
24.12. A kapott modellek statisztikái a teszthalmazon
24.13. A kapott modellek összehasonlítása az előrejelzések átlagai alapján
24.14. A megfigyelt és az előrejelzett átlaggörbék viszonya modellekként
24.15. A modell pontszámok alakulása
24.16. A folytonos célváltozóra kapott döntési fa
24.17. A neurális háló tanítás utáni súlyai
25.1. A kiugró értékek szűrése előtti és utáni statisztikák
25.2. Az előrejelzett átlag a két döntési fa alapján
25.3. A nyertes döntési fa sematikus ábrája
25.4. Az illesztett két döntési fa összehasonlítása