Bevezetés az adatbányászatba

Pang-Ning Tan

Michael Steinbach

Vipin Kumar

Gonda László

2., 7. fejezet 

Fülöp András

8. fejezet 

Hajas Csilla

10. fejezet 

Ispány Márton

1., 2., 3., 4., 8. fejezet, B függelék 

Jeszenszky Péter

5., 7., 8., 10. fejezet 

Mező István

Függelékek 

Sterbinszky Nóra

3. fejezet 

Szathmáry László

6. fejezet 

Zempléni András

9. fejezet 

Lukács András

Lektorálta 

Új Széchenyi Terv logó.

A mű eredeti címe: Introduction to Data Mining, 1st Edition by Pang-Ning Tan, Michael Steinbach, Vipin Kumar

A fordítás a Pearson Education, Inc. engedélyével jelent meg.

Minden jog fenntartva. Jelen könyvet, illetve annak részeit tilos reprodukálni, adatrögzítő rendszerben tárolni, bármilyen formában vagy eszközzel – elektronikus úton vagy más módon – közölni a kiadók engedélye nélkül.

Az elektronikus kiadásért felel a Panem Könyvkiadó Kft. ügyvezetője, Budapest, 2011

Authorized Translation from the English language edition, entitled Introduction to Data Mining, 1st Edition by Pang-Ning Tan; Michael Steinbach; Vipin Kumar, published by Pearson Education, Inc, publishing as Addison-Wesley, 2006

All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson Education, Inc.

Electronic hungarian language edition published by Panem Könyvkiadó Kft.

A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046 számú Kelet-magyarországi Informatika Tananyag Tárház projekt keretében készült. A tananyagfejlesztés az Európai Unió támogatásával és az Európai Szociális Alap társfinanszírozásával valósult meg.

A Kelet-magyarországi Informatika Tananyag Tárház logója.

Magyarország megújul logó.

Nemzeti Fejlesztési Ügynökség 06 40 638-638

Az EU logója.


Tartalom

Előszó
1. Bevezetés
Mi az adatbányászat?
Ösztönző kihívások
Az adatbányászat eredete
Adatbányászati feladatok
A könyv témája és szerkezete
Irodalmi megjegyzések
Feladatok
2. Adatok
Adattípusok
Attribútumok és mérésük
Az adatállományok típusai
Adatminőség
A mérés és adatgyűjtés kérdései
Alkalmazásokhoz kapcsolódó kérdések
Az adatok előfeldolgozása
Aggregálás
Mintavétel
Dimenziócsökkentés
Jellemzők részhalmazainak kiválasztása
Jellemzők létrehozása
Diszkretizálás és binarizálás
Változó transzformáció
Hasonlósági és különbözőségi mértékek
Alapok
Egyszerű attribútumok hasonlósága és különbözősége
Adatobjektumok különbözőségei
Hasonlóságok adatobjektumok között
Példák szomszédsági mértékekre
A szomszédság kiszámításának kérdései
A megfelelő szomszédsági mérték kiválasztása
Irodalmi megjegyzések
Feladatok
3. Adatfeltárás
Az Írisz-adathalmaz
Összegző statisztikák
Gyakoriságok és a módusz
Percentilisek
Helyzetmutatók: átlag és medián
A szóródás mérőszámai: terjedelem és variancia
Többváltozós összegző statisztikák
Az adatok összegzésének további módjai
Vizualizáció
Miért érdemes vizualizációt alkalmazni?
Általános fogalmak
Módszerek
Magasabb dimenziójú adatok vizualizációja
Mit tegyünk és mit kerüljünk el?
OLAP-módszerek és többdimenziós adatelemzés
Az Írisz-adatok többdimenziós ábrázolása
Többdimenziós adatok: általános eset
Többdimenziós adatok elemzése
Záró megjegyzések a többdimenziós adatelemzéshez
Irodalmi megjegyzések
Feladatok
4. Osztályozás:Alapfogalmak, döntési fák és modellek kiértékelése
Bevezetés
Az osztályozási probléma megoldásának általános megközelítése
Döntési fa következtetés
Hogyan építsünk döntési fát
Az attribútum tesztfeltételek kifejezésének módszerei
Mérőszámok a legjobb vágás kiválasztására
A döntési fa következtetés algoritmusa
Példa: web-robot észlelés
A döntési fa következtetés jellemzői
Modell túlillesztés
Zaj miatti túlillesztés
Túlillesztés jellegzetes minták hiánya miatt
Túlillesztés és a többszörös összehasonlítási eljárás
Általánosítási hibák becslése
A túlillesztés kezelése döntési fa következtetésnél
Egy osztályozó teljesítményének a kiértékelése
Visszatartó módszer
Véletlen alulmintavételezés
Keresztellenőrzés
Bootstrap
Osztályozók összehasonlításának módszerei
A pontosság becslése konfidencia intervallummal
Két modell teljesítményének az összehasonlítása
Két osztályozó teljesítményének az összehasonlítása
Irodalmi megjegyzések
Feladatok
5. Osztályozás: Alternatív módszerek
Szabályalapú osztályozó
A szabályalapú osztályozó működése
Szabályrendezési sémák
Szabályalapú osztályozó építése
Szabálykinyerés direkt módszerekkel
Szabálykinyerés indirekt módszerekkel
Szabályalapú osztályozók jellemzése
Legközelebbi szomszéd osztályozók
Algoritmus
A legközelebbi szomszéd osztályozó jellemzői
Bayes-féle osztályozók
Bayes-tétel
A Bayes-tétel felhasználása osztályozásra
Naiv Bayes-féle osztályozó
Bayes-féle hibaarány
Bayes-féle bizonyossághálók
Mesterséges neurális hálók
Perceptron
Többrétegű mesterséges neurális hálók
Az ANN jellemzői
Tartóvektor-gép (SVM)
Maximális margójú hipersíkok
Lineáris SVM: szeparálható eset
Lineáris SVM: nem szeparálható eset
Nemlináris SVM
Az SVM jellemzői
Együttes módszerek
Az együttes módszer magyarázata
Módszerek együttes osztályozó építésére
Torzítás-variancia felbontás
Zsákolás
Gyorsítás
Véletlen erdők
Együttes módszerek közötti empirikus összehasonlítás
Az osztály-kiegyensúlyozatlanság problémája
Alternatív metrikák
A vevő működési karakterisztika (ROC) görbe
Költségérzékeny tanulás
Mintavételezés-alapú módszerek
Többosztályos problémák
Irodalmi megjegyzések
Feladatok
6. Asszociációs elemzés: Alapvető fogalmak és algoritmusok
A probléma leírása
Gyakori elemhalmazok előállítása
Az apriori-elv
Gyakori elemhalmazok előállítása az Apriori algoritmussal
Jelöltek előállítása és nyesése
A támogatottsági szint kiszámítása
Számítási bonyolultság
Szabálygenerálás
Megbízhatóságon alapuló nyesés
Szabálygenerálás az Apriori algoritmussal
Példa: kongresszusi szavazási jegyzék
Gyakori elemhalmazok tömör reprezentációja
Maximális gyakori elemhalmaz
Zárt gyakori elemhalmazok
Alternatív módszerek gyakori elemhalmazok előállítására
Az FP-bővítés algoritmus
FP-fa reprezentáció
Gyakori elemhalmazok előállítása az FP-bővítés algoritmussal
Az asszociációs mintázatok kiértékelése
Objektív érdekességi mértékek
A bináris változópárokon túlmutató mértékek
Simpson paradoxona
A támogatottság aszimmetrikus eloszlásának hatása
Irodalmi megjegyzések
Feladatok
7. Asszociációs elemzés: Magas szintű fogalmak
Kategorikus attribútumok kezelése
Folytonos attribútumok kezelése
Diszkretizálás-alapú módszerek
Statisztikán alapuló módszerek
Nem diszkretizálási módszerek
Fogalomhierarchiák kezelése
Szekvenciális mintázatok
A probléma megfogalmazása
Szekvenciális mintázatok feltárása
Időbeli megszorítások
Különböző számítási sémák
Részgráf mintázatok
Gráfok és részgráfok
Gyakori részgráfok bányászata
Apriori-szerű módszer
Jelöltgenerálás
A jelöltek nyesése
A támogatottság kiszámítása
Ritka mintázatok
Negatív mintázatok
Negatívan korrelált mintázatok
A ritka mintázatok, a negatív mintázatok és a negatívan korrelált mintázatok összehasonlítása
Az érdekes ritka mintázatok bányászatának módszerei
Negatív mintázatok bányászatán alapuló módszerek
Várható támogatottságon alapuló módszerek
Irodalmi megjegyzések
Feladatok
8. Klaszteranalízis: Alapvető fogalmak és algoritmusok
Áttekintés
Mit nevezünk klaszteranalízisnek?
A klaszterezés különböző típusai
A klaszterek különböző típusai
K -közép módszer
Az alapvető K -közép algoritmus
K -közép módszer: további kérdések
Kettéosztó K -közép módszer
K -közép módszer és klaszterek különböző típusai
Erősségek és gyengeségek
A K -közép módszer, mint optimalizációs feladat
Összevonó hierarchikus klaszterezés
Alapvető összevonó hierarchikus klaszterező algoritmus
Különleges módszerek
A Lance-Williams formula a klaszterviszony meghatározásához
A hierarchikus klaszterezés legfontosabb kérdései
Előnyök és hátrányok
DBSCAN
Hagyományos sűrűség: a központ-alapú szemlélet
A DBSCAN algoritmus
Előnyök és hátrányok
Klaszter kiértékelés
Áttekintés
Felügyelet nélküli klaszterértékelés kohézió és elkülönülés segítségével
Felügyelet nélküli klaszter kiértékelés a szomszédsági mátrix segítségével
A hierarchikus klaszterezés felügyelet nélküli kiértékelése
A klaszterek helyes számának megállapítása
Klaszterezhetőség
A klaszter érvényesség felügyelt mértékei
A klaszter érvényességi mértékek szignifikanciájának értékelése
Irodalmi megjegyzések
Feladatok
9. Klaszteranalízis: További kérdések és algoritmusok
Az adatok, klaszterek és klaszterező algoritmusok jellemzői
Példa: a K -közép és DBSCAN összehasonlítása
Adatjellemzők
Klaszterjellemzők
A klaszterező algoritmusok általános jellemzői
Ütemterv
Prototípus-alapú klaszterezés
Fuzzy klaszterezés
Klaszterezés keverék modellekkel
Önszervező hálók (SOM)
Sűrűség-alapú klaszterezés
Rács-alapú klaszterezés
Altér klaszterezés
DENCLUE: egy magfüggvény alapú séma sűrűség-alapú klaszterezésre
Gráf-alapú klaszterezés
Ritkítás
Minimális feszítőfa klaszterezés
OPOSSUM: ritka hasonlóságok optimális particionálása a METIS segítségével
Chameleon: hierarchikus klaszterezés dinamikus modellezéssel
A közös legközelebbi szomszéd hasonlóság
A Jarvis-Patrick klaszterező algoritmus
SNN sűrűség
SNN sűrűség-alapú klaszterezés
Skálázható klaszterező algoritmusok
Skálázhatóság: általános kérdések és megközelítések
BIRCH
CURE
Mintavétel a CURE-ban
Melyik klaszterező algoritmust válasszuk?
Irodalmi megjegyzések
Feladatok
10. Rendellenességek észlelése
Bevezető
Rendellenességek okai
Rendellenességek észlelésének módszerei
Osztálycímkék használata
Kérdések
Statisztikai megközelítések
Kiugró értékek észlelése egydimenziós normális eloszlásnál
Kiugró értékek a többdimenziós normális eloszlásnál
Keverék modell módszer rendellenesség észlelésre
Erősségek és gyengeségek
Szomszédság-alapú kiugró érték észlelés
Erősségek és gyengeségek
Sűrűség-alapú kiugró érték észlelés
Relatív sűrűség alapú kiugró érték észlelés
Erősségek és gyengeségek
Klaszterezés-alapú eljárások
Az objektumok klaszterhez tartozási mértékének megállapítása
A kiugró értékek hatása a kezdeti klaszterezésre
A használandó klaszterek száma
Erősségek és gyengeségek
Irodalmi megjegyzések
Feladatok
A. A Lineáris algebra
Vektorok
Definíció
Vektorok összeadása és skalárral való szorzása
Vektorterek
Belső szorzat, merőlegesség és merőleges vetítés
Vektorok és adatelemzés
Mátrixok
Definíciók
Mátrixok összeadása és skalárral való szorzása
Mátrixok szorzása
Lineáris transzformációk és inverz mátrixok
Sajátérték és szinguláris érték felbontás
Mátrixok és adatelemzés
Irodalomi megjegyzések
B. Dimenziócsökkentés
PCA és SVD
Főkomponens analízis (PCA)
SVD
További dimenziócsökkentési módszerek
Faktoranalízis
Lokális lineáris beágyazás (LLE)
Többdimenziós skálázás (MDS), FastMap és ISOMAP
Közös szempontok
Irodalmi megjegyzések
C. Valószínűségszámítás és statisztika
Valószínűség
Várható érték
Statisztika
Pontbecslés
A központi határeloszlás-tétel
Intervallumbecslés
Hipotézisvizsgálat
D. Regresszióanalízis
Előzetes fogalmak
Egyszerű lineáris regresszió
A regresszió hibájának vizsgálata
Az illeszkedés hibája
Többváltozós lineáris regresszió
Alternatív legkisebb négyzetes regressziós módszerek
E. Optimalizáció
Feltétel nélküli optimalizálás
Numerikus módszerek
Feltételes optimalizálás
Egyenletekkel adott feltételek
Egyenlőtlenségekkel adott feltételek
F. Irodalomjegyzék

Az ábrák listája

1.1. Az adatbázisokban végzett tudásfeltárás (KDD) folyamata
1.2. Az adatbányászat mint több tudományág egyesülése
1.3. Négy alapvető adatbányászati feladat
1.4. Szirom szélesség a szirom hosszúság függvényében a 150 írisz virágra
2.1. Szakaszok hosszának mérése két különböző mérési skálán
2.2. Különböző variációk rekord típusú adatokra
2.3. Különböző variációk gráfadatokra
2.4. Különböző variációk rendezett adatokra
2.5. Zaj idősoros környezetben
2.6. Zaj térbeli környezetben
2.7. Az évi SST adatok páronkénti korrelációja. A fehér területek pozitív korrelációt jeleznek, a fekete területek pedig negatív korrelációt.
2.8. Hisztogramok az Ausztráliában mért havi és éves csapadékmennyiségek szórásaira az 1982-től 1993-ig terjedő időszakra
2.9. Példa a felépítés elvesztésére mintavétel hatására
2.10. Reprezentatív pontok keresése 10 csoportból
2.11. Egy jellemző részhalmaz kiválasztási folyamat folyamatábrája
2.12. A Fourier transzformáció idősor adatokban történő alkalmazása frekvenciák azonosítására
2.13. Különböző diszkretizálási módszerek
2.14. Az x és y attribútumok diszkretizálása pontok négy csoportjára (osztályára)
2.15. A koszinusz mérték geometriai ábrázolása
2.16. A koszinusz mérték geometriai ábrázolása
2.17. Korrelációt szemléltető pontdiagramok -1-től 1-ig
2.18. A Bregman divergencia szemléltetése
2.19. Kétdimenziós pontok halmaza. A két, nagy pöttyökkel jelzett pont közötti Mahalanobis távolság 6, míg euklideszi távolságuk 14,7.
2.20. Grafikonok a 20. feladathoz (a) Az euklideszi távolság és a koszinusz mérték kapcsolata (b) Az euklideszi távolság és a korreláció kapcsolata
3.1. Iris Virginica. Robert H. Mohlenbrock, Amerikai Egyesült Államok Mezőgazdasági Részlege, A Természeti Erőforrások Megőrzéséért, Növény-adatbázis (USDA-NRCS PLANTS Db.), 1995. Az északkeleti lápvidék növényvilága: Hivatalos útmutatás a fajok ültetéséhez. Északkeleti Nemzeti Technikai Központ, Chester, Pennsylvania, USA. A háttér eltávolítva.
3.2. A tengerfelszín hőmérséklete (SST -- Sea Surface Temperature) 1982 júliusában
3.3. Egy gráf két különböző ábrázolása
3.4. Csészelevelek hosszai az Irisz-adatállományban
3.5. A csészelevelek hosszának ág-levél diagramja az Írisz-adatállományra
3.6. A csészelevelek hosszának ág-levél diagramja az Írisz-adatállományra felosztott ágakkal
3.7. A négy Írisz-attribútum hisztogramja (10 dobozzal)
3.8. A négy Írisz-attribútum hisztogramja (20 dobozzal)
3.9. Az Írisz-adatok sziromlevelei hosszát illetve szélességét mutató kétdimenziós hisztogram
3.10. A csészelevél hosszának dobozábrája
3.11. Az Írisz attribútumainak dobozábrája
3.12. Az attribútumok dobozábrái az írisz fajtája szerint
3.13. Az íriszvirágok típusainak eloszlása
3.14. A négy Írisz attribútum emprikus eloszlásfüggvénye
3.14. A négy Írisz attribútum emprikus eloszlásfüggvénye
3.15. A csésze- ill. sziromlevél hosszának és szélességének percentilisdiagramjai
3.16. Az Írisz-adatállomány pontdiagram-mátrixa
3.17. A csészelevél hosszának és szélességének, valamint a sziromlevél szélességének háromdimenziós pontdiagramja
3.18. A pontdiagramon a sziromlevél hosszának és szélességének függvényében ábrázolt markerek mérete a csészelevél szélességét mutatja
3.19. Az 1998 decemberében mért tengerfelszíni hőmérséklet kontúrdiagramja
3.20. 12 pontból álló halmaz sűrűsége
3.21. A 3.20. ábrán látható, két alsó csúcs sűrűségének változása vektormező-diagramon
3.22. A tengerszinti nyomás havi diagramjai az 1982. év 12 hónapjában
3.23. Az Írisz adatmátrix-diagramja, ahol az oszlopok úgy vannak standardizálva, hogy az átlaguk 0, a szórás 1 legyen
3.24. Az Írisz korrelációs mátrixának ábrája
3.25. A négy Írisz-attribútum párhuzamos koordináták diagramja
3.26. A négy Írisz-attribútum párhuzamos koordináták diagramja, ahol az attribútumok sorrendjének megváltoztatásával hangsúlyosabbá tettük a csoportok hasonlóságát illetve különbözőségét
3.27. Az Írisz-adathalmazból származó 150 virág csillagkoordináta és Chernoff-arc diagramja
3.28. 15 íriszvirág csillagkoordináta diagramja
3.29. 15 íriszvirág Chernoff-arc diagramja
3.30. Az Írisz-adatok többdimenziós ábrázolása
3.31. Az eladási adatok többdimenziós reprezentációja
4.1. Galaxisok osztályozása. A képek a NASA honlapjáról származnak.
4.2. Az osztályozás mint bemeneti attribútumértékek egy x halmazának az y osztálycímkéjébe való leképezésének a feladata
4.3. Egy osztályozási modell kialakításának általános megközelítése
4.4. Az emlős osztályozási feladat döntési fája
4.5. Egy címkézetlen gerinces osztályozása. A szaggatott vonalak a címkézetlen gerincesre alkalmazott különböző attribútum tesztfeltételek kimenetelét jelölik. A gerincest végül a Nem-emlős osztályhoz rendeljük.
4.6. Azon hitelfelvevők előrejelzésének tanulóhalmaza, akik késedelembe esnek a hitel visszafizetésében
4.7. Hunt algoritmusa döntési fa következtetésre
4.8. Tesztfeltételek bináris attribútumokra
4.9. Tesztfeltételek névleges attribútumokra
4.10. Sorrendi attribútumértékek csoportosításának különböző módjai
4.11. Tesztfeltételek folytonos attribútumok esetén
4.12. Többágú és bináris vágás összehasonlítása
4.13. A szennyezettségi mértékek összehasonlítása bináris osztályozási feladatoknál
4.14. Bináris attribútumok vágása
4.15. Névleges attribútumok vágása
4.16. Folytonos attribútumok vágása
4.17. A web-robot észlelés input adatai
4.18. Web-robot észlelés döntési fa modellje
4.19. A fa ismétlődési probléma. Ugyanaz a részfa több ágon is megjelenhet.
4.20. Egy példa döntési fára és döntési határára kétdimenziós adatállomány esetén
4.21. Példa olyan adatállományra, amely nem particionálható optimálisan egyetlen attribútumot bevonó tesztfeltételek használatával
4.22. Példa adatállományra bináris osztályokkal
4.23. Tanítási és tesztelési hibaarányok
4.24. Különböző modell bonyolultságú döntési fák
4.25. A 4.3. táblázatbeli adatállomány által indukált döntési fa
4.26. A 4.5. táblázatbeli adatállomány által indukált döntési fa
4.27. Példa azonos tanulóadatokból előállított két döntési fára
4.28. A minimális leíró hossz (MDL) elv
4.29. A döntési fa utómetszése web-robot észlelésnél
4.30. A 8. feladathoz tartozó adatállományok és döntési fa
2.2. A 9. feladat döntési fája
5.1. Szabályalapú és osztályalapú rendezési séma összehasonlítása
5.2. Példa a szekvenciális lefedési algoritmusra
5.3. Specializáló és általánosító szabályépítési stratégia
5.4. Tanulórekordok eltávolítása a szekvenciális algoritmussal. R1 , R2 és R3 három különböző szabály által lefedett régiókat reprezentálnak.
5.5. Döntési fa osztályozási szabályokká alakítása
5.6. A gerincesek osztályozási feladatához készített döntési fából kinyert szabályok
5.7. Egy példány 1-, 2- és 3-legközelebbi szomszédja
5.8. k -legközelebbi szomszéd osztályozás nagy k esetén
5.9. Tanulóhalmaz a hitel vissza nem fizetési probléma prediktálásához
5.10. Naiv Bayes-féle osztályozó a hitel osztályozási problémához
5.11. Krokodil és aligátor likelihood-függvényének összehasonlítása
5.12. Valószínűségi kapcsolatok reprezentálása irányított körmentes gráfok segítségével
5.13. Bayes-féle bizonyosságháló szívbaj és gyomorégés felismeréséhez betegeknél
5.14. Logikai függvény modellezése perceptronnal
5.15. Perceptron döntési határ az 5.14. ábrán látható adatokhoz
5.16. XOR osztályozási probléma. Egyetlen hipersík sem képes a két osztályt szeparálni.
5.17. Példa többrétegű előrecsatolt mesterséges neurális hálóra
5.18. Aktivációs függvények típusai mesterséges neurális hálókban címe
5.19. Kétrétegű előrecsatolt neurális hálózat az XOR problémához
5.20. Egy kétparaméteres modell E( w 1 , w 2 ) hibafelülete
5.21. Lehetséges döntési határok lineárisan szeparálható adatok esetén
5.22. Döntési határ margója
5.23. SVM döntési határa és margója
5.24. Példa lineárisan szeparálható adatokra
5.25. SVM döntési határa a nem szeparálható esetre
5.26. Kiegészítő változók nem szeparálható adatokra
5.27. Döntési határ, amelynek széles a margója, de nagy a tanulóhalmazon mért hibája
5.28. Adatok osztályozása nemlináris döntési határral
5.29. Polinomális kernelű nemlineáris SVM által létrehozott döntési határ
5.30. Az alaposztályozók hibái és az együttes osztályozó hibái közötti összehasonlítás
5.31. Az együttes tanulási módszer egy logikai nézete
5.32. Torzítás-variancia felbontás
5.33. Induktív tanulással ugyanazokból a tanulóadatokból létrehozott két külöböző bonyolultságú döntési fa
5.34. Döntési fa és 1-legközelebbi szomszéd osztályozó torzítása
5.35. Példa zsákolásra
5.36. Példa a zsákolási módszer segítségével alkotott osztályozók kombinálására
5.37. α ábrázolása az ε tanulóhalmazon vett hiba függvényeként
5.382. Példa gyorsításra
5.39. Példa az AdaBoost módszer segítségével alkotott osztályozók kombinálására
5.40. Véletlen erdők
5.41. Két különböző osztályozó ROC-görbéje
5.42. ROC-görbe alkotása
5.43. ROC-görbe az 5.42. ábrán látható adatokhoz
5.44. Döntési határ módosítása (B1-ről B2-re) egy osztályozó hamis negatív hibáinak csökkentéséhez
5.45. A ritka osztály túlmintavételezésének hatásának szemléltetése
5.46. Adatok a 9. feladathoz
5.47. Bayes-féle bizonyosságháló
5.48. Bayes-féle bizonyosságháló a 12. feladathoz
5.49. Adatok a 23. feladathoz
6.1. Egy elemhalmazháló.
6.2. Elemhalmazjelöltek támogatottságának a kiszámítása
6.3. Az apriori-elv szemléltetése. Ha {c, d, e} gyakori, akkor ezen elemhalmaz összes részhalmaza is gyakori.
6.4. A támogatottság alapú nyesés szemléltetése. Ha {a,b} nem gyakori, akkor {a,b} egyetlen szuperhalmaza sem gyakori.
6.5. Gyakori elemhalmazok előállítása az Apriori algoritmussal
6.6. 3-elemhalmazjelöltek előállítása a nyers erő módszerével
6.7. k-elemhalmazjelöltek előállítása és nyesése gyakori (k − 1)-elemhalmazok és gyakori elemek párosításával. Megjegyezzük, hogy néhány jelölt felesleges a nem gyakori részhalmazok miatt.
6.8. k-elemhalmazjelöltek előállítása és nyesése gyakori (k − 1)-elemhalmazpárok egyesítésével
6.9. A t tranzakció három elemet tartalmazó részhalmazainak felsorolása
6.10. Elemhalmazok támogatottságának a kiszámítása hasítóstruktúra segítségével
6.11. Tranzakció szétosztása egy hasítófa gyökércsúcsánal
6.12. Részhalmaz művelet egy jelölteket tartalmazó hasítófa gyökerének bal szelső részfáján
6.13. A támogatottsági küszöbérték hatása az elemhamazjelöltek és gyakori elemhalmazok számának alakulására
6.14. Effect of average transaction width on the number of candidate and frequent itemsets.
6.15. Asszociációs szabályok nyesése a megbízhatósági mérték alapján.
6.16. Maximális gyakori elemhalmaz
6.17. Példa zárt gyakori elemhalmazokra (a minimális támogatottsági szint 40%)
6.18. A gyakori, maximálisan gyakori és zárt gyakori elemhalmazok közötti kapcsolatok
6.19. Specializáción alapuló, általánosító és kétirányú keresés
6.20. Az elemhalmazok elő- és utótagjain alapuló ekvivalencia-osztályok
6.21. Szélességi és mélységi bejárás
6.22. Elemhalmazjelölt ek előállítása mélységi kereséssel
6.23. Vízszintes és függőleges adatformátumok
6.24. Egy FP-fa felépítése.
6.25. A 6.24. ábrán látható adathalmaz FP-fa reprezentációja az elemek eltérő rendezése mellett
6.26. A gyakori elemhalmaz ok előállításának problémája több részproblémára felosztva. Az egyes részproblémák az e , d , c , b és a végződésű gyakori elemhalmaz okat keresik meg.
6.27. Az e -re végződő gyakori elemhalmaz ok megtalálása az FP-bővítés algoritmus sal
6.28. Az inverzió művelet hatása. A C és E vektorokat az A vektor, míg a D vektort a B és F vektorok invertálásával kaptuk
6.29. Elemek támogatottság szerinti eloszlása a népszámlálási adathalmazban
6.30. Egy három elemet (p, q es r) tartalmazó tranzakciós adathalmaz,ahol p magas, q és r pedig alacsony támogatottságú elemek
6.31. Az asszociációs elemzéshez kapcsolódó különböző kutatási tevékenységek összefoglalója
6.32. Példa egy hasítófa struktúrára
6.33. Egy elemhalmazháló
6.34. Ábrák a 14. feladathoz
7.1. Tortadiagram egyesített Egyéb kategóriával
7.2. Példa elemek egy taxonómiájára
7.3. Példa szekvenciális adatbázisra
7.4. Példák szekvenciális adatok elemeire és eseményeire
7.5. Egy öt adatsorozatot tartalmazó adatállományból származtatott szekvenciális mintázatok
7.6. Példa a szekvenciális mintázatokat bányászó algoritmus jelöltgenerálási és nyesési lépéseire
7.7. Egy szekvenciális mintázat időbeli megszorításai
7.8. Különböző támogatottság kiszámítási módszerek összehasonlítása
7.9. Példa részgráfra
7.10. Egy részgráf támogatottságának kiszámítása gráfok egy halmazára
7.11. Nyers erőn alapuló módszer gyakori részgráfok bányászatára
7.12. Gráfszerkezetek egy halmazának leképezése bevásárlókosár tranzakciókra
7.13. Csúcsnöveléses stratégia
7.14. Élnöveléses stratégia
7.15. Topológiailag ekvivalens csúcsok szemléltetése
7.16. Általános módszer két részgráf élnöveléssel történő egyesítésére
7.17. Élnöveléssel generált részgráf jelöltek
7.18. A jelöltek multiplicitása a jelöltgenerálás során
7.19. Gráfizomorfizmus
7.20. Egy gráf szomszédsági mátrix reprezentációja
7.21. Szomszédsági mátrixok sztring reprezentációja
7.22. A ritka mintázatok, a negatív mintázatok és a negatívan korrelált mintázatok összehasonlítása
7.23. Gyakori és ritka elemhalmazok
7.24. Adatállományok kiegészítése negatív elemekkel
7.52. Példa fogalomhierarchiára
7.26. Érdekes negatív mintázatok bányászata fogalomhierarchia felhasználásával
7.27. Két elem közötti indirekt asszociáció
7.28. Gráfok a 16. feladathoz
7.29. Gráfok a 17. feladathoz
8.1. Ugyanazon pontok különböző klaszterezései
8.2. Különböző típusú klaszterek kétdimenziós pontokkal szemléltetve
8.3. Három klaszter keresése a K -közép algoritmussal a mintaadatokban
8.4. Három optimális és nem-optimális klaszter
8.5. Rossz kezdő középpontok a K -közép módszer számára
8.6. Két klaszterpár klaszterenként egy kezdő középponttal
8.7. Két klaszterpár az egyik párnál kettőnél több, a másiknál kevesebb kezdő középponttal
8.8. A kettéosztó K -közép módszer a négy klaszteres példára
8.9. K -közép módszer különböző méretű klaszterekkel
8.10. K -közép módszer különböző sűrűségű klaszterekkel
8.11. K -közép módszer nem gömb alakú klaszterekkel
8.12. Természetes klaszterek alklasztereinek keresése K -közép módszerrel
8.13. Négy pont hierarchikus klaszterezése dendrogramon és skatulyázott klaszterdiagrammon ábrázolva
8.14. Gráfalapú klaszter-közelség definíciók
8.15. 6 kétdimenziós pont halmaza
8.16. A 8.15. ábrán látható pontok klaszterezése egyszerű kapcsolású módszerrel
8.17. A 8.15. ábrán látható pontok klaszterezése teljes kapcsolás módszerrel
8.18. A 8.15. ábrán látható pontok klaszterezése csoportátlag módszerrel
8.19. A 8.15. ábrán látható pontok klaszterezése Ward módszerével
8.20. Középpont-alapú sűrűség
8.21. Belső, határ-, illetve zajos pontok
8.22. Mintaadatok
8.23. A mintaadatok K-táv értékének grafikonja
8.24. Négy klaszter zajba ágyazva
8.25. 3000 kétdimenziós pont DBSCAN klaszterezése
8.26. 100 egyenletes eloszlású pont klaszterezése
8.27. A klaszter kohézió és elkülönülés gráf-alapú nézete
8.28. A klaszter kohézió és elkülönülés prototípus-alapú nézete
8.29. Sziluett együtthatók tíz klaszter pontjaira
8.30. Hasonlósági mátrix jól elkülönülő klaszterekhez
8.31. Véletlen adatokon létrehozott klaszterek hasonlósági mátrixai
8.32. Az SSE értéke a klaszterek számának függvényében a 8.29. ábra adataira
8.33. Az átlagos sziluett együttható értéke a klaszterek számának függvényében a 8.29. ábra adataira
8.34. 500 véletlen adathalmaz SSE hisztogramja
8.35. A 2. feladathoz tartozó pontok
8.36. Az 5. feladathoz tartozó klaszterek
8.37. A 6. feladathoz tartozó diagramok
8.38. Voronoi diagram 1m. feladathoz
8.39. A 20. feladathoz tartozó ábra
8.40. Hierarchikus klaszterezés a 25. feladathoz
8.41. Pontok és hasonlósági mátrixok a 32. feladathoz
9.1. Egy kétdimenziós ponthalmaz fuzzy c -közép klaszterezése
9.2. Keverék modell két normális eloszlásból, ahol a várható értékek 4 , illetve 4. Mindkét eloszlás szórása 2.
9.3. Egy Gauss eloszlásból származó 200 pont és valószínűségük logaritmusa különböző paraméterértékekre
9.4. EM klaszterezés három klaszterből álló kétdimenziós ponthalmazra
9.5. EM klaszterezés két különböző sűrűségű klaszterből álló kétdimenziós ponthalmazra
9.6. Kétdimenziós ponthalmaz klaszterezése keverék modell és K -közép módszerrel
9.7. Kétdimenziós 3×3 -as négyzetrácsos SOM neurális háló
9.8. A Los Angeles Times cikkeiből álló adathalmaz SOM klaszterei közötti kapcsolatok megjelenítése
9.9. A SOM alkalmazása kétdimenziós adatpontokra
9.10. Rács-alapú sűrűség
9.11. Példa ábrák az altér klaszterezéshez
9.12. Pontok x attribútumának eloszlását mutató hisztogram
9.13. A DENCLUE sűrűségfogalmak szemléltetése egydimenzióban
9.14. Példa a Gauss hatásfüggvényre (magfüggvényre) és egy teljes sűrűségfüggvényre
9.15. A ritkításon alapuló klaszterezés elméleti folyamata
9.16. Minimális feszítőfa egy hatelemű kétdimenziós ponthalmazra
9.17. Olyan helyzet, ahol nem a közelség a megfelelő egyesítési kritérium ( © 1999, IEEE)
9.18. A relatív közelség szemléltetése ( © 1999, IEEE)
9.19. A relatív összekapcsoltság szemléltetése ( © 1999, IEEE)
9.20. A Chameleon klaszterezési folyamatának egésze ( © 1999, IEEE)
9.21. A Chameleon alkalmazása két kétdimenziós ponthalmaz klaszterezésére ( © 1999, IEEE)
9.22. Két kör alakú, 200 egyenletes eloszlású pontból álló klaszter
9.23. Az SNN hasonlóság kiszámítása két pont között
9.24. Egy kétdimenziós ponthalmaz Jarvis-Patrick klaszterezése
9.25. Kétdimenziós pontok SNN sűrűsége
9.26. Nyomás idősor SNN sűrűség-alapú klaszterezéssel talált klaszterei
9.27. A nyomás idősor SNN sűrűségei
9.28. Adatok 1l. feladathoz. Két különböző sűrűségű klasztert tartalmazó kétdimenziós ponthalmaz EM klaszterezése.
10.1. A 0 várható értékű és 1 szórású Gauss-eloszlás valószínűségi sűrűségfüggvénye
10.2. A 10.3. ábra pontjainak előállitásához használt Gauss-eloszlás valószínűségi sűrűsége
10.3. Pontok Mahalanobis távolsága 2002 kétdimenziós pont középpontjától
10.4. Kiugró érték pontszám az ötödik legközelebbi szomszédtól vett távolság alapján
10.5. Kiugró érték pontszám az első legközelebbi szomszédtól vett távolság alapján. A közeli kiugró értékek kis kiugró érték pontszámúak.
10.6. Kiugró érték pontszám az ötödik legközelebbi szomszédtól vett távolság alapján. Egy kis klaszter kiugróvá válik.
10.7. Kiugró érték pontszám az ötödik legközelebbi szomszédtól vett távolság alapján. Különböző sűrűségű klaszterek.
10.8. Relatív sűrűség (LOF) alapú kiugró érték pontszámok a 10.7. ábra kétdimenziós pontjaira
10.9. Pontok távolsága a legközelebbi centroidtól
10.10. Pontok relatív távolsága a legközelebbi centroidtól
A.1. Két vektor, valamint ezek összege és különbsége
A.2. v merőleges vetülete u irányában
B.1. PCA használata adattranszformációhoz
B.2. PCA a nőszirom adathalmazára alkalmazva
B.3.. A Los Angeles Times sport- és üzleti rovata cikkeinek pontábrája a második és harmadik szinguláris érték figyelembevételével
B.4.. A virágok adatainak ábrája egyetlen látens faktorra vonatkozóan
B.5. Az íriszek adatállományának LLE algoritmuson alapuló, két jellemzős ábrázolása
B.6. Swiss roll adathalmaz
B.7. Az íriszek adatainak pontábrája az ISOMAP két új jellemzőjének koordinátarendszerében
C.1. Egy paraméter konfidencia-intervalluma
D.1. Hőmérséklet és hőfluxus mérése egy személyen
D.2. Egy lineáris modell, mely illeszkedik fig_app:skin_heat_data. ábrán adott adatokra
E.1. Egy függvény stacionárius pontjai
E.2. Az f(x,y)=3 x 2 +2 y 3 2xy függvény grafikonja
E.3. Példa egy unimodális függvényre

A táblázatok listája

1.1. Vásárlói kosár adatok
1.2. Újságcikkek egy gyűjteménye
2.1. Hallgatói információkat tartalmazó minta adatállomány
2.4. Ügyfelek vásárlásainak adatait tartalmazó adatállomány
2.5. Egy kategorikus attribútum konverziója három bináris attribútumra
2.6. Egy kategorikus attribútum konverziója öt aszimmetrikus bináris attribútumra
2.8. A négy pont x és y koordinátái
2.9. Euklideszi távolsági mátrix a 2.8. táblázathoz
2.10. L1 távolsági mátrix a 2.8. táblázathoz
2.11. L távolsági mátrix a 2.8. táblázathoz
3.1. Egy feltételezett főiskola hallgatóinak évfolyamonkénti létszáma
3.2. A csésze- és sziromlevelek hosszának és szélességének adatai centiméterben mérve
3.3. A csésze- ill. sziromlevél hosszainak ill. szélességeinek átlaga és mediánja centiméterben kifejezve
3.4. A csésze- ill. sziromlevél hosszának ill. szélességének terjedelme, standard eltérése vagy szórása (std -- standard deviation), átlagos abszolút eltérése (AAD -- absolute average difference), medián abszolút eltérése (MAD -- median absolute difference) és interkvartilis terjedelme (IQR -- interquartile range) centiméterben kifejezve
3.5. Kilenc objektumot (sorok) és hat bináris attribútumot (oszlopok) tartalmazó tábla
3.6. Kilenc objektumot (sorok) és hat bináris attribútumot (oszlopok) tartalmazó tábla, amelyben a sorok és az oszlopok eredeti sorrendjének felcserélésével láthatóvá válik a sorok és oszlopok közötti kapcsolat
3.7. Az íriszek darabszáma három attribútum (sziromlevél hossza és szélessége illetve fajtája) kombinációja által meghatározott csoportok szerinti megoszlásban
3.8. A Setosa fajtához tartozó íriszek kontingenciatáblája a sziromlevél hossza és szélessége szerint
3.9. A Versicolor fajtához tartozó íriszek kontingenciatáblája a sziromlevél hossza és szélessége szerint
3.10. A Virginica fajtához tartozó íriszek kontingenciatáblája a sziromlevél hossza és szélessége szerint
3.11. A termékek különböző helyszíneken és időpontokban történt eladásaiból származó bevételek (dollárban)
3.12. A helyszínek rögzített időpont és termék szerinti összbevétele
3.13. A 3.12. táblázat adatai marginális összegekkel kiegészítve
3.14. Ténytábla 16. feladathoz
4.1. A gerincesek adatállománya
4.2. Egy kétosztályos feladat tévesztési mátrixa
4.3. Egy példa tanulóhalmaz az emlősök osztályozására. Csillagozott osztálycímkék jelölik a tévesen címkézett rekordokat.
4.4. Egy példa teszthalmaz az emlősök osztályozására
4.5. Egy példa tanítóhalmaz az emlősök osztályozására.
4.6. A t -eloszlás valószínűségi táblázata
4.7. A 2. feladathoz tartozó adatállomány
4.8. A 3. feladathoz tartozó adatállomány
4.9. Különböző osztályozási módszerek pontosságának az összehasonlítása
5.1. Példa a gerincesek osztályozási feladatának szabályhalmazára
5.2. A gerincesek adatai
5.3. Példa kölcsönösen kizáró és kimerítő szabályhalmazra
5.4. Példa zsákoló osztályozók egy együttesének építéséhez felhasznált adatokra
5.5. Döntési fa osztályozó pontosságának összehasonlítása három együttes módszer ellenében. (Az utolsó oszlopban RF a véletlen erdőt jelenti.)
5.6. Tévesztési mátrix egy olyan bináris osztályozási problémához, amelynél az osztályok nem egyformán fontosak
5.7. Költségmátrix az 5.9. példához
5.8. Két osztályozási modell tévesztési mátrixa
5.8. Két osztályozási modell tévesztési mátrixa
5.9. Különböző szabályalapú osztályozók összehasonlítása
5.10. Adatok a 7. feladathoz
5.11. Adatok a 8. feladathoz
5.12. Adatok a 11. feladathoz
5.13. Adatok a 2. feladathoz
5.14. A posteriori valószínűségek a 17. feladathoz
6.1. Egy példa vásárlói kosár tranzakciókra
6.2. A bevásárlókosár adatok bináris ( 0/1 ) reprezentációja
6.3. Az 1984-es amerikai kongresszusi szavazási jegyzék bináris attribútumainak listája. Forrás: UCI gépi tanulás adattára
6.4. Az 1984-es amerikai kongresszusi szavazási jegyzékből kinyert asszociációs szabály ok
6.5. Egy tranzakció s adathalmaz zárt elemhalmazok bányászatához
6.6. A gyakori elemhalmaz ok listája. Az elemhalmaz ok az utótagjaik alapján vannak rendezve .
6.7. Az A és B változók 2×2 -es kontingenciatáblázata
6.8. Italfogyasztási szokások egy 1000 fős csoportban
6.9. A { p , q } és { r , s } szópárok kontingenciatáblázatai
6.10. A p és q elemek kontingenciatáblázata
6.11. Szimmetrikus objektív mértékek az {A,B} elemhalmazra
6.12. Aszimmetrikus objektív mértékek az AB szabályra
6.13. Példa kontingenciatáblázatokra
6.14. A kontingenciatáblázat ok rangsorolása a 6.11. táblázatban megadott szimmetrikus mértékek alapján
6.15. A kontingenciatáblázat ok rangsorolása a 6.12. táblázatban megadott aszimmetrikus mértékek alapján
6.16. Osztályzatok és nemek közti összefüggések
6.17. A szimmetrikus mértékek jellemzői
6.18. Példa háromdimenziós kontingenciatáblázatra
6.19. Kétdimenziós kontingenciatáblázat nagyfelbontású televíziók és edzőgépek eladásáról
6.20. # Példa háromdimenziós kontingenciatáblázatra
6.21. A népszámlálási adathalmaz elemeinek a csoportosítása támogatottsági értékeik alapján
6.22. Bevásárlókosár tranzakciók
6.23. Bevásárlókosár tranzakciók
6.24. Példa bevásárlókosár tranzakciókra
6.25. Példa bevásárlókosár tranzakciókra
6.26. Egy kontingenciatáblázat
6.27. Kontingenciatáblázatok a 19. feladathoz
7.1. Internetes kérdőíves adatok kategorikus attribútumokkal
7.2. Internetes kérdőíves adatok a kategorikus és szimmetrikus bináris attribútumok binarizálása után
7.3. Internetes kérdőíves adatok folytonos attribútumokkal
7.4. Internetes kérdőíves adatok a kategorikus és folytonos attribútumok binarizálása után
7.5. Az online csevegésben résztvevő internet-felhasználók felosztása korcsoport szerint
7.6. Normalizált dokumentum-szó mátrix
7.7. Különböző alkalmazási területek egyedeinek gráfreprezentációja
7.8. Elemhalmazok és részgráfok számának összehasonlítása különböző d dimenziószámok esetén
7.9. Kétdimenziós kontingenciatáblázat az XY asszociációs szabályhoz
7.10. Közlekedési balesetek adatai
7.11. Adatállomány a 2. feladathoz
7.12. Adatállomány a 3. feladathoz
7.13. Adatállomány a 4. feladathoz
7.14. Adatállomány a 6. feladathoz
7.15. Példa vásárlói kosár tranzakciókra
7.16. Példa különböző érzékelők által generált eseménysorozatokra
7.17. Példa eseménysorozat adatokra a 14. feladathoz
7.18. Példa numerikus adatállományra
8.1. Jelölések táblázata
8.2. K -közép: gyakori közelségi mértékek, középpontok és célfüggvények
8.3. A 6 pont xy koordinátái
8.4. A 6 pont euklideszi távolság-mátrixa
8.5. Lance-Williams együtthatók táblázata általános hierarchikus klaszterező megközelítésekre
8.6. Gráf-alapú klaszter kiértékelési mértékek táblázata
8.7. Kofenetikus távolságmátrix az egyszerű kapcsolásra és a 8.3. táblázat adataira
8.8. Kofenetikus korrelációs együttható a 8.3. táblázat adataira és négy összevonó hierarchikus klaszterezési módszerre
8.9. Az LA Times dokumentum adathalmaz K -közép klaszterezésének eredménye
8.10. Ideális klaszter hasonlósági mátrix
8.11. Ideális osztály hasonlósági mátrix
8.12. Kétirányú kontingenciatáblázat annak meghatározására, hogy az objektumpárok azonos osztályba és azonos klaszterbe esnek-e
8.13. Hasonlósági mátrix a 16. feladathoz
8.14. Tévesztési mátrix a 21. feladathoz
8.15. A klasztercímkék táblázata a 24. feladathoz
8.16. Hasonlósági mátrix a 24. feladathoz
9.1. Az EM algoritmus első néhány lépése az egyszerű példára
9.2. A pontok száma a rácscellákban
9.3. Hasonlóság egy újság különböző rovataiből származó dokumentumok között
9.4. Négy pont két legközelebbi szomszédai
10.1. (c,α) párok a 0 várható értékű és 1 szórású Gauss-eloszlásra, ahol α=P(|x|c)
1. Példák valószínűségi eloszlásokra ( Γ(n+1)=nΓ(n) és Γ(1)=1 )