Irodalmi megjegyzések

Mitchell [4831] több osztályozási módszer kitűnő tárgyalását adja a gépi tanulás szempontjából. Az osztályozás átfogó tárgyalása Duda és társai [4732], Webb [4915], Fukunaga [4751], Bishop [4693], Hastie és társai [4769], Cherkassky és Mulier [4713], Witten és Frank [4919], Hand és társai [4767], Han és Kamber [4763], valamint Dunham [4734] munkáiban is megtalálható.

Tipikusan a szekvenciális lefedési sémát alkalmazzák az osztályozási szabályok származtatásához a szabályalapú osztályozók direkt módszerei. Holte 1R osztályozója [4778] a szabályalapú osztályozó legegyszerűbb formája, mivel a szabályhalmaza csak egyetlen szabályt tartalmaz. Egyszerűsége ellenére Holte több adathalmazra azt találta, hogy erős egy-egyértelmű kapcsolatot mutat az attribútumok és az osztálycímkék között, és az 1R éppen olyan jól teljesít, mint más osztályozók. A szabályalapú osztályozók további példái IREP [4739], RIPPER [4717], CN2 [4716, 4715], AQ [4826], RISE [4726] és ITRULE [4888]. Az 5.9. táblázatban ezek közül négy osztályozó jellemzőinek összehasonlítása látható.

5.9. táblázat - Különböző szabályalapú osztályozók összehasonlítása

RIPPER

CN2

CN2

AQR

(rendezetlen)

(rendezett)

Szabályépítési

specializáló

specializáló

specializáló

specializáló

stratégia

(egy pozitív esettel

inicializálva)

Kiértékelési

FOIL-féle

Laplace

entrópia és

igaz pozitív

metrika

információ-nyereség

likelihood-hányados

szám

Szabályépítés

minden eset

nincs teljesítmény

nincs teljesítmény

a szabályok csak

megállási

ugyanahhoz az

nyereség

nyereség

a pozitív osztályt

feltétele

osztályhoz tartozik

fedik le

Szabálynyesés

redukált

nincs

nincs

nincs

hibanyesés

Példány

pozitív és

csak pozitív

csak pozitív

pozitív és

eltávolítás

negatív

negatív

Megállási feltétel

hiba 50% vagy

nincs teljesítmény

nincs teljesítmény

minden pozitív

szabályok

MDL alapján

nyereség

nyereség

eset lefedett

hozzáadásához

Szabályhalmaz

szabályok cseréje

statisztikai

nincs

nincs

nyesés

vagy módosítása

próbák

Keresési stratégia

mohó

nyaláb keresés

nyaláb keresés

nyaláb keresés


Szabályalapú osztályozóknál a szabály antecendens általánosítható tetszőleges ítéletlogikai vagy elsőrendű logikai kifejezés (például Horn-klózok) tartalmazásához. Az elsőrendű logikai szabályalapú osztályozók iránt érdeklődő olvasók olyan referenciákhoz fordulhatnak, mint például [4831], vagy az induktív logikai programozásról szóló hatalmas szakirodalmi mű [4836]. Quinlan [4858] a C4.5rules algoritmust javasolta osztályozási szabályok döntési fákból kinyerésére. Andrews és társai a [4510] munkában egy indirekt módszert adnak szabályok mesterséges neurális hálókból kinyeréséhez.

Cover és Hart [4720] a legközelebbi szomszéd osztályozási módszer egy áttekintését mutatta be Bayes-féle szempontból. Aha elméleti és tapasztalati értékeléseket adott meg a példányalapú módszerekhez a [4657] munkában. A Cost és Salzberg [4719] által kifejlesztett PEBLS egy legközelebbi szomszéd osztályozási algoritmus, amely kezelni tud nominális attribútumokat tartalmazó adatokat. A PEBLS-ben minden egyes tanulóesethez hozzárendelünk egy súlyfaktort is, amely annak számától függ, hogy hányszor segít az eset helyes előrejelzést adni. Han és társai [4759] kifejlesztettek egy súlyszabályozott legközelebbi szomszéd algoritmust, amelyben a jellemzősúlyok tanulása egy mohó hegymászó optimalizálási algoritmus segítségével történik.

A naiv Bayes-féle osztályozókat sok szerző vizsgálta, köztük Langley és társai [4809], Ramoni és Sebastiani [4864], Lewis [4812], valamint Domingos és Pazzani [4728]. Noha a naiv Bayes-féle osztályozókban használt függetlenségi feltevés elég valószerűtlennek tűnhet, a módszer meglepően jól működik olyan alkalmazásokban, mint például a szövegosztályozás. A Bayes-féle bizonyossághálók egy rugalmasabb módszert biztosítanak, megengedve bizonyos változók egymástól függését. Heckerman [4772] egy kiváló oktatási segédlet a Bayes-féle bizonyossághálókról.

Vapnik [4910, 4909] két mérvadó könyvet írt a tartóvektor-gépekről (SVM). Az SVM-ről és a kernel módszerekről szóló további hasznos források közé olyanok tartoznak, mint Cristianini és Shawe-Taylor [4721], Schölkopf és Smola [4874] könyvei. Az SVM-ről számos áttekintő cikk van, amelyek közé tartoznak a Burges [4705], Bennet és társai [4691], Hearst [4770] és Mangasarian [4818] által írottak.

Az együttes módszerek egy áttekintését a gépi tanulásban Dietterich [4722] adta. A zsákolás módszerét Breiman [4698] javasolta. Freund és Schapire [4747] fejlesztette ki az AdaBoost algoritmust. A gyorsítási algoritmus egy Breiman [4699] által javasolt változata az adaptív újramintavételezés és kombinálás (arcing -- adaptive resampling and combining). Tanulóhalmazok egy együttesének építéséhez újramintavételezi az adatokat a tanulóesetekhez rendelt nem egyenletes súlyok segítségével. Az AdaBoost-tól eltérően az alaposztályozók szavazatai nem kerülnek súlyozásra a tesztesetek osztálycímkéjének meghatározásakor. A véletlen erdők módszerét Breiman vezette be a [4700] munkában.

Ritka és kiegyensúlyozatlan adatok bányászatához kapcsolódó munkák találhatók a Chawla és társai [4710] és Weiss [4918] által írt áttekintő cikkekben. Számos szerző vizsgálta a mintavételezés-alapú módszereket kiegyensúlyozatlan adatok bányászatához, például Kubat és Matwin [4801], Japkowitz [4784], valamint Drummond és Holte [4731]. Joshi és társai [4789] tárgyalták a gyorsító algoritmusok korlátait ritka osztályok modellezésénél. A ritka osztályok bányászatához kifejlesztett többi algoritmus közé olyanok tartoznak, mint a SMOTE [4709], PNrule [4788] és CREDOS [4792].

Többféle alternatív metrika áll rendelkezésre, amelyek kiválóan alkalmasak osztály-kiegyensúlyozatlan problémáknál. A precizitás, felidézés és F 1 -mérték az információkeresésben széles körben használt metrikák [4865]. A ROC elemzést eredetileg a jelfeldolgozás elméletében használták. Bradley [4696] vizsgálta a ROC-görbe alatti terület teljesítménymértékként történő használatát gépi tanuló algoritmusokhoz. Provost és Fawcett a [4856] munkában egy módszert ajánlott osztályozók teljesítményének a ROC-görbe konvex burkának segítségével történő összehasonlításához. Ferri és társai [4744] kifejlesztettek egy módszertant ROC elemzés döntési fa osztályozókon való végrehajtására. A ROC-görbe alatti terület (AUC) a faépítő eljárás közben használt vágási feltételbe beépítéséhez is javasoltak egy módszertant. Joshi [4787] vizsgálta ezeknek a mértékeknek a teljesítményét a ritka osztályok elemzésének szempontjából.

A költségérzékeny tanulásról hatalmas mennyiségű irodalom található azICML'2000 Workshop on Cost-Sensitive Learning online konferencia kiadványaiban. A költségmátrix tulajdonságait Elkan tanulmányozta a [4737] munkában. Margineantu és Dietterich [4821] többféle módszert vizsgált a költséginformációnak a C4.5 tanuló algoritmusba történő beépítéséhez, köztük borító (wrapper) módszereket, osztályeloszlás-alapú módszereket és veszteségen alapuló (loss-based) módszereket. A többi algoritmus-független költségérzékeny tanulási módszer közé olyanok tartoznak, mint az AdaCost [4741], MetaCost [4725] és a költségszámítás (costing) [4928].

Kiterjedt a többosztályos tanulás témájában rendelkezésre álló irodalom is. Ide tartoznak Hastie és Tibshirani [4768], Allwein és társai [4679], Kong és Dietterich [4799], valamint Tax és Duin [4902] munkái. A hibajavító kimenet kódolást (ECOC) Dietterich és Bakiri [4723] javasolta. Olyan kódtervezési módszereket is vizsgáltak, amelyek alkalmasak többosztályos problémák megoldására.