4. fejezet - Osztályozás:Alapfogalmak, döntési fák és modellek kiértékelése

Tartalom

Bevezetés
Az osztályozási probléma megoldásának általános megközelítése
Döntési fa következtetés
Hogyan építsünk döntési fát
Az attribútum tesztfeltételek kifejezésének módszerei
Mérőszámok a legjobb vágás kiválasztására
A döntési fa következtetés algoritmusa
Példa: web-robot észlelés
A döntési fa következtetés jellemzői
Modell túlillesztés
Zaj miatti túlillesztés
Túlillesztés jellegzetes minták hiánya miatt
Túlillesztés és a többszörös összehasonlítási eljárás
Általánosítási hibák becslése
A túlillesztés kezelése döntési fa következtetésnél
Egy osztályozó teljesítményének a kiértékelése
Visszatartó módszer
Véletlen alulmintavételezés
Keresztellenőrzés
Bootstrap
Osztályozók összehasonlításának módszerei
A pontosság becslése konfidencia intervallummal
Két modell teljesítményének az összehasonlítása
Két osztályozó teljesítményének az összehasonlítása
Irodalmi megjegyzések
Feladatok

Az osztályozás, amely objektumoknak több előre meghatározott kategóriák (osztályok) egyikéhez történő hozzárendelésének a feladata, egy olyan mindent átható probléma, amelyet számos különféle alkalmazás kísér. Ezek a példák magukba foglalják kéretlen elektronikus levelek észlelését az üzenetek fejléce és tartalma alapján, sejtek rosszindulatúként vagy jóindulatúként való kategorizálását MRI eredmények alapján, és galaxisok osztályozását az alakjuk alapján (lásd a 4.1. ábrát).

4.1. ábra - Galaxisok osztályozása. A képek a NASA honlapjáról származnak.

Galaxisok osztályozása. A képek a NASA honlapjáról származnak.

4.2. ábra - Az osztályozás mint bemeneti attribútumértékek egy x halmazának az y osztálycímkéjébe való leképezésének a feladata

Az osztályozás mint bemeneti attribútumértékek egy x halmazának az y osztálycímkéjébe való leképezésének a feladata

Ebben a fejezetben az osztályozás alapvető fogalmait vezetjük be, néhány olyan fontos kérdést ismertetünk, mint a modell túlillesztés, és eljárásokat mutatunk osztályozási módszerek teljesítményének a kiértékelésére és összehasonlítására. Bár főként a döntési fa következtetésként ismert módszerre öszpontosítunk, az ebben a fejezetben ismertetettek legnagyobb része alkalmazható más osztályozási módszereknél is, amelyek közül többet 5. fejezetben tárgyalunk majd.

Bevezetés

Egy osztályozási feladatnál rekordok egy gyűjteménye alkotja a bemeneti adatokat. Mindegyik rekord, más néven példány vagy eset, egy (x,y) párral jellemezhető, ahol x az attribútumok halmaza és y egy speciális attribútum, amelyet osztálycímkének választottunk ki (további elnevezések a kategória vagy célattribútum). A 4.1. táblázat egy olyan minta adatállományt mutat, amelyet a gerincesek alábbi kategóriákba való osztályozására használtunk: emlős, madár, hal, hüllő, vagy kétéltű. Az attribútumhalmaz a gerincesek olyan tulajdonságait tartalmazza, mint a testhőmérséklet, a bőr függelékei, a szaporodás módja, a repülni tudás és a vízben élés képessége. Bár a 4.1. táblázatban bemutatott attribútumok többsége diszkrét, az attribútumhalmaz folytonos jellemzőket is tartalmazhat. Másrészt, az osztálycímke diszkrét attribútum kell, hogy legyen. Ez a fő jellemző, ami az osztályozást megkülönbözteti a regressziótól, attól a prediktív modellezési feladattól, amelyben y folytonos attribútum. Regressziós módszerekkel D. függelék foglalkozik.

4.1. táblázat - A gerincesek adatállománya

Név

Test-

Bőr

Eleven-

Vízben

Tud

Van

Téli álmot

Osztály-

őmérséklet

függelékei

szülő

él

repülni

lába

alszik

címke

ember

melegvérű

szőr

igen

nem

nem

igen

nem

Emlősök

óriáskígyó

hidegvérű

pikkely

nem

nem

nem

nem

igen

Hüllők

lazac

hidegvérű

pikkely

nem

igen

nem

nem

nem

Halak

bálna

melegvérű

szőr

igen

igen

nem

nem

nem

Emlősök

béka

hidegvérű

nincs

nem

félig

nem

igen

igen

Kétéltűek

komodói

hidegvérű

pikkely

nem

nem

nem

igen

nem

Hüllők

sárkány

denevér

melegvérű

szőr

igen

nem

igen

igen

igen

Emlősök

galamb

melegvérű

toll

nem

nem

igen

igen

nem

Madarak

macska

melegvérű

bunda

igen

nem

nem

igen

nem

Emlősök

leopárd cápa

hidegvérű

pikkely

igen

igen

nem

nem

nem

Halak

teknősbéka

hidegvérű

pikkely

nem

félig

nem

igen

nem

Hüllők

pingvin

melegvérű

toll

nem

félig

nem

igen

nem

Madarak

tarajos sül

melegvérű

tüske

igen

nem

nem

igen

igen

Emlősök

angolna

hidegvérű

pikkely

nem

igen

nem

nem

nem

Halak

szalamandra

hidegvérű

nincs

nem

félig

nem

igen

igen

Kétéltűek


4.1. Definició

[Osztályozás] Az osztályozás egy olyan f célfüggvény (target function) megtanulásának a feladata, amely attribútumértékek minden egyes x halmazához előre definiált osztálycímkék valamelyikét ( y ) rendeli hozzá.

A célfüggvény informálisan osztályozási modellként (classification model) is ismert. Az osztályozási modell a következő célokra használható.

Leíró modellezés (descriptive modeling)

Az osztályozási modell magyarázó eszközként szolgálhat különböző osztályok objektumainak a megkülönböztetésénél. Hasznos lenne például -- mind a biológusok, mind mások számára -- egy olyan leíró modell, amely 14. táblázat adatait összegzi és elmagyarázza, milyen jellemzők határozzák meg egy gerincesnél, hogy emlős, hüllő, madár, hal, vagy kétéltű.

Előrejelző modellezés (predictive modeling)

Egy osztályozási modell arra is használható, hogy megjósoljuk új rekordok osztálycímkéit. Amint azt 15. ábra mutatja, az osztályozási modellt egy olyan fekete dobozként lehet kezelni, amely automatikusan meghatároz egy osztálycímkét, amikor adott egy új rekord attribútumértékeinek halmaza. Tegyük fel, hogy a következő jellemzői adottak a viperagyíkként ismert élőlénynek:

Név

Test-

Bőr

Eleven-

Vízben

Tud

Van

Téli álmot

Osztály-

őmérséklet

függelékei

szülő

él

repülni

lába

alszik

címke

viperagyík

hidegvérű

pikkely

nem

nem

nem

igen

igen

?

A 4.1. táblázatbeli adatállomány alapján épített osztályozási modellt használhatjuk annak az osztálynak a meghatározására, amelyhez ez az élőlény tartozik.

Az osztályozási módszerek leginkább bináris vagy névleges kategóriákkal rendelkező adatállományok előrejelzésére vagy leírására alkalmasak. Kevésbé hatékonyak rendezett kategóriák (például egy személy osztályozása magas, közepes, vagy alacsony jövedelmű csoport tagjaként) esetén, mivel ezek nem veszik figyelembe a kategóriák közötti implicit sorrendet. Szintén figyelmen kívül hagyják a kapcsolatok olyan más formáit, mint például a kategóriák közötti alosztály-szuperosztály kapcsolatok (például az ember és az emberszabású majmok főemlősök, ami viszont egy alosztálya az emlősöknek). A fejezet további része csak a bináris vagy névleges osztálycímkékre összpontosít.