Az osztályozási probléma megoldásának általános megközelítése

Egy osztályozási módszer (vagy osztályozó) egy szisztematikus megközelítés osztályozási modellek építésére egy bemeneti adatállományból. A példák között szerepelnek döntési fa osztályozók, szabály alapú osztályozók, neurális hálózatok, tartóvektor-gépek és naiv Bayes osztályozók. Minden módszer egy tanuló algoritmust (learning algorithm) alkalmaz annak a modellnek az azonosítására, amely a legjobban illeszkedik a bemenő adatok attribútumai és osztálycímkéje közötti kapcsolatra. A tanuló algoritmus által generált modellnek egyszerre kell jól illeszkednie a bemenő adatokra és helyesen megjósolnia korábban soha nem látott rekordok osztálycímkéit. Ezért a tanuló algoritmus fő célja jó általánosítási képességgel bíró modellek építése, azaz, hogy a modell pontosan jósolja meg korábban ismeretlen rekordok osztálycímkéit.

4.3. ábra - Egy osztályozási modell kialakításának általános megközelítése

Egy osztályozási modell kialakításának általános megközelítése

A 4.3. ábra osztályozási feladatok megoldásának egy általános megközelítését mutatja. Először meg kell adni egy tanulóhalmazt (training set), amely olyan rekordokból áll, amelyeknek ismert az osztálycímkéje. A tanulóhalmazt egy osztályozási modell kialakításához használjuk, amelyet ezt követően a teszthalmazra (test set) alkalmazunk, amely ismeretlen osztálycímkéjű rekordokból áll.

Egy osztályozási modell teljesítményének kiértékelése a modell által helyesen és helytelenül előrejelzett tesztrekordok számán alapszik. Ezeket a számokat egy táblázatba foglaljuk, amely az ún. tévesztési mátrix (confusion matrix). A 4.2. táblázat egy bináris osztályozási feladat tévesztési mátrixát mutatja. Ennek a táblázatnak mindegyik f ij eleme azoknak az i osztálybeli rekordoknak a számát jelöli, amelyeket a j osztályba jelzünk előre. Például f 01 azoknak a 0 osztálybeli rekordoknak a száma, amelyeket tévesen 1 osztályúnak jelzünk előre. A tévesztési mátrix elemei alapján a modell által tett összes helyes előrejelzés száma ( f 11 + f 00 ) , valamint az összes hibás előrejelzés száma ( f 10 + f 01 ) .

4.2. táblázat - Egy kétosztályos feladat tévesztési mátrixa

 

Előrejelzett osztály

 

 

Osztály=1

Osztály=0

Tényleges

Osztály=1

f 11

f 10

osztály

Osztály=0

f 01

f 00


Bár a tévesztési mátrix biztosítja annak meghatározásához szükséges információkat, hogy milyen jól teljesít egy osztályozási modell, ezen információk egyetlen számmá való összegzése még kényelmesebbé tenné a különböző modellek teljesítményének az összehasonlítását. Ez olyan teljesítménymérték (performance metric) révén tehető meg, mint a pontosság (accuracy), amely a következőképpen van definiálva:

Pontosság= Helyeselőrejelzésekszáma Összeselőrejelzésszáma = f 11 + f 00 f 11 + f 10 + f 01 + f 00 . (4.1)

Ezzel egyenértékűen, egy modell teljesítményét kifejezhetjük a hibaarányával (error rate) megadva, amit a következő egyenlet ad meg:

Hibaarány= Hibáselőrejelzésekszáma Összeselőrejelzésszáma = f 10 + f 01 f 11 + f 10 + f 01 + f 00 . (4.2)

A legtöbb osztályozási algoritmus olyan modelleket keres, amelyek a legnagyobb pontosságot, vagy azzal egyenértékűen, a legalacsonyabb hibaarányt érik el, amikor a teszthalmazon alkalmazzuk őket. A modell kiértékelés témájára 4.5. szakaszban térünk vissza.