Az osztály-kiegyensúlyozatlanság problémája

Sok valós alkalmazásban elég gyakoriak a kiegyensúlyozatlan osztályeloszlású adatok. Például egy gyári szerelősorról lekerülő termékeket figyelő automatizált ellenőrzési rendszer megállapíthatja, hogy jelentősen kisebb a hibás termékek száma a hibátlan termékekénél. Hitelkártyacsalások felderítését tekintve hasonlóképpen vannak számbelileg kisebbségben a hamis tranzakciók a törvényes tranzakciókhoz képest. Mindkét példában aránytalan számú példány tartozik a különböző osztályokhoz. A kiegyensúlyozatlanság foka alkalmazásról alkalmazásra változik: egy a Six Sigma elvének megfelelően működő gyár lelhet négy hibát az ügyfeleinek szállított millió termékben, míg a hitelkártyacsalások mennyisége lehet egy a százhoz nagyságrendű. A ritka előfordulásuk ellenére ezekben az alkalmazásokban a rika osztály helyes osztályozásának gyakran nagyobb az értéke, mint a többségi osztály helyes osztályozásának. Azonban mivel az osztályeloszlás kiegyensúlyozatlan, ez a létező osztályozási algoritmusok számos problémáját veti fel.

Az osztályozók teljesítményének összehasonlításához széles körben használt pontosságmérték nem lehet megfelelően alkalmas kiegyensúlyozatlan adatokból származó modellek kiértékeléséhez. Ha például a hitelkártya tranzakciók 1%-a hamis, akkor 99% egy olyan modell pontossága, amely minden tranzakciót törvényesnek prediktál, bár nem érzékeli a hamis tevékenységek egyikét sem. Ezenkívül a tanuló algoritmus irányításához felhasznált mértékek (például döntési fa származtatáshoz az információmennyiség) módosítására lehet szükség a ritka osztályra való összpontosításhoz.

A ritka osztály példányainak felismerése hasonló egy tű kereséséhez a szénakazalban. Mivel a példányaik ritkán fordulnak elő, a ritka osztályt leíró modellek általában magas szinten specializáltak. Egy szabályalapú osztályozóban például a ritka osztályhoz kinyert szabályok rendszerint nagyszámú attribútumot tartalmaznak és nem lehet őket egykönnyen szélesebb lefedettségű általánosabb szabályokká egyszerűsíteni (eltérően a többségi osztály szabályaitól). Az ilyen modellek érzékenyebbek is zaj jelenlétére a tanulóadatokban. Következésképpen sok létező osztályozási algoritmus nem ismeri fel hatékonyan a ritka osztály példányait.

A szakasz néhány, az osztály-kiegyensúlyozatlanság problémájának kezeléséhez kifejlesztett módszert mutat be. Először a pontosságon túli alternatív metrikák kerülnek bevezetésre egy ROC elemzésnek nevezett grafikus módszerrel együtt. Ezután leírjuk, hogy hogyan lehet a költségérzékeny tanulást és mintavételezés-alapú módszereket felhasználni a ritka osztályok felismerésének javításához.

Alternatív metrikák

Mivel a pontosságmérték minden osztályt egyforma fontosságúként kezel, alkalmatlan lehet kiegyensúlyozatlan adatok elemzéséhez, ahol a ritka osztályt érdekesebbnek tekintjük, mint a többségi osztályt. Bináris osztályozásnál a ritka osztályt gyakran pozitív osztályként jelöljük, míg a többségi osztályt negatív osztályként. Egy osztályozási modell által helyesen vagy rosszul prediktált esetek számát összefoglaló tévesztési mátrix (confusion matrix) látható az 5.6. ábrán.

5.6. táblázat - Tévesztési mátrix egy olyan bináris osztályozási problémához, amelynél az osztályok nem egyformán fontosak

 

Prediktált osztály

 

 

+

Aktuális

+

f ++ (IP)

f + (HN)

osztály

f + (HP)

f (IN)


Gyakran használják a következő terminológiát a tévesztési mátrixban táblázatba foglalt számokra való hivatkozásnál:

  • Igaz pozitív (IP) vagy f ++ , amely az osztályozási modell által helyesen prediktált pozitív esetek számának felel meg.

  • Hamis negatív (HN) vagy f + , amely azon pozitív esetek számának felel meg, amelyeket az osztályozási modell tévesen negatívként prediktál.

  • Hamis pozitív (HP) vagy f + , amely azon negatív esetek számának felel meg, amelyeket az osztályozási modell tévesen pozitívként prediktál.

  • Igaz negatív (IN) vagy f , amely az osztályozási modell által helyesen prediktált negatív esetek számának felel meg.

A tévesztési mátrix számait ki lehet fejezni százalékosan is. Az igaz pozitív arány (IPA) (true positive rate) vagy érzékenység (sensitivity) a modell által helyesen prediktált pozitív esetek hányadaként definiált, azaz

IPA=IP/(IP+HN).

Az igaz negatív arány (INA) (true negative rate) vagy specifikusság (specificity) hasonlóan, a modell által helyesen prediktált negatív esetek hányadaként definiált, azaz

INA=IN/(IN+HP).

Végül a hamis pozitív arány (HPA) (false positive rate) a pozitív osztályhoz tartozóként prediktált negatív esetek hányada, azaz

HPA=HP/(IN+HP),

míg a hamis negatív arány (HNA) (false negative rate) a negatív osztályhoz tartozóként prediktált pozitív esetek hányada, azaz

HNA=HN/(IP+HN).

A felidézés (recall) és precizitás[4] (precision) két széles körben használt metrika, amelyeket olyan alkalmazásokban alkalmaznak, ahol valamelyik osztály sikeres felismerését fontosabbnak tekintik, mint a többi osztály felismerését. Alább adjuk meg ezen metrikák formális definícióját:

Precizitás:    p= IP IP+HP (5.74)

Felidézés:    r= IP IP+HN (5.75)

A precizitás azon rekordok hányadát határozza meg, amelyek ténylegesen pozitívak az osztályozó által pozitív osztályúként deklarált csoportban. Minél magasabb a precizitás, annál alacsonyabb az osztályozó által elkövetett hamis pozitív hibák száma. A felidézés az osztályozó által helyesen prediktált pozitív esetek hányadát méri. Nagyon kevés pozitív esetet osztályoznak tévesen negatív osztályúként azok az osztályozók, amelyeknek nagy a felidézése. A felidézés értéke valójában ekvivalens az igaz pozitív aránnyal.

Gyakran lehetséges kiindulási modellek alkotása, amelyek az egyik metrikát maximalizálják, de a másikat nem. Tökéletes például egy olyan modell felidézése, amely minden rekordot pozitív osztályúként deklarál, azonban nagyon gyenge a precizitása. Ezzel szemben nagyon magas egy modell precizitása, ha a pozitív osztályt rendeli minden tesztrekordhoz, amely illeszkedik a tanulóhalmaz pozitív rekordjainak valamelyikére, de alacsony a felidézése. A precizitást és felidézést is maximalizáló modell építése az osztályozási algoritmusok legfőbb kihívása.

A precizitás és a felidézés összefoglalható egy másik metrikában, amelyet F 1 mértéknek nevezünk:

F 1 = 2rp r+p = 2×IP 2×IP+HP+HN (5.76)

Elvben F 1 a felidézés és precizitás közötti harmonikus középértéket reprezentálja, azaz

F 1 = 2 1 r + 1 p .

Két szám, x és y , harmonikus középértéke a két szám közül általában a kisebbhez van közelebb. Ezért az F 1 mérték nagy értéke biztosítja azt, hogy a precizitás és a felidézés egyaránt meglehetősen nagy. A harmonikus, geometriai és aritmetikai középértékek egy összehasonlítását adjuk meg a következő példában. Vegyünk két pozitív számot: a=1 és b=5 . A számtani középértékük μ a =(a+b)/2=3 , a mértani középértékük pedig μ g = ab =2,236 . A harmonikus középértékük μ h =(2×1×5)/6=1,667 , amely a és b között közelebb van a kisebb értékhez, mint az aritmetikai és geometriai középértékek.

Általánosságban az F β mérték használható fel a felidézés és precizitás közötti kompromisszum vizsgálatára:

F β = ( β 2 +1)rp r+ β 2 p = ( β 2 +1)×IP ( β 2 +1)IP+ β 2 HP+HN . (5.77)

A precizitás és a felidézés is F β speciális esetei, β=0 és β= választása mellett. Kis β értékek F β -t a precizitáshoz közelítik, nagy értékek pedig a felidézéshez.

Egy általánosabb metrika a súlyozott pontosságmérték (weighted accuracy measure), amely magában foglalja F β -t valamint a pontosságot, és amelyet a következő egyenlet definiál:

Súlyozottpontosság= w 1 IP+ w 4 IN w 1 IP+ w 2 HP+ w 3 HN+ w 4 IN . (5.78)

A súlyozott pontosság és a többi teljesítménymetrika közötti összefüggést a következő táblázat foglalja össze:

Mérték

w 1

w 2

w 3

w 4

Felidézés

1

1

0

0

Precizitás

1

0

1

0

F β

β 2 +1

β 2

1

0

Pontosság

1

1

1

1

A vevő működési karakterisztika (ROC) görbe

A ``vevő működési karakterisztika'' (ROC -- Receiver Operating Characteristic) görbe egy grafikus módszer egy osztályozó igaz pozitív aránya és hamis negatív aránya közötti kompromisszum megjelenítésére. A ROC-görbénél az igaz pozitív arányt (IPA) az y tengelyen ábrázoljuk, a hamis pozitív arány (HPA) pedig az x tengelyen látható. Minden egyes pont a görbe mentén egy az osztályozó által indukált modellnek felel meg. Az 5.41. ábrán egy M 1 és M 2 osztályozópár ROC-görbéje látható.

A ROC-görbe mentén van néhány kritikus pont, amelyeknek jól ismert értelmezése van:

  • (IPA=0,HPA=0) : A modell minden példányt negatív osztályúként prediktál.

  • (IPA=1,HPA=1) : A modell minden példányt pozitív osztályúként prediktál.

  • (IPA=1,HPA=0) : A tökéletes modell.

5.41. ábra - Két különböző osztályozó ROC-görbéje

Két különböző osztályozó ROC-görbéje

Egy jó osztályozási modell a lehető legközelebb kell, hogy elhelyezkedjen az ábra bal felső sarkához, míg egy véletlenszerűen találgató modell az (IPA=0,HPA=0) és (IPA=1,HPA=1) pontokat összekötő főátló mentén kell, hogy legyen. A véletlen találgatás azt jelenti, hogy egy rekordot egy rögzített p valószínűséggel osztályozunk pozitív osztályúként az attribútumhalmazától függetlenül. Tekintsünk például egy n + pozitív példányt és n negatív példányt tartalmazó adathalmazt. A véletlen osztályozó várhatóan p n + pozitív példányt osztályoz helyesen és p n negatív példányt osztályoz hibásan. Ezért ilyen osztályozó esetén az IPA (p n + )/ n + =p , míg a HPA (p n )/p=p . Mivel megegyezik az IPA és a HPA, a véletlen osztályozó ROC-görbéje mindig a főátló mentén található.

A ROC-görbe hasznos különböző osztályozók relatív teljesítményének ö`sszehasonlítására. Az 5.41. ábrán M 1 jobb M 2 -nél, ha a HPA kisebb, mint 0,36 , míg M 2 jobb, ha a HPA nagyobb, mint 0,36 . Világosan látható, hogy a két osztályozó egyike sem dominálja a másikat.

A ROC-görbe alatti terület (AUC -- area under the ROC curve) egy másik módszert biztosít annak kiértékeléséhez, hogy átlagosan melyik modell a jobb. Ha a modell tökéletes, akkor a ROC-görbe alatti terület 1-gyel egyenlő. Ha a modell egyszerűen véletlen találgatást végez, akkor a ROC-görbe alatti terület 0,5 -del egyenlő. Egy másik modellnél szigorúan jobb modellnek nagyobb a ROC-görbe alatti területe.

ROC-görbe generálása

ROC-görbe rajzolásához az osztályozó képes kell, hogy legyen egy folytonos értékű kimenetet előállítani, amely felhasználható az előrejelzések rangsorolásához, a pozitív osztályúként osztályozandó legvalószínűbb rekordtól a legkevésbé valószínű rekordig. Ezek a kimenetek megfelelhetnek egy Bayes-osztályozó által generált a posteriori valószínűségeknek, vagy egy mesterséges neurális hálózat által előállított numerikus értékű kimeneteknek. Ezután a következő eljárás használható a ROC-görbe generálásához:

  1. Azt feltételezve, hogy folytonos értékű kimenetek definiáltak a pozitív osztályhoz, rendezzük a tesztrekordokat a kimeneti értékeik szerint növekvő sorrendbe.

  2. Válasszuk ki a rangsorban utolsó tesztrekordot (azaz a legkisebb kimeneti értékű rekordot). A kiválasztott és a rangsorban ezt megelőző rekordokat rendeljük hozzá a pozitív osztályhoz. Ez a módszer ekvivalens az összes tesztrekord pozitív osztályhoz tartozóként való osztályozásával. Mivel minden pozitív eset helyesen osztályozott és a negatív esetek hibásan osztályozottak, IPA=HPA=1 .

  3. Válasszuk ki a következő tesztrekordot a rendezett listából. Osztályozzuk a kiválasztott és a rangsorban ezt megelőző rekordot pozitívként, míg a rangsorban ezt követőket negatívként. Módosítsuk az IP és HP számokat megvizsgálva az előzőleg kiválasztott rekord aktuális osztálycímkéjét. Ha az előzőleg kiválasztott rekord pozitív osztályú, akkor az IP számot csökkentjük, a HP szám pedig változatlan marad. Ha az előzőleg kiválasztott rekord negatív osztályú, akkor a HP számot csökkentjük, az IP szám pedig változatlan marad.

  4. Ismételjük meg a 3. lépést és módosítsuk megfelelően az IP és HP számokat, amíg nem a rangsorban első tesztrekord kerül kiválasztásra.

  5. Ábrázoljuk az IPA-t a HPA függvényeként.

Az 5.42. ábrán egy példa látható a ROC-görbe kiszámításának módjára. Öt pozitív és öt negatív eset van a teszthalmazban. A táblázat első sorában láthatóak a tesztrekordok osztálycímkéi. A második sor az egyes rekordok rendezett kimeneti értékeinek felel meg. Ezek lehetnek például egy naiv Bayes-osztályozó által generált P(+|x) a posteriori valószínűségek. A következő hat sor az IP, HP, IN és HN számértékeket tartalmazza, a megfelelő IPA és HPA értékekkel együtt. A táblázat kitöltése ezután balról jobbra haladva történik. Kiindulásként az összes rekordot pozitívként prediktáljuk. Így IP=HP=5 és IPA=HPA=1 . Ezután a negatív osztályhoz rendeljük a legkisebb kimeneti értékű tesztrekordot. Mivel a kiválasztott rekord valójában pozitív eset, az IP számérték 5-ről 4-re csökken, a HP számérték pedig változatlan marad. A HPA és IPA értékeket megfelelően módosítjuk. Ezt az eljárást addig ismételjük, amíg el nem érjük a lista végét, ahol az IPA=0 és HPA=0 . A példa ROC-görbéje az 5.43. ábrán látható.

5.42. ábra - ROC-görbe alkotása

ROC-görbe alkotása

5.43. ábra - ROC-görbe az 5.42. ábrán látható adatokhoz

ROC-görbe az 5.42. ábrán látható adatokhoz

Költségérzékeny tanulás

Egy költségmátrix egy osztályból származó rekordok egy másik osztályúként osztályozásának büntetését kódolja. Jelölje C(i,j) egy az i osztályból származó rekord j osztályúként prediktálásának költségét. Ezzel a jelöléssel C(+,) egy hamis negatív hiba elkövetésének költsége, míg C(,+) egy téves riasztás okozásának a költsége. A költségmátrix egy negatív eleme a helyes osztályozásért járó jutalmat reprezentálja. N tesztrekord egy adott halmaza esetén egy M modell összköltsége

C t (M)=IP×C(+,+)+HP×C(,+)

+HN×C(+,)+IN×C(,). (5.79)

A 0/1 költségmátrix mellett, azaz C(+,+)=C(,)=0 és C(+,)=C(,+)=1 esetén meg lehet mutatni, hogy az összköltség ekvivalens a félreosztályozási hibák számával:

C t (M)=0×(IP+IN)+1×(HP+HN)=N×Hiba, (5.80)

ahol Hiba az osztályozó hibaaránya.

5.9.Példa.

Tekintsük az 5.7. táblázatban látható költségmátrixot. Hamis negatív hiba elkövetésének költsége százszorosa a téves riasztás elkövetési költségének. Más szóval, bármely pozitív eset érzékelésének elmulasztása éppen olyan rossz, mint száz téves riasztás elkövetése. Az 5.8. táblázatban látható tévesztési mátrixokkal adott osztályozási modellek esetén a modellek összköltsége

C t ( M 1 )=150×(1)+60×1+40×100=3910,

C t ( M 2 )=250×(1)+5×1+45×100=4255.

5.7. táblázat - Költségmátrix az 5.9. példához

 

Prediktált osztály

 

 

Osztály = +

Osztály =

Aktuális

Osztály = +

1

100

osztály

Osztály =

1

0


5.8. táblázat - Két osztályozási modell tévesztési mátrixa

M 1 modell

 

Prediktált oszt.

 

 

+ oszt.

- oszt.

Aktuális

+ oszt.

150

40

oszt.

- oszt.

60

250


5.8. táblázat - Két osztályozási modell tévesztési mátrixa

M 2 modell

 

Prediktált oszt.

 

 

+ oszt.

- oszt.

Aktuális

+ oszt.

250

45

oszt.

- oszt.

5

200


Vegyük észre, hogy az igaz pozitív és hamis pozitív számok javulása ellenére az M 2 modell továbbra is rosszabb, mivel a javulás a költségesebb hamis negatív hibák növelésének kárára történik. Egy standard pontosságmérték az M 2 modellt részesítette volna előnyben az M 1 modellel szemben.

Egy költségérzékeny osztályozási módszer a modellépítés során figyelembe veszi a költségmátrixot és egy minimális költségű modellt generál. Ha például a hamis negatív hibák a legköltségesebbek, akkor az algoritmus ezeket a hibákat próbálja meg csökkenteni a döntési határának a negatív osztály felé kiterjesztésével, amint az az 5.44. ábrán látható. Ilyen módon a generált modell több pozitív esetet tud lefedni, azonban további téves riasztások generálásának terhére.

5.44. ábra - Döntési határ módosítása (B1-ről B2-re) egy osztályozó hamis negatív hibáinak csökkentéséhez

Döntési határ módosítása (B1-ről B2-re) egy osztályozó hamis negatív hibáinak csökkentéséhez

Különböző módok vannak arra, hogy költséginformációt építsünk be osztályozási algoritmusokba. Döntési fa származtatása esetén például a költséginformáció felhasználható: (1) az adatok vágásához használt legjobb attribútum kiválasztásához, (2) annak megállapításához, hogy egy részfát le kell-e nyesni, (3) a tanulórekordok súlyainak olyan módon való manipulálásához, hogy a tanuló algoritmus egy minimális költségű döntési fához konvergáljon, (4) a döntési szabály módosításához minden egyes levélcsúcsban. Az utolsó módszer szemléltetéséhez jelölje p(i|t) a t levélcsúcshoz tartozó i osztálybeli tanulórekordok arányát. Egy bináris osztályozási probléma egy tipikus döntési szabálya a pozitív osztályt rendeli hozzá a t csúcshoz, ha teljesül a következő feltétel:

p(+|t)p(|t)p(+|t)(1p(+|t))

2p(+|t)1

p(+|t)0,5. (5.81)

Az előbbi döntési szabály azt sugallja, hogy egy levélcsúcs osztálycímkéje az adott csúcsot elérő tanulórekordok többségi osztályától függ. Megjegyezzük, hogy ez a szabály azt feltétezi, hogy a hibás osztályozás költségei azonosak a pozitív és negatív esetekre. Ez a döntési szabály ekvivalens a (4.8) egyenletben a 170. oldalon szereplő kifejezéssel.

Többségi szavazás helyett egy költségérzékeny algoritmus az i osztálycímkét rendeli hozzá a t csúcshoz, ha az minimalizálja a következő kifejezést:

C(i|t)= j p(j|t)C(j,i). (5.82)

Abban az esetben, ha C(+,+)=C(,)=0 , egy t levélcsúcsot a pozitív osztályhoz rendelünk, ha:

p(+|t)C(+,)p(|t)C(,+)

p(+|t)C(+,)(1p(+|t))C(,+)

p(+|t) C(,+) C(,+)+C(+,) . (5.83)

Ez a kifejezés azt sugallja, hogy a döntési szabály küszöbértékét 0,5 -ről C(,+)/(C(,+)+C(+,)) -re módosíthatjuk, hogy költségérzékeny osztályozót kapjunk. Ha C(,+)C(+,) , akkor a küszöbérték kisebb lesz, mint 0,5 . Azért van értelme ennek az eredménynek, mert drágább egy hamis negatív hiba elkövetésének költsége, mint egy téves riasztás okozásáé. A küszöbérték csökkentése a döntési határt a negatív osztály felé terjeszti ki, amint az az 5.44. ábrán látható.

Mintavételezés-alapú módszerek

A mintavételezés egy másik széles körben használt módszer az osztály-kiegyensúlyozatlansági probléma kezeléséhez. A mintavételezés ötlete a példányok eloszlásának olyan módon való módosítása, hogy a ritka osztály is jól reprezentált legyen a tanulóhalmazban. Néhány a mintavételezéshez rendelkezésre álló módszerek közül: alulmintavételezés (undersampling), túlmintavételezés (oversampling), a két módszer hibridje. Ezeknek a módszereknek a szemléltetéséhez tekintsünk egy 100 pozitív esetet és 1000 negatív esetet tartalmazó adathalmazt.

Az alulmintavételezés esetén egy 100 negatív esetből álló véletlenszerűen kiválasztott minta alkotja a tanulóhalmazt az összes pozitív esettel együtt. A módszer egy lehetséges problémája az, hogy a hasznos negatív esetek egy része nem kerül kiválasztásra a tanításhoz, amely az optimálistól elmaradó modellt eredményez. Ennek a problémának a leküzdésére egy lehetséges módszer az alulmintavételezés többszöri végrehajtása, és több osztályozó származtatása, hasonlóan az együttes tanulási módszerhez. Használni lehet fókuszált alulmintavételezési módszereket is, amelyeknél a mintavételezési eljárás egy megalapozott kiválasztást végez az eltávolítandó negatív esetek tekintetében (például elhagyhatók a döntési határtól távoli esetek).

5.45. ábra - A ritka osztály túlmintavételezésének hatásának szemléltetése

A ritka osztály túlmintavételezésének hatásának szemléltetése

A túlmintavételezés addig ismétli a pozitív eseteket, amíg a tanulóhalmaznak egyenlő számú pozitív és negatív esete nem lesz. Az 5.45. ábra szemlélteti a túlmintavételezés hatását a döntési határ egy osztályozó, például egy döntési fa, segítségével történő létrehozására. Túlmintavételezés nélkül csak az 5.45. (a) ábra bal alsó sarkában lévő pozitív esetek lesznek helyesen osztályozva. A pozitív eset az ábra közepén hibásan osztályozott, mert nincs elég eset a pozitív és negatív eseteket elválasztó új döntési határ létrehozásának megokolásához. A túlmintavételezés biztosítja azokat a további eseteket, amelyek szükségesek annak biztosításához, hogy a pozitív eseteket körülvevő döntési határ ne kerüljön lenyesésre, amint azt az 5.45. (b) ábra szemlélteti.

Zajos adatokra azonban a túlmintavételezés modell túlillesztést okozhat, mivel némelyik zajos eset többször ismétlődhet. Elvileg a túlmintavételezés nem ad hozzá új információt a tanulóhalmazhoz. A pozitív esetek ismétlése csak abban gátolja a tanuló algoritmust, hogy az lenyesse a modell nagyon kevés tanulóesetet tartalmazó területeket leíró részeit (azaz a kis diszjunktokat). A további pozitív esetek is növelik a modellépítés számítási idejét.

A hibrid módszer a többségi osztály alulmintavételezésének és a ritka osztály túlmintavételezésének egy kombinációját használja egyenletes osztályeloszlás eléréséhez. Az alulmintavételezés elvégezhető véletlen vagy fókuszált részmintavételezés segítségével. Ezzel szemben a túlmintavételezés elvégezhető a létező pozitív esetek ismétlésével vagy a létező pozitív esetek környezetében új pozitív esetek generálásával. Az utóbbi módszernél először meg kell határozni minden egyes pozitív eset k -legközelebbi szomszédját. Ezután egy új pozitív esetet generálunk egy pozitív esetet valamelyik k -legközelebbi szomszédjával összekötő szakasz mentén egy véletlen pontban. Az eljárást addig ismételjük, amíg a pozitív esetek száma el nem éri a kívántat. Az ismétléses módszertől eltérően az új esetek lehetővé teszik a pozitív osztály döntési határának kifelé kiterjesztését, hasonlóan az 5.44. ábrán látható módszerhez. Mindazonáltal ez a módszer még mindig elég hajlamos lehet a modell túlillesztésre.



[4] A fordító megjegyzése: Az accuracy és precision kifejezések szótári megfelelője egyaránt pontosság, ezért a félreérthetőség elkerülése miatt a továbbiakban utóbbi esetben magyar megfelelőként a precizitás kifejezést használjuk.