Az adatok előfeldolgozása

Ebben a szakaszban azzal foglalkozunk, hogy mely előfeldolgozási lépéseket kell alkalmaznunk ahhoz, hogy az adatokat alkalmasabbá tegyük az adatbányászatra. Az adatok előfeldolgozása széles terület, mely számos különböző stratégiából és módszerből áll, melyek összetett kölcsönhatásokban állnak egymással. A következőkben bemutatunk néhányat a legfontosabb ötletekből és megközelítésekből, és megpróbáljuk feltárni a közöttük lévő kölcsönhatásokat. Konkrétan a következő témákkal fogunk foglalkozni:

Ezek nagyjából két kategóriába sorolhatóak: az adatobjektumok és attribútumok kiválasztása az elemzéshez, illetve az attribútumok létrehozása és cseréje. A cél mindkét esetben az adatbányászati elemzés tökéletesítése idő, költség és minőség szempontjából. Ezt részletesen a következő szakaszokban tárgyaljuk.

Egy gyors megjegyzés a terminológiával kapcsolatban: a következőkben, az általános szóhasználat követése céljából, néhol olyan szinonimákat használunk az attribútumra, mint a jellemző vagy a változó.

Aggregálás

Néha ``a kevesebb több'', és ez érvényes az aggregálásra is, amely kettő vagy több objektum egyetlen objektummá egyesítését jelenti. Tekintsünk egy tranzakciókból (adatobjektumokból) álló adatállományt, amely különböző helyeken (Minneapolis, Chicago, Párizs, ) lévő boltok napi eladásait tartalmazza különböző napokra egy éven keresztül, lásd 2.4. táblázatot. Egy módszer, mellyel ezen adatállomány tranzakcióit aggregálhatjuk, hogy minden bolt tranzakcióit egyetlen, az egész boltra kiterjedő tranzakcióval helyettesítjük. Ez leredukálja az adott boltban napi szinten előforduló több száz vagy több ezer tranzakciót egyetlen, napi szintű tranzakcióra, és az adatobjektumok száma lecsökken a boltok számára.

Nyilvánvaló kérdés: hogyan jön létre az aggregált tranzakció, azaz hogyan megy végbe a folyamat, amely minden egyes attribútum összes rekordhoz tartozó értékeit egyesíti egy konkrét helyszínre vonatkozóan, és így létrehozza azt a tranzakciót, amely az egy konkrét bolthoz vagy dátumhoz tartozó eladásokat reprezentálja. A kvantitatív attribútumokat, mint például az ár, jellemzően összegzéssel vagy átlagszámítással aggregáljuk. Egy kvalitatív attribútum, mint a tételek, elhagyható, vagy összegezhető egy halmazzá, amely az összes adott helyszínen eladott tételt tartalmazza.

A 2.4. táblázatban látható adatok tekinthetőek többdimenziós tömbnek is, melyben minden attribútum egy dimenzió. Ebből a szemszögből nézve az aggregálás egy olyan folyamat, mely során az olyan attribútumokat, mint például a tételek típusa, elhagyjuk, vagy egy konkrét attribútum értékeinek számát csökkentjük, például a lehetséges dátumértékeket 365 napról 12 hónapra. Ezt a fajta aggregálást gyakran használják a közvetlen analitikus feldolgozásban (OLAP -- On-Line Analytical Processing), mellyel behatóbban 3. fejezetben foglalkozunk.

2.4. táblázat - Ügyfelek vásárlásainak adatait tartalmazó adatállomány

Tranzakció azonosító

Tétel

Bolt helye

Dátum

Ár

101123

Karóra

Chicago

09/06/04

$25,99

101123

Elem

Chicago

09/06/04

$5,99

101124

Cipő

Minneapolis

09/06/04

$75,00


Az aggregálásnak számos indítéka lehet. Először, az adatok redukciójának eredményeként létrejövő kisebb adatállományok kevesebb memóriát és feldolgozási időt igényelnek, és ennél fogva az aggregálás lehetővé teheti költségesebb adatbányászati algoritmusok használatát. Másodszor, az aggregálás megváltoztathatja a hatáskört és a skálát azzal, hogy az alacsony szintű nézet helyett az adatok egy magas szintű nézetét biztosítja. Az előző példában elvégzett boltok és hónapok szerinti aggregálás a napi és termékenkénti nézet helyett egy havi, és boltonkénti nézetet ad az adatokról. Végül, objektumok és attribútumok csoportjainak viselkedése gyakran stabilabb, mint az egyedi objektumoké és attribútumoké. Ez a kijelentés azt a statisztikai tényt tükrözi, hogy az olyan aggregált mennyiségeknek, mint az átlagok és az összegek, kisebb az ingadozása, mint az aggregált egyedi objektumoknak. Az összegek ingadozásának mértéke nagyobb, mint (átlagosan) az egyedi objektumoké, de az ingadozás százalékos aránya kisebb, míg átlagok esetén az ingadozás mértéke kevesebb, mint (átlagosan) az egyedi objektumoké. Az aggregálás egyik hátránya annak a veszélye, hogy fontos részleteket veszítünk el. A boltos példában a havi aggregálással elvész az az információ, hogy a hét melyik napján legnagyobb az eladás.

2.7. Példa (Ausztráliai csapadék)

A példa az 1982 és 1993 között mért ausztráliai csapadék adatokon alapszik. A 2.8. (a) ábrán egy hisztogram látható a havi átlagos csapadék szórására Ausztrália 3030 db 0,5 × 0,5 -os rácscellájában, míg 2.8. (b) ábrán ugyanazokon a helyeken az évi átlagos csapadék szórásának hisztogramja látható. Az évi átlagos csapadék ingadozása kisebb, mint a havi átlagos csapadéké. Minden csapadék mérés (és a szórásaik is) cm-ben értendőek.

2.8. ábra - Hisztogramok az Ausztráliában mért havi és éves csapadékmennyiségek szórásaira az 1982-től 1993-ig terjedő időszakra

Hisztogramok az Ausztráliában mért havi és éves csapadékmennyiségek szórásaira az 1982-től 1993-ig terjedő időszakra

Mintavétel

A mintavétel egy általánosan használt megközelítés arra, hogy az elemzéshez kiválasszuk az adatok egy részhalmazát. A statisztikában már régóta használják az adatok előzetes vizsgálatára és a végső adatelemzésre egyaránt. A mintavétel az adatbányászatban is nagyon hasznos lehet, bár a mintavétel mögött meghúzódó indítékok gyakran különböznek a statisztikában és az adatbányászatban. A statisztikusok azért használnak mintavételt, mert a teljes, őket érdeklő adathalmaz előállítása túl költséges vagy időigényes lenne, míg az adatbányászok azért vesznek mintát, mert túl költséges vagy időigényes lenne az összes adat feldolgozása. Egyes esetekben egy mintavételezési algoritmus használata olyan szintre csökkentheti az adatok méretét, hogy lehetővé válik egy jobb, de költségesebb algoritmus használata.

A hatékony mintavétel alapelve a következő: egy mintát használva majdnem olyan jó eredményt kapunk, mintha a teljes adatállományt használnánk, amennyiben a minta reprezentatív. Másfelől, egy minta akkor reprezentatív, ha közelítőleg olyan (számunkra fontos) tulajdonsággal bír, mint az eredeti adatállomány. Ha az adatobjektumok középértéke (átlaga) ez a számunkra lényeges tulajdonság, akkor egy minta akkor reprezentatív, ha középértéke közel van az eredeti adatok középértékéhez. Mivel a mintavétel egy statisztikai folyamat, a konkrét minták reprezentativitása változó, és a legtöbb, amit tehetünk, hogy olyan mintavételi sémát választunk, mely nagy valószínűséggel garantálja azt, hogy reprezentatív mintát kapjunk vissza. Mint ahogy a következőkben kifejtjük, ebbe beletartozik a megfelelő mintanagyság és mintavételi módszer kiválasztása is.

Mintavételi megközelítések

Számos mintavételi módszer van, de itt csak a legalapvetőbbeket és azok változatait tárgyaljuk. A mintavétel legegyszerűbb módja az egyszerű véletlen mintavétel. Ezzel a mintavételi módszerrel minden egyes objektum kiválasztásának megegyezik az esélye. A véletlen mintavételnek (mint ahogy más mintavételi módszereknek is) két változata van: (1) visszatevés nélküli mintavétel -- kiválasztásakor minden elem eltávolításra kerül az összes, a populációt alkotó objektum halmazából, és (2) visszatevéses mintavétel -- amikor az objektumokat beválogatjuk a mintába, nem távolítjuk el őket a populációból. A visszatevéses mintavételnél ugyanazt az objektumot többször is ki lehet választani. A két módszerrel létrehozott minták nem sokban különböznek egymástól, ha a minták az adatállomány méretéhez képest kicsik, de a visszatevéses mintavétel könnyebben elemezhető, mivel bármely objektum kiválasztásának a valószínűsége állandó marad a mintavételi eljárás elvégzése közben.

Amikor a populáció különböző típusú objektumokból áll, melyek darabszáma nagyban különbözik, előfordulhat, hogy az egyszerű véletlen mintavétel nem képviseli megfelelően a kevésbé gyakori objektumokat. Ez problémákat okozhat, ha az elemzéshez minden objektumtípus megfelelő képviseletére van szükség. Ha például ritka osztályokhoz építünk osztályozási modellt, a ritka osztályok megfelelő képviselete a mintában kritikus kérdés. Ezért egy olyan mintavételi sémára van szükség, amely össze tudja egyeztetni a számunkra fontos objektumok különböző előfordulási gyakoriságait. A rétegzett mintavétel , mely objektumok előre meghatározott csoportjaiból indul ki, egy ilyen megközelítést nyújt. Legegyszerűbb változatában minden csoportból egyenlő számú objektumot veszünk, noha a csoportok különböző méretűek. Egy másik verzióban az egyes csoportokból kiválasztott objektumok száma arányos az adott csoport méretével.

2.8. Példa (Mintavétel és információveszteség)

Miután kiválasztottuk a mintavételi módszert, még el kell döntenünk, hogy mekkora legyen a minta mérete. A nagyobb mintanagyság növeli annak valószínűségét, hogy a minta reprezentatív lesz, ugyanakkor megszünteti a mintavétellel elért nyereség nagy részét is. Viszont kis mintanagyság mellett mintázatokat hagyhatunk ki vagy hibás mintázatokat észlelhetünk. A 2.9. (a) ábrán egy 8000 kétdimenziós pontból álló adatállományt láthatunk, míg a 2.9. (b) és a 2.9. (c) ábrákon ebből az adatállományból származó 2000 illetve 500 elemű minták láthatóak. Míg az adatállomány majdnem teljes szerkezete jelen van a 2000 pontból álló mintában, addig az 500 pontos mintában a szerkezet nagy része hiányzik.

2.9. ábra - Példa a felépítés elvesztésére mintavétel hatására

Példa a felépítés elvesztésére mintavétel hatására

2.9. Példa (A megfelelő mintanagyság meghatározása)

Annak bemutatására, hogy a megfelelő mintanagyság meghatározása módszeres megközelítést igényel, tekintsük a következő feladatot.

Adott egy adathalmaz, amely néhány, majdnem teljesen egyenlő méretű csoportból áll. Találjunk minden csoporthoz legalább egy reprezentatív pontot. Tegyük fel, hogy minden csoport objektumai nagy mértékben hasonlóak egymáshoz, de nem túl hasonlóak más csoportok objektumaihoz. Tegyük fel továbbá, hogy viszonylag kisszámú csoport van, mondjuk 10. A 2.10. (a) ábrán klaszterek egy idealizált csoportja látható, amelyből ezeket a pontokat kiválaszthatjuk.

Ez a probléma mintavétellel hatékonyan megoldható. Az egyik lehetséges megközelítés, hogy egy kisméretű mintát veszünk az adatpontokból, kiszámítjuk a pontok páronkénti hasonlóságát, majd csoportokat alkotunk a nagyon hasonló pontokból. Ezután a kívánt reprezentatív ponthalmaz úgy áll elő, hogy ezekből a csoportokból veszünk egy-egy pontot. Ezen megközelítés kivitelezéséhez azonban meg kell határoznunk egy olyan mintanagyságot, amely nagy valószínűséggel garantálja a kívánt eredményt; azaz azt, hogy minden klaszterből legalább egy pont kiválasztásra kerüljön. A 2.10. (b) ábrán annak a valószínűsége látható, hogy mind a 10 csoportból kapunk egy objektumot, 10-től 60-ig terjedő mintanagyság mellett. Érdekes, hogy 20-as mintanagyság mellett viszonylag csekély (20%) annak az esélye, hogy olyan mintát kapunk, amelyben mind a 10 csoport szerepel. Még 30-as mintanagyság mellett is közepes esélye (majdnem 40%) van annak, hogy olyan mintát kapunk, amelyben nem szerepelnek objektumok mind a 10 klaszterből. Ezt a kérdést tovább vizsgáljuk a klaszterezéssel összefüggésben az 578. oldalon található 4. feladatban.

2.10. ábra - Reprezentatív pontok keresése 10 csoportból

Reprezentatív pontok keresése 10 csoportból

Progresszív mintavétel

A megfelelő mintanagyság meghatározása nehéz is lehet, ezért néha adaptív vagy progresszív mintavételi sémákat alkalmazunk. Ezeknél a megközelítéseknél egy kis mintából indulunk ki, és addig növeljük a mintanagyságot, amíg elegendő méretű mintához nem jutunk. Bár ez a módszer nem igényli azt, hogy a megfelelő mintanagyságot előre meghatározzuk, egy módszer szükséges a minta kiértékelésére, amellyel eldöntjük, hogy már elég nagy-e.

Tegyük fel például, hogy egy prediktív modell tanításához progresszív mintavételt használunk. Bár a prediktív modellek pontossága a mintanagysággal nő, de egy ponton a pontosság növekedése megáll. Ezen a ponton akarjuk megállítani a mintanagyság növelését. Abból, hogy nyomon követjük a modell pontosságának változását, miközben fokozatosan egyre nagyobb mintákat veszünk, és abból, hogy a jelenlegiével közel egyező méretű más mintákat veszünk, becslést kaphatunk arra, hogy milyen közel vagyunk ehhez a ponthoz, és így megállíthatjuk a mintavételt.

Dimenziócsökkentés

Egy adatállománynak számos jellemzője lehet. Tekintsük dokumentumok egy halmazát, amelyben minden dokumentumot egy olyan vektor reprezentál, melynek elemei az egyes szavak előfordulási gyakoriságai az adott dokumentumban. Az ilyen esetekben általában több ezer vagy több tízezer attribútum (elem) van, a szótár minden szavához egy. Másik példaként tekintsük idősorok egy halmazát, amely különböző részvények egy 30 éves időintervallum folyamán feljegyzett napi záróértékeiből áll. Az attribútumokból, amelyek itt a konkrét napokhoz tartozó árak, ebben az esetben is több ezer van.

A dimenziócsökkentésnek különféle előnyei vannak. Az egyik legfontosabb haszna, hogy számos adatbányászati algoritmus jobban működik, ha a dimenziószám -- az adatok attribútumszáma -- kisebb. Ennek oka részben az, hogy a dimenzió csökkentésével kiküszöbölhetőek a lényegtelen jellemzők és csökkenthető a zaj, részben pedig a dimenzió probléma, melyet lentebb magyarázunk el. Egy másik előny, hogy a dimenzió csökkentése egy érthetőbb modellhez vezethet, mert a modellben kevesebb attribútum fog szerepelni. Emellett a dimenziócsökkentés adatok könnyebb ábrázolását teszi lehetővé. Még ha a dimenziócsökkentés nem is redukálja az adatokat két- vagy háromdimenzióssá, az adatokat gyakran ábrázoljuk attribútumpárjaik vagy attribútum-hármasaik alapján, és az ilyen kombinációk száma így jelentősen csökken. Végül, a dimenzió csökkenésével az adatbányászati algoritmus számára szükséges idő és memóriamennyiség is csökken.

A dimenziócsökkentés kifejezést gyakran az olyan módszerek számára tartják fenn, amelyek úgy csökkentik az adatállomány dimenzióját, hogy a régi attribútumok kombinációiként új attribútumokat hoznak létre. A dimenziócsökkentésének azt a fajtáját, melyben a régi attribútumok részhalmazaiból létrehozott új attribútumokat választunk ki, jellemzők részhalmazai kiválasztásának, vagy jellemzők kiválasztásának nevezzük. Ezzel a 2.3.4. szakaszban fogunk foglalkozni.

Ezen szakasz fennmaradó részében két fontos témával foglalkozunk röviden: a dimenzió problémával, és az olyan dimenziócsökkentő eljárásokkal, amelyek lineáris algebrai megközelítéseken alapulnak, mint például a főkomponens analízis (PCA -- Principal Component Analysis). További részletek a dimenziócsökkentésről a B. függelékben találhatóak.

A dimenzió probléma

A dimenzió probléma azt a jelenséget jelenti, hogy számos adatelemzés lényegesen nehezebbé válik az adatok dimenziójának növekedésével. Speciálisan, a dimenzió növekedésével az adatok egyre ritkábban helyezkednek el az általuk kitöltött térben. Osztályozásnál ez azt is jelentheti, hogy nem lesz elég adatobjektum ahhoz, hogy létrehozzunk egy olyan modellt, amely minden lehetséges objektumot megbízhatóan besorol egy osztályba. Klaszterezésnél a sűrűség és a pontok közötti távolság definíciói, amelyek ennél a módszernél kritikus fontosságúak, veszítenek jelentőségükből. (Ezt részletesebben tárgyaljuk a 9.1.2., 9.4.5. és 9.4.7. szakaszokban.) Ennek eredményeként sok klaszterező és osztályozó algoritmus (és más adatelemző algoritmusok) számára problémát jelentenek a magas dimenziójú adatok -- csökken az osztályozás pontossága és gyenge minőségű klaszterek jönnek létre.

A dimenziócsökkentés lineáris algebrai módszerei

A legáltalánosabb dimenziócsökkentési megközelítések között is van néhány, főként folytonos adatok esetén, mely a lineáris algebra módszereit alkalmazva képezi le a magas dimenziójú térben lévő adatokat egy alacsonyabb dimenziójú térbe. A főkomponens analízis (PCA -- Principal Component Analysis) egy ilyen, lineáris algebrai módszer, amely olyan új attribútumokat (főkomponenseket) tár fel, amelyek (1) az eredeti attribútumok lineáris kombinációi, (2) ortogonálisak (merőlegesek) egymásra, és (3) az adatokban fellelhető ingadozást maximálisan kifejezik. Az első két főkomponens például az adatok ingadozását maximálisan kifejezi két olyan ortogonális attribútummal, melyek az eredeti attribútumok lineáris kombinációi. A szinguláris felbontás (SVD -- Singular Value Decomposition) egy olyan lineáris algebrai módszer, amely a PCA-hoz kapcsolódik és szintén gyakran használják dimenziócsökkentésre. Ezeket részletesebben a A. és B. függelékekben tárgyaljuk.

Jellemzők részhalmazainak kiválasztása

A dimenzió csökkentésének másik módja, hogy ha a jellemzőknek csak egy részhalmazát használjuk. Bár úgy tűnhet, hogy ez a megközelítés információveszteséghez vezet, de ez nincs így, ha felesleges vagy lényegtelen információk is jelen vannak. A felesleges jellemzők egy vagy több más attribútumban fellelhető információ nagy részének vagy egészének másolatai. Például egy termék ára és a forgalmi adó mértéke nagyjából ugyanazt az információt tartalmazzák. A lényegtelen jellemzők szinte semmi olyan információt nem tartalmaznak, amely hasznos lenne az elvégzendő adatbányászati feladathoz. A hallgatók azonosító számai például irrelevánsak a tanulmányi átlaguk előrejelzése szempontjából. A felesleges és lényegtelen jellemzők csökkenthetik az osztályozás pontosságát és a feltárt klaszterek minőségét.

Míg egyes lényegtelen és felesleges attribútumok józan ésszel vagy szakterületi tudással azonnal eltávolíthatók, addig a jellemzők legjobb részhalmazának kiválasztása gyakran módszeres megközelítést igényel. A jellemzők kiválasztásának ideális megközelítése az, hogy kipróbáljuk a jellemzők összes lehetséges részhalmazát a használt adatbányászati algoritmus bemeneteként, és aztán azt a részhalmazt választjuk, amely a legjobb eredményeket produkálta. Ezen módszer előnye, hogy megmutatja a történetesen használni kívánt adatbányászati algoritmus objektivitását és torzítását. Sajnos mivel egy n elemszámú attribútum részhalmazainak száma 2 n , ez a megközelítés a legtöbb esetben kivitelezhetetlen, így alternatív stratégiákra van szükség. A jellemzők kiválasztásának három alapvető megközelítése van: beágyazott, szűrő és borító.

Beágyazott megközelítések A jellemzők kiválasztása természetétől fogva az adatbányászati algoritmus részeként jelenik meg, azaz az adatbányászati algoritmus futása során az algoritmus maga dönti el, hogy mely attribútumokat használja, és melyeket hagyja figyelmen kívül. 4. fejezetben tárgyalt, döntési fa osztályozókat építő algoritmusok gyakran működnek ilyen módon.

Szűrő (filter) megközelítések A jellemzők kiválasztása még az adatbányászati algoritmus futása előtt megtörténik egy olyan módszer alkalmazásával, amely független az adatbányászati feladattól. Kiválaszthatjuk például az olyan attribútumokat, melyek párjai között minimális a korreláció.

Borító (wrapper) megközelítések Ezek a megközelítések a végrehajtandó adatbányászati algoritmust fekete dobozként használják az attribútumok legjobb részhalmazának megtalálásához. Ezt a fentebb leírt ideális algoritmushoz hasonlóan teszik, de jellemzően anélkül, hogy végigmennének az összes lehetséges részhalmazon.

Mivel a beágyazott megközelítések algoritmus specifikusak, itt részletesebben csak a szűrő és borító megközelítésekkel foglalkozunk.

A jellemzők részhalmazai kiválasztásának architektúrája

Lehetséges olyan közös architektúra létrehozása, mely a szűrő és a borító megközelítéseket is magában foglalja. A jellemzők kiválasztásának folyamatát négy részből állónak tekintjük: a részhalmazok kiértékelését szolgáló mérték, a jellemzők új részhalmazainak generálását irányító keresési stratégia, egy megállási feltétel és egy jóváhagyó eljárás alkotja. A szűrő és borító módszerek csak a jellemzők részhalmazának kiértékelésében különböznek egymástól. A borító módszereknél a részhalmazok kiértékelése a használt adatbányászati algoritmus segítségével történik, míg a szűrő megközelítéseknél a kiértékelés elkülönül a használt adatbányászati algoritmustól. A következőkben ezen megközelítés néhány részletével foglalkozunk, melyeket a 2.11. ábrán foglaltuk össze.

2.11. ábra - Egy jellemző részhalmaz kiválasztási folyamat folyamatábrája

Egy jellemző részhalmaz kiválasztási folyamat folyamatábrája

Elméletben a jellemzők részhalmazainak kiválasztása egy keresés a jellemzők összes lehetséges részhalmaza felett. Számos különböző keresési stratégiát lehet használni, de a keresési stratégiának számítási szempontból alacsony költségűnek kell lennie, és a jellemzők optimális vagy közel optimális részhalmazait kell eredményül adnia. Általában nem lehet egyszerre mindkét követelménynek eleget tenni, és így kompromisszumokat kell kötni.

A keresés szerves részét képezi egy olyan kiértékelési lépés, ami meghatározza, hogy a jellemzők aktuális részhalmaza milyen a korábban már áttekintettekhez képest. Ehhez szükség van egy olyan kiértékelési mértékre, ami megkísérli meghatározni az attribútumok részhalmazainak jóságát egy adott adatbányászati feladatra vonatkozóan, mint például az osztályozás vagy a klaszterezés. A szűrő megközelítésnél ezek a mértékek azt próbálják megjósolni, hogy a használt adatbányászati algoritmus milyen jól fog teljesíteni egy adott attribútumhalmazon. A borító megközelítésnél, ahol a kiértékelés konkrétan a használni kívánt adatbányászati alkalmazás lefuttatását jelenti, a részhalmazokat kiértékelő függvény csupán az a kritérium, amit normális esetben az adatbányászat eredményének mérésére használnak.

Mivel a lehetséges részhalmazok száma hatalmas lehet, és lehetetlen az összeset megvizsgálni, szükség van valamilyen megállási feltételre. Az erre vonatkozó stratégia általában a következő feltételek egyikén vagy többön alapszik: az iterációk száma, a részhalmazok kiértékelésére használt mérőszám optimális-e vagy meghalad-e egy meghatározott küszöböt, elértünk-e már egy meghatározott méretű részhalmazt, egyidejűleg elértük-e a méretre és a kiértékelésre vonatkozó feltételeket, és a keresési stratégiában hozzáférhető további lehetőségekkel még érhetünk-e el javulást.

Végül, amikor a jellemzők egy részhalmaza már kiválasztásra került, ellenőriznünk kell a kiválasztott részhalmazra a használni kívánt adatbányászati algoritmus által kapott eredményeket. A közvetlen kiértékelési megközelítés az, hogy először lefuttatjuk az algoritmust a jellemzők teljes halmazán, majd összehasonlítjuk a teljes halmazra kapott eredményt a részhalmaz használatával kapott eredménnyel. Remélhetőleg a jellemzők részhalmazát használva jobb, vagy majdnem olyan jó eredményeket fogunk kapni, mintha az összes jellemzőt használnánk. Egy másik ellenőrző módszer, hogy különböző jellemző kiválasztási algoritmusokkal előállítjuk a jellemzők különböző részhalmazait, az adatbányászati algoritmust lefuttatjuk az egyes részhalmazokon és összehasonlítjuk az eredményeket.

Jellemzők súlyozása

A jellemzők súlyozása azok megtartásával vagy törlésével szemben nyújt alternatívát. A fontosabb jellemzőkhöz nagyobb súlyt társítunk, míg a kevésbé fontos jellemzők alacsonyabb súlyokat kapnak. Ezeket a súlyokat egyes esetekben az egyes jellemzők relatív fontosságára vonatkozó szakterületi tudás alapján határozzák meg. Emellett a súlyok automatikusan is meghatározhatóak, például egyes osztályozó sémák, mint például a tartóvektor-gépek (lásd 5. fejezetet), olyan osztályozási modelleket állítanak elő, amelyekben minden jellemző egy súlyt kap. A nagyobb súllyal rendelkező jellemzők fontosabb szerepet játszanak a modellben. Az objektumok normalizálása, amely a koszinusz hasonlóság (lásd a 2.4.5. szakaszt) kiszámításakor lép fel, is tekinthető a jellemzők egyfajta súlyozásának.

Jellemzők létrehozása

Gyakran lehetséges egy olyan új attribútumhalmaz létrehozása az eredeti attribútumokból, amely sokkal hatékonyabban adja vissza az adatállományban lévő fontos információkat. Továbbá az új attribútumok száma kisebb lehet az eredeti attribútumokénál, ezzel lehetővé téve számunkra a dimenziócsökkentés összes fentebb említett előnyének kihasználását. A következőkben az új attribútumok létrehozásának három, egymással összefüggő módszertanát írjuk le: jellemzők kinyerése, az adatok leképezése egy új térre és jellemzők szerkesztése.

Jellemzők kinyerése

Jellemzők kinyerése alatt az eredeti, nyers adatokból jellemzők új halmazának létrehozását értjük. Tekintsünk egy csoport fényképet, amelyeket aszerint kell osztályozni, hogy van-e rajtuk emberi arc. A nyers adatokat pixelek egy halmaza jelenti, és így sok osztályozó algoritmus nem alkalmazható rájuk. Ha azonban az adatokat feldolgozzuk, hogy olyan magasabb szintű jellemzőket tegyünk elérhetővé, mint bizonyos típusú élek és területek jelenléte vagy hiánya, amelyek erősen korrelálnak az emberi arcok jelenlétével, akkor az osztályozási módszerek egy sokkal szélesebb köre válik alkalmazhatóvá erre a problémára.

Sajnos abban az értelemben, ahogy a leggyakrabban használják, a jellemzők kinyerése erősen szakterületfüggő. Egy konkrét területre, mint például a képfeldolgozás, számos jellemzőt és azok kinyerési módszereit dolgozták ki az idők során, és ezek a módszerek csak korlátozottan alkalmazhatóak más területeken. Következésképpen, amikor adatbányászatot alkalmaznak egy viszonylag új területen, kulcsfontosságú feladat az új jellemzők és azok kinyerési módszereinek a kifejlesztése.

Az adatok leképezése egy új térre

Fontos és érdekes jellemzők kerülhetnek napvilágra, ha az adatokat egy teljesen más szemszögből szemléljük. Vegyünk például idősor adatokat, amelyek gyakran tartalmaznak periodikus mintázatokat. Ha csak egyetlen periodikus mintázat van és nem túl nagy a zaj, akkor ezt a mintázatot könnyű kimutatni. Más oldalról, ha több periodikus mintázat is jelen van és jelentős a zaj, akkor ezeket a mintázatokat nehéz kimutatni. Ugyanakkor az ilyen minták gyakran felismerhetőek, ha Fourier transzformációt alkalmazunk az idősorra, ezáltal olyan reprezentációra váltva, amelyben a frekvenciainformációk explicit módon jelennek meg. A következő példához nem lényeges, hogy ismerjük a Fourier transzformáció részleteit. Elég annyit tudnunk, hogy a Fourier transzformáció minden idősorra egy olyan új adatobjektumot hoz létre, amely frekvenciákhoz kapcsolódó attribútumokkal rendelkezik.

2.10. Példa (Fourier elemzés)

A 2.12. (b) ábrán látható idősor három másik idősor összege, amelyek közül kettőt a 2.12. (a) ábra mutat, és a frekvenciájuk másodpercenként 7 illetve 17 ciklus. A harmadik idősor véletlen zaj. A 2.12. (c) ábra azt a spektrális eloszlásfüggvényt mutatja, amelyet azután számoltunk ki, hogy Fourier transzformációt alkalmaztunk az eredeti idősorra. (Egyszerűen fogalmazva, a spektrális eloszlásfüggvény arányos a frekvenciára vonatkozó attribútumok négyzetével.) A zaj ellenére két csúcspont figyelhető meg, melyek megfelelnek a két eredeti, zajmentes idősor periódusainak. A lényeg ismét az, hogy jobb jellemzőkkel az adatok fontos szempontjai tárhatóak fel.

2.12. ábra - A Fourier transzformáció idősor adatokban történő alkalmazása frekvenciák azonosítására

A Fourier transzformáció idősor adatokban történő alkalmazása frekvenciák azonosítására

Számos más transzformációfajta is lehetséges. A Fourier transzformáció mellett a wavelet transzformáció is nagyon hasznosnak bizonyult idősorokon és más adattípusokon való alkalmazás esetén.

Jellemzők konstrukciója

Néha előfordul, hogy bár az eredeti adatállományban lévő jellemzőkben megvannak a szükséges információk, de azok nem az adatbányászati algoritmus számára megfelelő alakban vannak. Ebben az esetben az eredeti jellemzőkből létrehozott egy vagy több új jellemző használhatóbb lehet, mint az eredeti attribútumok.

2.11 Példa (Sűrűség)

Ennek szemléltetésére tekintsünk egy adatállományt, amely régészeti leletekről tárol információkat, egyebek mellett mindegyik lelet térfogatát és tömegét. Az egyszerűség kedvéért tegyük fel, hogy ezeket a leleteket kevés számú anyagból (fából, agyagból, bronzból és aranyból) készítették, és aszerint akarjuk őket osztályozni, hogy milyen anyagból készültek. Ez esetben egy, a térfogatból és a tömegből létrehozott sűrűség attribútum, azaz a sűrűség=tömeg/térfogat , közvetlenül egy pontos osztályozáshoz vezetne. Bár vannak törekvések annak irányába, hogy a meglévő attribútumok egyszerű matematikai kombinációinak feltárásával automatikusan hozzanak létre jellemzőket, a leggyakoribb megközelítés az, hogy szakterületi tudás felhasználásával szerkesztenek új jellemzőket.

Diszkretizálás és binarizálás

Egyes adatbányászati algoritmusok, főleg bizonyos osztályozó algoritmusok, alkalmazásához szükséges, hogy az adatok kategorikus attribútumok formájában legyenek. Az asszociációs szabályokat feltáró algoritmusok csak akkor alkalmazhatóak, ha az adatok bináris attribútumok formájában érhetőek el. Így gyakran szükség van a folytonos attribútumok kategorikus attribútumokká alakítására (diszkretizálás), valamint a folytonos és a diszkrét attribútumok átalakítása egyaránt szükséges lehet egy vagy több bináris attribútummá (binarizálás). Emellett, ha egy kategorikus attribútum sok értékkel (kategóriával) rendelkezik, vagy egyes értékei ritkán fordulnak elő, akkor egyes adatbányászati feladatokhoz hasznos lehet, ha néhány érték egyesítésével csökkentjük a kategóriák számát.

Csakúgy mint a jellemzők szelekciójánál, a diszkretizálás és binarizálás legjobb megközelítése az, ami ``a legjobb eredményt biztosítja az adatok elemzésére használt adatbányászati algoritmus számára''. Egy ilyen feltétel közvetlen alkalmazása általában nem célravezető. Következésképpen a diszkretizálást és a binarizálást úgy végezzük el, hogy eleget tegyen egy olyan feltételnek, melyről azt feltételezzük, hogy kapcsolatban áll a tárgyalt adatbányászati feladat jó teljesítményével.

Binarizálás

Egy kategorikus attribútum binarizálásának egyszerű módszere a következő. Ha m kategorikus érték van, akkor minden egyes eredeti értéket egy, a [0;m1] intervallumba tartozó egész számhoz rendeljük hozzá. Sorrendi attribútumok esetén a feladat elvégzése során fenn kell tartani a sorrendiséget. (Megjegyezzük, hogy még ha az attribútumot eredetileg egész számokkal reprezentáltuk is, akkor is szükség van erre az eljárásra, ha az egész számok nem a [0;m1] intervallumból valók.) Ezután ezen m egész szám mindegyikét átkonvertáljuk egy bináris számmá. Mivel ezen egész számok előállításához n= log 2 (m) bináris számjegyre van szükség, ezért ezeket a bináris számokat n darab bináris attribútummal reprezentáljuk. Ha például egy kategorikus változó a következő 5 értéket veheti fel: {borzalmas,gyenge,megfelelő,jó,kiváló} , akkor ehhez három bináris változóra, x 1 -re, x 2 -re és x 3 -ra lenne szükség. A konverziót 2.5. táblázatban láthatjuk.

2.5. táblázat - Egy kategorikus attribútum konverziója három bináris attribútumra

Kategorikus érték

Egész érték

x 1

x 2

x 3

borzalmas

0

0

0

0

gyenge

1

0

0

1

megfelelő

2

0

1

0

3

0

1

1

kiváló

4

1

0

0


2.6. táblázat - Egy kategorikus attribútum konverziója öt aszimmetrikus bináris attribútumra

Kategorikus érték

Egész érték

x 1

x 2

x 3

x 4

x 5

borzalmas

0

1

0

0

0

0

gyenge

1

0

1

0

0

0

megfelelő

2

0

0

1

0

0

3

0

0

0

1

0

kiváló

4

0

0

0

0

1


Az ilyen átalakítások olyan komplikációkhoz vezethetnek, mint például kapcsolatok akaratlan létrehozása az átalakított attribútumok között. Például 2.5. táblázatban az x 2 és x 3 attribútumok korrelálnak, mivel a értéket leíró információ kódolása mindkét attribútum felhasználásával történik. Továbbá, az asszociációs elemzéshez aszimmetrikus bináris attribútumokra van szükség, amelyeknél csak az attribútum jelenléte (1 értéke) fontos. Ezért asszociációs feladatoknál minden kategorikus értékhez be kell vezetni egy bináris attribútumot, mint ahogy az a 2.6. táblázatban látható. Ha az így kapott attribútumok száma túl nagy, akkor a lentebb leírt módszerekkel csökkenthető a kategorikus értékek száma a binarizálás előtt.

Hasonlóképpen, asszociációs feladatoknál indokolt lehet egy bináris attribútum helyettesítése két aszimmetrikus bináris attribútummal. Tekintsünk egy olyan bináris attribútumot, amely egy személy nemét tartalmazza, nevezetesen, hogy férfi vagy nő. A hagyományos asszociációs szabály algoritmusokhoz ezt az információt két aszimmetrikus attribútummá kell alakítanunk, melyek egyike csak akkor 1, ha a személy férfi, a másik pedig csak akkor 1, ha a személy nő. (Az aszimmetrikus bináris attribútumokkal történő információreprezentáció hatékonysága meglehetősen alacsony, mivel az információ minden egyes bitjének tárolásához két bitre van szükség.)

Folytonos attribútumok diszkretizálása

A diszkretizálást tipikusan olyan attribútumokra alkalmazzuk, melyeket osztályozási vagy asszociációs elemzés során alkalmazunk. Általában az, hogy mi a legjobb diszkretizálás, legalább annyira függ az alkalmazott algoritmustól, mint a többi figyelembe vett attribútumtól. Azonban egy attribútum diszkretizálását jellemzően elkülönítve végzik.

Egy folytonos attribútum kategorikus attribútummá alakítása két részfeladatból áll: annak eldöntése, hogy hány kategóriánk legyen, és annak meghatározása, hogy hogyan képezzük le a folytonos attribútum értékeit ezekre a kategóriákra. Az első lépésben, a folytonos attribútum értékeinek rendezése után, azokat n intervallumra osztjuk n1 osztópont meghatározásával. A második, meglehetősen triviális lépésben az egyes intervallumokba eső összes értéket ugyanarra a kategorikus értékre képezünk le. Így a diszkretizálás feladata abban áll, hogy hány osztópontot válasszunk, és hova helyezzük el őket. Az eredményt reprezentálhatjuk {( x 0 , x 1 ],( x 1 , x 2 ],,( x n1 , x n )} intervallumok halmazaként, ahol x 0 és x n lehetnek illetve + , de ezzel egyenértékű egyenlőtlenségek egy x 0 x x 1 , ... , x n1 x x n sorozata is.

Felügyelet nélküli diszkretizálás Az osztályozásnál használt diszkretizálási módszereket alapvetően aszerint különböztetjük meg, hogy használják-e az osztályinformációkat (felügyelt) vagy sem (nem felügyelt). Általában viszonylag egyszerű megközelítések jellemzőek abban az esetben, ha az osztályinformációkat nem használjuk. Az egyenlő hosszúság megközelítés például az attribútum terjedelmét a felhasználó által meghatározott számú, egyenlő hosszúságú intervallumra osztja. Egy ilyen megközelítésre rossz hatással lehetnek a kiugró értékek, ezért gyakran az egyenlő gyakoriság (egyenlő mélység) megközelítést preferálják inkább, ami megpróbál minden intervallumba ugyanannyi objektumot tenni. Egy másik példa felügyelet nélküli diszkretizálásra egy olyan klaszterező módszer, mint a K -közép (lásd 8. fejezetet). Végül, néha az adatok vizuális vizsgálata is hatékony megközelítést adhat.

2.12. Példa (Diszkretizálási módszerek)

Ez a példa azt szemlélteti, hogy a fenti megközelítések hogyan működnek egy valódi adatállományon. A 2.13. (a) ábra négy különböző csoportba tartozó adatpontokat és két kiugró adatértéket ábrázol -- ez utóbbiak a nagy pontok a két szélen. Az előző bekezdésben szereplő módszereket alkalmaztuk az adatpontok x értékeinek négy kategorikus értékbe sorolásához. (Az adatállományban lévő pontoknak van egy véletlenszerű y komponense, hogy könnyen láthatóvá tegyük, hogy az egyes csoportokban mennyi pont van.) Az adatok vizuális vizsgálata elég jól használható, de nem automatikus, így a másik három megközelítésre koncentrálunk. Az egyenlő hosszúság, egyenlő gyakoriság és K -közép módszerekkel előállított osztópontok a 2.13. (b), a 2.13. (c), illetve 2.13. (d) ábrán láthatóak. Az osztópontokat szaggatott vonalak jelölik. Ha azzal mérjük a diszkretizálási módszerek hatékonyságát, hogy milyen mértékben lettek különböző csoportok különböző objektumaihoz megegyező értékek hozzárendelve, akkor a K -közép teljesít a legjobban, melyet az egyenlő gyakoriság és végül az egyenlő hosszúság követ.

2.13. ábra - Különböző diszkretizálási módszerek

Különböző diszkretizálási módszerek

Felügyelt diszkretizálás A fentebb leírt diszkretizálási módszerek rendszerint jobbak, mintha nem diszkretizálnánk, de ha a végcélt tartjuk szem előtt és kiegészítő információkat (osztálycímkéket) használunk, akkor gyakran jobb eredményt kapunk. Ez nem meglepő, mivel az osztálycímkék ismerete nélkül létrehozott intervallumok gyakran több osztálycímke keverékét tartalmazzák. Fogalmi szinten egyszerű megoldást jelent, ha az osztópontokat úgy helyezzük el, hogy maximalizáljuk az intervallumok tisztaságát. A gyakorlatban azonban egy ilyen megközelítésnél előfordulhat, hogy önkényes döntésekre lesz szükség az intervallumok tisztaságát és egy intervallum minimális méretét illetően. Az ilyen problémák elkerülése érdekében egyes statisztikai alapú megközelítések kezdetben minden attribútumértéket egy különálló intervallumnak tekintenek és egy statisztikai próba alapján hasonlónak ítélt, szomszédos intervallumok egyesítésével hoznak létre nagyobb intervallumokat. Az entrópia alapú megközelítések a legígéretesebb módszerek diszkretizálásra. Itt egy egyszerű entrópia alapú megközelítést mutatunk be.

Először az entrópiát szükséges definiálnunk. Legyen k a különböző osztálycímkék száma, m i az értékek száma egy felosztás i -edik intervallumában, és m ij a j -edik osztályba tartozó értékek száma az i -edik intervallumban. Ekkor az i -edik intervallum entrópiáját, e i -t, a következő egyenlet adja:

e i = j=1 k p ij log 2 p ij ,

ahol p ij = m ij / m i a j -edik osztály valószínűsége (értékeinek aránya) az i -edik intervallumban. A felosztás teljes entrópiája, e , az egyedi intervallumok entrópiáinak súlyozott átlaga, azaz

e= i=1 n w i e i ,

ahol m az értékek száma, w i = m i /m az értékek aránya az i -edik intervallumban és n az intervallumok száma. Érezhető, hogy egy intervallum entrópiája az intervallum tisztaságának mértéke. Ha egy intervallum csak egy osztályba tartozó értékeket tartalmaz (tökéletesen tiszta), akkor az entrópia 0 és semmivel sem járul hozzá a teljes entrópiához. Ha egy intervallumban egyforma gyakran fordulnak elő az értékek osztályai (az intervallum annyira kevert, amennyire csak lehetséges), akkor az entrópia értéke maximális.

A folytonos attribútumok felosztásának egy egyszerű megközelítése azzal indul, hogy úgy osztjuk ketté a kezdeti értékeket, hogy az így kapott két intervallum entrópiája minimális legyen. Ehhez a módszerhez mindössze arra van szükség, hogy minden értéket mint lehetséges osztópontot tekintsünk, mivel feltételezzük, hogy az intervallumok rendezett értékhalmazokat tartalmaznak. Ezután a felosztó eljárást megismételjük egy másik intervallummal, jellemzően a legrosszabb (legmagasabb) entrópiájú intervallumot kiválasztva, amíg el nem érünk egy, a felhasználó által meghatározott intervallumszámot vagy míg nem teljesül egy megállási feltétel.

2.13. Példa (Két attribútum diszkretizálása)

A fenti módszert arra használtuk, hogy egymástól függetlenül diszkretizáljuk a 2.14. ábrán látható kétdimenziós adatok x és y attribútumait. A 2.14. (a) ábrán látható első diszkretizálás során az x és az y attribútumot is három intervallumra osztottuk. (Az osztópontokat szaggatott vonalak jelzik.) A 2.14. (b) ábrán látható második diszkretizálás során az x és az y attribútumot egyaránt öt intervallumra osztottuk.

Ez az egyszerű példa két szempontra világít rá a diszkretizálással kapcsolatban. Egyrészt, két dimenzióban a pontok osztályai jól elkülönülnek egymástól, de egy dimenzióban ez már nincs így. Általánosságban elmondható, hogy az attribútumok önálló diszkretizálása gyakran csak az optimálisnál rosszabb eredményt garantál. Másrészt, öt intervallum jobb mint három, de hat intervallum már nem sokat javít a diszkretizáláson, legalábbis az entrópia szempontjából. (A hat intervallumra vonatkozó entrópia értékek és eredmények nincsenek feltüntetve.) Következésképpen, kívánatos egy olyan megállási feltétel, amely automatikusan megtalálja a megfelelő darabszámot.

2.14. ábra - Az x és y attribútumok diszkretizálása pontok négy csoportjára (osztályára)

Az x és y attribútumok diszkretizálása pontok négy csoportjára (osztályára)

Túl sok értékkel rendelkező kategorikus attribútumok

A kategorikus attribútumoknak néha túl sok értékük lehet. Ha a kategorikus attribútum egy sorrendi attribútum, akkor a folytonos attribútumokra alkalmazhatóakhoz hasonló módszerek használhatóak a kategóriák számának csökkentésére. Ha azonban a kategorikus attribútum névleges, akkor más megközelítésekre van szükség. Tekintsünk egy egyetemet, amelynek nagyszámú tanszéke van. Ebből következik, hogy egy Tanszéknév attribútumnak tucatnyi különböző értéke lehet. Ebben a helyzetben használhatjuk a különböző tanszékek közötti kapcsolatokról meglévő ismereteinket arra, hogy a tanszékeket nagyobb csoportokba rendezzük, mint például műszaki tudomány, társadalomtudomány vagy biológiai tudományok. Ha a szakterületi tudás nem bizonyul hasznos útmutatónak vagy egy ilyen megközelítés gyenge osztályozási hatékonyságot eredményez, akkor egy tapasztalatibb megközelítés alkalmazása szükséges, mint például ha csak akkor rendezzük egy csoportba az értékeket, ha ez a csoportosítás az osztályozás pontosságának javítását eredményezi, vagy valamilyen más adatbányászati cél elérését biztosítja.

Változó transzformáció

A változó transzformáció egy olyan átalakítást jelent, amelyet a változó minden értékére alkalmazunk. (Ragaszkodva a megszokott szóhasználathoz, inkább a változó kifejezést használjuk az attribútum helyett, bár esetenként attribútum transzformációként is fogunk rá hivatkozni.) Más szóval, a transzformációt mindegyik objektumnál alkalmazzuk a változó objektumértékeire. Ha egy változónak például csak a nagysága fontos, akkor a változó értékeit transzformálhatjuk azzal, hogy az abszolút értékét vesszük. A következő szakaszban a változó transzformációk két fontos típusát fogjuk tárgyalni: az elemi függvényeket és a normalizálást.

Elemi függvények

A változó transzformáció ezen típusánál egyenként minden értékre egy elemi matematikai függvényt alkalmazunk. Ha x egy változó, akkor például x k , logx , e x , x , 1/x , sinx , vagy |x| ilyen transzformációk. A statisztikában a változó transzformációk, különösen a x , logx , és az 1/x gyakran kerülnek alkalmazásra azért, hogy a nem Gauss (normális) eloszlást követő adatokat normális eloszlásúvá alakítsák. Bár ez fontos lehet, az adatbányászatban gyakran más okok kerülnek előtérbe. Tegyük fel, hogy a kérdéses változó az adatbitek száma egy munkamenet során, és a bitek száma 1-től 1 milliárdig terjed. Ez egy hatalmas tartomány, és előnyös lehet a sűrítése egy log 10 transzformációval. Ez esetben a 10 8 és 10 9 bit átvitellel járó munkamenetek jobban hasonlítanának egymásra, mint a 10 és 1000 bit átvitellel járók ( 98=1 -gyel szemben 31=2 ). Egyes alkalmazásoknál, mint például a hálózatokba való betörések észlelése, ez lehet az, amit keresünk, mivel az első két munkamenet nagy valószínűséggel nagyméretű fájlok átviteléte, míg az utóbbi két munkamenet teljesen eltérő típusú is lehet.

A változó transzformációk alkalmazása során körültekintően kell eljárni, mivel megváltoztathatja az adatok természetét. Bár ez lehet az, amire vágyunk, problémát okozhat, ha nem látjuk teljesen tisztán a transzformáció sajátosságait. Például az 1/x transzformáció csökkenti az 1 és az annál nagyobb értékek nagyságát, de növeli a 0 és 1 közötti értékek nagyságát. Szemléltetésképpen az {1,2,3} értékek {1, 1 2 , 1 3 } -á válnak, de az {1, 1 2 , 1 3 } értékekre {1,2,3} az eredmény. Így az 1/x transzformáció minden értékhalmazon megfordítja a sorrendet. Ahhoz, hogy világossá tegyük egy transzformáció hatását, fontos, hogy a következőekhez hasonló kérdéseket tegyünk fel. Fenn kell-e tartanunk a sorrendet? A transzformáció alkalmazható-e minden értékre, főleg negatív értékekre és 0-ra? Milyen hatással van a transzformáció a 0 és 1 közötti értékekre? A 95. oldalon található 17. feladat a változó transzformáció további tulajdonságait tárja fel.

Normalizálás és standardizálás

A változó transzformáció egy másik gyakran használt típusa a változó standardizálása vagy normalizálása. (Az adatbányász közösségben ezeket a kifejezéseket gyakran felcserélhetően használják. A statisztikában azonban a normalizálás kifejezés összetéveszthető azokkal a transzformációkkal, amelyek segítségével a változót normális, azaz Gauss eloszlásúvá teszik.) A standardizálás vagy normalizálás célja annak elérése, hogy egy teljes értékhalmaz rendelkezzen egy bizonyos tulajdonsággal. Ennek hagyományos példája ``egy változó standardizálása'' a statisztikában. Ha x Ż az attribútum értékek középértéke (átlaga) és s x azok szórása, akkor az x'=(x x Ż )/ s x transzformáció egy olyan új változót hoz létre, melynek átlaga 0 és szórása 1. Ha valamilyen módon különböző változókat akarunk kombinálni, akkor gyakran ez a transzformáció szükséges annak elkerülése végett, hogy egy nagy értékekkel rendelkező változó túlsúlyba kerüljön a számítások eredményeiben. Ennek illusztrálására tegyük fel, hogy két változó, kor és jövedelem, alapján hasonlítunk össze embereket. Bármely két ember esetén valószínűbb, hogy a jövedelmük különbsége abszolút értékben sokkal nagyobb, akár több száz vagy ezer dollár, lesz, mint a koruk közti különbség, mely legfeljebb 150. Ha nem vesszük figyelembe a különbséget a kor és a jövedelem értékeinek terjedelme között, akkor az emberek összehasonlítása során túlsúlyba fognak kerülni a jövedelmi különbségek. Különösen ha két ember hasonlóságát vagy különbözőségét a fejezet későbbi részében definiált hasonlósági vagy különbségi mértékekkel számoljuk, akkor sok esetben, mint például az euklideszi távolság esetében, a jövedelem értékek túlsúlyba fognak kerülni a számítások során.

Az átlagot és a szórást nagymértékben befolyásolják a kiugró értékek, ezért a fenti transzformációt gyakran módosítják. Egyrészt, az átlag helyére a medián, azaz a középső érték kerül. Másrészt, a szórás helyett az abszolút szórást használják. Konkrétan, ha x egy változó, akkor x abszolút szórását σ A = i=1 m | x i μ | adja, ahol x i a változó i -edik értéke, m az objektumok száma, μ pedig az átlag vagy a medián. Más olyan megközelítésekkel, amelyek értékek egy halmazának a helyzetét (középpontját) és kiterjedését becsülik kiugró értékek jelenlétében, a 3.2.3. és a 3.2.4. szakaszban foglalkozunk. Ezek a mértékek használhatóak standardizálási transzformáció definiálására is.