Feladatok

1. A 2. fejezet kezdeti példájában a statisztikus azt mondja: ``Igen, a 2. és a 3. mező gyakorlatilag ugyanaz.'' Meg tudja állapítani a mutatott minta három sorából, hogy miért mondja ezt?

2. Osztályozza a következő attribútumokat, mint bináris, diszkrét vagy folytonos. Szintén osztályozza őket mint kvalitatív (névleges vagy sorrendi) illetve kvantitatív (intervallum vagy hányados). Bizonyos esetekben több értelmezés is lehetséges, ezért röviden indokolja, ha úgy gondolja, hogy kétértelműség áll fenn.

Példa: életkor években. Válasz: diszkrét, kvantitatív, hányados.

  1. Idő délelőtt és délután szerint.

  2. Egy fényérzékelővel mért világosság.

  3. Emberi ítélet alapján mért világosság.

  4. Szögek 0 és 360 fok között, melyeket mértünk.

  5. Az olimpián odaítélt bronz, ezüst és aranyérmek.

  6. Tengerszint feletti magasság.

  7. A betegek száma egy kórházban.

  8. Könyvek ISBN számai. (Nézzen utána a formátumnak a weben.)

  9. Fényáteresztési képesség a következő értékekkel: átlátszatlan, áttetsző, átlátszó.

  10. Katonai rang.

  11. Az egyetemi campus központjától mért távolság.

  12. Egy anyag sűrűsége gramm per köbméterben.

  13. Kabátok ruhatári száma. (Ha részt veszünk egy rendezvényen, ott gyakran le lehet adni a kabátunkat valakinek, aki cserébe egy számot ad, amiért távozáskor visszakapjuk a kabátunkat.)

3. Megkeresi egy helyi cég marketingigazgatója, aki úgy véli, hogy tökéletes módot agyalt ki a vásárlók megelégedettségének mérésére. A következőképpen magyarázza el a tervét: ``Olyan egyszerű, hogy el sem hiszem, hogy korábban ez senkinek sem jutott az eszébe. Csak minden termékhez nyomon követem a vele kapcsolatban beérkezett vásárlói panaszokat. Azt olvastam egy adatbányászati könyvben, hogy a darabszámok hányados típusú attribútumok, szóval az én mértékem a termékekkel való megelégedettségre hányados típusú kell, hogy legyen. De mikor az új vásárlói megelégedettségi mértékemre alapozva értékeltem a termékeket, és megmutattam a főnökömnek, azt mondta, hogy amúgy is nyilvánvaló eredményeket kaptam, és hogy a mértékem nem ér semmit. Szerintem csak mérges volt, mert a legjobban fogyó termékünknek volt a legrosszabb megelégedettségi mutatója, hiszen ahhoz érkezett a legtöbb panasz. Segítenél, hogy kiigazítsam?''

  1. Kinek van igaza, a marketingigazgatónak vagy a főnökének? Ha azt válaszolta, hogy a főnökének, akkor mit tenne, hogy kijavítsa a megelégedettségi mértéket?

  2. Mit tud elmondani az eredeti termék megelégedettségi attribútumának a típusáról?

4. Pár hónappal később ismét felkeresi ugyanaz a marketingigazgató, mint 3. feladatban. Ezúttal egy jobb módszert dolgozott ki annak mérésére, hogy egy vásárló mennyire preferál egy terméket más hasonló termékekkel szemben. A következőképpen fejti ki: ``Amikor új termékeket fejlesztünk, jellemzően számos változatot hozunk létre, és kiértékeljük, hogy a vásárlók melyiket részesítik előnyben. Általában úgy járunk el, hogy a tesztalanyoknak egyszerre adjuk oda az összes változatot, és megkérjük őket, hogy preferenciájuk szerint rendezzék őket sorba. Azonban a tesztalanyaink nagyon határozatlanok, különösen ha kettőnél több termékről van szó. Következésképp a tesztelés örökké tart. Azt javasoltam, hogy az összehasonlításokat párokban végezzük el, és aztán ezeket használjuk fel a sorrend felállítására. Így, ha van három termékváltozatunk, akkor a vevőkkel az 1. és a 2., aztán a 2. és a 3., végül a 3. és az 1. változatot hasonlíttatjuk össze. Az én új eljárásommal a teszt időtartama a régi módszer harmada, de a teszteket lefolytató kollégák arra panaszkodnak, hogy nem tudnak következetes sorrendet felállítani az eredmények alapján. A főnököm meg várja a legújabb termékértékeléseket, mégpedig tegnapra. Az sem árt, ha megemlítem, hogy ő volt az, aki kitalálta a régebbi kiértékelési módszert. Tudsz nekem segíteni ebben?''

  1. Bajban van-e a marketingigazgató? Sorba rendezhetőek-e a megközelítésével a termékváltozatok a vásárlói megelégedettség szerint? Indokolja válaszát!

  2. Van-e mód a marketingigazgató módszerének javítására? Mit tud elmondani általánosságban arról, ha páronkénti hasonlításokra alapozva akarunk felállítani egy sorrendi mérési skálát?

  3. Az eredeti termékértékelési rendszerben minden termékváltozat végső rangsorolása úgy áll elő, hogy az összes tesztalany válaszainak átlagát vesszük. Fejtse ki, hogy Ön szerint ez a megközelítés megfelelő-e. Milyen más megközelítésekkel élhetnénk?

5. Meg tud-e adni olyan helyzetet, ahol az azonosító számok használhatóak előrejelzésre?

6. Egy iskolapszichológus asszociációs elemzéssel szeretne teszteredményeket elemezni. A teszt 100 darab, egyenként négy lehetséges válasszal rendelkező kérdésből áll.

  1. Hogyan alakítaná át ezeket az adatokat, hogy alkalmazható legyen rájuk az asszociációs elemzés?

  2. Konkrétan milyen típusú, és hány darab attribútumot használna?

7. A következő mennyiségek közül valószínűleg melyik mutat nagyobb időbeli autokorrelációt: a napi csapadék vagy a napi hőmérséklet? Miért?

8. Fejtse ki, hogy a dokumentum-kifejezés mátrix adatszerkezetben miért szerepelnek aszimmetrikus diszkrét vagy aszimmetrikus folytonos jellemzők.

9. Sok tudományág hagyatkozik megfigyelésekre a megtervezett kísérletek helyett (vagy mellett). Hasonlítsa össze a megfigyeléseken alapuló tudományok területén felmerülő adatminőségi problémákat a kísérleti tudományok és az adatbányászat területén felmerülőkkel.

10. Fejtse ki a különbséget a pontosság mérése illetve az egyszeres és kétszeres pontosság kifejezések között, amelyeket az informatikában használnak, jellemzően a lebegőpontos számok 32 illetve 64 biten történő ábrázolásánál.

11. Nevezzen meg legalább két előnyt, amelyet a szöveges fájlokban történő adattárolás nyújt a bináris formátummal szemben.

12. Tegyen különbséget a zaj és a kiugró értékek között. Feltétlenül vegye számba a következő kérdéseket.

  1. Lehet a zaj valamikor érdekes vagy kívánatos? És a kiugró értékek?

  2. Lehetnek-e a zajobjektumok kiugróak?

  3. A zajobjektumok mindig kiugró értékek?

  4. A kiugró adatok mindig zajt jelentenek?

  5. A zaj hatására válhat-e egy átlagos adatból szokatlan adat? És fordítva?

13. Tekintsük azt a feladatot, hogy egy adatobjektum K legközelebbi szomszédját keressük. Egy programozó 13. algoritmust dolgozta ki a feladatra.

2.2. algoritmus. A K legközelebbi szomszédot kereső algoritmus

1: for i=1 to adatobjektumok száma

2: Mérjük meg az i -edik objektum távolságát az összes többi objektumtól

3: Rendezzük ezeket a távolságokat csökkenő sorrendbe (Kövessük nyomon, hogy melyik távolság melyik objektumhoz tartozik)

4: return a rendezett lista első K távolságához tartozó objektumok

5: end for

  1. Írja le azokat a problémákat, amelyek felmerülhetnek ezzel az algoritmussal kapcsolatban, ha az adatállományban egyes objektumok többször szerepelnek. Tegyük fel, hogy a távolságfüggvény az egyező objektumokra csak 0 értékű távolságot ad vissza.

  2. Hogyan oldaná meg a problémát?

14. Egy ázsiai elefántcsorda tagjait a következő attribútumokkal mérjük: súly, magasság, agyarak hossza, ormány hossza és fülek területe. Ezekre a mérésekre alapozva a 2.4. fejezet szomszédsági mértékei közül melyiket használná az elefántok összehasonlítására vagy csoportosítására? Igazolja válaszát és fejtse ki, ha bármilyen speciális körülmény merül fel.

15. Adott egy m objektumból álló halmaz, amelyet K csoportra osztunk, ahol az i -edik csoport mérete m i . Ha az a célunk, hogy egy nm nagyságú mintát kapjunk, akkor mi a különbség a következő két mintavételi módszer között? (Feltételezzük, hogy a mintavétel visszatevéses.)

  1. Véletlenszerűen kiválasztunk n* m i /m elemet minden csoportból.

  2. Véletlenszerűen kiválasztunk n elemet az adatállományból arra való tekintet nélkül, hogy az objektumok melyik csoportba tartoznak.

16. Tekintsünk egy dokumentum-kifejezés mátrixot, ahol t f ij az i -edik szó (kifejezés) előfordulási gyakorisága a j -edik dokumentumban, m pedig a dokumentumok száma. Tekintsük a

t f ij '=t f ij *log m d f i , (2.18)

egyenlettel megadott változó transzformációt, ahol d f i azon dokumentumok száma, amelyekben előfordul az i -edik kifejezés, a kifejezés úgynevezett dokumentum gyakorisága. Ezt a transzformációt inverz dokumentum gyakorisági transzformációnak nevezzük.

  1. Mi ennek a transzformációnak a hatása, ha egy kifejezés csak egy dokumentumban fordul elő? És ha minden dokumentumban?

  2. Mi lehet ezen transzformáció célja?

17. Tegyük fel, hogy egy x hányados attribútumra a négyzetgyök transzformációt alkalmazzuk, és így megkapjuk az x * új attribútumot. Elemzéseink során azonosítunk egy (a,b) intervallumot, melyben az x * lineáris kapcsolatban áll egy másik, y attribútummal.

  1. Mi lesz az ennek megfelelő (a,b) intervallum az x attribútumra nézve?

  2. Adjon meg egy egyenletet, amely megadja y és x kapcsolatát.

18. Ebben a feladatban néhány hasonlósági és távolsági mértéket hasonlítunk össze.

(a) Bináris attribútumokra az L 1 távolság a Hamming távolságnak felel meg; azaz két bináris vektor eltérő bitjeinek a száma. A Jaccard hasonlóság két bináris vektor hasonlósági mértéke. Számítsa ki a Hamming távolságot és a Jaccard hasonlóságot a következő két bináris vektor között.

x=0101010001

y=0100011000

(b) Melyik megközelítés, a Jaccard hasonlóság vagy a Hamming távolság, hasonlít jobban az egyszerű egyezés együtthatóhoz, és melyik hasonlít jobban a koszinusz mértékhez? Válaszát indokolja. (Megjegyzés: A Hamming mérték egy távolság, míg a másik három mérték hasonlóság, de ne engedje, hogy ez megzavarja.)

(c) Tegyük fel, hogy aszerint hasonlítunk össze két különböző fajhoz tartozó élőlényt, hogy azoknak hány génje egyezik meg. Írja le, hogy melyik mérték, a Hamming vagy a Jaccard, a megfelelőbb-e a két élőlény génállományának összehasonlítására. Válaszát indokolja. (Tegyük fel, hogy minden állatot egy olyan bináris vektorral ábrázolunk, amelyben minden attribútum értéke 1, ha a hozzá tartozó konkrét gén jelen van az élőlényben, és 0 egyébként.)

(d) Ha két azonos fajba tartozó élőlény, például két emberi lény génállományát akarjuk összehasonlítani, akkor a Hamming távolságot, a Jaccard együtthatót, vagy valamilyen más hasonlósági vagy távolságmértéket használna? Válaszát indokolja. (Megjegyezzük, hogy két emberi lény génjeinek több mint 99,9%-a megegyezik.)

19. A következő x és y vektorokra számolja ki a mellettük feltüntetett hasonlósági és távolságmértékeket.

  1. (a) x=(1,1,1,1) , y=(2,2,2,2) : koszinusz, korreláció, euklideszi távolság

  2. (b) x=(0,1,0,1) , y=(1,0,1,0) : koszinusz, korreláció, euklideszi távolság, Jaccard hasonlóság

  3. (c) x=(0,1,0,1) , y=(1,0,1,0) : koszinusz, korreláció, euklideszi távolság

  4. (d) x=(1,1,0,1,0,1) , y=(1,1,1,0,0,1) : koszinusz, korreláció, Jaccard hasonlóság

  5. (e) x=(2,1,0,2,0,3) , y=(1,1,1,0,0,1) : koszinusz, korreláció

20. Ebben a feladatban tovább vizsgáljuk a koszinusz és a korreláció mértékeket.

  1. Mekkora a lehetséges értékek terjedelme a koszinusz mérték esetén?

  2. Ha két objektum koszinusz mértéke 1, akkor megegyezőek-e? Válaszát indokolja.

  3. Milyen kapcsolatban van a koszinusz mérték a korrelációval, ha egyáltalán van ilyen kapcsolat? (Útmutatás: Tekintsen statisztikai mértékeket, mint például az átlag vagy a szórás, olyan esetekre, ahol a koszinusz és a korreláció megegyeznek illetve különbözőek.)

  4. A 2.20. (a) ábrán a koszinusz mérték és az euklideszi távolság közötti kapcsolat látható 100 000 véletlenszerűen generált pontra, melyek úgy lettek normalizálva, hogy L 2 hosszuk 1 legyen. Mit tud általánosságban megfigyelni az euklideszi távolság és a koszinusz hasonlóság közötti kapcsolatról abban az esetben, ha a vektorok L 2 normája 1?

  5. A 2.20. (b) ábrán a korreláció és az euklideszi távolság közötti kapcsolat látható 100 000 véletlenszerűen generált pontra, melyek úgy lettek standardizálva, hogy átlaguk 0, szórásuk pedig 1 legyen. Mit tud általánosságban megfigyelni az euklideszi távolság és a korreláció közötti kapcsolatról abban az esetben, ha a vektorok úgy lettek standardizálva, hogy átlaguk 0, szórásuk pedig 1?

  6. Vezesse le a matematikai kapcsolatot a koszinusz hasonlóság és az euklideszi távolság között, ha minden adatobjektum L 2 hossza 1.

  7. Vezesse le a matematikai kapcsolatot a korreláció és az euklideszi távolság között, ha minden adatpont úgy lett standardizálva, hogy kivontuk belőle az átlagot és elosztottuk a szórással.

2.20. ábra - Grafikonok a 20. feladathoz (a) Az euklideszi távolság és a koszinusz mérték kapcsolata (b) Az euklideszi távolság és a korreláció kapcsolata

Grafikonok a 20. feladathoz (a) Az euklideszi távolság és a koszinusz mérték kapcsolata (b) Az euklideszi távolság és a korreláció kapcsolata

21. Mutassa meg, hogy a

d(A,B)= méret (AB)+ méret (BA) (2.19)

egyenlettel megadott különbségi metrika kielégíti list:metric_propoerties. oldalon megadott metrika axiómákat, ahol A és B halmazok, AB pedig a halmazok különbsége.

22. Fejtse ki, hogyan tudná a [1;1] intervallumba eső korreláció értékeket leképezni a [0;1] intervallumra. Megjegyezzük, hogy a transzformációtípus, amelyet használ, függhet attól az alkalmazástól, amely a fejünkben van. Így tekintsünk két alkalmazást: idősorok klaszterezését és az egyik idősor viselkedésének előrejelzését úgy, hogy adott a másik.

23. Legyen adott egy hasonlósági mérték, amely a [0;1] intervallumból veszi fel értékeit. Adjon meg két módot arra, hogy ezt a hasonlósági értéket átalakítsuk egy, a [0;] intervallumba eső különbözőségi értékké.

24. A szomszédságot jellemzően két objektum között definiáljuk.

  1. Adjon meg két módot, amelyekkel a szomszédságot objektumok egy csoportjára definiálhatja.

  2. Hogyan definiálná a távolságot két ponthalmaz között egy euklideszi térben?

  3. Hogyan definiálná a szomszédságot adatobjektumok két halmaza között? (Az adatobjektumokról nem feltételezünk semmit, kivéve azt, hogy a szomszédsági mérték bármely két objektum között definiált.)

25. Adott pontok egy S halmaza az euklideszi térben, továbbá az S halmaz minden pontjának távolsága egy x ponttól. (Nem fontos, hogy xS fennáll-e.)

  1. Ha az a cél, hogy találjuk meg az összes pontot az y pont egy meghatározott ε környezetében, ahol yx , fejtse ki, hogyan tudná felhasználni a háromszög egyenlőtlenséget és a már kiszámított x -től mért távolságokat, hogy potenciálisan csökkentse a szükséges távolság számítások számát? Útmutatás: A háromszög egyenlőtlenség d(x,z)d(x,y)+d(y,x) alakból átírható d(x,y)d(x,z)d(y,z) alakba.

  2. Általánosságban x és y távolsága hogyan befolyásolhatja a távolsági számítások számát?

  3. Tegyük fel, hogy az eredeti adatállományból kinyerhető a pontok egy kis S' halmaza úgy, hogy az adatállomány minden pontja az S' legalább egy pontjához egy meghatározott ε távolságnál közelebb van, és S' -re a páronkénti távolsági mátrix is rendelkezésre áll. Adjon meg egy olyan módszert, amely ezen információk felhasználásával minimális távolság számítással kiszámítja az összes olyan pont halmazát, amelyek az adatállomány egy meghatározott pontjához egy β távolságnál közelebb vannak.

26. Mutassa meg, hogy 1 mínusz a Jaccard hasonlóság egy olyan távolság mértéket ad meg x és y adatobjektumok között, ami kielégíti list:metric_propoerties. oldalon megadott metrika axiómákat. Speciálisan: d(x,y)=1J(x,y) .

27. Mutassa meg, hogy két adatvektor, x és y , által bezárt szöggel definiált távolság mérték kielégíti list:metric_propoerties. oldalon megadott metrika axiómákat. Speciálisan: d(x,y)=arccos(cos(x,y)) .

28. Magyarázza meg, hogy gyakran miért könnyebb két attribútum szomszédságát kiszámítani, mint két objektum hasonlóságát.