Klaszterezés - Szövegklaszterezés

Leírás

A folyamat a Twenty Newsgroups adathalmaz egy részhalmazán mutatja be a dokumentumklaszterezést.

Bemenet

A Twenty Newsgroups adatállomány [UCI MLR] egy részhalmaza.

Megjegyzés

Az adatállományt Mitchell, Tom adományozta a UCI Machine Learning Repository részére.

Az adatállomány 20 témakörből tartalmaz kb. 20000 hírt. Az általunk vizsgált részhalmaz csupán három témakört használ ebből, melyek az autókról, az elektronikáról, valamint a közel-keleti politikáról szólnak.

Kimenet

12.20. ábra - Az előfeldolgozó alfolyamat

Az előfeldolgozó alfolyamat


Az adatokat témakörönként beolvassuk, kisbetűssé alakítjuk, tokenizáljuk, szótövezzük, majd kiszűrjük a stopszavakat. Ezután már csak dokumentumonként TF-IDF vektorokat kell klasztereznünk.

12.21. ábra - A klaszterezés beállítása

A klaszterezés beállítása


A dokumentumvektorok közötti távolságot koszinusz távolsággal mérjük. A klasztercímkéket osztálycímkékké alakítjuk, majd megnézzük, hogy a klaszterek mennyire fedik le a különböző témaköröket.

12.22. ábra - Az eredmények igazságmátrixa

Az eredmények igazságmátrixa


Az eredmények értékelése

Az eredmények azt mutatják, hogy az autók erősen összemosódtak az elektronikával, ami valószínűleg nem is áll messze a valóságtól, hisz a két szakmának sok közös pontja van.

Videó

Folyamat

clust2_exp5.rmp

Kulcsszavak

K-közép módszer
koszinusz távolság
szövegklaszterezés
szövegbányászat

Operátorok

k-Means
Map Clustering on Labels
Performance (Classification)
Filter Stopwords (English) [Text Mining Extension]
Process Documents from Files [Text Mining Extension]
Stem (Snowball) [Text Mining Extension]
Tokenize [Text Mining Extension]
Transform Cases [Text Mining Extension]