4.3. Statisztikai elvű NLP

Amint az eddigiekből is kitűnt, a természetes nyelvek megértése a kisgyerekek által mindennap alkalmazott tapasztalati alapon, mindenféle előzetes nyelvészeti elemzés nélkül is elérhető. Az újabb statisztikai elvű irányzat azt vallja, hogy a nyelv megértéséhez szükséges ismeretek benne vannak a beszélt nyelvben és statisztikai módszerekkel kinyerhetők. Ehhez annyi kiegészítés kívánkozik, hogy az ember számára a dolgok, fogalmak jelentésének megtanulásához nem csak verbális információk állnak rendelkezésre. Közelebb jutunk a megértés lényegéhez, ha tisztázzuk a szó jelentését: a szó jelentése mindazon szituációk agyunkban hagyott emléknyomainak összessége, amelyben a szót használtuk, a szó elhangzott, szerepelt. Azaz a szó jelentése egy hatalmas, nem egyenszilárdságú asszociált érzéklet- és gondolathalmaz. Ezt kitágítva hasonlókat fogalmazhatunk meg a mondat jelentésére is. Ezt a kérdést a 4.6 pontban még tovább elemezzük és egy mintaalkalmazáson keresztül ismertetjük.

A statisztikai nyelvfeldolgozás előtérbe kerülését az is okozta, hogy a nyelvészeti alapokon álló természetes nyelvfeldolgozás nem érte el a jelentés megragadásában azt a szintet, amely összemérhető az emberi megértéssel. A statisztikai elvű feldolgozás nagyobb rugalmasságának köszönhetően precízebb jelentésmegragadást eredményezhet. A valószínűségi alapokon való megközelítésből eredően jobban kezeli a beszédben meglévő hibákat, hiányosságokat.

A statisztikai nyelvfeldolgozás nevéhez hűen komoly matematikai statisztikai apparátussal dolgozik és nyeri ki a hatalmas szövegekben rejlő nyelvi törvényszerűségeket. Az alkalmazott módszerek a valószínűségelmélet és az információelmélet területéről származnak.

A valószínűségelmélet alkalmazott fogalmai:

Az információelmélet alkalmazott fogalmai:

Mi a statisztikai módszerek alkalmazásának előnye?

A sztochasztikus nyelvtanoknál a nyelvi kategóriák, pl. jelző, főnév, határozó, stb., illetve konkrét szavak egymásutániságának valószínűségét ismerjük, így egy megfelelő mondat összeállítása ezen előrejelző valószínűségek segítségével megvalósulhat.

A hagyományos nyelvészeti megközelítések nem ismernek közbenső értéket a nyelvtanban, egy mondat vagy jó, vagy rossz. Néhány esetben a mondat elfogadhatósága függhet a szerkezetétől, vagy a környezetétől.

Az emberi nyelvmegértés fontos jellemzője a hibatűrés. Sok olyan mondatot, amelyet a hagyományos nyelvtani felbontás, parsing nem szabályos mondatnak értékel, statisztikai nyelvfeldolgozással megérthetünk.