4.8. Beszédgenerálás

Kempelen Farkas beszélőgépétől hatalmas utat tettünk meg a mai kiváló szintű mesterséges beszédet használó gépekig, mint pl. Watson.

Kempelen Farkas beszélőgépe

A természetes emberi beszédhez hasonlító beszéd képessége fontos a robotok, és különösen a humanoid robotok számára. A gépi beszéd generálásával a beszédgenerálás, beszédszintézis tudománya foglalkozik. Egyszerűbb esetben egy felolvasó, azaz text-to-speech rendszer, melynek hangja nem hordoz érzelmeket és felismerhetően gépi.

A szintetizált beszédet felvett emberi beszéddarabkák egymáshoz fűzésével lehet a legegyszerűbben előállítani. Speciális célokra, ahol teljes szavak, vagy különösen teljes mondatok tárolhatók, a beszéd minősége kiváló, de alkalmazási területe szűk. Kisebb, fonéma szintű elemeket alkalmazó megoldások nagy szabadságfokkal bírnak, de a beszédminőség gyengébb.

A beszédgeneráló rendszerek tipikus felépítését mutatja az alábbi ábra:

A beszédgenerálás tipikus folyamata

A beszédgenerátor két fő része a front-end és a back-end. A front-end két fő feladata a szöveg normalizálása, előfeldolgozása, amelybe pl. a szám alakban adott értékek szó alakkal történő megadása tartozik, valamint a szöveg tagolása beszédegységekre, mint pl. mondatok, szófordulatok, szókapcsolatok, majd végül a szavak fonetikus átírása zajlik. Az előbbi prozódikus és fonéma átírás eredményét kapja a back-end, vagy más néven szintetizátor, mely a szimbolikus nyelvi információkat hanggá alakítja. Egyes rendszerekben ez még kiegészülhet hangszín és fonéma időtartam beállítással, mely finomítja a beszédet (van Santen, Sproat és társai, 1997; van Santen, 1994).

Napjainkban a beszédgenerátorok színvonala megfelel az elvárásoknak. Gyakorlatilag az összes számítógépi operációs rendszer nyújt támogatást a beszédfeldolgozáshoz és a beszédszintézishez. A gépi beszéddel, azon belül kiemelten a magyar beszéd speciális képzési problémáival is foglalkozik a Németh és Olaszy (2010) szerkesztésében megjelent könyv.