Fõoldal
A projektrõl
A TTS rendszerekrõl
Írjon nekünk!
Discourser A többi projekt 
A fõiskola honlapja

A projekt akutális állása

Jelenleg sikerült elkészítenünk egy szabályalapú és egy neurális hálózattal mûködõ fonéma generátort. A rendszer már képes megszólalni is, ezt a legegyszerûbb hanggeneráló eljárással, a hangminták összefûzésével valósítja meg. Mivel az egyes fonémáknak megfelelõ hangminták a hangkapcsolódásokban bekövetkezõ árnyalatnyi torzulásokat nem képesek kezelni, ezért a hangminõség meglehetõsen gyenge.

Minta.
 
A következõ részben röviden összefoglaljuk a megvalósított rendszerben alkalmazott megoldásokat.
 

A rendszer leírása

A rendszer elsõ lépcsõje az elõfeldolgozó. Ez jelen pillanatban csak a speciális jelek kivételét és a számjegyek átalakítását végzi el.
A fonémageneráló módszerek közül a nyelvtani szabályokon alapuló és a neurális hálózatot használó eljárásokat valósítottuk meg. A nyelvtani szabályokon alapuló fonéma generátorunk jelen pillanatban 15 nyelvtani szabályt használ, és a kivételek lekezelésére egy meglehetõsen nagy kivételszótárat állítunk fel. A szabályok csak azokat a helyesírási szabályokat tartalmazzák, amelyeket a kiejtés szempontjából fontosnak tartottunk. A jövõben szeretnénk a kivételszótár méretét csökkenteni oly módon, hogy újabb szabályokat adunk a szabálytáblázathoz.
A neurális hálózatot alkalmazó fonéma generátorunk egy korábbi szakdolgozat, Matkó Péter munkáján alapul. Ez a megvalósítás az angol NetTalk fonéma generátor analógiájára készült, amelyet annak idején a DECTalk szintetizátorhoz készítettek (Ez a szintetizátor fonémákat fogadott bemenetként, majd ezeket szólaltatta meg). A neurális hálózat egy háromrétegû, teljesen összekötött, elõrecsatolt hálózat két tanítható réteggel. A hálózat bemeneti rétege 260 neuront, a rejtett réteg 80, a kimeneti réteg pedig 55 neuront tartalmaz. A neuronok átmeneti függvénye a szigmoid függvény. A súlyok duplapontosságú lebegõpontos számok. A hálózat hibavisszaterjesztõ algoritmussal lett tanítva.
A hálózat felépítése
Hogyan mûködik a rendszer? A hálózat az aktuális karakter elõtti és utáni három karaktert vizsgálja, vagyis a szövegkörnyezetbõl próbálja kitalálni az aktuális fonémát. A bemeneti réteg ennek megfelelõen 7 részre oszlik, mindegyik 37 neuront tartalmaz. A magyar ábécében 33 vizsgálandó karakter van. Az - általunk vizsgált - egyéb elõforduló jelekkel együtt összesen 37 vizsgálandó jel található a nyelvünkben. A kialakításból adódik, hogy az adott karakter kódja -melyet egy kódtábla segítségével állítunk elõ - a megadott sorszámú neuron aktivizálását jelenti. Az eredményt a hálózat kimenetén a legnagyobb értékû neuron sorszáma szolgáltatja, ez határozza meg azt a fonémát, amelyet meg kell szólaltatnunk.
A fonéma generátorok bemeneti és kimeneti paramétereit úgy határoztuk meg, hogy egymással kiválthatók legyenek, így a kétféle módszer könnyedén összehasonlítható.

A beszédjelet a fonémáknak megfelelõ hangminták összefûzésével és lejátszásával állítjuk elõ. Ez a módszer igen egyszerûen megvalósítható, azonban a hangminõség nem tökéletes. A hangminõség némiképpen javítható, ha a minták illeszkedése tökéletes (minden minta azonos szinten kezdõdik és fejezõdik be, valamint a jel irányában sincs változás).
Jelen pillanatban fejlesztés alatt áll egy szoftveres formáns szintetizátorral mûködõ változat elkészítése is. A programkóddal elkészültünk, most a szintetizátor paramétereinek meghatározása van folyamatban.

A programot MS Windows 3.1 operációs rendszer alá készítettük el, a fõbb modulokat Windows DLL-ként fordítottuk le. A fejlesztéshez a Borland C++ 4.5 és a Borland Delphi 1.0 fejlesztõeszközöket használtuk.

 
Fõoldal
A projektrõl
TTS rendszerek
Írjon nekünk!
Többi projekt
Fõiskola
Utolsó módosítás : 
Copyright © by Mystery, 1998.