Budapesti Műszaki Főiskola

Budapest Polytechnik

Neumann János Informatikai Főiskolai Kar

John von Neumann Faculty of Infomatics

Intelligens Automatizált Rendszerek szakirány

Intelligent Automated Systems

Beszédfelismerés projekt

Speech to text project

Készítik: Ujházi Eszter és Vaskor Péter

Konzulens: Vámossy Zoltán

 

Összefoglaló:

Az ember elsődleges kommunikációs formái között helyet kap egy hatékony módszer: a beszéd. A beszédet értő számítógépek alkalmazásával, sokkal könnyebbé, gyorsabbá válna az ember-számítógép kapcsolat. A számítógépek számítási teljesítményének növekedésével mára ez elérhetővé vált. Célunk a szakirodalomban szereplő eljárások tanulmányozása és egy olyan szoftver modelljének elkészítése, mely a folyamatos, magyar nyelvű emberi beszédet képes a számítógépben "írásos" formára konvertálni, lehetőleg beszélőfüggetlen (illetve fokozottan adaptív) módon. Az ilyen diktálóprogramok jelentősen megkönnyítenék az információk számítógépre felvitelét, lehetőséget biztosíthatnának, pl.: előadások automatikus jegyzetelésére, jegyzőkönyvkészítés meggyorsítására, titkárnő helyettesítésére, stb.

Ötleteket és javaslatokat várjuk az ujesz@freemail.hu, és a vaskorpeter@dpg.hu címekre.

 

Zusammenfassung:

Eine der effektivsten und bequemsten Methoden der Kommunication ist die menschliche Sprache. Falls Computer die menschliche Sprache verstehen könnten, wäre es viel leichter mit ihnen zu arbeiten. Heutige Computer haben genug Leistung um diese Aufgabe zu bewältigen..Unser Ziel ist es die exsitirendenLösungen zu analysieren, und ein Modell für einen Sprachen-Erkennungs-Software zu construieren. Sofware wie diese würden viele Rutine-Aufgaben am Computer vereinfachen.

Alle Kommente und Vorsläge sind wilkommen an den erwähnten e-mail Adressen.

 

Abstact:

One of the most effective ways of human communication is speech. If computers would understand human speech, it would be much easier to work with them. Today's computers have the computing power to accomplish this task. Our aim is to analyse existing solutions and develop a model for a software, that is capable of "understanding" continous human speech in hugarian, and converting it to "written form" on a computer. Speech to text software like these would ease the recording of information on a computer, and several other tasks.

We will analyse the methods in the literature, for example: linear prediction analysis, neural nets, Hidden Markov Modell combined with neural nets.

All comments and suggestions are welcome at the e-mail adresses mentioned above.

 

 

Letölhető:

TDK dolgozat (tdk.zip, Word97 formátumban, tömörítve, ~214Kb)

FFT Demo 0.8 (fftdemo.rar, a gyors Fourier transzformációt szemléltető mintaprogram, tömörítve, ~460Kb)

Az FFTDemo program működés közben.

 

Hasznos és érdekes linkek:

Digitális jelfeldolgozásról: www.dspexperts.com

Már létező beszédfelismerő rendszerek oldalai: www.dislexica.com

Rejtett Markov Modellek és neurális hálozatok: Monika Risse: Hybride HMM/ANN Systeme für trainingsunabhängige Spracherkennungsaufgaben, www.ikp.uni-bonn.de\dt\lehre\vortraege\hybr_mod\index.html

 

Utolsó frissítés: 2002-02-09