Project detail

Research and development of corpus and speech technologies in new generation of electronic dictionaries

Duration: 01.06.2006 — 31.12.2009

Funding resources

Ministerstvo průmyslu a obchodu ČR - TANDEM

- whole funder (2006-01-01 - 2009-12-31)

On the project

Projekt je zaměřen na vývoj nové generace elektronických slovníků s podporou moderních technologií založených na velkých jazykových korpusech s uživatelským přístupem pomocí automatického rozpoznávání řeči. Korpusové postupy byly dosud známy ve vědecké komunitě a pouze postupně začínají pronikat do softwarových produktů distribuovaných přímo uživatelům, totéž platí o hlasových technologiích. Předložený projekt umožní navrhovateli - firmě Lingea - posun state-of-the-art na české i evropské úrovni. Díky tomuto projektu se zhodnotí prostředky dlouhodobě vkládané do výzkumu a vývoje. Na straně spolunavrhovatele - Fakulty informačních technologií VUT v Brně - projekt podpoří významnou výzkumnou skupinu Speech@FIT a posílí uplatnění jejích výstupů v praxi.

Description in English
The project is focused on the development of a new generation of electronic dictionaries using advanced large language corpora technologies, and on the user interfaces based on speech recognition. The corpus solutions have so far been used in the research community and they are only slowly finding their way to the target applications, the same holds for voice technologies. The proposed project will allow the R&D group of Lingea s.r.o. a shift in state-of-the-art on the Czech as well as international levels. It will thus valorize the funds so far invested into R&D within Lingea. At the cooperating institution - Faculty of Information Technolology, Brno University of Technology, this project will support important research group: Speech@FIT and it will facilitate the transfer of its results to the industrial world.

elektronické slovníky, audio korpusy, rozpoznávání řeči, syntéza řeči, automatická segmentace, detekce klíčových slov, textové korpusy, značkování korpusů, dolování informací

Key words in English
electronic dictionaries, audio corpora, speech recognition, speech synthesis, automatic segmentation, keyword-spotting, text corpora, tagging of corpora, information retrieval



Default language


People responsible

Fapšo Michal, Ing., Ph.D. - fellow researcher
Grézl František, Ing., Ph.D. - fellow researcher
Pešán Jan, Ing. - fellow researcher
Schwarz Petr, Ing., Ph.D. - fellow researcher
Szőke Igor, Ing., Ph.D. - fellow researcher
Černocký Jan, prof. Dr. Ing. - principal person responsible



VESELÝ, K. Hybrid recognizer of isolated words. In Proc. 13th Conference STUDENT EEICT 2007. Brno: Faculty of Electrical Engineering and Communication BUT, 2007. p. 1-3. ISBN: 9788021434103.

HRDLIČKA, P. Rozpoznávání izolovaných slov. In Proc. 13th Conference STUDENT EEICT 2007. Brno: Fakulta elektrotechniky a komunikačních technologií VUT v Brně, 2007. s. 1-3. ISBN: 9788021434103.

MIKOLOV, T.; KOPECKÝ, J.; BURGET, L.; GLEMBEK, O.; ČERNOCKÝ, J. Neural network based language models for highly inflective languages. Proc. ICASSP 2009. Taipei: IEEE Signal Processing Society, 2009. p. 1-4. ISBN: 978-1-4244-2354-5.

OPARIN, I.; GLEMBEK, O.; BURGET, L.; ČERNOCKÝ, J. Morphological random forests for language modeling of inflectional languages. Proc. 2008 IEEE Workshop on Spoken Language Technology. Goa: IEEE Signal Processing Society, 2008. p. 1-4. ISBN: 978-1-4244-3472-5.

KOCKMANN, M.; BURGET, L.; ČERNOCKÝ, J. Brno University of Technology System for Interspeech 2009 Emotion Challenge. Proc. Interspeech 2009. Proceedings of Interspeech. Brighton: International Speech Communication Association, 2009. p. 348-351. ISSN: 1990-9772.

KOPECKÝ, J.; GLEMBEK, O.; KARAFIÁT, M. Advances in Acoustic Modeling for the Recognition of Czech. Proc. 11th International Conference on Text, Speech and Dialogue. Lecture Notes in Computer Science. Berlin: Springer Verlag, 2008. p. 357-363. ISBN: 978-3-540-87390-7.