Speechlab

Dundis PDF Tisk Email

Internetový řečový rozpoznávač (2003)

o015_dundis.jpg

 

V našem týmu počítačového zpracování řeči SpeechLab na Technické Univetzitě v Liberci je vyvinut účinný hlasový rozpoznávací software, který dokáže rozpoznávat mluvená izolovaná slova, slovní spojení a částečně i souvislou řeč. Tento rozpoznávací software pracuje s češtinou, která je mnohem složitější z hlediska strojového rozpoznávání než například angličtina, na které byl historicky vývoj prováděn déle a mnohé technologie jsou tedy pokročilejší.

Na bázi tohoto rozpoznávače byla veřejnosti představena aplikace INFOCITY, která formou hlasové komunikace poskytuje dopravní, kulturní a sportovní informace obyvatelům a návštěvníkům Liberce. Služba je přístupná po telefonu. Cenné získané informace z několikaletého provozu této aplikace byly použity při dalším výzkumu. Bylo navrženo například grafické vývojové prostředí pro tvorbu obdobných řečových aplikací LOTOS, například hlasová spojovatelka (nepracující s tónovou volbou, ale přímo se jmény přepojovaných osob). Ovšem globální použitelnost takovýchto hlasových aplikací naráží na několik problémů. Konfigurace a následná správa vlastního rozpoznávače vyžaduje alespoň minimální znalosti z problematiky zpracování a rozpoznávání řeči a tato problematika se velice dynamicky rozvíjí (nové rozpoznávací příznaky, metody, algoritmy). Krom toho je zřejmé, že vlastní rozpoznávací algoritmy vyžadují pro svoji činnost v "reálném čase" výkonné procesory a rozsáhlé paměťové kapacity. Na druhé straně každá aplikace má svoji vlastní vnitřní strukturu, která se ve většině případů odvíjí od specifik dané aplikace, a taktéž vlastní databázi poskytovaných údajů, které se dynamicky mění a vyžadují tedy péči pracovníka, který se v uvedené problematice vyzná.

Vzhledem k rostoucí datové propustnosti počítačových sítí a taktéž s přihlédnutím na rostoucí počet připojených počítačů se nabízí možnost hlasové rozpoznávací aplikace rozdělit na klientskou část a na rozpoznávací server. Na straně klienta je vlastní komunikační prostředí, databáze a struktura dialogu, tedy vše nezbytné pro chod aplikace. Vzdálený internetový rozpoznávací server zajišťuje "pouze" rozpoznání mluvené řeči, což je i v současné době velice náročná úloha. Rozpoznávací server je tedy schopen přijímat řečový signál a ten převádět na text a posílat jej zpět klientovi. Takové řešení umožňuje tvůrcům různých programů výhodně využít hlasové technologie, aniž by museli mít znalosti z oboru zpracování řeči.

Rozpoznávací server

Náš rozpoznávací server dokáže v současné době rozpoznávat izolovaná slova a krátké fráze. Rozpoznávač je natrénován na rozpoznávání řeči nahrané obyčejným mikrofonem a standardní zvukovou kartou. Hlasitost nahrávání by měla být v normálním rozsahu (ne příliš tichá nebo přebuzená). Zároveň se nepředpokládá výrazný ruch na pozadí (hudba, projíždějící auta, hovor dalších lidí atd.) a očekává se správná výslovnost jak českých, tak i cizích slov.

Nejnovější inovace jsou průběžně zveřejňovány níže. Pokud máte zájem o bližší informace o rozpoznávacím serveru, kontaktujte M. Holadu.


Demo aplikace - klient:

Jednoduchá ukázková aplikace umožňující připojení k rozpoznávacímu serveru a otestování základních funkcí.

Instalace: demo_install.zip (1,4MB)
Demo Speech Applet: SpeechApplet.html

Kreslení:
Jednoduchý kreslící program ovládaný lidským hlasem. Umožňuje pohyb kurzoru a kreslení základních tvarů (čára, kružnice a obdélník) v sedmi barvách. Obrázky lze načítat z disku a ukládat v bitmapovém formátu. Na aplikaci lze ověřit dostupné možnosti rozpoznávacího serveru.

Instalace: kresleni.zip (1,5MB)


Více informací:

  • Aktuální novinky o provozu rozpoznávacího serveru.
  • Holada M.: Internet Speech Recognition Server. SCI 2003. USA, July 2003.
  • Holada M.: Design of distributed recognition system via Internet. In Proc. of 12th Czech-German Workshop „Speech Processing", Prague 2002, pp. 79-83. ISBN 80-86269-09-4.

Poděkování:
Projekt podpořen grantem (004R1/2002) z Fondu rozvoje sdružení CESNET z.s.p.o.