Speechlab

Home Starší projekty CzechBaldi
CzechBaldi PDF Tisk Email

Baldi mluví česky (2001)

o010_baldi.jpg

S rozvojem výpočetní techniky se vědci a programátoři snaží přiblížit novou techniku nejširší veřejnosti. Snahou je, aby různé komunikační systémy komunikovali s člověkem co možná nejpřirozenějším způsobem. Jedním z takových systémů je Baldi. Baldi je revoluční mluvící tvář, jejíž 3-D pohyby rtů, jazyka a čelistí jsou velice blízké lidským. Program Baldi je součástí programového balíku „CSLU" vyvinutého na kalifornské Univerzitě v Santa Cruz a tento program měl pomáhat sluchově postiženým dětem při výuce vyslovování. Tento programový balík je možno nalézt na internetových stránkách http://cslu.cse.ogi.edu/toolkit. V ovládacím programu (Baldi) lze nastavit několik národních jazyků. Baldi umí komunikovat, prostřednictvím synteticky vytvořené řeči (nebo přirozené - nahrané mikrofonem), anglicky a španělsky, ale ne česky. Primárním úkolem bylo naučit mluvit Baldiho česky.

Dosavadní program pro mluvící tvář (Baldi) řešil dvě úlohy: Baldi mluví „syntetickým" hlasem, nebo reprodukuje řeč, jenž byla nahrána do počítače pomocí mikrofonu, přes zvukovou kartu. V obou případech však musí být znám fonetický popis věty, kterou Baldi vysloví nebo která je do počítače nahrána. U Baldiho můžeme sledovat pohyb jednotlivých řečových orgánů (ústa-mimika, rty, zuby, jazyk). To je velmi vhodné pro výuku řeči. Baldi může pomoci sluchově postiženým lidem nebo lidem s poruchou řeči (logopedické účely) naučit se mluvit. Další využití má mluvící tvář v různých informačně-komunikačních systémech, kde pomáhá zesrozumitelnit syntetický hlas (v hlučném prostředí-nádraží, městský ruch). S využitím technologie jako je Baldi a při použití hlasového syntetyzátoru a rozpoznávání řeči a textu lze vytvářet interaktivní knihy, které mohou pomáhat učit děti a cvičit jejich výslovnost. Další využití tohoto systému by mohlo zahrnovat i vytvoření 3-D agentů pro rychlé občerstveni nebo pro bankomaty. Takový systém by rozpoznával lidskou řeč a smysluplně by odpovídal na kladené otázky.

Existující program pro práci s Baldim je psán v TCL skriptu. Tento skript není zkompilován, ale má podobné vlastnosti jako interpretační programovací jazyk. S tím jsou tedy spojeny i jisté obtíže (pomalá odezva na akce uživatele atd). Pokud chceme, aby Baldi promluvil a stiskneme příslušné tlačítko, uplyne jistá doba (několik sekund-odvislé od rychlosti počítače) než Baldi promluví. Nevýhodou je i že celý program sestává z několika stovek souborů a změnit lze jen některé jeho části. Nejprve jsem se snažil přepsat původní skript a to tak, že do původního programu byl vložen podprogram, který přepisoval českou větu do anglické fonémové podoby. Úkolem tedy bylo přemapovat jednotlivé české fonémy na anglické, které jsou v řídícím programu (Baldiho) použity. Přemapování muselo být korektní, jak po stránce fonémové, tak především po stránce visuální (Baldi). Problémy nastaly s některými českými fonémy, které nemají v angličtině adekvátního oponenta. Jsou to především fonémy c, dz, ď, ch, ň, o, ť a typicky české ř. Pokusil jsem se tedy namapovat tyto speciální české fonémy na co nejbližší české ekvivalenty, které již lze přemapovat na anglické (c->č, dz->č, ď->d, ch->h, ň->n, ť->t , ř->r). Největší problém byl s českým fonémem o. Později se však ukázalo, že v programu Baldi je použit podobný foném ">" (log-[l > gc g] "kmen").

Sob soubor

Jak již bylo napsáno, obsahuje program (Baldi) několik stovek souborů a bylo by velice obtížné a zdlouhavé tento program přepsat pro češtinu. Původní program však generuje speciální soubor (s příponou *.sob). Po spuštění tohoto souboru se provede synchronizace mezi řečí a pohyby Baldiho mluvícího ústrojí a Baldi promluví. Pohyb úst se řídí v programu pomocí jednotlivých fonémů a jejich času. Vlastní oživení mluvící tváře je tedy dosaženo pomocí generování SOB souboru a jeho spuštěním. O vlastní synchronizaci se již postará řídící program pro Baldiho. Pro přesnost celého systému je však nutné přesně určit časové rozmezí jednotlivých fonémů v použitém zvukovém signálu-wavu.


Video:

Baldi hovoří česky:
Dobrý den! Jmenuji se Baldi a byl jsem upraven pro český jazyk v Laboratoři počítačového zpracování řeči. Tato Laboratoř se nachází na Technické Univerzitě v Liberci v České Republice.



Více informací:

  • Chaloupka J., Nouza J., Přibil J.: Czech-Speaking Artificial Face. Proc of Biosignal 2002. Brno, June 2002, pp. 403-405. ISBN 80-214-2120-7.
  • Chaloupka J.: Talking Head: How Much Comprehensible Is It? Proc of Radioelektronika 2002. Bratislava, May 2002
  • Chaloupka J., Nouza J.: Baldi (talking head) speaking Czech. In Proc. of 11th Czech-German Workshop „Speech Processing", Prague 2001, pp. 53-56. ISBN 80-86269-07-8.