Speechlab

Home Starší projekty
Starší projekty PDF Tisk Email

Naše starší projekty (1995-2005):


Prototyp systému pro automatický přepis televizních a rozhlasových pořadůo020_att.jpg

V rámci tohoto projektu na našem pracovišti vznikl systém, který umožňuje téměř automatický přepis rozhlasových a televizních pořadů. V první fázi jsme se zaměřili na televizní zpravodajské pořady. Systém provádí následující operace: Nejprve rozčlení záznam celého zpravodajského pořadu na části, které obsahují řeč, a na zbytek (zejména hudbu, znělky, atd.) Následně rozčlení jednotlivé zpravodajské příspěvky podle charakteru akustického signálu, zejména na části mluvené různými osobami. U těchto osob lze provést jejich identifikaci, což přichází v úvahu především u moderátorů a často se vyskytujících reportérů či významných osob. Více informací >>>


Hlasový diktát do počítačeo019_diktat.jpg

V roce 2003 jsme odborné veřejnosti představili prototyp prvního hlasového diktovacího systému pro češtinu. Jeho omezení spočívalo v tom, že bylo nutné text diktovat slovo po slovu, vždy s krátkou mezerou mezi slovy. Na druhé straně systém pracoval se slovníkem obsahujícím 400 tisíc nejčastějších slov a slovních tvarů, což už je téměř 99 % celé slovní zásoby českého jazyka. Systém též umožňoval hlasem ovládané formátování textu a editaci chybně rozpoznaných slov. V roce 2004 byl tento systém dále rozšířen, zejména co se týče rozsahu slovníku (600 000 slov). Více informací >>>


Internetový řečový rozpoznávač

o015_dundis.jpg

V našem týmu počítačového zpracování řeči SpeechLab na Technické Univetzitě v Liberci byl vyvinut účinný hlasový rozpoznávací software, který dokáže rozpoznávat mluvená izolovaná slova, slovní spojení a částečně i souvislou řeč. Tento rozpoznávací software pracuje s češtinou, která je mnohem složitější z hlediska strojového rozpoznávání než například angličtina, na které byl historicky vývoj prováděn déle a mnohé technologie jsou tedy pokročilejší. Na bázi tohoto rozpoznávače byla veřejnosti představena aplikace INFOCITY, která formou hlasové komunikace poskytuje dopravní, kulturní a sportovní informace obyvatelům a návštěvníkům Liberce. Služba je přístupná po telefonu. Cenné získané informace z několikaletého provozu této aplikace byly použity při dalším výzkumu. Bylo navrženo například grafické vývojové prostředí pro tvorbu obdobných řečových aplikací LOTOS, například hlasová spojovatelka (nepracující s tónovou volbou, ale přímo se jmény přepojovaných osob). Více informací >>>


Model umělé počítačové česky mluvící tváře-Chatter

o014_chatter.jpgV Laboratoři počítačového zpracování řeči na TU v Liberci v České Republice byl vytvořen plně parametrický model 3-D počítačové mluvící hlavy pro český jazyk. Tento model jsme pojmenovali Chatter. V současné době (2003/2004) optimalizujeme jednotlivé parametry u tohoto modelu pro všechny české fonémy. Pro vylepšení přesnosti celého modelu plánujeme v budoucnu použít českou difónovou a později i trifónovou sadu. V budoucnu také chceme vytvořit test srozumitelnosti. V tomto testu srozumitelnosti chceme zjistit nakolik je tento model česky mluvící počítačové hlavy srozumitelný pro česky mluvícího člověka. Tento model mluvící hlavy bude použit i v našich dalších multimodálních projektech. V multimodálních projektech, kde je použita audio-visuální syntéza řeči, rozpoznávání spojité řeči a dialogový systém. Více informací >>>


Prototyp hlasového diktátu do počítače

o013_conrec.jpgV rámci tohoto projektu jsme vyvinuli první český systém pro rozpoznávání spojité řeči v češtině. Pracuje v reálném čase se slovníkem až do velikosti 20 000 slov na počítači s procesorem nad 2GHz. Je založen na využití synchronního Viterbiho dekodéru s několika vylepšeními a optimalizačními strategiemi, zejména rychlý výpočet pravděpodobností u spojitých HMM, několikastupňové schéma výběru nejslibnějších hypotéz a paralelní implementace celého systému. Přepis vyřčené promluvy se na obrazovce objeví do 1 sekundy od jejího skončení. Pokud ve větě nejsou slova mimo slovník, bývá rozpoznávací skóre kolem 80 %. Více informací >>>


Lotos-grafický návrh hlasové dialogové aplikace

o012_lotos1.jpgV roce 2000 byl v Laboratoři počítačového zpracování řeči na Technické univerzitě v Liberci zahájen projekt LOTOS. Jeho cílem bylo vytvořit grafický systém pro návrh počítačem řízených dialogů. Zpočátku šlo především o vymezení a ověření možností grafické platformy. Výsledkem více než roční práce je nyní produkt, který dokázal nahradit původní, skriptem ovládaný systém UNDIS. Při vývoji systému LOTOS se podařilo splnit oba hlavní cíle: vytvořit snadno ovládané prostředí pro rychlou tvorbu a editaci dialogů a zároveň rozšířit možnosti návrhu skutečných dialogových aplikací, zejména těch, které pracují po telefonu. LOTOS je zároveň otevřeným prostředím, které zaručuje rozšiřitelnost pomocí externích modulů (Plug-In). Více informací >>>


Rozmluva s virtuální osobností-Projekt Švejk

o011_svejk1.jpgV roce 2002 byl vytvořen program Švejk, který umožňuje oboustrannou hlasovou komunikaci mezi člověkem a počítačem. V tomto programu jsou současně použity technologie rozpoznávání spojité řeči, český TTS syntetizátor řeči-vytvořený v Ústavu Radioelektroniky v Praze a umělá 3-D počítačová mluvící hlava. Dále byl použit dialogový systém se zpracování textu na základě zachytávání klíčových slov, tento systém vylepšoval robustnost rozpoznávání řeči a inteligentně vybíral odpovědi na kladené dotazy. Jako virtuální osobnost byla použita velmi známá literární postava dobrého vojáka Švejka. Více informací >>>


Baldi mluví česky

o010_baldi.jpgS rozvojem výpočetní techniky se vědci a programátoři snaží přiblížit novou techniku nejširší veřejnosti. Snahou je, aby různé komunikační systémy komunikovali s člověkem co možná nejpřirozenějším způsobem. Jedním z takových systémů je Baldi. Baldi je revoluční mluvící tvář, jejíž 3-D pohyby rtů, jazyka a čelistí jsou velice blízké lidským. Program Baldi je součástí programového balíku „CSLU" vyvinutého na kalifornské Univerzitě v Santa Cruz a tento program měl pomáhat sluchově postiženým dětem při výuce vyslovování. Více informací >>>


Informace po telefonu - INFOCITY

o009_infocity.jpgSoučasné trendy naznačují, že jednou z nejslibnějších aplikačních oblastí začínají být hlasové informační a komunikační služby uskutečňované po telefonu. Jejich výhodou je to, že mohou být provozovány automaticky, bez nutnosti lidské obsluhy i bez požadavku na speciální telefonní přístroje, v kteroukoliv denní a noční dobu a často i v paralelním režimu. Navíc mohou obsáhnout široké spektrum informací i dalších činností jako je např. rezervace jízdenek či letenek, bankovní operace, apod. Na libereckém pracovišti byl v letech 1997-98 vyvinut telefonního informačního systému nazvaného INFOCITY. Umožňuje člověku, aby prostřednictvím telefonu získal informace, které mohou zajímat obyvatele či návštěvníky Liberce. Více informací >>>


Výukový a experimentální systém pro výzkum v oblasti rozpoznávání řeči - VISPER

o008_visper.jpgSpecifickou doménou libereckého pracoviště je také vývoj prostředků, které jsou určeny pro seznámení s problematikou počítačového zpracování řeči i pro její hlubší studium. Patří sem nástroje umožňující analyzovat a graficky interpretovat řečový signál v časové a frekvenční rovině a sofistikované vizualizační a animační programy osvětlující principy nejdůležitějších metod používaných při rozpoznávání řeči. S největším úspěchem se zatím setkal systém nazývaný Visual Markov, určený k demonstraci a k pochopení techniky skrytých markovských modelů (HMM). V roce 1997 jsme odborné veřejnosti představili kompletní výukový a experimentální systém nazvaný VISPER určený pro PC. Více informací >>>


Výuka řeči a cizího jazyka - VICK

o007_vick2.jpgV letech 1998-99 jsme dále pokračovali ve vývoji pomůcek usnadňujících nácvik výslovnosti u neslyšících, ale též u lidí učících se cizí jazyk. Program VICK ji může pomoci tím, že zobrazuje řeč žáka spolu se stejným typem promluvy nahrané rodilým mluvčím. Program umožňuje porovnávat oba signály a identifikovat oblast, kde se žák nejvíce liší od učitele - a to jak ve výslovnosti, tak i v intonaci, případně v dalších parametrech. Možnosti systému VICK byly ověřovány na několika modelových úlohách, např. nácvik správné výslovnosti u nelyšících dětí, zvládnutí výslovnosti slov v exotickém cizím jazyce (vietnamština), nácvik výslovnosti a správné intonace v angličtině. Více informací >>>


Hlasové ovládání robota

o006_robovoice1.jpgMezi hlasovým ovládáním programů provozovaných pouze na obrazovce počítače a řízením reálných strojů je stále ještě velký rozdíl. Zejména tehdy, jde-li o mechanické a pohybující se zařízení, vyvstává řada nových problémů. Především je nutná ještě vyšší spolehlivost klasifikace slovních povelů, neboť při chybě hrozí např. vyjetí z dráhy, opuštění vymezeného prostoru či srážka s předmětem. Kritické je i hledisko rychlosti zpracování, protože na opravné či zpětné povely často nezbývá dostatek času. Dalším problémem je hluk produkovaný pohony a mechanickými převody. Více informací >>>


Nástroj pro výuku neslyšících

o005_deafteach.jpgDalší ze zajímavých aplikací navržených na Technické univerzitě v Liberci je systém vizuální zpětné vazby pro nácvik řeči neslyšících, jejichž hlavním handicapem je ztráta zpětné akustické kontroly. Jeho účelem je dát neslyšícímu člověku a jeho pedagogovi nástroj, který umožní zachytit řeč v paměti počítače a okamžitě zobrazit její průběh i některé z důležitých řečových parametrů. Navíc poskytuje možnost vizuálně tato data porovnat s daty odpovídajícími promluvám až tří dalších mluvčích. To, že je na obrazovce k dispozici v každém okamžiku větší počet referenčních průběhů, je velice důležité. Více informací >>>


Hlas místo klávesnice

o004_keyvoice.jpgV roce 1996 byla v Liberci navržena a vyzkoušena možnost úplné hlasové náhrady klávesnice. Program WinVoice dává svému uživateli nástroj k ovládání prostředí MS Windows a jeho aplikací pomocí hlasu. Jeho výhoda spočívá v tom, že k provedení libovolné akce v tomto prostředí je třeba slovníku s rozsahem ne větším než 130 slov. Jsou-li modely náležející k tomuto slovníku předem natrénovány, může kdokoliv okamžitě ovládat prakticky jakoukoliv aplikaci. Při prezentacích byla předváděna např. práce s Manažerem souborů, s Kalkulátorem, psaní ve Wordu či v Excelu. Více informací >>>


Hlasem ovládané hry

o003_voicegame1.jpgŘada graficky orientovaných aplikací se později rozrostla o ukázky několika her řízených hlasem. Šlo o to prakticky vyzkoušet, zda by bylo možné využít hlasového ovládání jako pomůcky pro tělesně postižené, speciálně pro děti. Jednou z těchto her je Omalovánka. Uživatelsky jednoduchý design umožňuje dítěti vybrat si některý z připravených černobílých obrázků a podle libosti jej vybarvit. Stačí jen hlasem řídit pohyb kurzoru ve tvaru malé tužky a pro vybranou uzavřenou plochu určovat barvu a její odstín. Testy ukázaly, že podobný typ hry je i pro malé děti (od 4 let) dobře srozumitelný a je vítán zvláště těmi, kterým tělesné postižení či nemoc nedovoluje normální práci s počítačem. Více informací >>>


Dialog s počítačem

o002_infobus.jpgK tradičním cílům vývojových aktivit v oblasti automatického zpracování řeči patří systémy nabízející obousměrnou hlasovou komunikaci s počítačem. Liberecký systém INFOBUS, představený odborné veřejnosti v roce 1995, byl zřejmě první aplikací tohoto druhu vyvinutou v České republice. Umožňoval získat informace o přímém autobusovém spojení mezi Libercem a ostatními městy a obcemi. Požadované informace byly poskytovány na základě dialogu mezi počítačem a uživatelem, který svými odpověďmi na otázky kladené systémem specifikoval své požadavky na cíl, den a přibližný čas spojení. Více informací >>>


Kreslící systém VoiceCad

o001_voicecad.jpgPrvní praktickou aplikací byl hlasem ovládaný systém Voice-CAD vyvinutý v roce 1994. Systém umožňoval tvorbu jednoduchých výkresů vycházejících z několika základních geometrických tvarů. Z těchto tvarů bylo možné vytvářet objekty a ty pak libovolně přemisťovat a upravovat co do rozměrů a barevného provedení. Celá aplikace byla ovládána 33 slovními povely rozdělenými do funkčních skupin aktivovaných podle kontextu. Kontextově závislé menu usnadňovalo práci nejen uživateli ale též systému tím, že zužovalo aktuální soubor potenciálních kandidátů při klasifikaci. Více informací >>>