Speechlab

Home Výzkum Projekty
Projekty PDF Tisk Email

NAKI - ČRo archiv - Zpřístupnění archivu Českého rozhlasu pro sofistikované vyhledávání

o024_naki.jpgArchiv mluvených pořadů Českého rozhlasu je právem označován za jeden z klenotů kulturního dědictví ČR.Obsahuje totiž nejrozsáhlejší sbírku záznamů mluvené češtiny, unikátní svým objemem (v řádu stovek tisíc hodin nahrávek), obsahem (dennodenní komentáře k domácím i světovým událostem) i časovým rozpětím (více než 90 let nepřetržitého vysílání). Prvním krokem záchrany tohoto archivu byla digitalizace záznamů. Druhým krokem je jeho zpřístupnění pomocí nejmodernějších technologií zpracování řeči a textu. To je cílem tohoto projektu, jehož výsledkem bude zpracování významné části archivu (zejména zpravodajských a publicistických pořadů)  Více informací >>>


NewtonDictate – program pro spojité diktování do PC

o022_newdictate.jpgVýsledkem více než 10 let trvajícího výzkumu a vývoje v oblasti rozpoznávání češtiny je program NewtonDictate, jehož finální verze vznikla ve spolupráci s firmou Newton Technologies a.s. v letech 2006 – 2008. Program umožňuje nadiktovat do PC prakticky libovolný text z téměř libovolné oblasti. Důležitou součástí softwaru pro diktování jsou slovníky a k nim přiřazené jazykové modely, které reprezentují frekvence vazeb mezi jednotlivými slovy. Současná verze programu je dostupná se třemi typy slovníků. Největší slovník o velikosti 350 tisíc slov je určen pro diktování všeobecných (např. novinářských) textů. Pro oblast justice, tj. pro soudce, státní zástupce a advokáty je určen o něco menší oborový slovník, v němž jsou navíc zařazeny odborné termíny. Více informací >>>


MobilDictate - Hlasové technologie pro mobilní zařízení

o023_mobdictate.jpgNejnovější aplikační oblastí řešenou libereckým výzkumným týmem je rozpoznávání řeči v mobilních zařízeních, zejména mobilních telefonech, komunikátorech, PDA a také v různých vestavných miniaturních počítačích. V roce 2009 vzniklo hned několik aplikací hlasových technologií, které jsou použitelné v těchto zařízeních. Program MobilDictate je určený pro PDA a zařízení typu SmartPhone. Zde jsou jeho základní charakteristiky: 1) umožňuje diktování libovolných textů do mobilních přístrojů vybavených operačním systémem Windows Mobile 6, 2) využívá vestavěný mikrofon nebo připojenou (kvalitní) hands-free sadu, 3) celý proces rozpoznávání běží uvnitř přístroje, není tedy nutné připojení ani k telefonní ani k datové síti, 4) první dokončená verze je určena pro češtinu. Více informací >>>


ATT (Audio Transcription Toolkit) – systém pro přepis televize a rozhlasuo021_attz.jpg

Vývoj tohoto komplexního systému trval téměř 5 let a vedl přes několik verzí. Výsledkem je systém, který plně automaticky zpracovává požadované pořady (televizní i rozhlasové), přepisuje je do textové podoby a přepisy pak indexuje pro další vyhledávání. Systém se skládá z několika modulů: a) modulu snímání a parametrického zpracování audio signálu, b) modulu pro separaci řeči od zbytku dat, c) modulu detekujícího změny řečníka, d) modulu rozpoznávání a verifikace řečníka, e) modulu adaptace systému na daného řečníka, f) modulu pro rozpoznávání řeči, g) modulu pro textový postprocessing, h) modul indexace dat. Více informací >>>


Bezdrátové hlasové ovládání domácích zařízení o018_smartroom.jpg

Projekt vychází ze současných světových trendů, jejichž cílem je usnadnit ovládání domácnosti osobám s různým typem handicapu, či osobám starým. Jako jedno z perspektivních řešení se jeví hlasové ovládání. Aby se dalo co nejsnáze instalovat a aby co nejméně omezovalo uživatele, navrhuje se jako bezdrátové, a to jak ve směru člověk – PC tak i PC – spotřebič. Pro první přenos byla použita technologii Bluetooth, pro druhý kombinace IR a RC (od firmy Jablotron) ovládání. Hlasové technologie je založena na vlastní platformě odvozené ze systému MyVoice. Více informací >>>

MyDictate – program pro izolované diktování slov do počítače o017_mydictate.jpg

Jeden z reálných výsledků mnohaletého intenzivního výzkumu v oblasti automatického rozpoznávání řeči na TU v Liberci představuje program MyDictate. Tento program byl vyvinut jako účinný doplněk a nadstavba již existujícího programu pro hlasové ovládání počítače (MyVoice) s cílem umožnit plnohodnotný hlasový diktát. Při vývoji programu MyDictate byl brán hlavní zřetel opět na handicapované osoby, které nemohou používat ruce. Výhody diktovacího programu však jistě ocení i další, kteří musí často zadávat text do počítače a přitom nejsou příliš zruční v psaní na klávesnici. Více informací >>>

Program MyVoice pro hlasové ovládání počítače

o016_myvoice.jpgProgram MyVoice byl vyvinut s cílem pomoci zejména handicapovaným lidem v přístupu k počítačové technice a k informačním technologiím. Umožňuje totiž ovládat počítač a na něm instalované programy výhradně pomocí hlasových povelů. Těmito povely lze uskutečnit tytéž akce, k jejichž provedení by jinak byla nutná klávesnice a myš. Nejjednodušší povely simulují stisk konkrétní klávesy či jednoduchou akci myši, složitějšími povely je možné najednou provést sekvenci stisku různých kláves či jiných elementárních akcí. Program umožňuje hlasové ovládání počítače všem osobám, které jsou schopny dobře vyslovovat krátké české povely a zároveň očima sledovat dění na obrazovce počítače. Ovládat lze jakýkoliv program určený pro operační systém MS Windows (od verze 2000 výše).Více informací >>>


Naše starší projekty (1995-2005):


Prototyp systému pro automatický přepis televizních a rozhlasových pořadůo020_att.jpg

V rámci tohoto projektu na našem pracovišti vznikl systém, který umožňuje téměř automatický přepis rozhlasových a televizních pořadů. V první fázi jsme se zaměřili na televizní zpravodajské pořady. Systém provádí následující operace: Nejprve rozčlení záznam celého zpravodajského pořadu na části, které obsahují řeč, a na zbytek (zejména hudbu, znělky, atd.) Následně rozčlení jednotlivé zpravodajské příspěvky podle charakteru akustického signálu, zejména na části mluvené různými osobami. U těchto osob lze provést jejich identifikaci, což přichází v úvahu především u moderátorů a často se vyskytujících reportérů či významných osob. Více informací >>>


Hlasový diktát do počítačeo019_diktat.jpg

V roce 2003 jsme odborné veřejnosti představili prototyp prvního hlasového diktovacího systému pro češtinu. Jeho omezení spočívalo v tom, že bylo nutné text diktovat slovo po slovu, vždy s krátkou mezerou mezi slovy. Na druhé straně systém pracoval se slovníkem obsahujícím 400 tisíc nejčastějších slov a slovních tvarů, což už je téměř 99 % celé slovní zásoby českého jazyka. Systém též umožňoval hlasem ovládané formátování textu a editaci chybně rozpoznaných slov. V roce 2004 byl tento systém dále rozšířen, zejména co se týče rozsahu slovníku (600 000 slov). Více informací >>>


Internetový řečový rozpoznávač

o015_dundis.jpg

V našem týmu počítačového zpracování řeči SpeechLab na Technické Univetzitě v Liberci byl vyvinut účinný hlasový rozpoznávací software, který dokáže rozpoznávat mluvená izolovaná slova, slovní spojení a částečně i souvislou řeč. Tento rozpoznávací software pracuje s češtinou, která je mnohem složitější z hlediska strojového rozpoznávání než například angličtina, na které byl historicky vývoj prováděn déle a mnohé technologie jsou tedy pokročilejší. Na bázi tohoto rozpoznávače byla veřejnosti představena aplikace INFOCITY, která formou hlasové komunikace poskytuje dopravní, kulturní a sportovní informace obyvatelům a návštěvníkům Liberce. Služba je přístupná po telefonu. Cenné získané informace z několikaletého provozu této aplikace byly použity při dalším výzkumu. Bylo navrženo například grafické vývojové prostředí pro tvorbu obdobných řečových aplikací LOTOS, například hlasová spojovatelka (nepracující s tónovou volbou, ale přímo se jmény přepojovaných osob). Více informací >>>


Model umělé počítačové česky mluvící tváře-Chatter

o014_chatter.jpgV Laboratoři počítačového zpracování řeči na TU v Liberci v České Republice byl vytvořen plně parametrický model 3-D počítačové mluvící hlavy pro český jazyk. Tento model jsme pojmenovali Chatter. V současné době (2003/2004) optimalizujeme jednotlivé parametry u tohoto modelu pro všechny české fonémy. Pro vylepšení přesnosti celého modelu plánujeme v budoucnu použít českou difónovou a později i trifónovou sadu. V budoucnu také chceme vytvořit test srozumitelnosti. V tomto testu srozumitelnosti chceme zjistit nakolik je tento model česky mluvící počítačové hlavy srozumitelný pro česky mluvícího člověka. Tento model mluvící hlavy bude použit i v našich dalších multimodálních projektech. V multimodálních projektech, kde je použita audio-visuální syntéza řeči, rozpoznávání spojité řeči a dialogový systém. Více informací >>>


Prototyp hlasového diktátu do počítače

o013_conrec.jpgV rámci tohoto projektu jsme vyvinuli první český systém pro rozpoznávání spojité řeči v češtině. Pracuje v reálném čase se slovníkem až do velikosti 20 000 slov na počítači s procesorem nad 2GHz. Je založen na využití synchronního Viterbiho dekodéru s několika vylepšeními a optimalizačními strategiemi, zejména rychlý výpočet pravděpodobností u spojitých HMM, několikastupňové schéma výběru nejslibnějších hypotéz a paralelní implementace celého systému. Přepis vyřčené promluvy se na obrazovce objeví do 1 sekundy od jejího skončení. Pokud ve větě nejsou slova mimo slovník, bývá rozpoznávací skóre kolem 80 %. Více informací >>>


Lotos-grafický návrh hlasové dialogové aplikace

o012_lotos1.jpgV roce 2000 byl v Laboratoři počítačového zpracování řeči na Technické univerzitě v Liberci zahájen projekt LOTOS. Jeho cílem bylo vytvořit grafický systém pro návrh počítačem řízených dialogů. Zpočátku šlo především o vymezení a ověření možností grafické platformy. Výsledkem více než roční práce je nyní produkt, který dokázal nahradit původní, skriptem ovládaný systém UNDIS. Při vývoji systému LOTOS se podařilo splnit oba hlavní cíle: vytvořit snadno ovládané prostředí pro rychlou tvorbu a editaci dialogů a zároveň rozšířit možnosti návrhu skutečných dialogových aplikací, zejména těch, které pracují po telefonu. LOTOS je zároveň otevřeným prostředím, které zaručuje rozšiřitelnost pomocí externích modulů (Plug-In). Více informací >>>


Rozmluva s virtuální osobností-Projekt Švejk

o011_svejk1.jpgV roce 2002 byl vytvořen program Švejk, který umožňuje oboustrannou hlasovou komunikaci mezi člověkem a počítačem. V tomto programu jsou současně použity technologie rozpoznávání spojité řeči, český TTS syntetizátor řeči-vytvořený v Ústavu Radioelektroniky v Praze a umělá 3-D počítačová mluvící hlava. Dále byl použit dialogový systém se zpracování textu na základě zachytávání klíčových slov, tento systém vylepšoval robustnost rozpoznávání řeči a inteligentně vybíral odpovědi na kladené dotazy. Jako virtuální osobnost byla použita velmi známá literární postava dobrého vojáka Švejka. Více informací >>>


Baldi mluví česky

o010_baldi.jpgS rozvojem výpočetní techniky se vědci a programátoři snaží přiblížit novou techniku nejširší veřejnosti. Snahou je, aby různé komunikační systémy komunikovali s člověkem co možná nejpřirozenějším způsobem. Jedním z takových systémů je Baldi. Baldi je revoluční mluvící tvář, jejíž 3-D pohyby rtů, jazyka a čelistí jsou velice blízké lidským. Program Baldi je součástí programového balíku „CSLU" vyvinutého na kalifornské Univerzitě v Santa Cruz a tento program měl pomáhat sluchově postiženým dětem při výuce vyslovování. Více informací >>>


Informace po telefonu - INFOCITY

o009_infocity.jpgSoučasné trendy naznačují, že jednou z nejslibnějších aplikačních oblastí začínají být hlasové informační a komunikační služby uskutečňované po telefonu. Jejich výhodou je to, že mohou být provozovány automaticky, bez nutnosti lidské obsluhy i bez požadavku na speciální telefonní přístroje, v kteroukoliv denní a noční dobu a často i v paralelním režimu. Navíc mohou obsáhnout široké spektrum informací i dalších činností jako je např. rezervace jízdenek či letenek, bankovní operace, apod. Na libereckém pracovišti byl v letech 1997-98 vyvinut telefonního informačního systému nazvaného INFOCITY. Umožňuje člověku, aby prostřednictvím telefonu získal informace, které mohou zajímat obyvatele či návštěvníky Liberce. Více informací >>>


Výukový a experimentální systém pro výzkum v oblasti rozpoznávání řeči - VISPER

o008_visper.jpgSpecifickou doménou libereckého pracoviště je také vývoj prostředků, které jsou určeny pro seznámení s problematikou počítačového zpracování řeči i pro její hlubší studium. Patří sem nástroje umožňující analyzovat a graficky interpretovat řečový signál v časové a frekvenční rovině a sofistikované vizualizační a animační programy osvětlující principy nejdůležitějších metod používaných při rozpoznávání řeči. S největším úspěchem se zatím setkal systém nazývaný Visual Markov, určený k demonstraci a k pochopení techniky skrytých markovských modelů (HMM). V roce 1997 jsme odborné veřejnosti představili kompletní výukový a experimentální systém nazvaný VISPER určený pro PC. Více informací >>>


Výuka řeči a cizího jazyka - VICK

o007_vick2.jpgV letech 1998-99 jsme dále pokračovali ve vývoji pomůcek usnadňujících nácvik výslovnosti u neslyšících, ale též u lidí učících se cizí jazyk. Program VICK ji může pomoci tím, že zobrazuje řeč žáka spolu se stejným typem promluvy nahrané rodilým mluvčím. Program umožňuje porovnávat oba signály a identifikovat oblast, kde se žák nejvíce liší od učitele - a to jak ve výslovnosti, tak i v intonaci, případně v dalších parametrech. Možnosti systému VICK byly ověřovány na několika modelových úlohách, např. nácvik správné výslovnosti u nelyšících dětí, zvládnutí výslovnosti slov v exotickém cizím jazyce (vietnamština), nácvik výslovnosti a správné intonace v angličtině. Více informací >>>


Hlasové ovládání robota

o006_robovoice1.jpgMezi hlasovým ovládáním programů provozovaných pouze na obrazovce počítače a řízením reálných strojů je stále ještě velký rozdíl. Zejména tehdy, jde-li o mechanické a pohybující se zařízení, vyvstává řada nových problémů. Především je nutná ještě vyšší spolehlivost klasifikace slovních povelů, neboť při chybě hrozí např. vyjetí z dráhy, opuštění vymezeného prostoru či srážka s předmětem. Kritické je i hledisko rychlosti zpracování, protože na opravné či zpětné povely často nezbývá dostatek času. Dalším problémem je hluk produkovaný pohony a mechanickými převody. Více informací >>>


Nástroj pro výuku neslyšících

o005_deafteach.jpgDalší ze zajímavých aplikací navržených na Technické univerzitě v Liberci je systém vizuální zpětné vazby pro nácvik řeči neslyšících, jejichž hlavním handicapem je ztráta zpětné akustické kontroly. Jeho účelem je dát neslyšícímu člověku a jeho pedagogovi nástroj, který umožní zachytit řeč v paměti počítače a okamžitě zobrazit její průběh i některé z důležitých řečových parametrů. Navíc poskytuje možnost vizuálně tato data porovnat s daty odpovídajícími promluvám až tří dalších mluvčích. To, že je na obrazovce k dispozici v každém okamžiku větší počet referenčních průběhů, je velice důležité. Více informací >>>


Hlas místo klávesnice

o004_keyvoice.jpgV roce 1996 byla v Liberci navržena a vyzkoušena možnost úplné hlasové náhrady klávesnice. Program WinVoice dává svému uživateli nástroj k ovládání prostředí MS Windows a jeho aplikací pomocí hlasu. Jeho výhoda spočívá v tom, že k provedení libovolné akce v tomto prostředí je třeba slovníku s rozsahem ne větším než 130 slov. Jsou-li modely náležející k tomuto slovníku předem natrénovány, může kdokoliv okamžitě ovládat prakticky jakoukoliv aplikaci. Při prezentacích byla předváděna např. práce s Manažerem souborů, s Kalkulátorem, psaní ve Wordu či v Excelu. Více informací >>>


Hlasem ovládané hry

o003_voicegame1.jpgŘada graficky orientovaných aplikací se později rozrostla o ukázky několika her řízených hlasem. Šlo o to prakticky vyzkoušet, zda by bylo možné využít hlasového ovládání jako pomůcky pro tělesně postižené, speciálně pro děti. Jednou z těchto her je Omalovánka. Uživatelsky jednoduchý design umožňuje dítěti vybrat si některý z připravených černobílých obrázků a podle libosti jej vybarvit. Stačí jen hlasem řídit pohyb kurzoru ve tvaru malé tužky a pro vybranou uzavřenou plochu určovat barvu a její odstín. Testy ukázaly, že podobný typ hry je i pro malé děti (od 4 let) dobře srozumitelný a je vítán zvláště těmi, kterým tělesné postižení či nemoc nedovoluje normální práci s počítačem. Více informací >>>


Dialog s počítačem

o002_infobus.jpgK tradičním cílům vývojových aktivit v oblasti automatického zpracování řeči patří systémy nabízející obousměrnou hlasovou komunikaci s počítačem. Liberecký systém INFOBUS, představený odborné veřejnosti v roce 1995, byl zřejmě první aplikací tohoto druhu vyvinutou v České republice. Umožňoval získat informace o přímém autobusovém spojení mezi Libercem a ostatními městy a obcemi. Požadované informace byly poskytovány na základě dialogu mezi počítačem a uživatelem, který svými odpověďmi na otázky kladené systémem specifikoval své požadavky na cíl, den a přibližný čas spojení. Více informací >>>


Kreslící systém VoiceCad

o001_voicecad.jpgPrvní praktickou aplikací byl hlasem ovládaný systém Voice-CAD vyvinutý v roce 1994. Systém umožňoval tvorbu jednoduchých výkresů vycházejících z několika základních geometrických tvarů. Z těchto tvarů bylo možné vytvářet objekty a ty pak libovolně přemisťovat a upravovat co do rozměrů a barevného provedení. Celá aplikace byla ovládána 33 slovními povely rozdělenými do funkčních skupin aktivovaných podle kontextu. Kontextově závislé menu usnadňovalo práci nejen uživateli ale též systému tím, že zužovalo aktuální soubor potenciálních kandidátů při klasifikaci. Více informací >>>