Speechlab

ProtoATT PDF Tisk Email

Prototyp systému pro automatický přepis televizních a rozhlasových pořadů (2004)

att.jpg

V rámci tohoto projektu na našem pracovišti vznikl systém, který umožňuje téměř automatický přepis rozhlasových a televizních pořadů. V první fázi jsme se zaměřili na televizní zpravodajské pořady.

Systém provádí následující operace: Nejprve rozčlení záznam celého zpravodajského pořadu na části, které obsahují řeč, a na zbytek (zejména hudbu, znělky, atd.) Následně rozčlení jednotlivé zpravodajské příspěvky podle charakteru akustického signálu, zejména na části mluvené různými osobami. U těchto osob lze provést jejich identifikaci, což přichází v úvahu především u moderátorů a často se vyskytujících reportérů či významných osob. Jednotlivé příspěvky pak jsou předány do modulu rozpoznávání řeči, na jehož výstupu se postupně objevuje textový přepis. Současná verze pracuje se slovníkem 200 000 nejfrekventovanějších slov, a přepis 10 minut zpráv jí trvá přibližně 40 minut, tedy čtyřnásobek času.

Úspěšnost takového systému se podle světových standardů měří procentem správně rozpoznaných slov. U našeho systému se toto procento pohybuje kolem 75 % v rámci celého zpravodajského bloku. Výrazně vyšší (80 - 85 %) je v příspěvcích namluvených ve studiu či v málo rušném prostředí, nízká je naopak u příspěvků, které mají v pozadí hudbu, nebo kde lidé hovoří na rušné ulici, mluví nespisovně atd.

 


Více informací:

  • NOUZA, J., NEJEDLOVÁ, D., ŽĎÁNSKÝ, J., KOLORENČ, J.: Very Large Vocabulary Speech Recognition System for Automatic Transcription of Czech Broadcast. In: Proc. of ICSLP 2004, October 2004, Jeju Island, Korea, pp. 409-412, ISSN 1225-441x
  • ŽĎÁNSKÝ, J., DAVID, P., NOUZA, J.: An Improved Preprocessor for the Automatic Transcription of Broadcast News Audio Stream. In: Proc. of ICSLP 2004, October 2004, Jeju Island, Korea, pp. 1065-1068, ISSN 1225-441x