Speechlab

Home ATToolkit
ATToolkit PDF Tisk Email

ATT (Audio Transcription Toolkit) – systém pro přepis televize a rozhlasu

Vývoj tohoto komplexního systému trval téměř 5 let a vedl přes několik verzí. Výsledkem je systém, který plně automaticky zpracovává požadované pořady (televizní i rozhlasové), přepisuje je do textové podoby a přepisy pak indexuje pro další vyhledávání. Systém se skládá z několika modulů: a) modulu snímání a parametrického zpracování audio signálu, b) modulu pro separaci řeči od zbytku dat, c) modulu detekujícího změny řečníka, d) modulu rozpoznávání a verifikace řečníka, e) modulu adaptace systému na daného řečníka, f) modulu pro rozpoznávání řeči, g) modulu pro textový postprocessing, h) modul indexace dat.

Celý systém nyní pracuje se slovníkem obsahujícím 350.000 slov a tomu odpovídajícím jazykovým modelem (natrénovaném na cca 20 GB textových dat). Modul rozpoznávání řečníka pracuje s databází cca 500 nejznámějších osob ČR. Přepis může být prováděn jak off-line, tak i on-line. Ve specifickém módu lze přímo v reálném čase (se zpožděním cca 2-5 s) vypisovat na obrazovku titulky.
 
Program je od roku 2007 nasazen v firmě Newton Media.
 
ATT_schema.jpg
Princip činnosti a jednotlivé moduly systému ATT pro přepis televizních a rozhlasových pořadů