Transkripce

Rozhovor, přednáška nebo porada? Každý typ záznamu přepis zvládá jinak

Ne každá nahrávka je stejná. Přednáška jednoho řečníka v tiché místnosti a hlučná porada deseti lidí kladou na přepisový systém zcela jiné nároky. Přesto se pro obě nahrávky klikne na totéž tlačítko. Výsledky se pak výrazně liší — a není to jen otázka nástroje. Je to otázka pochopení, co každý typ záznamu vyžaduje.


Čtyři parametry, které určují obtížnost záznamu

Než se podíváme na konkrétní typy záznamů, pojmenujme, co přepisový algoritmus vlastně posuzuje. Čtyři parametry rozhodují nejvíce.

Počet mluvčích: Jeden mluvčí je nejjednodušší případ — model se přizpůsobí jednomu hlasu. Každý další mluvčí přidává komplexitu: přechody hlasů, překryvy, nutnost diarizace.

Akustické prostředí: Nahrávka v tiché místnosti s blízkým mikrofonem dá algoritmu čistý signál. Šum klimatizace, ozvěna prázdné kanceláře nebo vzdálený mikrofon zvyšují chybovost — ne kvůli modelu, ale kvůli fyzikálně omezené informaci v záznamu.

Styl řeči: Připravený, přednesený projev (přednáška, moderovaný pořad) je gramaticky úplnější a plynulejší. Spontánní konverzace obsahuje váhání, nedokončené věty, opravy a překryvy. Model s přednáškou pracuje snadněji.

Slovník: Obecný jazyk model zná. Odborná terminologie, interní zkratky nebo cizí jména jsou v trénovacích datech zastoupeny méně — a model je hádá.

Tato čtyři kritéria spolu tvoří profil obtížnosti každého záznamu. Pojďme si je projít na konkrétních typech.


Přednáška a monolog — nejpříznivější podmínky

Přednáška nebo monolog jednoho řečníka jsou pro automatický přepis nejpříznivějším typem záznamu — za předpokladu, že nahrávka je technicky přijatelná.

Jeden mluvčí znamená, že model nemusí řešit diarizaci ani překryvy. Připravený projev bývá gramaticky úplnější: věty jsou dokončené, struktura logická, tempo předvídatelné. Přesnost přepisu na kvalitní přednáškové nahrávce bývá z typických případů nejvyšší.

Hlavní úskalí jsou dvě. Délka: hodina přednášky je rozsáhlá nahrávka. Musí být rozdělena do kratších segmentů pro zpracování, a na hranicích těchto segmentů může dojít ke ztrátě kontextu — věta rozdělená uprostřed, nebo terminologický kontext z předchozí části, který druhý segment nezná. O chunkování dlouhých nahrávek podrobněji A14.

Druhé úskalí je odborný slovník. Přednáška z medicíny, práva nebo techniky obsahuje termíny, které obecný model v trénovacích datech neměl. Řešením je konfigurace vlastní terminologie před zpracováním — seznam termínů, který systém upřednostní při nejistotě.


Rozhovor — strukturovaná střídavá řeč

Rozhovor dvou nebo tří lidí je pro přepis příznivý formát — ale výrazně záleží na způsobu nahrávání.

Struktura otázka–odpověď je pro diarizaci mluvčích nejpříznivější formát. Střídání hlasů je jasné, překryvy jsou minimální, celková délka záznamu je zpravidla kratší než přednáška. Přesnost přepisu se pak blíží přednáškovým podmínkám.

Problém nastává, když jsou oba mluvčí na jednom mikrofonu. Vzdálenější mluvčí je tišší — a algoritmus dostane nekvalitní signál. Telefonní nebo videorozhovor přidává další vrstvu: komprimovaný zvuk (telefon pracuje s vzorkovací frekvencí 8 kHz, zatímco přepisové modely jsou trénované na 16 kHz) výrazně snižuje přesnost. Doplňování a přerušování — krátká potvrzení „mm", „jasně", „jo" — mohou diarizaci zmást.

Doporučení: kde to jde, každý mluvčí na vlastní mikrofon nebo kanál. Pro videorozhovory (Zoom, Teams) preferovat nahrávání přes aplikaci s funkcí separace kanálů, nikoliv systémový záznam. O vstupních formátech zvuku a stereo nahrávání A09; o diarizaci A04.


Porada a skupinová diskuze — největší výzva

Porada je pro automatický přepis nejtěžší typ záznamu. Počet mluvčích, akustika, slovník i styl řeči jsou obvykle ve všech čtyřech parametrech nepříznivé.

Proč je přepis porady složitý: více hlasů se překrývá, lidé se přerušují, simultánní konverzace v podskupinách probíhají paralelně. Kancelářský hluk — klimatizace, kroky, zvuky z chodby, ozvěna konferenční místnosti — přidává šum, který model nedokáže celý odfiltrovat. Neformální jazyk, interní zkratky, jména projektů a kolegů jsou termíny, které model s vysokou pravděpodobností nezná.

Přes to vše: automatický přepis porady stále ušetří výrazný čas oproti ručnímu zpracování. Výsledek nebude dokonalý, ale zachytí rozhodnutí, úkoly a podstatné myšlenky — a to v zlomku času.

Co pomáhá při přepisu porady: diarizace mluvčích alespoň orientačně přiřadí repliky hlasům A04; vlastní terminologie s interními pojmy a jmény zlepšuje přesnost terminologicky specifických pasáží; kvalitní nahrávací podmínky (konferenční mikrofon s beam-formingem nebo individuální mikrofonování) jsou investicí, která se vrátí na každém zpracovaném záznamu. Komplexní pohled na přepis porad nabízí A28.


Podcast a moderovaný pořad — ideální podmínky pro automatiku

Podcasty a moderované pořady jsou z hlediska přepisu v nejpříznivějším spektru skupinových formátů.

Studiové nebo polostudiové podmínky — každý mluvčí do vlastního mikrofonu, oddělené nahrávání — dávají algoritmu čistý signál bez přeslechů. Pokud podcast využívá software pro vzdálené nahrávání (Riverside, Zencastr, Squadcast), každý host nahráváte lokálně na vlastní zařízení. Výsledkem je nahrávka s každým hlasem na vlastním kanálu — ideální základ pro přepis i diarizaci.

Přesnost přepisu podcastu ze studiových podmínek bývá srovnatelná s přednáškou. Výzvy nastávají u hostů, kteří nahrávají přes telefon nebo levný webkamerový mikrofon — jejich část záznamu bude přepsána hůře. Pro kompletní postup přepisu podcastu — od nahrávky ke čtenáři — navazuje A25.


Přehled pro rychlé rozhodnutí

Typ záznamu Typická přesnost (dobrý zvuk) Hlavní riziko Doporučení
--- --- --- ---
Přednáška, monolog vysoká délka, odborný slovník vlastní terminologie, blízký mikrofon
Rozhovor (2 osoby) vysoká–střední telefonní kvalita, přeslechy každý na vlastní mikrofon/kanál
Porada (3+ osob) střední překryvy, šum, spontánní řeč diarizace, terminologie, dobrá akustika
Podcast (studio) vysoká hosté na horší technice Remote Recording software

Závěr

Výběr přepisového nástroje je jen část rozhodnutí. Charakter záznamu, který chcete přepsat, určuje, co od přepisu reálně čekat — a co je třeba připravit nebo přijmout jako nutnou manuální práci.

Nejdůležitější otázka před přepisem: jaký typ záznamu přepisuji a co je jeho největší slabina? Odpověď ukáže, kam investovat přípravu — do mikrofonu, do akustiky místnosti, do konfigurace terminologie nebo do diarizace. Čas strávený přípravou se mnohonásobně vrátí na čase ušetřeném editací.


Zdroje

  1. Garofalo, J. et al. — NIST RT (Rich Transcription) evaluations: meeting vs. broadcast vs. conversational speech. https://nist.gov/itl/iad/mig/rich-transcription-evaluation

2.

  1. Google Cloud Speech-to-Text — doporučení podle audio typu. https://cloud.google.com/speech-to-text/docs/best-practices
  2. Deepgram — Use case guide for different audio types. https://developers.deepgram.com/docs/use-cases