Transkripce

Přesnost přepisu: co ji měří a proč čísla na webu neříkají celou pravdu

„Přesnost 95 %." Toto číslo se objevuje v materiálech téměř každé přepisové služby. Co přesně měří, na jakých datech vzniklo a co říká o vašem konkrétním záznamu? Odpovědi jsou méně pohodlné, než by se zdálo — ale výrazně užitečnější.


Jak se přesnost přepisu měří

Přesnost přepisu se porovnává s referenčním textem — ručně vytvořeným přepisem téže nahrávky, který slouží jako „zlatý standard". Odchylky automatického přepisu od referenčního textu jsou pak kvantifikovány metrikou.

Word Error Rate — nejrozšířenější metrika

WER (Word Error Rate) je de facto standardem v hodnocení přepisových systémů. Vzorec:

WER = (S + D + I) / N × 100

kde S = záměny slov (substitutions), D = vynechaná slova (deletions), I = přidaná slova (insertions), N = celkový počet slov v referenčním textu.

Příklad: referenční text je „pan Novák přijde v úterý v devět hodin" (8 slov). Přepisový model vrátí „pan Novák přijde v úterý v deset hodin" — jedno slovo špatně (záměna „devět" za „deset"). WER = 1 / 8 × 100 = 12,5 %.

Co WER zachytí: záměny slov, vynechaná slova, přidaná slova. Co WER nezachytí: špatné pořadí slov (pokud výsledná věta obsahuje správná slova v jiném pořadí), diakritiku, interpunkci, velká písmena.

Character Error Rate — pro jazyky s dlouhými slovy

CER (Character Error Rate) počítá chyby na úrovni znaků, nikoliv slov. Pro češtinu má výhodu: jedno špatně přepsané slovo v angličtině a v češtině nese různou váhu v WER — ale CER to rozloží proporcionálně.

Příklad: „nemocnice" vs. „nemocici" — WER = 100 % (celé slovo špatně), CER = 2/9 = 22 % (dva znaky špatně). CER lépe vystihuje skutečnou míru chybovosti pro morfologicky bohaté jazyky jako čeština.

Méně časté, ale přesnější metriky

Match Error Rate (MER) a Word Information Lost (WIL) jsou metody, které kombinují aspekty WER s důrazem na informační ztrátu. Morris et al. (2004) ukázali, že tyto metriky lépe korelují se subjektivním hodnocením kvality přepisu. V praxi se setkáte hlavně s WER — ale vědět, že existují lepší alternativy, je užitečné pro kritické čtení benchmarků.


Proč marketingová čísla nevypovídají o vaší nahrávce

Číslo přesnosti závisí na testovací sadě. Testovací sady používané v marketingových materiálech jsou vybrány tak, aby výsledky vypadaly co nejlépe. A jsou vzdáleny od podmínek typické uživatelské nahrávky.

Standardní testovací sady a jejich limity

LibriSpeech je zásadní testovací sada pro ASR výzkum. Obsahuje 960 hodin audionahrávek anglicky čtených knih — v studiových podmínkách, jeden mluvčí na soubor, čistý zvuk, standardní anglický slovník. Whisper large-v3 dosahuje na LibriSpeech-clean WER přibližně 2,7 % (Radford et al., 2022). To je výjimečný výsledek — ale na výjimečně příznivých podmínkách.

TED-LIUM jsou záznamy TED přednášek. Podmínky jsou reálnější než LibriSpeech, ale stále jde o připravený, gramaticky správný anglický projev v profesionálním nahrávacím prostředí.

Co tyto sady neobsahují: češtinu, šum z kanceláře, neformální hovorový styl, spontánní konverzaci více mluvčích, odbornou terminologii konkrétního oboru. Panayotov et al. (2015) popsali LibriSpeech jako pečlivě navržený dataset — ale jeho podmínky jsou záměrně kontrolované.

Vaše nahrávka je jiný svět

Stejný model Whisper large-v3, který dosahuje WER 2,7 % na LibriSpeech, může dosahovat WER 20–35 % na spontánní hovorové češtině z porady se šumem na pozadí. Nejde o selhání modelu — jde o zásadně odlišné podmínky.

Co marketingové číslo nezachycuje:


Co skutečně ovlivňuje přesnost přepisu v praxi

Pět faktorů rozhoduje o přesnosti přepisu. Čtyři z nich jsou na straně nahrávky — jen poslední je na straně modelu.

1. Kvalita zvuku: SNR (signal-to-noise ratio — poměr signálu a šumu) je nejsilnější prediktor přesnosti přepisu. Rozdíl mezi WER 5 % v čistém prostředí a WER 20–25 % v hlučném prostředí je konzistentně dokumentován v ASR výzkumu.. O přípravě nahrávky pro nejlepší výsledek viz A12.

2. Jazyk a dialekt: Čím vzdálenější od trénovacích dat, tím horší výsledek. Čeština je oproti angličtině znevýhodněna menším objemem dat. Regionální akcent nebo nářečí situaci dále komplikuje.

3. Tempo a plynulost řeči: Rychlá, překrývající se nebo přerušovaná řeč zvyšuje chybovost. Spontánní konverzace je pro modely výrazně těžší než připravený projev.

4. Slovní zásoba: Termíny mimo trénovací data modelu — lékařské, právní, interní firemní žargon — model hádá. Výsledek může být překvapivě dobrý (jazykový model uhodne z kontextu) nebo špatný (model preferuje foneticky podobné běžné slovo).

5. Výběr modelu: Teprve po zvážení prvních čtyř faktorů. Různé modely mají různé silné stránky — ale žádný model nepřekročí fyzikální limity nekvalitního záznamu.


Jak přesnost hodnotit v praxi — bez laboratoře

Nejlepší hodnocení je vlastní testování na vlastní nahrávce. Existují tři přístupy, které nevyžadují složité nastavení.

Manuální srovnání na vzorku

Přepsat ručně 2–3 minuty záznamu. Porovnat s automatickým přepisem. Spočítat záměny, vynechání a přidaná slova. Výsledek je WER pro váš konkrétní typ nahrávky s tímto konkrétním modelem.

Výhoda: nejpřesnější pro váš případ. Nevýhoda: časově náročné. Doporučení: testovat na reprezentativním vzorku — ne na nejjednodušší části nahrávky, ale na typické.

Confidence score jako vodítko

Přepisové modely přiřazují každému přepsanému slovu skóre jistoty (0–1 nebo 0–100 %). Slova s nízkým skóre jsou kandidáti na chybu — ověřit je přednostně.

Limit: model může mít vysoké confidence score i u špatně přepsaného slova. Vysoká jistota neznamená správnost — jistota odráží vnitřní přesvědčení modelu, ne pravdivost výsledku. Podrobněji o confidence score viz A19.

Srovnání více modelů na stejné nahrávce

Spustit nahrávku přes dva nebo tři různé modely. Kde se výsledky shodují — pravděpodobně správně. Kde se liší — ověřit poslechem.

Tato metoda nevyžaduje referenční přepis. Je to praktická alternativa pro rychlé hodnocení kvality. Zároveň je to základ pro slučování výsledků A13 a pro hodnocení kvality bez referenčního textu A35.


Závěr

Číslo přesnosti na webu má hodnotu orientačního ukazatele — ne záruky. Aby bylo číslo smysluplné, musíte vědět: na jakém jazyce bylo měřeno, za jakých akustických podmínek a na jakém slovníku.

Namísto hledání „nejobjektivnějšího" benchmarku: investujte třicet minut do vlastního testu. Nahrajte svůj typický typ záznamu, spusťte přes zájmový model a spočítejte, kde chybuje. To je informace, která se vztahuje k vašim potřebám — nikoliv k podmínkám z anglické laboratoře.


Zdroje

  1. Morris, A., Maier, V. & Green, P. (2004). From WER and RIL to MER and WIL: Improved Evaluation Measures for Connected Speech Recognition. INTERSPEECH 2004.
  2. Panayotov, V., Chen, G., Povey, D. & Khudanpur, S. (2015). LibriSpeech: An ASR Corpus Based on Public Domain Audio Books. ICASSP 2015. [doi:10.1109/ICASSP.2015.7178964]
  3. Radford, A. et al. (2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv. [doi:10.48550/arXiv.2212.04356]

4.

5.