Přesnost přepisu: co ji měří a proč čísla na webu neříkají celou pravdu
„Přesnost 95 %." Toto číslo se objevuje v materiálech téměř každé přepisové služby. Co přesně měří, na jakých datech vzniklo a co říká o vašem konkrétním záznamu? Odpovědi jsou méně pohodlné, než by se zdálo — ale výrazně užitečnější.
Jak se přesnost přepisu měří
Přesnost přepisu se porovnává s referenčním textem — ručně vytvořeným přepisem téže nahrávky, který slouží jako „zlatý standard". Odchylky automatického přepisu od referenčního textu jsou pak kvantifikovány metrikou.
Word Error Rate — nejrozšířenější metrika
WER (Word Error Rate) je de facto standardem v hodnocení přepisových systémů. Vzorec:
WER = (S + D + I) / N × 100
kde S = záměny slov (substitutions), D = vynechaná slova (deletions), I = přidaná slova (insertions), N = celkový počet slov v referenčním textu.
Příklad: referenční text je „pan Novák přijde v úterý v devět hodin" (8 slov). Přepisový model vrátí „pan Novák přijde v úterý v deset hodin" — jedno slovo špatně (záměna „devět" za „deset"). WER = 1 / 8 × 100 = 12,5 %.
Co WER zachytí: záměny slov, vynechaná slova, přidaná slova. Co WER nezachytí: špatné pořadí slov (pokud výsledná věta obsahuje správná slova v jiném pořadí), diakritiku, interpunkci, velká písmena.
Character Error Rate — pro jazyky s dlouhými slovy
CER (Character Error Rate) počítá chyby na úrovni znaků, nikoliv slov. Pro češtinu má výhodu: jedno špatně přepsané slovo v angličtině a v češtině nese různou váhu v WER — ale CER to rozloží proporcionálně.
Příklad: „nemocnice" vs. „nemocici" — WER = 100 % (celé slovo špatně), CER = 2/9 = 22 % (dva znaky špatně). CER lépe vystihuje skutečnou míru chybovosti pro morfologicky bohaté jazyky jako čeština.
Méně časté, ale přesnější metriky
Match Error Rate (MER) a Word Information Lost (WIL) jsou metody, které kombinují aspekty WER s důrazem na informační ztrátu. Morris et al. (2004) ukázali, že tyto metriky lépe korelují se subjektivním hodnocením kvality přepisu. V praxi se setkáte hlavně s WER — ale vědět, že existují lepší alternativy, je užitečné pro kritické čtení benchmarků.
Proč marketingová čísla nevypovídají o vaší nahrávce
Číslo přesnosti závisí na testovací sadě. Testovací sady používané v marketingových materiálech jsou vybrány tak, aby výsledky vypadaly co nejlépe. A jsou vzdáleny od podmínek typické uživatelské nahrávky.
Standardní testovací sady a jejich limity
LibriSpeech je zásadní testovací sada pro ASR výzkum. Obsahuje 960 hodin audionahrávek anglicky čtených knih — v studiových podmínkách, jeden mluvčí na soubor, čistý zvuk, standardní anglický slovník. Whisper large-v3 dosahuje na LibriSpeech-clean WER přibližně 2,7 % (Radford et al., 2022). To je výjimečný výsledek — ale na výjimečně příznivých podmínkách.
TED-LIUM jsou záznamy TED přednášek. Podmínky jsou reálnější než LibriSpeech, ale stále jde o připravený, gramaticky správný anglický projev v profesionálním nahrávacím prostředí.
Co tyto sady neobsahují: češtinu, šum z kanceláře, neformální hovorový styl, spontánní konverzaci více mluvčích, odbornou terminologii konkrétního oboru. Panayotov et al. (2015) popsali LibriSpeech jako pečlivě navržený dataset — ale jeho podmínky jsou záměrně kontrolované.
Vaše nahrávka je jiný svět
Stejný model Whisper large-v3, který dosahuje WER 2,7 % na LibriSpeech, může dosahovat WER 20–35 % na spontánní hovorové češtině z porady se šumem na pozadí. Nejde o selhání modelu — jde o zásadně odlišné podmínky.
Co marketingové číslo nezachycuje:
- Jazyk (číslo platí pro angličtinu; pro češtinu je jiné, zpravidla horší).
- Šum (číslo platí pro čistý zvuk; se šumem se dramaticky mění).
- Slovník (číslo platí pro obecný jazyk; odborná terminologie zvyšuje WER).
- Počet mluvčích (číslo platí pro jednoho mluvčího; skupina diskutujících výsledek zhoršuje).
Co skutečně ovlivňuje přesnost přepisu v praxi
Pět faktorů rozhoduje o přesnosti přepisu. Čtyři z nich jsou na straně nahrávky — jen poslední je na straně modelu.
1. Kvalita zvuku: SNR (signal-to-noise ratio — poměr signálu a šumu) je nejsilnější prediktor přesnosti přepisu. Rozdíl mezi WER 5 % v čistém prostředí a WER 20–25 % v hlučném prostředí je konzistentně dokumentován v ASR výzkumu.. O přípravě nahrávky pro nejlepší výsledek viz A12.
2. Jazyk a dialekt: Čím vzdálenější od trénovacích dat, tím horší výsledek. Čeština je oproti angličtině znevýhodněna menším objemem dat. Regionální akcent nebo nářečí situaci dále komplikuje.
3. Tempo a plynulost řeči: Rychlá, překrývající se nebo přerušovaná řeč zvyšuje chybovost. Spontánní konverzace je pro modely výrazně těžší než připravený projev.
4. Slovní zásoba: Termíny mimo trénovací data modelu — lékařské, právní, interní firemní žargon — model hádá. Výsledek může být překvapivě dobrý (jazykový model uhodne z kontextu) nebo špatný (model preferuje foneticky podobné běžné slovo).
5. Výběr modelu: Teprve po zvážení prvních čtyř faktorů. Různé modely mají různé silné stránky — ale žádný model nepřekročí fyzikální limity nekvalitního záznamu.
Jak přesnost hodnotit v praxi — bez laboratoře
Nejlepší hodnocení je vlastní testování na vlastní nahrávce. Existují tři přístupy, které nevyžadují složité nastavení.
Manuální srovnání na vzorku
Přepsat ručně 2–3 minuty záznamu. Porovnat s automatickým přepisem. Spočítat záměny, vynechání a přidaná slova. Výsledek je WER pro váš konkrétní typ nahrávky s tímto konkrétním modelem.
Výhoda: nejpřesnější pro váš případ. Nevýhoda: časově náročné. Doporučení: testovat na reprezentativním vzorku — ne na nejjednodušší části nahrávky, ale na typické.
Confidence score jako vodítko
Přepisové modely přiřazují každému přepsanému slovu skóre jistoty (0–1 nebo 0–100 %). Slova s nízkým skóre jsou kandidáti na chybu — ověřit je přednostně.
Limit: model může mít vysoké confidence score i u špatně přepsaného slova. Vysoká jistota neznamená správnost — jistota odráží vnitřní přesvědčení modelu, ne pravdivost výsledku. Podrobněji o confidence score viz A19.
Srovnání více modelů na stejné nahrávce
Spustit nahrávku přes dva nebo tři různé modely. Kde se výsledky shodují — pravděpodobně správně. Kde se liší — ověřit poslechem.
Tato metoda nevyžaduje referenční přepis. Je to praktická alternativa pro rychlé hodnocení kvality. Zároveň je to základ pro slučování výsledků A13 a pro hodnocení kvality bez referenčního textu A35.
Závěr
Číslo přesnosti na webu má hodnotu orientačního ukazatele — ne záruky. Aby bylo číslo smysluplné, musíte vědět: na jakém jazyce bylo měřeno, za jakých akustických podmínek a na jakém slovníku.
Namísto hledání „nejobjektivnějšího" benchmarku: investujte třicet minut do vlastního testu. Nahrajte svůj typický typ záznamu, spusťte přes zájmový model a spočítejte, kde chybuje. To je informace, která se vztahuje k vašim potřebám — nikoliv k podmínkám z anglické laboratoře.
Zdroje
- Morris, A., Maier, V. & Green, P. (2004). From WER and RIL to MER and WIL: Improved Evaluation Measures for Connected Speech Recognition. INTERSPEECH 2004.
- Panayotov, V., Chen, G., Povey, D. & Khudanpur, S. (2015). LibriSpeech: An ASR Corpus Based on Public Domain Audio Books. ICASSP 2015. [doi:10.1109/ICASSP.2015.7178964]
- Radford, A. et al. (2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv. [doi:10.48550/arXiv.2212.04356]
4.
5.