Transkripce

Lékařský přepis a terminologie: proč obecné modely nestačí

Lékařský přepis není přepis „s medicínskými slovy". Je to specifický technický problém: latinsky odvozená terminologie, zkratky bez kontextu, foneticky podobné léky s odlišným účinkem. Chyba v přepisu nemá v medicíně jen jazykový dopad. Kde obecné modely selhávají a co s tím jde reálně dělat.


Co dělá medicínskou češtinu výzvou

Medicínský jazyk vznikl kombinací latinského a řeckého základu s českými morfologickými koncovkami. Výsledkem jsou slova, která v přepisových datech z obecné češtiny téměř nevystupují: cholecystektomie, myokardiální infarkt, hypertenzní krize, kardiomegalie. Přepisový model trénovaný primárně na mediálním a konverzačním obsahu tato slova foneticky dekóduje, ale nemá ke správným variantám dostatečné trénovací příklady.

Výsledek je nepředvídatelný: model přepíše do nejbližší varianty ze svého slovníku. „Cholecystektomie" může přijít jako „cholecysta ktomie" nebo „kolecist ektomii" — foneticky přibližné, medicínsky nepoužitelné. A co je závažnější, chyba nemusí být na první pohled vidět. Slovo, které neexistuje, editor rozpozná. Slovo, které existuje, ale je špatné, může projít bez povšimnutí.

Zkratky: neviditelná past

Lékař diktuje: „Pacient je na i.v. furosemidu b.i.d., saturace 94 procent, s.a.t." Model slyší posloupnost hlásek bez kontextu. „i.v." může přijít jako „ivé", „ivee" nebo „ívé". „b.i.d." přijde jako „bí.í.dé" nebo „bidet". Zkratky jsou ve zvukové podobě písmena nebo zkrácené výrazy bez smyslu pro model, který jejich expandovanou formu nezná.

Nejběžnější medicínské zkratky zahrnují: i.v. (intravenózně), p.o. (per os — ústy), s.c. (subkutánně), b.i.d. (dvakrát denně), t.i.d. (třikrát denně), IM (intramuskulárně), PRN (dle potřeby, z latinského pro re nata). Pro model bez medicínského tréninku jsou to náhodné souhlásky.

Eponyma

Parkinsonova choroba, Crohnova choroba, Alzheimerova nemoc — model musí správně přepsat příjmení vědce nebo lékaře ve správném pádu v kombinaci s „choroba" nebo „nemoc". Pro dobře zavedená eponyma s velkým výskytem v trénovacích datech modely obvykle uspějí. Pro méně frekventovaná — Meniérova nemoc, Takayasuova arteritida, Budd-Chiariho syndrom — je přepis z obecného modelu nespolehlivý.

Foneticky podobné léky

Tato kategorie je klinicky nejrizikovější. Metformin (diabetes mellitus) a Metoprolol (kardiologie) začínají foneticky shodně — model musí rozlišit ze zvuku a kontextu. Cefuroxim a Cefotaxim jsou obě cefalosporinová antibiotika se shodným začátkem. Tramadol a Trandolapril. Záměna v přepisu není jen jazyková chyba — je to potenciálně nebezpečná informace v medicínské dokumentaci, která může mít dopad na péči o pacienta.


Proč trénovací data nestačí

Whisper large-v3, jeden z nejpřesnějších obecně dostupných modelů, trénoval na 680 000 hodinách audio dat v desítkách jazyků. Česká medicínská řeč tvoří zlomek procenta tohoto objemu. Modely čerpají z dat dostupných na internetu — podcasty, YouTube, mediální pořady. Medicínský diktovací obsah tam je vzácný, a pokud se vyskytuje, pochází spíše z formálního kontextu než z reálné diktace lékařů.

Druhý faktor je povaha dikce. Lékař diktuje rychle, s medicínskými zkratkami, s vědomím kontextu, který model nemá. Přepisové modely trénují typicky na čtených textech nebo konverzačním obsahu — diktovací styl má jiný rytmus, jiné přestávky a jiný poměr informace k délce výpovědi.


Jak zlepšit výsledky

Specializované medicínské modely

Pro angličtinu existují komerční modely trénované na zdravotnické dokumentaci: Nuance DAX (Microsoft), AWS HealthScribe. Tyto modely znají medicínský jazyk ze struktury tréninku — výsledky jsou pro angličtinu výrazně lepší než u obecných modelů.

Česká varianta medicínsky specializovaného přepisového modelu jako komerční produkt v roce 2025 prakticky neexistuje. Výzkumné projekty na specializovaných datech probíhají, ale produkční nasazení chybí.

Terminologický slovník jako pragmatické řešení

Pro české prostředí je dnes nejpraktičtějším přístupem terminologický slovník: seznam preferovaných termínů pro danou medicínskou specializaci. Onkolog zadá slovník s diagnózami a léky specifickými pro onkologii. Kardiolog s kardiologickými výrazy.

Slučovací vrstva může tento slovník zohledňovat při výběru mezi variantami přepisu různých modelů. Pokud tři modely přepisují slovo různě a jedna varianta odpovídá položce ve slovníku, slovníková varianta dostane přednost. Výsledek: přepis pro terminologii obsaženou ve slovníku se zlepší. Terminologie mimo slovník se nezlepší.

Slovník musí být udržován a aktualizován — medicína se vyvíjí, nové léky přibývají.

Lidská kontrola jako podmínka

Žádná z dostupných technologií nedosahuje přesnosti, která by umožnila autonomní použití medicínského přepisu bez ověření. Lékař, zdravotnický asistent nebo specializovaný přepisovač musí přepis zkontrolovat před zařazením do dokumentace. Automatizace je pomůcka pro urychlení — ne náhrada za medicínsky kompetentní ověření.


GDPR a zdravotní data

Zdravotní data jsou zvláštní kategorií osobních údajů podle Čl. 9 GDPR. Přepis nahrávky s pacientem — konzultace, anamnéza, terapeutické sezení — je zdravotní údaj s přísnějším režimem zpracování.

Odeslání nahrávky do cloudového API znamená přenos dat na servery třetí strany, zpravidla mimo EU (OpenAI, Deepgram, AssemblyAI mají servery primárně v USA). DPA (Data Processing Agreement) s každou přepisovou službou je povinností, nikoli volbou. Pro nejvyšší stupeň ochrany je lokální zpracování — Local Whisper spuštěný na vlastním serveru — jedinou variantou, kdy data neopustí prostředí zdravotnického zařízení.


Kombinace terminologického slovníku, ensemble přístupu a lidské kontroly je v současnosti nejpragmatičtější cestou k použitelnému lékařskému přepisu v češtině. Czech Transcription System podporuje zadání terminologického slovníku a zpracovává nahrávku přes více modelů paralelně — pro specializovanou medicínskou terminologii to přináší zlepšení oproti jednotlivým modelům. Výsledek však vždy vyžaduje odbornou kontrolu před začleněním do medicínské dokumentace.


Přepis citlivých zdravotních nahrávek přes cloudové API je compliance téma — přehled GDPR a bezpečnosti dat A18. Proč čeština obecně klade zvláštní nároky na přepisové modely vysvětluje jazykový pohled A02.


Zdroje: