Diarizace mluvčích: jak počítač pozná, kdo právě mluví
Záznam z porady s deseti účastníky vypadá jako jeden proud zvuku bez jakéhokoli rozlišení hlasů. Diarizace mluvčích je technika, která tento proud rozdělí a ke každé replice přiřadí konkrétní hlas. Jak to funguje, kde to spolehlivě fungovat přestane — a co to znamená pro práci s vícehlasými záznamy.
Co diarizace je a co není
Diarizace (z anglického speaker diarization, se vzdálenou etymologií od slova „diary") označuje automatické rozdělení zvukového záznamu do úseků podle toho, kdo mluví. Výsledkem je časová osa: „Mluvčí 1 mluví od 00:12 do 00:45, Mluvčí 2 od 00:46 do 01:12..."
Diarizace sama o sobě nepřepisuje. Vytváří časovou strukturu s přiřazenými hlasy, nikoliv text. Text vzniká teprve kombinací přepisu a diarizace — a výsledek pak vypadá takto: „[Mluvčí A] Dobré ráno. [Mluvčí B] Dobrý den, jak se máte? [Mluvčí A] Díky, dobře."
Bez diarizace je přepis vícehlasého záznamu jeden proud textu bez označení, kdo co říkal. To může stačit pro zachycení obsahu — ale pro citaci, analýzu rolí nebo strukturu porad to nestačí.
Kde se diarizace používá: přepis porad a skupinových rozhovorů, akademické výzkumné rozhovory, call centra (agent versus zákazník), soudní a správní záznamy, zpravodajské nebo dokumentární pořady s více hosty.
Jak počítač rozpozná různé hlasy
Každý hlas má jedinečné akustické vlastnosti: výšku, tempo, barvu, rezonanční vlastnosti hlasového traktu. Algoritmus tyto vlastnosti extrahuje a porovnává — podobně jako otisk prstu, ale pro zvuk.
Speaker embeddings — akustický podpis
Neuronová síť analyzuje každý krátký zvukový úsek (typicky 1–3 sekundy) a extrahuje z něj vektor čísel — embedding. Tento vektor zachycuje typické spektrální vlastnosti hlasu v daném úseku. Embeddingy jsou naučeny tak, aby úseky téhož mluvčího vykazovaly podobné vektory a úseky různých mluvčích vektory různé.
Nejrozšířenější architektury jsou d-vector (LSTM based), x-vector (TDNN based) a novější ECAPA-TDNN. Snyder et al. (2018) ukázali, že x-vektory trénované na dostatečně velkých datasetech dosahují výrazně lepší spolehlivosti než starší metody.
Clustering — shluková analýza
Embeddingy ze všech úseků nahrávky se shlukují. Úseky s podobnými embeddingy patří témuž mluvčímu — nebo se tak model domnívá. Počet shluků odpovídá předpokládanému počtu mluvčích (buď zadanému uživatelem, nebo odhadnutému algoritmem).
Metody shlukování: aglomerativní hierarchický clustering (spojuje nejpodobnější shluku dohromady, opakovaně), spectral clustering, PLDA (Probabilistic Linear Discriminant Analysis) scoring pro porovnání párů segmentů.
Algoritmus neví, kolik mluvčích v záznamu je — musí to odhadnout sám, pokud mu uživatel nezadá počet. Odhad může být chybný zvláště v případech, kdy dva mluvčí znějí podobně nebo kdy jeden mluvčí výrazně mění hlas.
Od shluku k identitě
Bez databáze registrovaných vzorů hlasu: systém označí mluvčí jako „Mluvčí A", „Mluvčí B" — ne jmény. Uživatel pak ke kódům doplní skutečná jména.
S registrovaným vzorem hlasu: speaker identification — přiřazení shluku ke konkrétní osobě porovnáním s uloženým vzorem. Tento mód je technicky náročnější a vyžaduje předem nahraný vzorek každé osoby.
Kde diarizace funguje spolehlivě a kde selhává
Technický princip je elegantní. Realita skupinové diskuze je méně příznivá.
Příznivé podmínky
Diarizace funguje nejlépe, když:
- Mluví nejvýše 2–4 osoby.
- Nahrávka je čistá, bez výrazného šumu pozadí.
- Hlasy se akusticky liší (různé pohlaví, věk, přízvuk).
- Repliky jsou dostatečně dlouhé (alespoň 5–10 sekund) pro spolehlivý embedding.
- Mluvčí se střídají — ne mluví simultánně.
Za těchto podmínek diarizace funguje spolehlivě a výrazně ušetří čas oproti ručnímu označování.
Typické chyby a jejich příčiny
Překryv hlasů: Největší problém. Pokud dva lidé mluví najednou, algoritmus nemá čistý embedding ani jednoho z nich. Výsledek závisí na tom, který hlas dominuje — přiřazení druhého mluvčího bude pravděpodobně špatné nebo chybějící.
Akusticky podobné hlasy: Dva muži podobného věku, přízvuku a tempa — jejich embeddingy se překrývají. Algoritmus je může sloučit do jednoho shluku a přiřadit části záznamu špatně.
Krátké repliky: Jednoslovné nebo jednověté odpovědi dávají příliš krátký úsek pro spolehlivý embedding. Krátká potvrzení „mm", „jo", „jasně" mohou být přiřazena libovolně.
Šum a ozvěna: Deformují spektrální vlastnosti hlasu. Embedding ze zašuměného úseku nemusí odpovídat embedding z tichého úseku téhož mluvčího — a algoritmus je přiřadí do různých shluků.
Proměnlivý hlas: Emoce, únava, šeptání, smích — tentýž mluvčí zní jinak. Algoritmus může jednoho mluvčího rozdělit do více shluků.
Kolik mluvčích systém zvládne
Google Speech-to-Text a ElevenLabs Scribe deklarují podporu až 32 mluvčích. V praxi: spolehlivost výrazně klesá s počtem mluvčích, zvláště při zhoršené akustice. Pro přepisy porad s 5–8 lidmi jsou výsledky použitelné jako orientační základ — ale vyžadují kontrolu.
Jak s výsledky diarizace pracovat
Diarizace šetří čas, ale nenahrazuje lidskou kontrolu. Typické chyby jsou předvídatelné — a tím i opravitelné.
Co kontrolovat vždy
Přechody mezi replikami: na hranici segmentů může algoritmus přiřadit konec jedné věty jinému mluvčímu. Zvláště při rychlém střídání mluvčích.
Krátké vsuvky: „mm", „jo", „jasně" — ověřit, zda jsou přiřazeny správně. Zpravidla to není priorita, ale v rozhovoru jeden-na-jednoho může chybné přiřazení krátké vsuvky zmást čtenáře.
Překryvy: pokud v záznamu došlo k simultánní řeči, zkontrolovat, jak byl úsek zpracován a zda je výsledek srozumitelný.
Export a formáty
JSON formát zachovává mluvčí jako metadata u každého segmentu (speaker_label: „speaker_0"). VTT a SRT formáty mohou obsahovat informaci o mluvčím v záhlaví titulkového bloku. Pro podrobnosti o exportních formátech viz A22.
Jak nahrávat pro lepší diarizaci
Každý účastník na vlastní mikrofon nebo kanál — výrazně zlepšuje výsledky, protože každý hlas přichází bez příměsi ostatních. Stereo nahrávka s každým mluvčím na vlastním kanálu je z pohledu diarizace ideální základ. Mluvit střídavě a minimalizovat překryvy — jednoduchá organizační opatření s výrazným dopadem na kvalitu. Pro podrobný návod na přípravu nahrávky viz A12.
Závěr
Diarizace mluvčích je technologie, která v příznivých podmínkách šetří hodiny ručního rozlišování hlasů. V záznamu rozhovoru dvou lidí v tiché místnosti funguje spolehlivě. V záznamu skupinové diskuze deseti kolegů je výsledek orientační — cenné vodítko, které vyžaduje kontrolu.
Realistické očekávání je základ pro správné nasazení. Diarizace převede 70–85 % přiřazení správně a umožní vám opravit zbývající část s mnohem menší námahou, než kdybyste vše dělali ručně. Pro přepis porad jako celek — včetně terminologie, struktury záznamu a doporučení pro nahrávání — navazuje A28.
Zdroje
- Snyder, D., Garcia-Romero, D., Sell, G., Povey, D. & Khudanpur, S. (2018). X-vectors: Robust DNN Embeddings for Speaker Recognition. ICASSP 2018. [doi:10.1109/ICASSP.2018.8461375]
- Park, T. et al. (2022). A Review of Speaker Diarization: Recent Advances with Deep Learning. arXiv. [doi:arXiv:2101.09624]
- Sell, G. & Garcia-Romero, D. (2014). Speaker Diarization with PLDA i-vector Scoring and Unsupervised Calibration. SLT 2014.
- Google Cloud Speech-to-Text — Speaker Diarization. https://cloud.google.com/speech-to-text/docs/diarization
- ElevenLabs Scribe — Speaker diarization dokumentace. https://elevenlabs.io/docs/scribe