Diarizace mluvčích: jak počítač pozná, kdo právě mluví

30. března 2026 · 5 min čtení ·

Záznam z porady s deseti účastníky vypadá jako jeden proud zvuku bez jakéhokoli rozlišení hlasů. Diarizace mluvčích je technika, která tento proud rozdělí a ke každé replice přiřadí konkrétní hlas. Jak to funguje, kde to spolehlivě fungovat přestane — a co to znamená pro práci s vícehlasými záznamy.

Co diarizace je a co není

Diarizace (z anglického speaker diarization, se vzdálenou etymologií od slova „diary") označuje automatické rozdělení zvukového záznamu do úseků podle toho, kdo mluví. Výsledkem je časová osa: „Mluvčí 1 mluví od 00:12 do 00:45, Mluvčí 2 od 00:46 do 01:12..."

Diarizace sama o sobě nepřepisuje. Vytváří časovou strukturu s přiřazenými hlasy, nikoliv text. Text vzniká teprve kombinací přepisu a diarizace — a výsledek pak vypadá takto: „[Mluvčí A] Dobré ráno. [Mluvčí B] Dobrý den, jak se máte? [Mluvčí A] Díky, dobře."

Bez diarizace je přepis vícehlasého záznamu jeden proud textu bez označení, kdo co říkal. To může stačit pro zachycení obsahu — ale pro citaci, analýzu rolí nebo strukturu porad to nestačí.

Kde se diarizace používá: přepis porad a skupinových rozhovorů, akademické výzkumné rozhovory, call centra (agent versus zákazník), soudní a správní záznamy, zpravodajské nebo dokumentární pořady s více hosty.

Jak počítač rozpozná různé hlasy

Každý hlas má jedinečné akustické vlastnosti: výšku, tempo, barvu, rezonanční vlastnosti hlasového traktu. Algoritmus tyto vlastnosti extrahuje a porovnává — podobně jako otisk prstu, ale pro zvuk.

Speaker embeddings — akustický podpis

Neuronová síť analyzuje každý krátký zvukový úsek (typicky 1–3 sekundy) a extrahuje z něj vektor čísel — embedding. Tento vektor zachycuje typické spektrální vlastnosti hlasu v daném úseku. Embeddingy jsou naučeny tak, aby úseky téhož mluvčího vykazovaly podobné vektory a úseky různých mluvčích vektory různé.

Nejrozšířenější architektury jsou d-vector (LSTM based), x-vector (TDNN based) a novější ECAPA-TDNN. Snyder et al. (2018) ukázali, že x-vektory trénované na dostatečně velkých datasetech dosahují výrazně lepší spolehlivosti než starší metody.

Clustering — shluková analýza

Embeddingy ze všech úseků nahrávky se shlukují. Úseky s podobnými embeddingy patří témuž mluvčímu — nebo se tak model domnívá. Počet shluků odpovídá předpokládanému počtu mluvčích (buď zadanému uživatelem, nebo odhadnutému algoritmem).

Metody shlukování: aglomerativní hierarchický clustering (spojuje nejpodobnější shluku dohromady, opakovaně), spectral clustering, PLDA (Probabilistic Linear Discriminant Analysis) scoring pro porovnání párů segmentů.

Algoritmus neví, kolik mluvčích v záznamu je — musí to odhadnout sám, pokud mu uživatel nezadá počet. Odhad může být chybný zvláště v případech, kdy dva mluvčí znějí podobně nebo kdy jeden mluvčí výrazně mění hlas.

Od shluku k identitě

Bez databáze registrovaných vzorů hlasu: systém označí mluvčí jako „Mluvčí A", „Mluvčí B" — ne jmény. Uživatel pak ke kódům doplní skutečná jména.

S registrovaným vzorem hlasu: speaker identification — přiřazení shluku ke konkrétní osobě porovnáním s uloženým vzorem. Tento mód je technicky náročnější a vyžaduje předem nahraný vzorek každé osoby.

Kde diarizace funguje spolehlivě a kde selhává

Technický princip je elegantní. Realita skupinové diskuze je méně příznivá.

Příznivé podmínky

Diarizace funguje nejlépe, když:

Mluví nejvýše 2–4 osoby.
Nahrávka je čistá, bez výrazného šumu pozadí.
Hlasy se akusticky liší (různé pohlaví, věk, přízvuk).
Repliky jsou dostatečně dlouhé (alespoň 5–10 sekund) pro spolehlivý embedding.
Mluvčí se střídají — ne mluví simultánně.

Za těchto podmínek diarizace funguje spolehlivě a výrazně ušetří čas oproti ručnímu označování.

Typické chyby a jejich příčiny

Překryv hlasů: Největší problém. Pokud dva lidé mluví najednou, algoritmus nemá čistý embedding ani jednoho z nich. Výsledek závisí na tom, který hlas dominuje — přiřazení druhého mluvčího bude pravděpodobně špatné nebo chybějící.

Akusticky podobné hlasy: Dva muži podobného věku, přízvuku a tempa — jejich embeddingy se překrývají. Algoritmus je může sloučit do jednoho shluku a přiřadit části záznamu špatně.

Krátké repliky: Jednoslovné nebo jednověté odpovědi dávají příliš krátký úsek pro spolehlivý embedding. Krátká potvrzení „mm", „jo", „jasně" mohou být přiřazena libovolně.

Šum a ozvěna: Deformují spektrální vlastnosti hlasu. Embedding ze zašuměného úseku nemusí odpovídat embedding z tichého úseku téhož mluvčího — a algoritmus je přiřadí do různých shluků.

Proměnlivý hlas: Emoce, únava, šeptání, smích — tentýž mluvčí zní jinak. Algoritmus může jednoho mluvčího rozdělit do více shluků.

Kolik mluvčích systém zvládne

Google Speech-to-Text a ElevenLabs Scribe deklarují podporu až 32 mluvčích. V praxi: spolehlivost výrazně klesá s počtem mluvčích, zvláště při zhoršené akustice. Pro přepisy porad s 5–8 lidmi jsou výsledky použitelné jako orientační základ — ale vyžadují kontrolu.

Jak s výsledky diarizace pracovat

Diarizace šetří čas, ale nenahrazuje lidskou kontrolu. Typické chyby jsou předvídatelné — a tím i opravitelné.

Co kontrolovat vždy

Přechody mezi replikami: na hranici segmentů může algoritmus přiřadit konec jedné věty jinému mluvčímu. Zvláště při rychlém střídání mluvčích.

Krátké vsuvky: „mm", „jo", „jasně" — ověřit, zda jsou přiřazeny správně. Zpravidla to není priorita, ale v rozhovoru jeden-na-jednoho může chybné přiřazení krátké vsuvky zmást čtenáře.

Překryvy: pokud v záznamu došlo k simultánní řeči, zkontrolovat, jak byl úsek zpracován a zda je výsledek srozumitelný.

Export a formáty

JSON formát zachovává mluvčí jako metadata u každého segmentu (speaker_label: „speaker_0"). VTT a SRT formáty mohou obsahovat informaci o mluvčím v záhlaví titulkového bloku. Pro podrobnosti o exportních formátech viz A22.

Jak nahrávat pro lepší diarizaci

Každý účastník na vlastní mikrofon nebo kanál — výrazně zlepšuje výsledky, protože každý hlas přichází bez příměsi ostatních. Stereo nahrávka s každým mluvčím na vlastním kanálu je z pohledu diarizace ideální základ. Mluvit střídavě a minimalizovat překryvy — jednoduchá organizační opatření s výrazným dopadem na kvalitu. Pro podrobný návod na přípravu nahrávky viz A12.

Závěr

Diarizace mluvčích je technologie, která v příznivých podmínkách šetří hodiny ručního rozlišování hlasů. V záznamu rozhovoru dvou lidí v tiché místnosti funguje spolehlivě. V záznamu skupinové diskuze deseti kolegů je výsledek orientační — cenné vodítko, které vyžaduje kontrolu.

Realistické očekávání je základ pro správné nasazení. Diarizace převede 70–85 % přiřazení správně a umožní vám opravit zbývající část s mnohem menší námahou, než kdybyste vše dělali ručně. Pro přepis porad jako celek — včetně terminologie, struktury záznamu a doporučení pro nahrávání — navazuje A28.

Zdroje

Snyder, D., Garcia-Romero, D., Sell, G., Povey, D. & Khudanpur, S. (2018). X-vectors: Robust DNN Embeddings for Speaker Recognition. ICASSP 2018. [doi:10.1109/ICASSP.2018.8461375]
Park, T. et al. (2022). A Review of Speaker Diarization: Recent Advances with Deep Learning. arXiv. [doi:arXiv:2101.09624]
Sell, G. & Garcia-Romero, D. (2014). Speaker Diarization with PLDA i-vector Scoring and Unsupervised Calibration. SLT 2014.
Google Cloud Speech-to-Text — Speaker Diarization. https://cloud.google.com/speech-to-text/docs/diarization
ElevenLabs Scribe — Speaker diarization dokumentace. https://elevenlabs.io/docs/scribe