Transkripce

Diarizace mluvčích: jak počítač pozná, kdo právě mluví

Záznam z porady s deseti účastníky vypadá jako jeden proud zvuku bez jakéhokoli rozlišení hlasů. Diarizace mluvčích je technika, která tento proud rozdělí a ke každé replice přiřadí konkrétní hlas. Jak to funguje, kde to spolehlivě fungovat přestane — a co to znamená pro práci s vícehlasými záznamy.


Co diarizace je a co není

Diarizace (z anglického speaker diarization, se vzdálenou etymologií od slova „diary") označuje automatické rozdělení zvukového záznamu do úseků podle toho, kdo mluví. Výsledkem je časová osa: „Mluvčí 1 mluví od 00:12 do 00:45, Mluvčí 2 od 00:46 do 01:12..."

Diarizace sama o sobě nepřepisuje. Vytváří časovou strukturu s přiřazenými hlasy, nikoliv text. Text vzniká teprve kombinací přepisu a diarizace — a výsledek pak vypadá takto: „[Mluvčí A] Dobré ráno. [Mluvčí B] Dobrý den, jak se máte? [Mluvčí A] Díky, dobře."

Bez diarizace je přepis vícehlasého záznamu jeden proud textu bez označení, kdo co říkal. To může stačit pro zachycení obsahu — ale pro citaci, analýzu rolí nebo strukturu porad to nestačí.

Kde se diarizace používá: přepis porad a skupinových rozhovorů, akademické výzkumné rozhovory, call centra (agent versus zákazník), soudní a správní záznamy, zpravodajské nebo dokumentární pořady s více hosty.


Jak počítač rozpozná různé hlasy

Každý hlas má jedinečné akustické vlastnosti: výšku, tempo, barvu, rezonanční vlastnosti hlasového traktu. Algoritmus tyto vlastnosti extrahuje a porovnává — podobně jako otisk prstu, ale pro zvuk.

Speaker embeddings — akustický podpis

Neuronová síť analyzuje každý krátký zvukový úsek (typicky 1–3 sekundy) a extrahuje z něj vektor čísel — embedding. Tento vektor zachycuje typické spektrální vlastnosti hlasu v daném úseku. Embeddingy jsou naučeny tak, aby úseky téhož mluvčího vykazovaly podobné vektory a úseky různých mluvčích vektory různé.

Nejrozšířenější architektury jsou d-vector (LSTM based), x-vector (TDNN based) a novější ECAPA-TDNN. Snyder et al. (2018) ukázali, že x-vektory trénované na dostatečně velkých datasetech dosahují výrazně lepší spolehlivosti než starší metody.

Clustering — shluková analýza

Embeddingy ze všech úseků nahrávky se shlukují. Úseky s podobnými embeddingy patří témuž mluvčímu — nebo se tak model domnívá. Počet shluků odpovídá předpokládanému počtu mluvčích (buď zadanému uživatelem, nebo odhadnutému algoritmem).

Metody shlukování: aglomerativní hierarchický clustering (spojuje nejpodobnější shluku dohromady, opakovaně), spectral clustering, PLDA (Probabilistic Linear Discriminant Analysis) scoring pro porovnání párů segmentů.

Algoritmus neví, kolik mluvčích v záznamu je — musí to odhadnout sám, pokud mu uživatel nezadá počet. Odhad může být chybný zvláště v případech, kdy dva mluvčí znějí podobně nebo kdy jeden mluvčí výrazně mění hlas.

Od shluku k identitě

Bez databáze registrovaných vzorů hlasu: systém označí mluvčí jako „Mluvčí A", „Mluvčí B" — ne jmény. Uživatel pak ke kódům doplní skutečná jména.

S registrovaným vzorem hlasu: speaker identification — přiřazení shluku ke konkrétní osobě porovnáním s uloženým vzorem. Tento mód je technicky náročnější a vyžaduje předem nahraný vzorek každé osoby.


Kde diarizace funguje spolehlivě a kde selhává

Technický princip je elegantní. Realita skupinové diskuze je méně příznivá.

Příznivé podmínky

Diarizace funguje nejlépe, když:

Za těchto podmínek diarizace funguje spolehlivě a výrazně ušetří čas oproti ručnímu označování.

Typické chyby a jejich příčiny

Překryv hlasů: Největší problém. Pokud dva lidé mluví najednou, algoritmus nemá čistý embedding ani jednoho z nich. Výsledek závisí na tom, který hlas dominuje — přiřazení druhého mluvčího bude pravděpodobně špatné nebo chybějící.

Akusticky podobné hlasy: Dva muži podobného věku, přízvuku a tempa — jejich embeddingy se překrývají. Algoritmus je může sloučit do jednoho shluku a přiřadit části záznamu špatně.

Krátké repliky: Jednoslovné nebo jednověté odpovědi dávají příliš krátký úsek pro spolehlivý embedding. Krátká potvrzení „mm", „jo", „jasně" mohou být přiřazena libovolně.

Šum a ozvěna: Deformují spektrální vlastnosti hlasu. Embedding ze zašuměného úseku nemusí odpovídat embedding z tichého úseku téhož mluvčího — a algoritmus je přiřadí do různých shluků.

Proměnlivý hlas: Emoce, únava, šeptání, smích — tentýž mluvčí zní jinak. Algoritmus může jednoho mluvčího rozdělit do více shluků.

Kolik mluvčích systém zvládne

Google Speech-to-Text a ElevenLabs Scribe deklarují podporu až 32 mluvčích. V praxi: spolehlivost výrazně klesá s počtem mluvčích, zvláště při zhoršené akustice. Pro přepisy porad s 5–8 lidmi jsou výsledky použitelné jako orientační základ — ale vyžadují kontrolu.


Jak s výsledky diarizace pracovat

Diarizace šetří čas, ale nenahrazuje lidskou kontrolu. Typické chyby jsou předvídatelné — a tím i opravitelné.

Co kontrolovat vždy

Přechody mezi replikami: na hranici segmentů může algoritmus přiřadit konec jedné věty jinému mluvčímu. Zvláště při rychlém střídání mluvčích.

Krátké vsuvky: „mm", „jo", „jasně" — ověřit, zda jsou přiřazeny správně. Zpravidla to není priorita, ale v rozhovoru jeden-na-jednoho může chybné přiřazení krátké vsuvky zmást čtenáře.

Překryvy: pokud v záznamu došlo k simultánní řeči, zkontrolovat, jak byl úsek zpracován a zda je výsledek srozumitelný.

Export a formáty

JSON formát zachovává mluvčí jako metadata u každého segmentu (speaker_label: „speaker_0"). VTT a SRT formáty mohou obsahovat informaci o mluvčím v záhlaví titulkového bloku. Pro podrobnosti o exportních formátech viz A22.

Jak nahrávat pro lepší diarizaci

Každý účastník na vlastní mikrofon nebo kanál — výrazně zlepšuje výsledky, protože každý hlas přichází bez příměsi ostatních. Stereo nahrávka s každým mluvčím na vlastním kanálu je z pohledu diarizace ideální základ. Mluvit střídavě a minimalizovat překryvy — jednoduchá organizační opatření s výrazným dopadem na kvalitu. Pro podrobný návod na přípravu nahrávky viz A12.


Závěr

Diarizace mluvčích je technologie, která v příznivých podmínkách šetří hodiny ručního rozlišování hlasů. V záznamu rozhovoru dvou lidí v tiché místnosti funguje spolehlivě. V záznamu skupinové diskuze deseti kolegů je výsledek orientační — cenné vodítko, které vyžaduje kontrolu.

Realistické očekávání je základ pro správné nasazení. Diarizace převede 70–85 % přiřazení správně a umožní vám opravit zbývající část s mnohem menší námahou, než kdybyste vše dělali ručně. Pro přepis porad jako celek — včetně terminologie, struktury záznamu a doporučení pro nahrávání — navazuje A28.


Zdroje

  1. Snyder, D., Garcia-Romero, D., Sell, G., Povey, D. & Khudanpur, S. (2018). X-vectors: Robust DNN Embeddings for Speaker Recognition. ICASSP 2018. [doi:10.1109/ICASSP.2018.8461375]
  2. Park, T. et al. (2022). A Review of Speaker Diarization: Recent Advances with Deep Learning. arXiv. [doi:arXiv:2101.09624]
  3. Sell, G. & Garcia-Romero, D. (2014). Speaker Diarization with PLDA i-vector Scoring and Unsupervised Calibration. SLT 2014.
  4. Google Cloud Speech-to-Text — Speaker Diarization. https://cloud.google.com/speech-to-text/docs/diarization
  5. ElevenLabs Scribe — Speaker diarization dokumentace. https://elevenlabs.io/docs/scribe