Transkripce

Soukromí a bezpečnost dat při přepisu citlivých nahrávek

Nahrávka je osobní údaj. Obsah nahrávky může být ještě citlivější — zdravotní informace, právní záznamy, personální pohovory. Odeslání nahrávky do cloudového API znamená, že zvuková data opustí vaše prostředí a dostanou se do rukou třetí strany. Co se s nimi děje, jak to ovlivňuje vaše GDPR povinnosti a co musíte mít pod kontrolou.


Proč přepis je compliance téma

Hlasová nahrávka identifikuje fyzickou osobu svým hlasem. GDPR definuje osobní údaj jako jakoukoliv informaci vztahující se k identifikované nebo identifikovatelné fyzické osobě — hlasová nahrávka tuto definici splňuje jednoznačně.

Obsah nahrávky může být přísněji chráněnou kategorií dat. Čl. 9 GDPR vymezuje zvláštní kategorie osobních údajů, jejichž zpracování vyžaduje explicitní souhlas nebo jiný zákonný titul: zdravotní informace (konzultace s lékařem, terapeutické sezení), odborové členství (zápisy z jednání odborové organizace), náboženské přesvědčení (pastorální rozhovory), údaje o sexuální orientaci (personální záznamy). Nahrávka obsahující tyto informace vyžaduje přísnější zacházení než obecný osobní údaj.

Správce a zpracovatel

Vaše organizace, která rozhoduje o tom, proč a jak se přepis pořizuje, je správce dat. Přepisová služba, která nahrávku technicky zpracovává, je zpracovatel. Povinnost vyplývající z Čl. 28 GDPR: uzavřít písemnou DPA (Data Processing Agreement — Smlouvu o zpracování osobních údajů) s každou přepisovou službou před zahájením zpracování.

Bez DPA je zpracování osobních údajů přes API protiprávní — bez ohledu na to, jak kvalitní přepis vrátí.


Co se děje s daty v cloudovém API

Kde jsou servery

OpenAI (Whisper API), Deepgram, AssemblyAI a ElevenLabs Scribe mají servery primárně v USA. Každé odeslání nahrávky do jejich API je přenos osobních údajů do třetí země mimo Evropský hospodářský prostor. Takový přenos vyžaduje odpovídající záruky: DPA se Standard Contractual Clauses (SCC) nebo jiný přenosový mechanismus schválený Komisí.

Google Cloud (Google STT) nabízí EU region — ale záleží na konfiguraci účtu. Výchozí nastavení nemusí zaručit zpracování v EU. Je nutné ověřit a zdokumentovat.

Local Whisper: zpracování probíhá lokálně na vašem serveru. Data neopustí vaše prostředí. Toto je z hlediska přenosu dat nejnižší riziko — za cenu nižší přesnosti oproti cloudovým modelům a vyšších nároků na hardware.

Jak dlouho jsou data uchovávána

Každá přepisová služba má vlastní politiku retence dat. Spektrum je široké: nulová retence (data smazána okamžitě po vrácení přepisu, dostupné jako explicitní nastavení), 30 dnů (výchozí u některých služeb pro účely zákaznické podpory), delší retence pro quality review. Je nutné přečíst Terms of Service a Privacy Policy každé služby, aktivovat nulovou retenci tam, kde je dostupná, a zdokumentovat stav v záznamu o zpracování.

Trénink modelů na vašich datech

Kritický bod: část přepisových služeb může použít nahrávky a přepisy pro zlepšení nebo trénink modelů, pokud není explicitně aktivována volba opt-out. Toto je nutné ověřit v podmínkách každé používané služby. Pro citlivá data — zdravotní, právní, HR — je deaktivace tohoto zpracování povinností, nikoli volbou.


Praktický GDPR checklist

Před nasazením přepisové služby pro citlivé nahrávky:

Analýza dat:

Smluvní základ:

Technická opatření:

Provozní bezpečnost:


Alternativy pro nejvyšší stupeň ochrany

Lokální přepis

Local Whisper spuštěný na vlastním serveru — data neopustí prostředí organizace. Pro zdravotnická zařízení, advokátní kanceláře a HR oddělení zpracovávající zvláštní kategorie osobních údajů je toto nejspolehlivější architektura z hlediska GDPR. Cena: nižší přesnost oproti cloudovým modelům a investice do GPU hardware. A37

Private cloud

Přepisová infrastruktura ve vlastním privátním cloudu — plná kontrola nad daty s cloudovou flexibilitou. Vyšší náklady na nastavení a správu. Relevantní pro velké organizace s trvalou potřebou a striktnějšími bezpečnostními požadavky (zdravotnické systémy, státní správa).


Czech Transcription System zpracovává nahrávky přes cloudové API devíti modelů — servery v USA (OpenAI, Deepgram, AssemblyAI, ElevenLabs) a v EU dle konfigurace (Google Cloud). Pro přepis citlivých nahrávek to vyžaduje DPA s každou ze zahrnutých služeb, aktivaci nulové retence a ověření podmínek pro použití dat pro trénink. Pro nahrávky se zvláštními kategoriemi osobních údajů je vhodné zvážit lokální variantu (Local Whisper), která je součástí systému a eliminuje přenos dat mimo vaše prostředí.


Specifika zpracování zdravotních dat jsou rozvedena v přehledu lékařského přepisu A17. Právní přepis má své vlastní požadavky na ochranu dat A16. Architekturní srovnání lokálního a cloudového přepisu nabídne podrobnější pohled na bezpečnostní kompromisy A37.


Zdroje: