Soukromí a bezpečnost dat při přepisu citlivých nahrávek
Nahrávka je osobní údaj. Obsah nahrávky může být ještě citlivější — zdravotní informace, právní záznamy, personální pohovory. Odeslání nahrávky do cloudového API znamená, že zvuková data opustí vaše prostředí a dostanou se do rukou třetí strany. Co se s nimi děje, jak to ovlivňuje vaše GDPR povinnosti a co musíte mít pod kontrolou.
Proč přepis je compliance téma
Hlasová nahrávka identifikuje fyzickou osobu svým hlasem. GDPR definuje osobní údaj jako jakoukoliv informaci vztahující se k identifikované nebo identifikovatelné fyzické osobě — hlasová nahrávka tuto definici splňuje jednoznačně.
Obsah nahrávky může být přísněji chráněnou kategorií dat. Čl. 9 GDPR vymezuje zvláštní kategorie osobních údajů, jejichž zpracování vyžaduje explicitní souhlas nebo jiný zákonný titul: zdravotní informace (konzultace s lékařem, terapeutické sezení), odborové členství (zápisy z jednání odborové organizace), náboženské přesvědčení (pastorální rozhovory), údaje o sexuální orientaci (personální záznamy). Nahrávka obsahující tyto informace vyžaduje přísnější zacházení než obecný osobní údaj.
Správce a zpracovatel
Vaše organizace, která rozhoduje o tom, proč a jak se přepis pořizuje, je správce dat. Přepisová služba, která nahrávku technicky zpracovává, je zpracovatel. Povinnost vyplývající z Čl. 28 GDPR: uzavřít písemnou DPA (Data Processing Agreement — Smlouvu o zpracování osobních údajů) s každou přepisovou službou před zahájením zpracování.
Bez DPA je zpracování osobních údajů přes API protiprávní — bez ohledu na to, jak kvalitní přepis vrátí.
Co se děje s daty v cloudovém API
Kde jsou servery
OpenAI (Whisper API), Deepgram, AssemblyAI a ElevenLabs Scribe mají servery primárně v USA. Každé odeslání nahrávky do jejich API je přenos osobních údajů do třetí země mimo Evropský hospodářský prostor. Takový přenos vyžaduje odpovídající záruky: DPA se Standard Contractual Clauses (SCC) nebo jiný přenosový mechanismus schválený Komisí.
Google Cloud (Google STT) nabízí EU region — ale záleží na konfiguraci účtu. Výchozí nastavení nemusí zaručit zpracování v EU. Je nutné ověřit a zdokumentovat.
Local Whisper: zpracování probíhá lokálně na vašem serveru. Data neopustí vaše prostředí. Toto je z hlediska přenosu dat nejnižší riziko — za cenu nižší přesnosti oproti cloudovým modelům a vyšších nároků na hardware.
Jak dlouho jsou data uchovávána
Každá přepisová služba má vlastní politiku retence dat. Spektrum je široké: nulová retence (data smazána okamžitě po vrácení přepisu, dostupné jako explicitní nastavení), 30 dnů (výchozí u některých služeb pro účely zákaznické podpory), delší retence pro quality review. Je nutné přečíst Terms of Service a Privacy Policy každé služby, aktivovat nulovou retenci tam, kde je dostupná, a zdokumentovat stav v záznamu o zpracování.
Trénink modelů na vašich datech
Kritický bod: část přepisových služeb může použít nahrávky a přepisy pro zlepšení nebo trénink modelů, pokud není explicitně aktivována volba opt-out. Toto je nutné ověřit v podmínkách každé používané služby. Pro citlivá data — zdravotní, právní, HR — je deaktivace tohoto zpracování povinností, nikoli volbou.
Praktický GDPR checklist
Před nasazením přepisové služby pro citlivé nahrávky:
Analýza dat:
- Jaký typ dat bude přepisován? Obecné osobní údaje, nebo zvláštní kategorie (zdravotní, právní, HR)?
- Existuje zákonný titul pro zpracování? (souhlas, oprávněný zájem, zákonná povinnost)
Smluvní základ:
- Uzavřena DPA s každou přepisovou službou?
- DPA obsahuje SCC pro přenosy mimo EU (pro US-based služby)?
- DPA zakazuje použití dat pro trénink modelů?
Technická opatření:
- Zjistit a zdokumentovat umístění serverů pro zpracování
- Aktivovat nulovou retenci dat tam, kde je k dispozici
- Deaktivovat použití dat pro trénink modelů
- Zahrnout přepisový proces do záznamu o zpracování (RoPA) dle Čl. 30 GDPR
Provozní bezpečnost:
- Pseudoanonymizace nahrávky tam, kde je možná (odebrání jmen, RČ, adres z obsahu)
- Šifrování přenosu: HTTPS jako minimum pro přenos dat
- Přístupová práva: kdo ve vaší organizaci může přepisům přistupovat
- Mazání dat: systematické mazání nahrávek a přepisů po uplynutí doby retence
Alternativy pro nejvyšší stupeň ochrany
Lokální přepis
Local Whisper spuštěný na vlastním serveru — data neopustí prostředí organizace. Pro zdravotnická zařízení, advokátní kanceláře a HR oddělení zpracovávající zvláštní kategorie osobních údajů je toto nejspolehlivější architektura z hlediska GDPR. Cena: nižší přesnost oproti cloudovým modelům a investice do GPU hardware. A37
Private cloud
Přepisová infrastruktura ve vlastním privátním cloudu — plná kontrola nad daty s cloudovou flexibilitou. Vyšší náklady na nastavení a správu. Relevantní pro velké organizace s trvalou potřebou a striktnějšími bezpečnostními požadavky (zdravotnické systémy, státní správa).
Czech Transcription System zpracovává nahrávky přes cloudové API devíti modelů — servery v USA (OpenAI, Deepgram, AssemblyAI, ElevenLabs) a v EU dle konfigurace (Google Cloud). Pro přepis citlivých nahrávek to vyžaduje DPA s každou ze zahrnutých služeb, aktivaci nulové retence a ověření podmínek pro použití dat pro trénink. Pro nahrávky se zvláštními kategoriemi osobních údajů je vhodné zvážit lokální variantu (Local Whisper), která je součástí systému a eliminuje přenos dat mimo vaše prostředí.
Specifika zpracování zdravotních dat jsou rozvedena v přehledu lékařského přepisu A17. Právní přepis má své vlastní požadavky na ochranu dat A16. Architekturní srovnání lokálního a cloudového přepisu nabídne podrobnější pohled na bezpečnostní kompromisy A37.
Zdroje:
- GDPR — Nařízení Evropského parlamentu a Rady (EU) 2016/679, Čl. 9 a Čl. 28 [eur-lex.europa.eu]
- Prováděcí rozhodnutí Komise 2021/914 — Standard Contractual Clauses [eur-lex.europa.eu]