Nahrávka, soubor, stream: jak dodat zvuk ke zpracování a na čem záleží
Přepis nezačíná kliknutím na tlačítko. Formát nahrávky, vzorkovací frekvence, počet kanálů a způsob přenosu zvuku — každý z těchto parametrů ovlivňuje, jak rychle a přesně zpracování proběhne. Tento průvodce vysvětluje, co za výběrem formátu stojí a co doporučit pro nejčastější situace.
Tři způsoby, jak dodat zvuk — a co každý znamená
Nahrání hotového souboru
Nejčastější případ: uživatel má hotovou nahrávku uloženou v počítači nebo v cloudu a chce ji přepsat. Výhody jsou zásadní: lze zkontrolovat kvalitu zvuku před odesláním, přidat vlastní terminologii, v případě potřeby zpracování opakovat s jiným nastavením nebo modelem.
Vhodné pro: rozhovory, přednášky, porady, podcasty — vše, co bylo zaznamenáno předem.
Nahrávání přímo v nástroji
Uživatel nahrává zvuk přímo přes webové rozhraní nebo mobilní aplikaci a odesílá ho ke zpracování bez mezikroku. Výhoda: žádné čekání na nahrání, přímá cesta. Riziko: špatná akustika nebo nekvalitní mikrofon plus okamžité odeslání bez kontroly. Nahrávku nelze zkontrolovat předem — chyba v nahrávání se projeví až na výsledku přepisu.
Doporučení: před důležitým záznamem vždy provést testovací nahrávku a přehrát ji.
Streamování — živý přepis v reálném čase
Zvuk přichází průběžně (mikrofon, VoIP hovor, živé vysílání) a přepis se zobrazuje průběžně — s latencí v řádu desetin sekund až jednotek sekund. Technicky jde o jiný přístup než dávkové zpracování: model nečeká na celý soubor, pracuje s krátkými zvukovými rámci bez znalosti budoucích slov.
Důsledek pro přesnost: streamovací přepis je zpravidla méně přesný než dávkové zpracování celého souboru, protože model postrádá kontext budoucích slov pro rozhodnutí o aktuálním. O srovnání reálný čas versus dávkové zpracování podrobněji A15.
Formáty audio souborů — co je co a proč záleží
Bezztrátové formáty: WAV a FLAC
WAV je nekomprimovaný formát. Soubor obsahuje přesnou číselnou reprezentaci zvuku bez jakékoli komprese. Pro přepis je to ideální základ — žádná informace nebyla při ukládání ztracena.
FLAC je bezztrátová komprese. Soubor je menší než WAV, ale zvuk je mathematicky identický — dekódováním se WAV plně rekonstruuje. Ideální pro archivaci nebo přenos při omezené šířce pásma.
Pro přepis: oba formáty dávají algoritmu maximum dostupné informace.
Ztrátové formáty: MP3, AAC, M4A, OGG
Ztrátové kompresní algoritmy odstraňují části zvukového spektra, které lidské ucho vnímá méně. Klíčový parametr je bitrate:
- 320 kbps MP3: téměř nerozlišitelné od WAV při poslechu; pro přepis plně dostatečné.
- 128 kbps MP3: standardní kvalita; pro přepis mluvené řeči zpravidla přijatelné.
- Pod 128 kbps: znatelná degradace; sykavky a hlásky s vysokými frekvencemi jsou postiženy jako první — a právě tyto hlásky jsou pro rozlišení slov důležité.
M4A (formát Apple, kodek AAC) ze smartphonu: standardně dobrá kvalita, 128–192 kbps, vzorkovací frekvence 44,1 kHz. Pro přepis mluvené řeči plně dostačující.
Video soubory: MP4, MOV, MKV
Přepisové služby extrahují zvukovou stopu automaticky. Zvuk z videa je zpravidla dostatečný, pokud bylo video natočeno s přijatelným mikrofonem. Záznamy z videokonferencí (Zoom, Teams) závisí na nastavení platformy — Free plán Zoom použije nižší bitrate než Pro plán.
Telefonní nahrávky (8 kHz) — zvláštní případ
Telefonie pracuje s vzorkovací frekvencí 8 kHz — zachytí pouze frekvence do 4 kHz. Velká část řečového spektra (4–8 kHz) fyzicky chybí: sykavky „s", „š", „z", „ž" a většina souhlásek jsou v tomto pásmu. Modely trénované na 16 kHz dostávají z telefonní nahrávky neúplný signál a přesnost přepisu je výrazně nižší.
Doporučení pro telefonní záznamy: kde je to možné, nahrávat přes aplikaci s vyšší kvalitou (například nahrávací aplikace s nastavením kvality). Standardní telefonní hovor přes GSM je pro přepis technický limit.
Vzorkovací frekvence a počet kanálů
Vzorkovací frekvence — 16 kHz stačí
16 kHz je standard pro ASR (automatic speech recognition). Whisper, Google STT, Deepgram — všechny jsou primárně trénované na tomto standardu.
44,1 kHz nebo 48 kHz je hudební standard — pro přepis nadbytečné. Model data interně downsampluje. Výsledná přesnost není vyšší, soubor je zbytečně větší.
8 kHz (telefon) je podstandard — viz výše.
Praktické doporučení: nahrávat ve 44,1 kHz (standard smartphonů a nahrávacích aplikací). Model si zbytek zařídí.
Mono vs. stereo — záleží na situaci
Stereo nahrávka má dva kanály. Mohou to být skutečně různé zdroje na každém kanálu — nebo jen zdvojení téhož mono signálu.
Kdy je stereo výhoda: Rozhovor dvou lidí, kde každý mluví do vlastního mikrofonu napojeného na vlastní kanál stereo nahrávky. Diarizační algoritmus pak dostane každý hlas odděleně — bez přeslechů od druhého mluvčího. Výsledky diarizace jsou výrazně spolehlivější A04.
Kdy stereo nepomáhá: Jeden mikrofon, nahrávající do stereo souboru. Oba kanály jsou identické — žádná výhoda, dvojnásobná velikost souboru.
Doporučení: Dva mluvčí na dvou mikrofonech → stereo (každý na svém kanálu). Jeden mikrofon → mono stačí.
Praktická doporučení pro nejčastější situace
Smartphone: Formát M4A (iOS) nebo MP3/AAC (Android), 44,1 kHz, 128–192 kbps — přijatelné pro přepis mluvené řeči. Klíčový parametr: vzdálenost od úst (optimálně 15–25 cm) a tichá nahrávací podmínky.
Zoom nebo Teams: MP4 (video) nebo M4A (audio). Tip pro Zoom Cloud Recording: funkce „Record each participant separately" ukládá každého mluvčího na vlastní audio soubor — ideální pro diarizaci. nastavení Zoom Cloud Recording
Profesionální podcast: WAV 44,1 kHz, každý mluvčí na vlastním kanálu nebo souboru. Výsledek přepisu bude z typických situací nejlepší.
Archivní nebo nekvalitní nahrávka: Nejprve zvážit základní čištění zvuku (Audacity, Adobe Podcast Enhancer) před odesláním ke zpracování. Detailní postup viz [odkaz A12 — příprava nahrávky].
Přehled pro rychlé rozhodnutí:
| Situace | Formát | Frekvence | Kanály |
|---|---|---|---|
| --- | --- | --- | --- |
| Smartphone | M4A / MP3 | 44,1 kHz | mono |
| Zoom / Teams | MP4 → M4A | 44,1 kHz | stereo (pokud každý na kanálu) |
| Podcast studio | WAV | 44,1 kHz | stereo / mono |
| Telefonní hovor | MP3 | 8 kHz (limit) | mono |
| Archivní nahrávka | co je k dispozici | co je k dispozici | závisí |
Závěr
Formát souboru není prvořadá otázka — ale vzorkovací frekvence, bitrate a počet kanálů mohou přesnost přepisu znatelně ovlivnit. WAV nebo M4A ze slušného mikrofonu dá spolehlivě dobrý základ. Telefonní nahrávka v 8 kHz je fyzikální limit, který žádný model nepřekročí.
Nejdůležitější kroky před odesláním ke zpracování: ověřit, že zvuk není příliš tichý nebo zkreslený; preferovat bezztrátový nebo vysokokvalitní ztrátový formát; pro vícehlasé záznamy zvážit stereo s každým mluvčím na vlastním kanálu. Pro záznamy, kde je kvalita zvuku problémem, navazuje [odkaz A12 — příprava nahrávky].
Zdroje
- Google Cloud Speech-to-Text — podporované audio kodeky a formáty. https://cloud.google.com/speech-to-text/docs/encoding
- Deepgram — doporučené formáty a vzorkovací frekvence. https://developers.deepgram.com/docs/audio-formats
- OpenAI Whisper — podporované formáty. https://platform.openai.com/docs/guides/speech-to-text
- Zoom Cloud Recording — separátní nahrávání účastníků. https://support.zoom.us/hc/en-us/articles/recording
5.