Zvukový súborový formát
Zvukový súborový formát je formát súboru určený na uloženie digitálnych zvukových údajov v počítačovom systéme.
Digitalizácia analógového zvukového signálu
Digitalizácia analógového zvukového signálu sa robí prevodom signálu v pravidelných intervaloch. Čím kratšie budú intervaly, tým viac meraní (vzoriek) urobíme za určitý časový úsek a tým presnejšie priebeh zvuku zachytíme. Získame tak kvalitnejší záznam. Počet meraní za určitú časovú jednotku sa nazýva vzorkovacia frekvencia (sampling rate) a udáva sa v kHz (napr. frekvencii 11 kHz zodpovedá 11 000 meraní za sekundu)
Najnižšie hodnoty vzorkovacej frekvencie sa používajú pri digitalizácii telefónneho hovoru (bežne je to 8 kHz). Jednou z najnižších používaných hodnôt vzorkovacej frekvencie je 11,025 kHz. Ďalej sa používa 22,05 kHz a pre digitalizáciu veľmi kvalitnej nahrávky, zodpovedajúcej kvalite CD audio nahrávky, sa používa frekvencia 44,1 kHz a 48 kHz, čo predstavuje 44 100 a 48 000 vzoriek za sekundu.
Ďalším parametrom kvality nahrávky je veľkosť vzorky (sample size) alebo bitová hĺbka. Udáva sa v počte bitov. Čím väčší počet bitov, tým presnejší údaj získame a môžeme zachytiť väčšie rozdiely v hlasitosti. Pre uloženie nameranej hodnoty sa používa najmenej 1 byte, t. j. 8 bitov, pri kvalitných nahrávkach sa využíva 16 bitov, pri stereo hudbe potom máme dvakrát 16 bitov. Audacity pracuje s bítovou hĺbkou 32 bitov.
Vzorkovanie a prevod analógového signálu sa robí pomocou prevodníka A/D (analog-to-digital) zvyčajne uloženého na zvukovej karte. Pri prehrávaní záznamu treba spätne digitálny signál previesť na analógový pomocou prevodníka D/A. Na kvalite analógovo-digitálneho prevodníka (zvukovej karty) závisí kvalita výsledného digitalizovaného zvuku. Najčastejšou metódou prevodu analógového signálu na digitálny je Pulzná kódová modulácia (PCM).
Kvalita stratovo komprimovaného audio sa najčastejšie vyjadruje v kbit/s.
Digitálny signál v základnom PCM formáte
Digitálny signál s dĺžkou 10 minút vytvorený pomocou PCM v základnom formáte môže mať nasledovnú veľkosť:
- pri vzorkovaní 8 kHz a 8 bitovej vzorke 4,8 MB (klasický telefónny prístroj)
- pri vzorkovaní 22,05 kHz a 8 bitovej vzorke 13,23 MB (rozhlasové vysielanie FM)
- pri vzorkovaní 44,1 kHz a 16 bitovej vzorke 105,84 MB (CD kvalita)
Typy zvukových formátov
Zvukové súbory obsahujú zvuk v rôznych formátoch. Formáty digitalizovaného zvuku môžeme rozdeliť na nekomprimované (zaberajú na disku viac miesta) a komprimované, ktoré sú pri porovnateľnej kvalite menšie a sú vhodné aj na prenos po internete. Formáty bez kompresie ukladajú zvukové dáta v takej podobe ako boli získané digitalizáciou. Formáty s kompresiou tieto dáta ďalej upravujú. Pod pojmom kompresia sa rozumie znížiť množstvo výstupných dát, takže súbor zaberá menej miesta na disku.
Kompresné formáty sa rozdeľujú na stratové a bezstratové. Bezstratové kompresie odstraňujú len redundantnú časť dát tak, aby bolo možné vrátiť súbor do originálneho stavu. Stratové kompresie odstraňujú väčšie množstvo dát, takže sa nemôžeme vrátiť k pôvodnej kvalite. Štruktúra zvukového súboru pozostáva z hlavičky a samotných dát. V hlavičke sú uložené dôležité informácie ako dĺžka záznamu, počet kanálov, typ formátu, vzorkovacia frekvencia a pod.
Pre hudobné účely bol vyvinutý formát MIDI. MIDI predstavuje čisto digitálny zvuk, teda zvuk ktorý bol vytvorený priamo v počítači. MIDI súbory zaberajú na disku omnoho menej miesta ako zvukové vzorky a pritom ponúkajú vynikajúcu kvalitu zvuku.
Kodek
Pre efektívnejšiu prácu so zvukovými súbormi sa používajú kodeky. Slovo kodek pochádza z angličtiny (codec) a je to skratka z dvoch slov COder a DECoder. Kodek slúži na zakódovanie a dekódovanie, inak povedané na kompresiu a dekompresiu zvuku. Je to ovládač, ktorý pridáva podporu pre nejaký konkrétny audio/video formát pre operačný systém. Vďaka kodeku operačný systém tento formát rozozná a dovolí ho prehrať (decode = dekóduje ho) alebo dovolí zmeniť ho na iný formát (encode = zakóduje).
Metódy kompresie sú kvôli vzájomnej kompatibilite aplikácií a technického vybavenia definované štandardami ISO (International Organization for Standardization), ITU (International Telecommunications Union) a IEC (International Electronical Commission). V súčasnosti existuje veľké množstvo kodekov, pričom mnohé z nich boli vytvorené pre špeciálne účely.
Bez kompresie
- Linear Pulse Code Modulation (LPCM) alebo len PCM (Pulse Code Modulation) – Pulzná kódová modulácia je štandardný nekomprimovaný formát pre zvukový záznam využívaný napríklad pri kódovaní hudby na CD diskoch (Compact Disc Digital Audio - CDDA or CD-DA)
- Microsoft ADPCM – často používaný formát, ktorý komprimuje 16-bitové audio na 4-bitové,
- IMA ADPCM – komprimuje 8-bitové vzorky na 4-bitové,
S kompresiou
- Súčasné moderné formáty s kompresiou (pozri v časti So stratovou kompresiou MPEG, WMA) sú založené na kódovaní s modifikovanou diskrétnou kosínovou transformáciou (MDCT - modified discrete cosine transform) a lineárnom prediktívnom kódovaní (LPC - linear predictive coding)
- GSM 6.10 – používa sa pri mobilných telefónoch. Štandard vyvynutý European Telecommunications Standards Institute (ETSI) pre druhú generáciu (2G) mobilných sietí
- DSP Group TrueSpeech – ponúka väčšiu kompresiu než GSM pri vyššej kvalite
Kedysi bolo problémom nájsť vhodný pomer medzi kvalitou zvuku a veľkosťou súboru s digitalizovaným zvukom (napr. stupňom jeho kompresie). V súčasnosti sú však kapacitné možnosti omnoho lepšie a preto sa volia radšej väčšie súbory, čo zabezpečuje kvalitu ktorú netrénované ucho nevie rozpoznať od originálu. Vo všeobecnosti aj naďalej platí, že treba vhodne zvoliť nielen parametre digitalizácie (vzorkovaciu frekvenciu, bitovú hĺbku a počet kanálov), ale aj správny formát súboru, prípadne kompresiu. Počet rôznych formátov zvukových súborov je veľmi veľký a preto v ďalšom spomenieme len niektoré.
Formáty bez kompresie
- RAW Audio (*.raw, *.pcm, *.sam.) je formát zvukových súborov na ukladanie nekomprimovaného zvuku v surovej podobe. Na rozdiel od ďalších neobsahuje žiadne informácie o zvuku hlavičke (napr. ako vzorkovacia frekvencia, bitová hĺbka, endian alebo počet kanálov a pod.).
Bez kompresie v dátovom kontajneri
Okrem RAW (surových) súborov môžu byť zvukové dáta v dátovom kontajneri alebo všeobecnejšie (zvuk, obraz a ďalšie) v multimediálnym kontajnerom. Audio dátové kontajnery (container formats) sú:
- AU (*.au, *.snd) – (Audio File Format) AU je štandardom pre prostredie Unix a programovací jazyk JAVA.
- AIFF (*.aiff, *.aif) – (Audio Interchange File Format) Je zvukový formát, používaný v OS počítačov Apple.
- WAVE (*.wav) – (Waveform Audio file format) Je to základný, predvolený formát na počítačoch s OS Windows.
So stratovou kompresiou
Vznik súborov so stratovou kompresiou bol podmienený hlavne potrebou podstatne znížiť objem dát zvukových súborov. Mnohé z týchto formátov našli svoje uplatnenie najmä na sieti internet.
- MPEG Audio (*.mp1, *.mp2, *.mp3, *.m2a, *.m4a, *.mpa, *.mpg, *.mpeg, *.sws) – MPEG je stratovou kompresnou schémou založenou na psychoakustickom modeli ľudského ucha. MPEG má mnoho podôb, v závislosti od zložitosti použitých kompresií. Čím vyššia vrstva, tým vyššia kompresia a menšia veľkosť súboru.
- WMA (*.wma) – (Windows Media Audio) WMA vyvinula spoločnosť Microsoft ako odpoveď na obľúbený formát mp3.
- Vorbis - vyvinutý nadáciou Xiph.Org. Jeho účelom je nahradiť formát MP3. Zvyčajne je používaný v spojení s multimediálnym kontajnerom Ogg, Matroska alebo WebM.
- RealAudio (*.ra, *.rm, *.ram) – Tento formát získal svoju popularitu vďaka streamovaniu zvuku na webe ako prvý streamovací zvukový formát. Patrí medzi najstaršie formáty a má široké použitie. Vysoký kompresný pomer, ale nízka kvalita.
S bezstratovou kompresiou
Najpopulárnejšie
- Free Lossless Audio Codec (FLAC)
- libFLAC
- FFmpeg
- Apple Lossless Audio Codec (ALAC)
- Apple QuickTime
- libalac
- FFmpeg
- Monkey's Audio (APE)
- Monkey's Audio SDK
- FFmpeg (decoder only)
- Windows Media Audio Lossless (WMAL)
- Windows Media Encoder
- FFmpeg (decoder only)
Ďalšie
- OptimFROG (OFR)
- Tom's verlustfreier Audiokompressor (TAK)
- TAK SDK
- FFmpeg (decoder only)
- WavPack (WV)
- libwavpack
- FFmpeg
- True Audio (TTA)
- libtta
- FFmpeg
- DTS-HD Master Audio, also known as DTS++ and DCA XLL
- libdca (decoder only)
- FFmpeg (decoder only)
- Dolby TrueHD – Standard for DVD-Audio in Blu-ray (mathematically based on MLP)
- FFmpeg
- Meridian Lossless Packing (MLP), also known as Packed PCM (PPCM) – Standard for DVD-Audio in DVD
- FFmpeg
- MPEG-4 Audio Lossless Coding (MPEG-4 ALS)
- SSC, DST, ALS and SLS reference software (ISO/IEC 14496-5:2001/Amd.10:2007)
- FFmpeg (decoding only)
- MPEG-4 Scalable Lossless Coding (MPEG-4 SLS) – Parts of it are used in HD-AAC.
- SSC, DST, ALS and SLS reference software (ISO/IEC 14496-5:2001/Amd.10:2007)
- RealAudio Lossless
- RealPlayer
- FFmpeg (decoding only)
- BFDLAC (BFD Lossless Audio Compression). Ongoing development.
- FXpansion's BFD3 drum software. (2013-2017)
Referencie
- MIKUŠ, Ľ.: Efektívna tvorba CBT kurzov, Žilinská univerzita, 2002. – 101 s. + CD-ROM, ISBN 80-7100-995-4
- GRACE, R.: Hudba a zvuk na počítači, GRADA Publishing, 2000, + CD, ISBN 80-7169-519-X