Fórum témák
» Több friss téma |
Fórum » Tömörítés (pl. analógból MP3)
Szeretnék többet tudni, vagy akár csak keveset is, a tömörítési eljárások elméletéről.
Beleolvastam itt a fórumon, miként digitalizálnak analóg jeleket. De ebből egyáltalán nem következik, miként lehet aztán ezt közel tizedére csökkenteni úgy, hogy a minőség mégis csak közel megmarad. Nagyon szívesen olvasnék is róla, de itt csak magyar nyelvű, és lehetőleg elérhető irodalmat ajánljatok, ha egyáltalán létezik ilyen. Ha a kérdés túlzottan együgyű, akkor elnézést kérek, de engem akkor is érdekel, és szégyen ide, vagy oda, nem találtam semmi témába vágó magyarázatot sem itt, sem az internet egyéb részein.
Na ne csináld már! Beírod a guugliba, és ömlik....
Szia! Itt találtam ezt a könyv ajánlatot: az MP3 c. könyvet, amit Ludányi László és Levente írt , és a Kiskapu kiadó adta ki (hogy hol tudjuk elérni...)
Pár sorban elég nehéz ezt úgy leírni, hogy érthető legyen, de pár dolgot érdemes tudni róla.
Az eljárás az emberi hallás sajátosságaira erősen épít. Az egyik ilyen pl. hogy a a fül az 1-2 kHz-es tartományban a legérzékenyebb, máshol viszont sokkal kevésbé, és ott a torzítást is sokkal jobban elviseli. A másik ilyen jelenség az ún. elfedés, ami lehet időbeli vagy frekvenciabeli. Az időbeli elfedés azt jelenti, hogy ha egy rövid ideig tartó erős hang előtt vagy után közvetlenül egy másik, de gyengébb hang szólal meg, akkor azt nem halljuk. Ugyan ez érvényes a frekvenciatartományban: egy adott magasságú erős hang mellett egy frekvenciában közel álló, de gyengébb hangot nem hallunk meg. Nagyon leegyszerűsítve a dolgokat az eljárás egyszerűbb változata (Layer 1,2) a digitalizált jelet 32 részsávra osztja fel a frekvenciatartományban. A jelből FFT (gyors Fourier-transzformáció) segítségével kiszámolja azokat a paraméterket, amikkel az elfedési jelenségek által amúgy sem érzékelhető összetevőket kimaszkolhatja a spektrumból, illetve megállapítja, hogy az egyes sávokban mekkora a jelerősség, amit a sávok felskálázásához használ (gyakorlatilag azonos szintre hozza őket). Az egyes részsávokat külön-külön kvantálja, 15 előre definiált kvantálóból választ. Sávonként eltérő kvantálási felbontást használ, attól függően, hogy mennyire enged meg torzítást a sávban (pl. egy nagyon magas, viszonylag gyenge jelet nem érdemes finom felbontással kvantálni, egy erős, 1,3 kHz-eset viszont igen). Minden sávban a jelet megszorozza a skálafaktorral (amit az FFT után számolt ki), ezáltal kihasználja a kiválasztott kvantáló minden szintjét. A kódolás eredményeit és a kódoláshoz használt paramétereket összecsomagolja és átküldi. A dekódolás fordítva történik, a részsávokat a megadott kvantálási szintekkel visszaállítják, leosztják a skálafaktorral majd egyetlen frekvenciaspektrumba konvertálják és ez lesz a dekódolt PCM jel. Ha bele akarsz mélyedni, akkor van egy könyv, ami elég jól áttekinti az elméletét: Információelmélet, ebben is a 2. fejezet. Hát remélem, nem riasztottalak el... Ballage
És hogy miért érdemes durvább kvantálókat használni: természetesen azért, mert sok bitet lehet így megspórolni, hiszen sokkal kevesebb bittel lehet leírni egy kvantáló szintjeit, ha az csak 8 szintet különböztet meg, szemben mondjuk egy 16000 szintűvel (3 bit vs. 15 bit).
Na, mire leírtam a kis mondókámat, addigra mások már teleírták a topicot... Azért remélem, hogy valamicskét segítettem....
Ja, és bocsánat, visszaolvastam amit írtam, nem a nagy arcom miatt írtam azt, hogy nehéz röviden összefoglalni, hanem, mert tényleg elég hosszadalmas a leírása, mi is csak érintőlegesen tanultuk, a könyv sem megy bele részletesen a szabványba, de pl. az egyes lépéseket (FFT, transzformációs kódolás, kvantálás, stb.) matematikai alapossággal tárgyalja.
Hali!
A többiek nagyjábból leírták hogyan lesz az analóg hangból digitális (PCM), de ugye ez még messze nem MP3. Mint írtad, ez egy tömörítés. Én csak annyit fűznék hozzá hogy még a nem hallható hangok is eltűnnek ilyenkor, így ezzel is kevesebb információt kell eltárolni.
"szívesen olvasnék is róla, de itt csak magyar nyelvű..."
Ha mégis jó az angol nyelvű irodalom, akkor szivesen elküldöm e-mailben.
Elolvastam, világos és érthető.
Viszont nem tagadom, maradtak kétségeim. Mindösszesen 5 dolgot említ, és mintha a lényeg, a legfontosabb alapmomentum hiányozna közülük. Mintha csak az "egyéb trükköket" sorolná fel, de persze ez nagyon bátor kijelentés, hiszen éppen én nem értem miént is van ez. Azért összefoglalva az 5 említett téma: 1. A fül élettani karakterisztikáját veszi alapul a fontos, és kevésbé fontos fogalmának megítélésekor 2. Nem hallható hangok elhagyása 3. A folyamat tárolása helyett, szögfüggvényekkel közelítik annak lefolyását 4. Az ismétlődő részeket csak egyszer tárolják, majd visszahivatokznak rá. 5. A sztereó helyett átlagot tárol, illetve az ehhez képesti különbözőséget oldalanként. Ez mind nagyon ötletes, de valóban ennyi lenne az egész? Ebből kijön a 10%-ra való tömörítés? Próbálom ezt a kvantálási megközelítést is felfogni, de mintha mindenki már eleve misztikumnak tekintené, mintha az felfoghatatlan lenne normális értelemmel. Azért köszönöm az eddigi válaszokat, és várok minden újabb "okosságot" is.
Ha elküldöd, azt megköszönöm, de sajnos az angol nyelvet, főleg műszaki szöveg szintjén nem mondhatom magaménak.
Nekem már annyi is elég lenne, ha valaki megpróbálna egyetlen szinuszhullámon bemutatni nekem, milyen az simán digitálisan tárolva, illetve ehhez képest milyen tömörítve, no és persze milyen lesz ha azt újra "vissza-analogizáljuk" azaz meghallgatjuk. Ezelősegítené a tömörítés "minőségrontó" hatásának racionális megítélését is.
Eloszor a A/D es D/A problemakat kell megismerned . Azt hogy hany fele A/D kodifikalas van, ezeken belul hany fele algoritmus lehetseges .Ezt tomoritik es nem az analog jelet .Tehat ezeket az algorimusokat kene megerteni .Aztan parhuzamossan az akusztikat tanulmanyozni .Es mindezt csak hogy tavolrol kapisgald hogy mirol is van szo.
Tehat az A/D mopdszeeket kell tanulmanyozni. Pld az emlitett szinuszjelet egyetlenegy impulzussal lehet "reprezentalni" es ebbol szurokkel visszaallitani analog jelle.Igy vilahossan belathato hogy egy impulzus sokkal de sokkal keveseb adatot kell tartalmazzon mint a teljes nagyfelbontasu szinuszt megkozelito "lepcsojel" adatai .
Hm... a PCM-re nem az összes leírt hozzászólást értettem...
átkéne nekem is nézni a tanultakat, sajnos nem használom ezeket az információkat és hát felejt az ember |
Bejelentkezés
Hirdetés |