Back to site
Since 2004, our University project has become the Internet's most widespread web hosting directory. Here we like to talk a lot about web servers, web development, networking and security services. It is, after all, our expertise. To make things better we've launched this science section with the free access to educational resources and important scientific material translated to different languages.

ATRAC: Adaptivno Transformirajuće Akustično Kodiranje za MiniDisc

Rezime

 

ATRAC jeste audio sistem za kodiranje baziran na psihoakustičnim principima. Input signal je podeljen na tri bande koje se zatim dele u domen frekvencije koji koristi varijable koje blokiraju dužinu. Koeficijenti transformacije su grupisani kod neuniformisanih bandi koji liče na ljudski audio sistem, a onda se kvantiziraju na osnovu baze dinamične osetljivosti i maskiranih karaktera. ATRAC kompresuje kompakt disk audio na otprilike 1/5 od originalnog datuma kada bukvalno ne dolazi do gubitka u kvalitetu zvuka.

1 Uvod

 

U skorašnje vreme je nastala potražnja na tržištu za portable snimajućim digitalnim audio medijumom. MiniDisc sistem je napravljen da izađe u susret ovim zahtevima. MiniDisc je baziran na 64 mm optičkom ili magneto-optičkom disku koji ima oko 1/5 svog zapreminskog kapaciteta standardnog kompakt diska. Uprkos smanjenom kapacitetu čuvanka, neophodno je da MiniDisc održi visok nivo kvaliteta zvuka i vreme puštanja od 74 minute. ATRAC (Adaptive Transform Acoustic Coding) sistem za kompresiju podataka je dakle dizajniran da izađe u susret sledećim kriterijumima:

Kada digital audio podatak se kompresuje, postoji normalno određena doza kvantizacije koja se uvodi u sam signal. Cilj mnogih sistema za kodiranje zvuka [1-6] jeste kontrola vremenske fregmentacije i distribucija zvuka na takav način da se napravi nečujna ljudskom uhu. Ako se to potpuno uspe, rekonstuisani signal neće biti raspoznatljiv od originala.

Uopšteno, audio kodiranje funkcioniše dekompresijom signala u set jedinica, tako da svaka odgovara određenom vremenskom intervalu i frekvenciji. Koristeći vremensku distribuciju, signal se analizira na osnovu psihoakustičnih principa. Analiza indicira koje jedinice su kritične i moraju se kodirati sa velikom preciznošću, a koje jedinice su manje osetljive i mogu da tolerišu neke propratne zvuke a da ne degradiraju kvalitet zvuka. Na osnovu ovih informacija, dostupni biti su prilagođeni jedinici vremenske ffrekvencije. Spektralni koeficijen kod svake jedinice se kvantizira koristeći određene bite. Kod dekodera, kvantizirani spektar se rekonstruiše na osnovu alokacije bita, a tek onda se sintezira u audio signal.

ATRAC sistem funkcioniše kao što je gore prikazano, sa nekoliko poboljšanja. ATRAC koristi psihoakustični ne samo alokacioni algoritam, ali i deljenje frekvencije u vremenu. Korišćenje ove kombinacije kodiranja i transformacije kodiranja, input signal se analizira podelom frekvencija, čime se naglašava važnost niske frekvencije regiona. Kao dodatak, ATRAC koristi transformacioni dužinski blok koji se prilagođava signalu inputa.

Ovaj članak započinje pregledom važnih psihoakustičnih principa. ATRAC dekoder se zatim objašnjava u smislu deljenja vremeaske frekvencije, kvantizacije koeficijenta spektra, i delića alokacija. Konačno, ATRAC dekoder se opisuje.

2 Psihoakustika

 

2.1 Equi-loudness kriva

 

Osetljivost uha varira od frekvencije. Uho je najosetljivije za frekvenciju u okruženju od 4 kHz; povećava se pritisak zvuka što se tek na 4 kHz primećuje. Uopšteno, dva tona iste snage ali različite frekvencije neće biti podjednako jaka. Uočena jačina zvuka može se iskazati u sonarima, kada 1 son se definiše kao jačina od 40 dB tona na 1 kHz. Equi-loudness kriva sa nekoliko stepena jačine prikazana je u Figuri 1. Kriva označena sa "hearing threshold in quiet" ukazuje na najmanji nivo (po definiciji, 0 son) kada uho može da detektuje ton na datoj frekvenciji.

Ove krive ukazuju da je uho osteljivije na neke frekvencije nego na druge. Poremećaji na određenim frekvencijama manje će se primetiti nego osetljive frekvencije.

 

2.2 Maskiranje

 

Maskiranje [7] se dešava kada se jedan zvuk slučajno spoji sa drugim. Simultano maskiranje se dešava kada se dva zvuka poklope, kao kod konverzacije (maskirani signal) koja postaje nečujna za vreme prolaska voza (masker). Maskiranje unatraške događa se kada maskirani signal završava pre nego počne maskiranje, maskiranje unapred počinje kada maskirani signal započne posle završetka maskiranja.

Maskiranje postaje jače kada se dva zvuka spoje vremenski i po pitanju frekvencije. na primer, simultano mskiranje je jače nego maskiranje unazad ili unapred jer su u tom slučaju dva spojena zvuka. Kada izvodimo eksperimente u pitanju je uzak izbor belih zvukova, kada se meri granica čujnosti kod različitih frekvencija i vremensle razlike. Primeri za simultano i povreeno maskiranje nalaze se odvojeno kod Figure 2 i Figure 3.

Važan zaključak se može izvući iz ovih grafikona. Prvo, simultno maskiranje je efektinije kada je frekvencija maskiranog signala podjednaka ili visočija od maskera. Drugo, dok je unapredno maskiranje fektivnije neko vreme nakon što je masker zasto, unazadno maskiranje može da bude efektno samo za manje od 2 or 3 ms pre nego se pokrene masker.

 

2.3 Kritične grupe

 

Pojam kritične grupe [7] dolazi od ideje da uho analizira opseg čujnih frekvencija koristeći set podgrupa. Frekvencija kod kritičnih grupa ista je kao kod percepcije uha, i procesuira se drugačije od kritičnih kategorija. Kritične kategorije nastaju prirodno iz eksperimenata ljudskog sluha i mogu se podeliti po distribuciji senzornih ćelija unutrašnjeg uha. Kritične grupemogu se shvatiti kao frekvencija koje uho koristi. [8].

Kritična skala rupa prikazana je u Tabeli 1. Jasno je da su kritične grupe mnogo uže na manjim frekvencijama nego na jačim frekvencijama; zapravo tri četvrtine kritičnih grupa se locira ispod 5 kHz. To znači da uho prima više informacoja sa nižih frekvencija, a manje sa viših..

Table 1: Discrete critical bands [7]
Kritične
grupe
Frekvencija (Hz) Kritične
grupe
Frekvencija (Hz)
niskovisokodugačko niskovisokodugačko
0 0 100 100 13 2000 2320 320
1 100 200 100 14 2320 2700 380
2 200 300 100 15 2700 3150 450
3 300 400 100 16 3150 3700 550
4 400 510 110 17 3700 4400 700
5 510 630 120 18 4400 5300 900
6 630 770 140 19 5300 6400 1100
7 770 920 150 20 6400 7700 1300
8 920 1080 160 21 7700 9500 1800
9 1080 1270 190 22 9500 12000 2500
10 1270 1480 210 23 12000 15500 3500
11 1480 1720 240 24 15500 22050 6550
12 1720 2000 280

3 ATRAC dekoder

 

Blokirani diagram kodirane strukture prikazan je u Figuri 4. Dekoder ima tri komponente. Blok za analizu rastavlja signal na spektar grupiranih koeficijenata kod Block Floating jedinica (BFU's). Blok za alokaciju delova deli dostupne delove među BFU,Blok za kvantizaciju kvantizir svaki spektralni koeficijent na određene dužine reči..

3.1 Analiza vremenske frekvencije

 

Ovaj blok (Figura 6) generiše BFU na tri dela, kombinovanjem tehnike sa pod delova kodiranja i transformcionog kodiranja. Prvo, signal signal se deli na tri pod grupe: 0-5.5 kHz, 5.5-11 kHz, i 11-22 kHz.Svaka od ovih pod grupa transformiše se u određeni domen frekvencije, tako proizvodeći niz spektralnog koeficijenta. Konačno, ti spektralni koeficijneti se grupišu u BFU.

Dekompozicija pod grupa se vrši koristeći Quadrature Mirror Filters (QMF's) [0-10]. Input signala se deli na visoku i nisku frekvenciju po prvom QMF, tako da grupa sa nižo, frekvencijom se dalje deli na drugi QMF. Korišćenje QMF potvrđuje da vremenski domen koji je izazvan pod grupnom dekompozicijom opozvaće se za vreme rekonstrukcije.

Svaka od ovih podgrupa se zatim transformiše u domen frekvencije koristeći Modified Discrete Cosine Transform (MDCT) [11-12]. MDCT dozvoljava do 50% preklsapanja između vfremeskog domena, što dovodi do poboljšane frekvencije rezolucije dok se održava kritičan primer. Umesto fiksirane dužine transformacije, ATRACodabira blok dužine zavisno od karaltera signala svake grupe. Postoji dva načina: dugačak (11.6 ms) i kratak (1.45 ms ikod grupne frekvencije, 2.9 ms kod drugih). Normalno, dugačak način se koristi kod dobre rezolucije frekvencije. Ipak, problem može da nastane za vreme napada signala. Naročito, buka kvantizacije se širi po celom signalnom bloku, tako da je inicijalni zvuk kvantizcije prigušen (Figura 8a); ovaj problemse zove pre-eho. Da bi se sprečio pre-eho, ATRAC prebacuje na kratak način(Figura 8b) kada uoči siganl napada. U ovom slučaju, pošto postoji samo jedan kraći segment buke pre napada, buka će biti zamaskirana unarašnjim maskiranjem (sekcija 22). Unagtrašnje maskiranje nije efektivno za Long Mode jer ima kratko trajanje. Tako da, ATRAC postiže efektivno kodiranje kod stacioniranih regiona, dok odgovara brzo na prolazne prolaze.

Imajte na umu da kraći način nije neophodan za propadanje signala, jer zvuk kavnizacije će biti maskiran maskiranjem koje traje mnogo duže nego unatrašnje maskoiranje. Da bi se postigla maksimalna fleksibilnost, način blokiranja veličine ,ože se odabrati nezavisno od svake grupe.

MDCT spektralni koeficijenti se zatim grupišu u BFU. Svaka jedinica sadrži fiksiran broj koeficijenta; u ovom slučaju dugaćak način, koga jedinica reflektuje kao 11.6 ms grupe uske frekvencije; u slučaju ratkog načina, svaki blok reflektuje kraće vreme, ali šira frekvencija je grupna. (Figura 9). Imajte na umu da je koncentracija BFU veća na manjoj frekvenciji nego na većoj frekvenciji; ovo reflektuje psihoakustične karalteristike ljudskog uha..

3.2 Spektralna kvantizacija

 

Spektralne vrednosti se kvantifikuju korišćenjem dva parametra: dužina reči i faktor skaliranja. Faktor skaliranja definiše potpunu vrednost kvantizacije korišćenjem dva paramtera: dmžinu reči i faktor skaliranja. faktor skaloranja definiše potpunu vrednost kvantizacije, dužina reči efiniše preciznost sa kojom sw radi unutar skale. Svaki BFU ima istu dužinu reči i faktor skaliranja, koji se odnosi na psihoakustičnu sličnost grupnih frekvencija.

Faktor skaliranja se bira iz fiksirane liste mogućnosti, i odražava magnitudu spektralnog koeficijenta svakog BFU. Dužina reči se određuje na osnovu alokacije algoritma (sekcija 3.3).

Za svaki okvir zvuka (odgovarajuće 512 input pojeni), sledeća informacija se čiuva na disku:

Da bi se garantovala tačnost rekonstrukcije signala inputa, kritični podaci kao što je veličina bloka, dužina reči i faktor skaliranja mogu da se sačuvaju odvojeno. Informacije o veličini podataka se čuvaju na disku.

 

3.3 Alokacija bita

 

Algoritam za alokaciju bita deli dostupne podatke među različitim BFU. jedinoce sa velikim brojem bita imaće malo buke kod kvantizacije; jedinice sa nekoliko ili nimalo bita imaće značajne kvantifikacije buke. Za dobar kvalitet zvuka, algoritam alokacije mora da osigura kritične jedinice da imaju dovoljno bita, i da bika nike kritična i nije toliko značajna.

ATRAC ne određuje alokaciju algorotma; svaki odgovarajući algoritam se može koristiti. Dužina reči bilo kog BFUčuva se na MiniDisc zajedno sa spektrom kvantifikacije, tako da je dekoder čpotpuno nezavistan od algorizma alokacije. Ovo vodi ka evolucionanom poboljšanji dekodiranja bez menjanja MiniDisc formata dekodera.

Postoji mnogo mogućih algoritmova, koji variraju od najjednostavnijih do najkomplikovanijih. Ipak, ATRAC je sposoban za dobra kvalitet zvuka korišćenjem veoma jednostavnog algoritma alokacije, a da je zvuk baziran korišćenjem jednostavnijih alokacija alogoritma, a da je zvuk baziran na psihoakustičnom principu. ATRAC nije uniformisan i adaptivan je za vremenske frekvencije i strukture koje su već bazirane na psihokustici, imajući u vidu deo algoritma alokacije.

Jedan predloženi algoritam koristi kombinaciju fiksiranih i pokretnih bitova. Fiksirani bitovi naglašavaju važnost niske frekvencije regiona, na taj način dodavajući bite BFU kod većih frekvencija. Biti varijabli su alocirani zavisno od algoritama spektralnog koeficijenta svakog BFU. Potpuna alokacija bita btot jeste izmerena suma fiksiranih bita bfix(k) i različitih bita bvar(k). Tako da za svaki BFU k,

btot(k) = Tbvar + (1-T)bfix

Težina T je mera tonaliteta signala, tako da je vrednost približna 1za čiste tonove, i blizu 0 za bele tonove. To znači da je proporcija fiksiranih i različitih bita sama po sebi varijabla. tako da, za čiste tonove dostupni bitovi će biti koncentrisani na manje brojeve BFU. Za signale sa većom bukom, algoritam će da naglašava fiksirane bite da bi smanjio broj bita alociranih na intezivnoj visokoj frekvenci

Gore navedena jednsačina ne odnosi se na veći broj bitova, i generalno će alocirati više bita nego što je to moguće. Da bi se osigurala fiksna rata, i poređenjet boff (isto za sve BFU) je kalkulisano. Ta vrednost je izvučena iz btot(k) za svaku jedinicu, dajući konačan bit alokacije b(k):

b(k) = integer{btot(k)-boff}

Ako se generisanjem izvuče negativna dužina reči, onda BFU alocira 0 bita. Ovaj algoritam je prikazan na Figuri 10.

4 ATRAC Dekoder

 

Blok diagrama strukture dekodera je prikazan u Figuri 5. dekoder prvo rekonstruira MDCT spektralni koeficijent za vrednost kvantizacije, korišćenjem dužine reči i skalarnog fakotra parametara. Ovi spektralni koeficijenti se zatim koriste da rekonstruišu originalan audio signal (Figura 7). Koeficijent se zatim transformiše nazad u domen obrnutim MDCT (IMDCT) korišćenjem ili dugog načina ili kratkog načina koji je označen kod parametara. Konačno, tripl domen signali se sintetišu kod autputa signala kod QMF sintesis filtera.

5 Zaključak

 

Tokom kombinacije različitih tehnika uključujući psihoakustiku, podgrupno kodiranje i transformijsko kodiranje, ATRAC je uspeo da kodira digital audio sa skoro nikakvo percepcijskom degradacijom kvalitetu zvuka. Test slušanja ukazuje na razlike među ATRAC zvukom i originalnim zvukom koji nije naročito iritirajući, niti smanjuje kvalitet zvuka. Štaviše, sistem je potuno kompaktan da bi se instalirao kod portabl potrošačkih aparata. Korišćenjem ATRAC, MiniDisc vam pruža praktična rešenja za portabl digital audio.





Published (Last edited): 27-03-2013 , source: http://www.minidisc.org/aes_atrac.html