MP3의 압축 원리에 대하여

시작페이지로

즐겨찾기추가

CASTLE , JBL , AUDIOLAB , S4600 , TUNER

상세보기

MP3의 압축 원리에 대하여

HIFI게시판 > 상세보기

2012-09-06 21:39:45

제목

MP3의 압축 원리에 대하여

글쓴이

손일철 [가입일자 : 2002-01-18]

내용

근래에 MP3의 음질구별 논란이 있기에,
MP3는 어떠한 원리로 최대한 청각상 구분이 안되면서 용량을 줄일 수 있는지,
그 원리에 대하여 적어볼까 합니다.
무손실과 320K간의 차이를 구분할 수 있다 없다의 주장을 떠나,
알아두면 문제의 이해에 좀 도움이 되지 않을까 싶습니다.

아날로그 파형을 디지틀로 전환하는 데에는 두 가지 요소가 있습니다.

하나는 sampling 이고, 하나는 quantization(양자화) 입니다.

상기 그림에서, 가로축이 sampling 입니다.
이를 보다 잘게 자를수록 sampling rate 가 높다 합니다.
CD의 규격인 44.1kHz는 1초에 44100번 sampling을 한다는 얘기입니다.
Nyquist-Shannon sampling 이론에 의거하여,
44.1kHz의 절반인 22.05kHz 까지 재생영역의 한계가 됩니다.
가청주파수 한계가 20kHz 이므로, CD는 가청주파수까지 정보를 담고 있다고 얘기합니다.

상기 그림에서, 세로축이 양자화 입니다.
이를 보다 잘게 자를수록 비트수가 높다 합니다.
16비트, 18비트, 24비트... 이 얘기는 얼마나 잘게 양자화를 시키느냐를 나타냅니다.
CD는 16비트이죠. 이는 한 샘플당 2의 16승, 곧 65536 단계로 음의 강약을 표현한다는 얘기입니다.
만약 18비트라면 2의 18승, 곧 262144 단계가 되니, 2비트 차이가 실제로는 참 큽니다.

그러므로, Sampling rate가 높고, 보다 잘게 양자화시킬수록, 보다 아날로그 파형(원음)에 가까워집니다.
즉, DA컨버팅시 보간의 과정을 통해 smoothing 시킬 때, 보다 원래의 파형과 같게 복원이 가능하게 됩니다.

320K라 함은 Sampling rate에 sample당 양자화 비트수를 곱한것이 320k라는 것이며, 단위는 bit/sec(bps)입니다.
그럼 CD는 몇 bps 일까요?
Sampling rate 44,100, 양자화 비트수 16, 체널수 2
= 44,100 x 16 x 2 = 1,411,200
즉, 1,411k 입니다. 곧 320k 대비 4.4배의 비트수를 가집니다.

참고로, 음원 한 곡의 총 sampling rate와 양자화 비트수를 곱하면 이것이 음원의 용량이 됩니다.
Sampling rate 44,100, 양자화 비트수 16, 체널수 2, 재생시간 200초, 1byte는 8bit
= 44,100 x 16 x 2 x 200 / 8 = 35.3 Mbyte

이와 같이, CD를 MP3 320k로 압축하면 1411k가 320k로 줄게 되므로,
320k는 CD에 담긴 음악정보 중 77%가 삭제되고 남은 23%의 정보에 불과한 것입니다.

그런데 어떻게 그럼에도 청감상 구분이 힘들 정도로 음질이 괜찮을까요...

그것은 마스킹효과를 이용하기 때문입니다.

마스킹효과란,
내가 앞사람과 얘기하고 있는데, 갑자기 옆사람이 큰 소리를 낼 경우,
앞사람의 소리가 잘 안들리는 현상이 한 예입니다.

사람은 특정 주파수 대역의 음량이 강하면 그 주변 주파수 대역은 잘 못듣게 됩니다.
그리고 특정 시간대에 큰 소리가 나면 사람은 그 바로 앞의 소리의 기억을 잊어버리고 바로 뒤의 소리는 귀의 역치가 높아져 잠시 듣지 못하게 됩니다.

MP3 변환의 알고리즘은,
음원을 분석하여 이 두 가지 마스킹 효과에 의해 잘 못듣는다고 판단되는 부분의 정보를 삭제해 버리는 것입니다.(손실압축)
그리고나서 비손실압축을 한번 더 걸어 용량을 조금 더 줄입니다. 그 결과 용량은 비트수 차이보다 조금 더 작아집니다.

그러나 이 마스킹 효과는 사람에 따라 그 민감도에 차이가 있으므로,
똑같은 압축률이라도 어떤 이에게는 차이가 들릴 수 있고, 어떤 이에게는 차이가 들리지 않을 수도 있으며, 어떤이에게는 큰 차이로, 어떤 이에게는 작은 차이로 들릴 수도 있을 것입니다.

참고가 되셨길 바랍니다.
혹시 제가 잘못 설명한 부분이 있으면 지적해 주시면 감사하겠습니다.

이종남

2012-09-06 21:45:13

답글

정확하네요.... 
 
그런데. 마스킹효과를 이야기 했으면 칵테일효과도 설명을 했으면 더 좋았을 터인데... 
이 두개가 서로 반대되는 성격을 갖고 있고... 또 인간 청각이 갖고 있는 신기한 능력입니다....^^ 
 
시끄러운 공사판에서 아이가 아무리 빽빽 울어도. 잘 들리지 않는 것이 마스킹효과입니다... 
 
그런데. 신기하게... 아이엄마는 그 시끄러운 공사판에서

손일철

2012-09-06 21:47:34

답글

칵테일 효과란 듣고 싶은 소리를 골라 들을 수 있는 능력이죠. 따라서 훈련을 통해 개발되어질 수 있는 부분이 아닐까 싶습니다.

이종남

2012-09-06 21:56:16

답글

즉 다시 이야기하면.. 공사판의 시끄러운 소음에서 울고 있는 아이울음을 녹음을 해서.. 
그것이 wav로 표기가 되면 아이 엄마는.... 아이 울음소리를 들을 수 있습니다... 
 
그런데 이 wav를 mp3로 바꾸어 버리면.. 아이엄마는 아이울음소리를 들을 수 없을 수도 있습니다.. 
왜냐하면mp3의 압축원리가 그러니까요... 
 
그 차이입니다....

장명호

2012-09-06 22:01:22

답글

놀랍지도 않네요. 
완벽히 잘못된 내용입니다.

이종남

2012-09-06 22:02:54

답글

하하하하.... 
 
요즘 와싸다 하이파이게시판은 밑도 끝도 이유도 없이 그냥 우기는 것이 유행처럼 번졌어요.....

신용선

2012-09-06 22:19:22

답글

좋은 글이네요.... 감사합니다. 알기쉽게 써주셔서... 
그러면 320k보다 128k는 어떻게 더 용량을 줄이는 건가요? 
마스킹시 제거하는 부분을 더 많이 잡아주는건가요?

이종남

2012-09-06 22:33:02

답글

제가 항상 청각 시각 같은 감각은. 녹음기나.. 사진기와는 원리는 비슷하지만 성격이 완전 달라서.... 말단의 성격을 갖고 있으면서.. 동시에.. 중추의 성분도 갖고 있다고 이야기 하지요...... 이미 오래전에 증명이 된 것입니다.. 아주 아주 오래전에 호랑이 담배피던 시절부터요.. 
 
그 중추의 성분중 가장 대표적인 것이 칵테일 효과입니다.. 다른 것은 귀에 안들어오고.. 오직 아이 울음소리.. 시야에 있는 다른 것은

임재욱

2012-09-06 22:33:39

답글

칵테일효과는 칵테일파티효과가 맞는말이고 아무리 여러사람이 떠들어도 자기가 관심있는 말을 구별해서 들을수 있는 현상 아닌가요? 반복에의해 습득되는 것이 아닌것으로 알고 있는데 더 개발가능한 인간의 능력도 아니지않나요? 심리학에서 배운 기억이 나네요.

이종남

2012-09-06 22:35:57

답글

원래부터 갖고 있는 능력입니다. 다만 집중을 하거나... 반복된 경험으로 그 능력은 배가가 되지요... 
 
가령... 엄청난... 오케스트라의 음량속에서도.. 지휘자는 아주 작은 악기 소리의 오류를 바로 잡아낼 수 있는 능력.. 대표적인 칵테일효과입니다...

임재욱

2012-09-06 22:39:55

답글

예를 들어 주시니 능력? 이 될수도 있겠다 생각이드네요. 용어는 칵테일파티효과 가 맞습니다^^

이종남

2012-09-06 22:45:01

답글

파티가 들어가나요?? 제가 원래 정확한 용어에는 좀 약해서리...... ^^ 
 
그럼... MP3와 Wav를 왜 구분하는 사람이 있고. 구분하지 못하는 사람이 있는지... 대충은 알겠지요??? 
 
또 어떤식으로 듣는 사람은.. 구분이 쉽게 될까도. 유추가 될터이고요....

김준혁

2012-09-06 22:45:11

답글

320k 단위는 바이트가 아니고 비트퍼섹크 용량은 단위시간당 비트 곱하기 시간 아닌가요??

이종남

2012-09-06 22:47:08

답글

또 오디오에서 분해능이라고 많이들 이야기 하지요... 
 
그럼 분해능이 좋은 오디오라면... 구분이 더 잘되겠지요??? 
 
분해능이 빵점인 오디오는.. 아무리... 반복 훈련이 잘 된 사람이라도... 구분하기 힘들 터이고요...

김준혁

2012-09-06 22:52:07

답글

그리고 제가 mp3 코덱을 잘몰겠는데 한채널당 44100일것 같은데요. 원래 두배로 샘플링 해야되잖아요.

kdugi3@naver.com

2012-09-06 22:57:19

답글

아 요런 양질의 글만 나오면 좋겟어요 항상 종남 을쉰과 인철님 글 보면 많이배우네요^.^

박영란

2012-09-06 22:59:09

답글

결국..사이코어쿠스틱으로 가네요.. 
공학/생리학/심리학 지식이 통합된 과목입니다. 융합기술과목이라고 하지요. 
 
글고 보통은 사운드 엔지니어들이 사이코어쿠스틱을 공부합니다만. 피상적인 수준에서만 합니다. 
귀의 구조부터 시작해...하스효과 바이노럴 이펙트, 칵테일효과, 마스킹.... 핵심적인 것만 배우죠 
관련 논문 꽤 읽어봤지만 이쪽도 제대로 할라치면 그 학문적 깊이가 장난 아니더라는

이종남

2012-09-06 22:59:39

답글

MP3는 압축하는 알골리즘이고요.. 그것을 소리로 만들려면 다시 16비트 PCM로 변환을 시켜야 합니다.. 
 
즉 소리로 만들기 위해서.. 나가는 샘플링레이트는 어차피 wav와 같습니다... 좀 생략이 많이된 샘플들이 나가서 그렇지요.. 
 
역시 flac도 마찬가지입니다. 이게 소리로 만들어질려면 어차피 PCM으로 바뀌어야 하고. 그 신호가 DAC에서 아날로그신호로 변환이 되고요.. 대신 flac

김신우

2012-09-06 23:32:52

답글

뭐 중요한 내용은 아니지만 441000이 아니라 44100Hz 입니다. 그리고 채널당 각각 44.1KHz입니다. 
20KHz를 재생하려면 40KHz 이상의 샘플링 레이트가 필요합니다. 
아인슈타인이 그랬다죠. 이론을 정확히 이해하고 있는 사람은 유치원생에게도 양자역학을 알아들을수 있도록 설명할수 있어야 한다고.. 그런 의미에서 이 글은 상당히 좋은 글이라 생각합니다. 
MP3도 양자화와 샘플링 레이트를 여러

김신우

2012-09-06 23:47:25

답글

원래 MP3은 MPEG에서 정한 압축 방식으로 동영상 압축 방식과도 유사합니다. 동영상에서는 특정 주파수 대역을 잘라내는데요, 저는 처음에 동영상에 주파수가 무슨 말인가 의아해 했는데 시간축에서의 밝기를 의미하는 말이더군요. 동영상에서 어두운 부분의 작은 밝기 변화와 순간적인 빠른 밝기 변화는 사람이 그부분을 일부러 찾아내려고 하지 않으면 알아채기 힘듦니다. 그런 부분의 변화를 빼버리는게 MPEG 압축의 핵심입니다. 
소리에서도 마

이종남

2012-09-06 23:51:57

답글

저도 하두 오래전에 공부를 한 내용이라 자세한 기억은 안나는데.. 칵테일효과는 대충 이런 원리입니다. 
 
빛에 의한 시각이든.. 음파에 의한 청각이든... 중추성분이 있는 것은 형상화능력을 말합니다... 
즉 아주 익숙하거나.. 듣고 싶은 신호의 패턴을 시각이나 청각세포들이 형상화를 해서 기억을 하고 있다는 것이지요.. 그래서. 이런 패턴의 신호가 들어오면... 다른 것보다는 강도가 약해도 훨씬 민감하게 반응을

이종남

2012-09-07 00:02:47

답글

아주 오래전에 농담처럼 해오던 이야기인데.. 이런 비슷한 경험 분명 다들 있을껍니다.. 
 
어떤 여자의사가... 결혼을 해서. 신혼여행을 갔답니다.. 호텔에서... 남편이 잠깐.. 밖에 나간 중에 잠이 들었는데.. 워낙 잠귀도 어둡고.. 피곤도 해서...... 아무리 문을 두드리고... 고함을 지르고 해도. 절대 일어나질 않아서.. 
 
남편이 혹시나.......... 걱정이 되어서.. 프론트로 가서

김신우

2012-09-07 00:05:55

답글

칵테일 효과는 마치 그런 겁니다. 우리나라 사람은 술취한 친구가 잠결에 혀꼬부러진 소리로 웅얼웅얼 이야기 해도 다 알아듣지요. 그런데 영어는 10년을 배워도 싱가포르 억양, 유럽 억양, 남미 억양 알아듣기 힘들죠..

김신우

2012-09-07 00:06:48

답글

이종남님께서 전문적으로 설명을 해 주셨네요..ㅋ

장명호

2012-09-07 00:14:54

답글

ㅋㅋㅋㅋ 굿나잇.

강창균

2012-09-07 00:19:58

답글

김신우님이 정확히 해주셨네요. 가청 주파수 20kHz 정확히는 22050Hz를 샘플링 할때 보다 정확한 샘플링을 위해 2배수인 44100을 샘플링 한거죠 
 
16비트에 곱하고 스테레오를 감안해 이배수하면WAV화일의 비트전송률 1411k가 나오게 되죠 다들 알고계시 겠지만 
 
손일철님 글은 언제나 간결하고 명쾌하여 제가 항상 배웁니다 
 
이종남님이 말씀하신 칵테일효과

이후용

2012-09-07 00:35:36

답글

와~ 속이 다 후련해 지네요 
sampling 과 quantization 그리고 마스킹효과와 칵테일효과 
정말 유익했습니다 ~ㅎㅎ

손일철

2012-09-07 02:08:46

답글

김준혁님, 강창균님, 김신우님 지적에 따라 분문 내용 수정하였습니다. 비전공자로서 줏어들은 지식으로 쓴 글인데 좋게 봐 주셔서 감사합니다.

장명호

2012-09-07 05:12:08

답글

여전히 완전히 틀립니다. 총체적 난국이네요.

vh1904@daum.net

2012-09-07 06:47:13

답글

제가 한 실험의 원본 cd와 복사 cd의 블라인드 테스트(고급 헤드폰)를 하면 대부분의 사람이 맞출겁니다. 
 
투명도나 디테일에서 조금 차이가 나기 때문이죠. 
 
제가 실험을 해본건 mp3가 손실 압축이라는데 다시 오디오cd로 만들어보니까 
 
원본cd와 5%(전문가는 10%정도 줄것 같음)정도의 품질차이밖에 안나더라는 점입니다. 
 
이론대로라면

이종남

2012-09-07 09:25:04

답글

강창균님// 
 
감각의 게이팅은 MP3의 원리라고 보기에는 조금 어폐가 있습니다... 
 
게이팅은. 세상... 자극은 너무 많습니다. 필요한 자극도 있고 필요없는 자극도 있고요.... 그럼 인간은 모든 자극에 다 반응을 할 필요는 없습니다... 그럼 너무 피곤해지지요.. 그래서 그런 자극은 적당히 차단을 해주는 것이 게이팅입니다. 물론 이것이 잘못되면... 환각이나 환청이 들리기도 합니다.. <

손일철

2012-09-07 09:28:17

답글

내용상 부족한 부분이 있어, 레퍼런스를 참조하여 내용 보완하였습니다.

손일철

2012-09-07 09:43:36

답글

음악정보의 4분의 3을 제거해도 귀로 구분이 쉽지 않을만큼 마스킹효과란 것이 이렇게 무서운데, 
실제 청음시 오디오시스템의 밸런스가 평탄하지 않으면 또 마스킹효과가 발생하여 
그나마 그렇게 필터링되고 남은 4분의 1의 정보 조차도 다 들을 수가 없게 됩니다. 
슬픈 현실이죠...^^

장명호

2012-09-07 09:47:34

답글

조금 나아지긴 했는데 여전히 틀렸습니다. 
용어가 어떤 의미를 가지는지 모르고 적당히 들은 것으로 가져다 붙인 글 아래서 이런 이야기 나오는게 희극적으로 보이네요. 
 
대강 비유하면 
본문: 곱하기는 더하기를 45도 회전 변환한 연산이다. 
댓글: 회전 변환에 허수 개념이 들어가는데 허수는 상상의 수니까 곱하기를 하려면 상상력이 필요하다. 
 
요런 느낌이에요

이종남

2012-09-07 10:17:21

답글

우리가 쉽게..... 음악감상을 하거나.. 그림감상을 할 때.. 
 
"아는 만큼 보인다.." 혹은 "아는 만큼 들린다.." 는 실제 있는 현상입니다.. 
 
감각의 집중과.. 차단효과 때문에 그렇습니다.. Auditory gating은 이런 현상의 하나일 뿐입니다.. 
실제로. 전문가가 음악을 듣거나.. 그림을 볼 때 나오는 신경전달물질의 양이나 패턴은 초보자의 것과 다르게 측정이 되

김덕현

2012-09-07 10:26:52

답글

아주 쉽게 설명을 잘 하셨습니다... 한번 읽으니 정리가 되는 느낌입니다. 
글 중간쯤 용량 계산시 "1byte는 1bit " 가 아니고 "1byte는 8bit" 가 맞겠죠?

이종남

2012-09-07 10:28:59

답글

가끔 보면.. 좀 심한 말로..... 디지털 망상에 사로잡히신 분이 계시기도 한데...(여기서도 보입니다..) 
 
인간의 감각을 이해하면 각종 공학적 프로시져가 이해가 잘 됩니다... 또 아날로그 오디오를 섭렵을 하면.. 디지털오디오의 원리는 진짜 쉬어지지요.. 
 
왜냐하면 원리가 다 인체의 감각의 원리를 가지고 따 온 것이고. 다시 아날로그를 수치화 한것이 디지털이거든요.. 이 과정에서 무엇이

이종남

2012-09-07 10:37:22

답글

즉 아날로그오디오도 사람이 만든 메카니즘이고. 디지털도 사람이 만든 메카니즘입니다.. 하지만 그 내부를 보면 조금 다릅니다.. 
 
아날로그 오디오는 최대한 인간의 감각과 비슷하게 만들려고 한 것이고.. 디지털은 아날로그신호의 관리에서 불편함을 줄일려고 만든 목적이 더 큽니다.... 관리에 주로 목적을 두다 보니까. 아주 사소한 것은... 잃어버리는 것도 있고... 또 전혀 생각하지도 못한 문제가 튀어나오기도 하지요....

이종남

2012-09-07 10:52:38

답글

그 대표적인 예가 바로 MP3와 16비트 PCM과 24비트 PCM의 노이즈 레벨의 상이성입니다.... 
전부다 무음이라는 약속된 코드입니다만. 이것을 실제로 측정을 해봤더니.. 다 같은 무음이 아니라는 것이지요.. 
디지털은 약속이고.... 다 같아야 하는데.. 같지 않다는 것은 디지털의 가장 중요한 덕목인 약속이 허물어지는 순간입니다... 
 
전혀 생각지 못한 문제입니다... 즉 수치화에 따른..

jocool@dreamwiz.com

2012-09-07 10:58:15

답글

1byte=8bit 아닌가요?

장명호

2012-09-07 11:03:59

답글

참고로 제가 틀렸다고 말하는 것은 오타나 수치, 계산 실수 같은 단순한 실수를 말하는게 아니에요. 
글쓰다보면 bit, byte 헛갈릴 수도 있고, 0 하나 더 붙이는 실수를 할 수도 있는거죠. 그런 사소한 실수를 붙들고 늘어지는 치졸한 짓은 안 합니다. 
 
문제는 개념 이해 수준에서 틀렸다는 것이고, 전체적인 이해를 못한 상태에서 주워들은 것을 끼워 맞췄다는 증거가 되는 것이죠. 
몇가지 지적에 많

권태훈

2012-09-07 11:48:26

답글

장명호님께, 제가 보기에는 mp3관련 이론에서 버퍼콘트롤 부분이 생략된것을 제외하고서는 크게 틀린 부분이 없다고 보여지는데, 무엇을 틀렸다고 하시는건지 궁금합니다.

장명호

2012-09-07 11:51:58

답글

제 목표는 잘못된 정보를 바로 잡는게 아닙니다. 이 희극적인 상황을 즐기고 있는거죠. 
글세요? 뭐가 틀렸을까요?

이종남

2012-09-07 11:57:22

답글

사람은 트집을 잡고는 싶은데. 잡을 만한 것이 없으면. 참 안타까워지지요.... 
 
문답형으로 가는 것도.. 진짜 답을 알고 문답형으로 가는 형태와..... 
똥인지 된장인지........ 자기도 모른채 문답형으로 가는 경우는 딱 보면 압니다.... 
 
그냥 시간 때우고. 심술좀 부려보고 싶다는 것으로 전 해석이 됩니다........ ^^

장성원

2012-09-07 12:01:32

답글

장명호님의 태도가 틀렸지요... 
 
희극적 상황을 즐기려면 그냥 즐기시면 됩니다. 
중간중간 비아냥거리는 댓글 끼워넣지 마시고요. 
틀렸다...그것도 완벽히 틀렸다라고 말을 할거면 
누군하 무엇이 틀렸는지 문의했을때 답은 해주셔야 하지 않을까요? 
 
글세요? 머가 틀렸을까요?라고 할게 아니라...

장명호

2012-09-07 12:08:03

답글

제 태도도 틀렸을거에요. ^^; 
어짜피 하게판 엉망된거야 오래된 일인걸요.

이종남

2012-09-07 12:09:16

답글

장명호님도 조성일님과 점점 닮아갑니다... 
 
하게판 유행병이에요...........ㅎㅎㅎㅎㅎ

장윤성

2012-09-07 13:21:25

답글

여기에도 재미난 댓글이 많이 있었군요..

wind180@naver.com

2012-09-07 13:43:27

답글

좋은 글 잘 읽었습니다. 
제가 보기엔 정확합니다.^^

강창균

2012-09-07 15:27:12

답글

굳이 정정할 부분을 생각해 본다면, 양자화에 대한 설명이 좀 조정가능 하겠군요. 
 
용어는 양자화로 하셨지만 설명은 PCM encoding에 대한 내용인 듯 합니다. 양자화는 진폭축으로 이산값을 처리한다고 되어있으니 sampling 표본을 정수화 하는 개념에 가깝고 16bit 를 양자화의 개념으로 설명하기엔 적합하지 않을 수 있을듯 합니다. (맞나요?) 
 
그러므로 음악신호를 디지탈 PCM으