근래에 MP3의 음질구별 논란이 있기에,
MP3는 어떠한 원리로 최대한 청각상 구분이 안되면서 용량을 줄일 수 있는지,
그 원리에 대하여 적어볼까 합니다.
무손실과 320K간의 차이를 구분할 수 있다 없다의 주장을 떠나,
알아두면 문제의 이해에 좀 도움이 되지 않을까 싶습니다.
아날로그 파형을 디지틀로 전환하는 데에는 두 가지 요소가 있습니다.
하나는 sampling 이고, 하나는 quantization(양자화) 입니다.
상기 그림에서, 가로축이 sampling 입니다.
이를 보다 잘게 자를수록 sampling rate 가 높다 합니다.
CD의 규격인 44.1kHz는 1초에 44100번 sampling을 한다는 얘기입니다.
Nyquist-Shannon sampling 이론에 의거하여,
44.1kHz의 절반인 22.05kHz 까지 재생영역의 한계가 됩니다.
가청주파수 한계가 20kHz 이므로, CD는 가청주파수까지 정보를 담고 있다고 얘기합니다.
상기 그림에서, 세로축이 양자화 입니다.
이를 보다 잘게 자를수록 비트수가 높다 합니다.
16비트, 18비트, 24비트... 이 얘기는 얼마나 잘게 양자화를 시키느냐를 나타냅니다.
CD는 16비트이죠. 이는 한 샘플당 2의 16승, 곧 65536 단계로 음의 강약을 표현한다는 얘기입니다.
만약 18비트라면 2의 18승, 곧 262144 단계가 되니, 2비트 차이가 실제로는 참 큽니다.
그러므로, Sampling rate가 높고, 보다 잘게 양자화시킬수록, 보다 아날로그 파형(원음)에 가까워집니다.
즉, DA컨버팅시 보간의 과정을 통해 smoothing 시킬 때, 보다 원래의 파형과 같게 복원이 가능하게 됩니다.
320K라 함은 Sampling rate에 sample당 양자화 비트수를 곱한것이 320k라는 것이며, 단위는 bit/sec(bps)입니다.
그럼 CD는 몇 bps 일까요?
Sampling rate 44,100, 양자화 비트수 16, 체널수 2
= 44,100 x 16 x 2 = 1,411,200
즉, 1,411k 입니다. 곧 320k 대비 4.4배의 비트수를 가집니다.
참고로, 음원 한 곡의 총 sampling rate와 양자화 비트수를 곱하면 이것이 음원의 용량이 됩니다.
Sampling rate 44,100, 양자화 비트수 16, 체널수 2, 재생시간 200초, 1byte는 8bit
= 44,100 x 16 x 2 x 200 / 8 = 35.3 Mbyte
이와 같이, CD를 MP3 320k로 압축하면 1411k가 320k로 줄게 되므로,
320k는 CD에 담긴 음악정보 중 77%가 삭제되고 남은 23%의 정보에 불과한 것입니다.
그런데 어떻게 그럼에도 청감상 구분이 힘들 정도로 음질이 괜찮을까요...
그것은 마스킹효과를 이용하기 때문입니다.
마스킹효과란,
내가 앞사람과 얘기하고 있는데, 갑자기 옆사람이 큰 소리를 낼 경우,
앞사람의 소리가 잘 안들리는 현상이 한 예입니다.
사람은 특정 주파수 대역의 음량이 강하면 그 주변 주파수 대역은 잘 못듣게 됩니다.
그리고 특정 시간대에 큰 소리가 나면 사람은 그 바로 앞의 소리의 기억을 잊어버리고 바로 뒤의 소리는 귀의 역치가 높아져 잠시 듣지 못하게 됩니다.
MP3 변환의 알고리즘은,
음원을 분석하여 이 두 가지 마스킹 효과에 의해 잘 못듣는다고 판단되는 부분의 정보를 삭제해 버리는 것입니다.(손실압축)
그리고나서 비손실압축을 한번 더 걸어 용량을 조금 더 줄입니다. 그 결과 용량은 비트수 차이보다 조금 더 작아집니다.
그러나 이 마스킹 효과는 사람에 따라 그 민감도에 차이가 있으므로,
똑같은 압축률이라도 어떤 이에게는 차이가 들릴 수 있고, 어떤 이에게는 차이가 들리지 않을 수도 있으며, 어떤이에게는 큰 차이로, 어떤 이에게는 작은 차이로 들릴 수도 있을 것입니다.
참고가 되셨길 바랍니다.
혹시 제가 잘못 설명한 부분이 있으면 지적해 주시면 감사하겠습니다.