¿En qué se basa MP3? Comprendiendo MP3

MP3 es un formato de compresión de audio que realmente pertenece a la norma MPEG1 (Layer 3). 

MP3 se encuadra entre los compresores con pérdidas. Quiere esto decir que admite una disminución de la fidelidad de la señal comprimida a la señal original. Con ello se logra una mayor relación de compresión en detrimento de la calidad.

La disminución de la calidad es ajustable. Pero, ¿ en qué se basa MP3 ?

El formato MP3 se basa en el modelo psicoacústico.

MODELO PSICOACÚSTICO

El modelo psicoacústico no es otra cosa que una teoría basada en algoritmos matemáticos capaz de cuantificar y calcular el nivel a partir del cual el sonido comienza a ser perceptible para el oído humano en cada banda acústica.

Mediante esta teoría, es posible desestimar aquellos sonidos imperceptibles para el ser humano, reduciendo de manera drástica la información del archivo sonoro original. Ello, evidentemente, redunda en el peso final del archivo.

El análisis de la señal de audio es esencial a la hora de aplicar este modelo matemático, pues podrá obtenerse una mayor o menor compresión según cómo sea la misma.

En el modelo psicoacústico define dos umbrales clave para la compresión:

Modelo psicoacústico
Modelo psicoacústico

Umbral del silencio.  Aunque sabemos que el oído es sensible a la banda de frecuencias (20Hz-20KHz), tiene una respuesta en amplitud determinada que ha sido medida y cuantificada. Para ello se ha realizado una estadística basándose en los datos de muestreo de múltiples oyentes. Estos oyentes, a ciertas frecuencias de la banda, a menos que la señal tenga un nivel determinado, no perciben sonido alguno a esas frecuencias. En consecuencia, si los instrumentos musicales que dan lugar a una señal original, producen un nivel sonoro a una frecuencia dada que no alcanza el umbral del silencio, esta frecuencia directamente no estará en la señal comprimida por no ser audible.

Como puede observarse, el máximo audible de la señal se encuentra entre los 300Hz y los 4KHz.

Umbral de enmascaramiento. El enmascaramiento consiste en que un nivel de presión sonora promediado en una banda estrecha afecta a las bandas colindantes, silenciándolas si éstas no alcanzan dicho umbral de nivel sonoro. Este umbral estará en función del nivel sonoro de la banda enmascaradora y será diferente según la frecuencia. Desde el punto de vista psicoacústico podríamos decir que, si esas bandas colindantes no alcanzan el umbral de enmascaramiento, el oído no se fijará en ellas.

Aunque afecta a las bandas colindantes, el mayor efecto de enmascaramiento se produce sobre las frecuencias superiores a la banda enmascaradora.

Aun así, esto no es suficiente, y los códigos compresores con pérdidas aplican una serie de artefactos de compresión para reducir aún más el tamaño de la fuente. Artefactos que, en mayor o menor medida, afectan a la escucha musical y en muchas ocasiones son perfectamente perceptibles.

ARTEFACTOS DE COMPRESIÓN

Técnicamente hablando, un artefacto de compresión es una clase de error de datos particular, como consecuencia de la cuantificación digital en la compresión de datos con pérdida.

Digamos que, a consecuencia de aplicar el modelo psicoacústico, se introduce una distorsión apreciable en la señal, que hay que minimizar y que resulta molesta al oyente.

Una buena manera de observar artefactos de compresión en el audio es escuchar los aplausos en un archivo MP3 de audio con una relación de compresión insuficiente, por ejemplo un archivo a 96kbit/seg. En general, los tonos musicales contienen patrones de onda repetitivos y variaciones más predecibles en el volumen, mientras que los aplausos son esencialmente aleatorios y, por lo tanto, difíciles de comprimir. Una pista de aplausos con elevada compresión mostrará muy bien el “sonido metálico” y otros artefactos.

Estos artefactos de compresión se dan sólo en los formatos de compresión con pérdidas, y las imágenes distorsionadas JPG son claro ejemplo de ellos:

JPG con pérdidas observables
JPG con pérdidas observables

REGIMEN BINARIO MP3

Calidades por debajo de 128 kbps implican un nivel de definición muy bajo,  tal que aparecen artefactos de compresión claros y audibles.

A 128 kbps encontramos una calidad cercana al CD. Aunque la claridad es aún escasa, los artefactos presentes y los sonidos más bajos cobran relieve (menos apreciables).

A 160 kbps existe una mejora sustancial, aunque todavía son claramente perceptibles las diferencias entre el archivo comprimido y la fuente original.

Con 192 Kbps, la definición es alta y el sonido bastante fiel al original. Las diferencias, en este punto, radican más en la sensación de espacialidad del sonido que en la definición o representación acústica. Es el estándar de calidad suficiente y aceptado como bueno por la mayoría de los usuarios del formato.

A partir de 224 Kbps, resulta muy difícil discernir entre la fuente original y la comprimida, aun con un buen equipo. Aún así, oyentes experimentados que escuchan piezas conocidas manifiestan que la percepción y la distribución espacial de los sonidos es sensiblemente mejor en la fuente original.

 

COMPRESIÓN SIN PÉRDIDAS

Los códigos “lossless” se desmarcan sustancialmente de la filosofía vista hasta ahora, ya que su compresión es totalmente recuperable tras la decodificación, como si se tratara de un archivo ZIP.

Esta forma de compresión implica una calidad idéntica a la de la fuente original, pero afecta negativamente a la ratio de compresión (de 2:1, a lo sumo) y supone un aumento necesario de procesado y un menor rendimiento con respecto a los códigos con pérdidas.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *