▷ 18 tipos de formato de audio y sus características

Los archivos de audio vienen en todos los tipos y tamaños. Y aunque todos estemos familiarizados con MP3, ¿qué pasa con AAC, FLAC, OGG o WMA? ¿Por qué existen tantos estándares de audio? ¿Existe un mejor formato de audio? ¿Cuáles son importantes y cuáles puedes ignorar? En este post te damos respuesta a todas estas preguntas y explicamos los principales tipos de formato de audio.

¿Qué es el formato en un audio?

El formato de audio es un tipo de archivo para almacenar datos de audio digital en un sistema informático. El ancho de banda máximo del formato de audio es de 20 KHz, con una frecuencia de entre 40 y 50 KHz. Al adoptar Liner PCM (modulación de código de pulso), cada longitud de paso cuantificado del audio es la misma.

El diseño de bits de los datos de audio se denomina formato de codificación de audio y se puede descomprimir o comprimir para reducir el tamaño del archivo; por lo tanto, los formatos de archivo de audio se pueden dividir en compresión con pérdida y compresión sin pérdida. Pero lo que usamos a menudo es la compresión con pérdida. Dado que hay pérdida de datos en el proceso de audio digital, no podemos llegar a los que realmente no tienen pérdidas.

No todos los formatos de archivos de audio son iguales. La frecuencia de muestreo y la profundidad de bits determinan la resolución, el rango de frecuencia y el rango dinámico del audio. El estándar para audio con calidad de CD es una frecuencia de muestreo de 44,1 kHz y una profundidad de bits de 16 bits.

Cualquier cosa por debajo de esto y su audio no se considera alta definición (HD) o alta resolución. Muchos formatos de archivo de audio utilizan configuraciones inferiores a las que se consideran HD.

Te puede interesar: tipos de formato de vídeo

Bit depth

Podemos pensar en la profundidad de bits como la resolución de cada muestra digital dada. Cada dígito binario se llama bit. La profundidad de bits o bit depth determinará con qué precisión podemos definir la amplitud.

Por ejemplo: si solo tuviéramos 1 bit, las únicas 2 definiciones posibles serían que la amplitud sea 1 o 0, activada o desactivada. Con más bits, podemos agregar valores más precisos para la amplitud que muestrean con precisión la señal analógica original.

Las profundidades de bits más comunes con las que te encontrarás son las de 16 bits, 24 bits y 32 bits flotantes. Cuanto mayor sea el número, mayor margen dinámico y margen dinámico tendrás. Sin embargo, la diferencia entre la flotación de 16, 24 y 32 bits es más amplia de lo que podrías pensar.

Entonces, ¿qué profundidad de bits es mejor para grabar? Tenemos que tener en cuenta algunas cosas: calidad de audio (o resolución), tamaño de datos y formato de reproducción. Cuanto mayor sea la profundidad de bits, mayor resolución tendrá su audio digital. Entonces, ¿por qué no grabar todo en 32 o incluso 64 bits flotantes?

Por un lado, una resolución más alta significa tamaños de archivo más grandes y un uso de CPU ligeramente mayor, pero no lo suficiente como para marcar una diferencia notable al grabar.

Cuando las ondas de sonido se convierten de analógicas a digitales, ingresan al DAW a una profundidad de 24 bits por defecto. Las profundidades de bits por encima de este valor solo importan una vez que introduces un procesamiento adicional.

Por último, ten en cuenta que masterizar y exportar tu mezcla requerirá una reducción de bits. Para ahorrar espacio, los formatos de reproducción (como CD) a menudo se limitan a 16 bits. Por lo tanto, todo lo que grabes por encima de esta resolución estará abarrotado para adaptarse a un espacio más pequeño.

Sample rate

El sistema toma estas medidas a una velocidad llamada frecuencia de muestreo o sample rate, medida en kilohercios. En la mayoría de los DAW, encontrarás una frecuencia de muestreo ajustable en tus preferencias de audio. Esto controla la frecuencia de muestreo del audio en tu proyecto.

Las opciones que ves en el DAW promedio (44,1 kHz, 48 kHz) pueden parecer un poco aleatorias, pero no lo son. La frecuencia de muestreo determina el rango de frecuencias capturadas en audio digital. Usemos una onda sinusoidal para demostrar:

Para medir la frecuencia de esta onda sinusoidal, necesitamos poder detectar y definir un ciclo. Un ciclo completo de cualquier ola contiene una etapa positiva y negativa. Para conocer la duración de este ciclo, la longitud de onda que nos lleva a la frecuencia de la onda, necesitamos detectar estas dos etapas. Por lo tanto, necesitamos medir la onda al menos dos veces por ciclo completo para capturar con precisión su frecuencia.

Esto significa que podemos capturar y reconstruir la frecuencia de la onda sinusoidal original con una frecuencia de muestreo de al menos el doble de su frecuencia, una frecuencia llamada frecuencia de Nyquist.

La frecuencia de muestreo más común que verás es 44,1 kHz, o 44,100 muestras por segundo. Este es el estándar para la mayoría de audio de consumo, utilizado para formatos como CD.

Este no es un número arbitrario. Los humanos pueden escuchar frecuencias entre 20 Hz y 20 kHz. La mayoría de las personas pierden la capacidad de escuchar las frecuencias altas a lo largo de sus vidas y solo pueden escuchar frecuencias de hasta 15 kHz a 18 kHz. Sin embargo, esta regla de “20 a 20” todavía se acepta como el rango estándar para todo lo que podemos escuchar.

Tipos de formatos de audio y características

Los formatos de audio se pueden dividir en 3 tipos principales:

Formato de audio sin compresión
Formato de audio comprimido sin pérdidas
Formato de audio comprimido con pérdida

Vamos a analizar los tipos de formato de audio y el grupo al que pertenecen.

WAV

Uno de los tipos de formato de audio más comunes es WAV, que son las siglas de Waveform Audio File Format. El formato de audio WAV fue desarrollado por Microsoft e IBM en 1991.

Mucha gente asume que todos los archivos WAV son archivos de audio sin comprimir, pero eso no es exactamente cierto. WAV es en realidad un contenedor de Windows para diferentes formatos de audio. Esto significa que un archivo WAV podría contener audio comprimido, pero rara vez se usa para eso.

La mayoría de los archivos WAV contienen audio sin comprimir en formato PCM. El archivo WAV es solo un contenedor para la codificación PCM, lo que lo hace más adecuado para su uso en sistemas Windows. Sin embargo, los sistemas Mac generalmente pueden abrir archivos WAV sin ningún problema.

AIFF

AIFF es otro de los tipos de formato de audio (Audio Interchange File Format). Similar a cómo Microsoft e IBM desarrollaron WAV para Windows, AIFF es un formato que fue desarrollado por Apple para sistemas Mac en 1988.

También similar a los archivos WAV, los archivos AIFF pueden contener varios tipos de formatos de audio. Por ejemplo, hay una versión comprimida llamada AIFF-C y otra versión llamada Apple Loops que utilizan GarageBand y Logic Audio. Ambos usan la misma extensión AIFF.

La mayoría de los archivos AIFF contienen audio sin comprimir en formato PCM. El archivo AIFF es solo un contenedor para la codificación PCM, lo que lo hace más adecuado para su uso en sistemas Mac. Sin embargo, los sistemas Windows generalmente pueden abrir archivos AIFF sin ningún problema.

AU

El formato de audio AU es un formato de archivo de audio simple, desarrollado por Sun Microsystems. El formato era común en las primeras páginas web.

Originalmente no tenía encabezado, siendo simplemente datos codificados por ley de 8 bits a una frecuencia de muestreo de 8000 Hz. Los archivos más nuevos tienen un encabezado, un fragmento de información opcional y luego los datos (en formato big endian).

Los archivos de audio AU deben tener una firma (etiqueta) .snd (hexadecimal: 2E 73 6E 64) al principio del archivo de audio.

El archivo AU tiene un encabezado que consta de seis palabras de 32 bits sin firmar, que definen: firma, desplazamiento de datos, tamaño de datos, codificación, frecuencia de muestreo y número de canales.

La suma de la compensación de datos y el tamaño de los datos da al archivo de audio una longitud completa. Todos los valores de datos se almacenan en formato big-endian (el byte más significativo primero).

FLAC

FLAC son las siglas de Free Lossless Audio Codec. Se ha convertido rápidamente en uno de los formatos sin pérdida más populares disponibles desde su introducción en 2001.

Lo bueno es que FLAC puede comprimir un archivo fuente original hasta en un 60 por ciento sin perder un solo bit de datos. Lo que es aún mejor es que FLAC es uno de los tipos de formato de audio libres de código abierto, por lo que no impone restricciones de propiedad intelectual.

FLAC es compatible con la mayoría de los programas y dispositivos principales y es la principal alternativa a MP3 para música. Con él, básicamente obtienes la calidad completa de audio sin comprimir sin procesar a la mitad del tamaño del archivo. Es por eso que muchos ven a FLAC como el mejor formato de audio.

MPEG-4

M4A es una extensión de archivo para un archivo de audio codificado con codificación de audio avanzada (AAC), que es una compresión con pérdida. En general, M4A se pensó como el sucesor de MP3, que no había sido diseñado originalmente solo para audio, sino que podía usarse como formato de video MPEG 1 o 2. M4A son las siglas de MPEG 4 Audio.

Las extensiones de archivo M4A y MP3 se utilizan para archivos de solo audio. Los archivos contenedores MPEG 4 de solo audio suelen tener una extensión de archivo M4A. Los archivos M4A están desprotegidos. Los archivos protegidos suelen tener una extensión de archivo M4P.

La calidad de los archivos M4A es mejor y los tamaños de archivo son más pequeños en comparación con los archivos MP3. Los archivos M4A suenan mejor que los archivos MP3 cuando se codifican a la misma velocidad de bits debido a algunas de las mejoras realizadas en el formato, como:

Compresión basada en la percepción: si no está dentro de la percepción humana, los datos de sonido pueden perderse sin un efecto notable en la calidad.
Tamaño de bloque de muestra más pequeño de 120 o 128 muestras en lugar de 192 para señales cambiantes (o transitorias), lo que permite detalles más precisos donde se necesitan.
Tamaños de bloque más grandes en señales estacionarias, 1024 o 960 frente a los 576 bloques de muestra de MP3, lo que permite que menos datos representen una parte de la música que no tiene la misma complejidad.

Shorten

Shorten (SHN) es un formato de archivo utilizado para comprimir datos de audio. Es una forma de compresión de datos de archivos y se utiliza para compresión sin pérdida de archivos de audio de calidad CD (44,1 kHz 16-bit estéreo PCM).

Shorten ya no se desarrolla y otros tipos de formato de audio como FLAC, Monkey’s Audio (APE), TTA y WavPack (WV) se han vuelto más populares. Sin embargo, Shorten todavía está en uso por algunas personas porque hay grabaciones de conciertos legalmente negociadas en circulación que se codifican como archivos Shorten.

TTA

TTA son las siglas de The True Audio. Es un compresor de audio sin pérdidas en tiempo real gratuito basado en filtros de pronóstico adaptativos. TTA ofrece niveles de compresión adecuados mientras mantiene altas velocidades de operación.

Al no tener pérdida de datos ni de calidad, TTA comprime archivos a tan solo un 30% de su tamaño original (permite el almacenamiento de hasta 20 CD de audio de música en un solo DVD-R). Los requisitos mínimos del sistema lo han hecho bastante popular. Las proporciones de compresión logradas por el códec TTA varían, dependiendo del tipo de música, pero oscilan entre el 30% y el 70% del original.

El formato de audio comprimido sin pérdidas TTA admite etiquetas de información ID3v1 e ID3v2. La compresión se realiza en datos multicanal de 8, 16 y 24 bits de archivos de audio WAV.

Actualmente, la mayoría de los reproductores de audio no admiten archivos TTA. Para que tu música tta sea compatible con tu reproductor de mp3, debes convertirla. Total Audio Converter convertirá tta a mp3, aac, wav, wma y otros formatos en 3 pasos.

ATRAC

ATRAC es uno de los tipos de formato de audio usado por dispositivos electrónicos Sony, como PlayStation Portable (PSP) y reproductores de audio digital Sony; ATRAC son las siglas de “Adaptive Transform Acoustic Coding” y se refiere a múltiples algoritmos de compresión desarrollados por Sony.

Está basado en principios psicoacústicos y ofrece distintas tasas de compresión, según la calidad de sonido. Actualmente se utiliza para guardar información de señales de audio, en MiniDisc y otros reproductores de audio propietarios de Sony.

La primera versión de este códec, ATRAC1 o simplemente ATRAC, se desarrolló en 1992 y conseguía comprimir la información de audio aproximadamente a la quinta parte de la tasa de datos de un CD. Asimismo, esta tecnología no ha dejado de evolucionar y sus versiones más recientes ATRAC3 y ATRAC3plus, que aparecieron en el año 1999 y en 2002, ofrecen compresiones mayores, llegando a codificar el audio al 5 y 10% de la tasa de datos de un CD, respectivamente.

El hecho de reducir el tamaño de los datos de audio, manteniendo una calidad suficientemente buena, ha permitido grabar más temas en los diferentes soportes de almacenamiento y reproducción, cambiando la manera como se escucha música.

Apple Lossless

ALAC son las siglas de Apple Lossless Audio Codec. Fue desarrollado y lanzado en 2004 como un formato propietario, pero finalmente se convirtió en código abierto y libre de regalías en 2011. ALAC a veces se conoce como Apple Lossless.

Si bien ALAC es bueno, es un poco menos eficiente otros tipos de formato de audio como FLAC cuando se trata de compresión. Sin embargo, los usuarios de Apple no tienen realmente una opción entre los dos porque tanto iTunes como iOS brindan soporte nativo para ALAC y ningún soporte para FLAC.

MP3

Sin duda, uno de los tipos de formato de audio más conocidos. MP3 son las siglas de MPEG-1 Audio Layer 3. Fue lanzado en 1993 y explotó en popularidad, convirtiéndose finalmente en un de los formatos de audio más popular del mundo para archivos de música. ¡Hay una razón por la que teníamos “reproductores MP3” pero no “reproductores OGG”!

El objetivo principal de MP3 es triple:

eliminar todos los datos de sonido que existen más allá del rango auditivo de las personas normales,
reducir la calidad de los sonidos que no son fáciles de escuchar y
comprimir todos los demás datos de audio de la manera más eficiente posible.

Casi todos los dispositivos digitales del mundo con reproducción de audio pueden leer y reproducir archivos MP3 , ya sea que se trate de PC, Mac, Android, iPhone, Smart TV o cualquier otra cosa. Por ello es uno de los tipos de formatos de audio comerciales más empleados.

Vorbis

Este formato se conoce como OGG. OGG no representa nada. En realidad, ni siquiera es un formato de compresión. OGG es un contenedor multimedia que puede contener todo tipo de formatos de compresión, pero se usa más comúnmente para almacenar archivos Vorbis, de ahí que estos archivos de audio se llamen archivos Ogg Vorbis.

Vorbis se lanzó por primera vez en 2000 y su popularidad creció debido a dos razones:

se adhiere a los principios del software de código abierto y
se desempeña significativamente mejor que la mayoría de los otros formatos de compresión con pérdida (lo que significa que produce un tamaño de archivo más pequeño para equivalentes calidad de audio).

MP3 y AAC tienen una base tan sólida que OGG ha tenido dificultades para convertirse en el centro de atención ( no muchos dispositivos lo admiten de forma nativa), pero está mejorando con el tiempo. Por ahora, lo utilizan principalmente los defensores incondicionales del software de código abierto.

Musepack

Musepack es un formato de audio por compresión con un fuerte énfasis en la alta calidad. No es sin pérdidas, pero está diseñado para ser transparente, por lo que no podrás escuchar las diferencias entre el archivo wave original y el archivo MPC mucho más pequeño.

Se basa en los algoritmos MPEG-1 Layer-2 / MP2, pero desde 1997 se ha desarrollado rápidamente y ha mejorado enormemente y ahora se encuentra en una etapa avanzada en la que contiene un código altamente optimizado y sin patentes.

Musepack es un formato de tasa de bits puramente variable y no funciona a una tasa de bits constante. Una gran parte de la calidad de Musepack proviene de su manejo de tasa de bits altamente variable que da como resultado una tasa de bits baja para regiones menos exigentes de datos de audio y una tasa de bits más alta donde se necesita. Esto permite que los archivos MPC sean lo más pequeños posible y no pierdan bits valiosos como los codificadores que funcionan a una tasa de bits constante.

Después de todo, el propósito de un codificador de audio con pérdida es proporcionar la mayor calidad posible con el tamaño de archivo más bajo posible, y Musepack representa el progreso, a diferencia de los métodos heredados antiguos y subóptimos.

AAC

AAC son las siglas de Advanced Audio Coding. Fue desarrollado en 1997 como el sucesor de MP3, y si bien se popularizó como formato de uso, nunca superó al MP3 como el más popular.

El algoritmo de compresión utilizado por AAC es mucho más avanzado y técnico que MP3, por lo que cuando compara la misma grabación en formatos MP3 y AAC con las mismas velocidades de bits, el AAC generalmente tendrá una mejor calidad de sonido.

Aunque MP3 es más un formato doméstico, AAC todavía se usa ampliamente en la actualidad. De hecho, es el método de compresión de audio estándar utilizado por YouTube, Android, iOS, iTunes, portátiles posteriores de Nintendo y PlayStations posteriores.

WMA

Otro de los tipos de formato de audio más comunes. WMA son las siglas de Windows Media Audio. Fue lanzado por primera vez en 1999 y ha pasado por varias evoluciones desde entonces, manteniendo el mismo nombre y extensión WMA. Es un formato propietario creado por Microsoft.

Al igual que AAC y OGG, WMA estaba destinado a abordar algunos de los fallos en el método de compresión MP3, y resulta que el enfoque de WMA para la compresión es bastante similar a AAC y OGG. Sí, en términos de calidad de compresión objetiva, WMA es mejor que MP3.

Pero dado que WMA es propietario, no muchos dispositivos y plataformas lo admiten. Tampoco ofrece ningún beneficio real sobre AAC u OGG, por lo que cuando MP3 no es lo suficientemente bueno, es simplemente más práctico usar uno de esos dos en lugar de WMA.

Opus

Opus se formó a través de las intersecciones de varios otros proyectos de códecs y los esfuerzos realizados por el Grupo de trabajo de ingeniería de Internet (IETF) para crear un códec de audio universal para Internet. Hace casi una década, el IETF reconoció que Internet necesitaba un códec de audio único y robusto que pudiera usarse para todos los casos de uso de transmisión de audio a través de Internet , desde llamadas de voz hasta distribución de música en vivo.

La especificación Opus se presentó en 2010 y se estandarizó como RFC 6716 en 2012. Como estándar de Internet, fue adoptado ampliamente por navegadores, sistemas operativos y software de audio / video popular. El lugar de Opus como el códec de facto para las comunicaciones en tiempo real se consolidó más tarde cuando su uso fue obligatorio como parte de WebRTC.

Una de las principales razones por las que Opus ha tenido tanto éxito es que tiene un rendimiento excelente en una variedad de entornos.

Opus es uno de los tipos de formato de audio con mayor flexibilidad en relación a cuánto ancho de banda se consume. En la mayoría de los casos en los que los usuarios están en Internet y existe la posibilidad de un rendimiento óptimo, los implementadores deben permitir el muestreo completo predeterminado a 48 kHz y permitir que el códec se sintonice automáticamente con la entrada de audio y las condiciones de la red.

OGG

Es un formato de transmisión popular, como lo es WMA, pero aunque es de código abierto, no ha tenido el mismo desarrollo y aceptación que MP3 y AAC.

Spotify es famoso por usar OGG como su formato de archivo de audio predeterminado. Esto solía estar indicado en su documentación, pero desde entonces se ha eliminado.

OGG suele ser el formato de archivo de audio más pequeño. Pero debido a su falta de compatibilidad, los usuarios generalmente optan por MP3 cuando eligen un formato de audio que aún puede ofrecer una calidad de música agradable mientras mantiene la compatibilidad del tamaño del archivo.

DSD

DSD (Direct Stream Digital) adopta un enfoque diferente. A mediados de la década de 1990, se concibió originalmente como uno de los tipos de formato de audio emplados para archivar antiguas grabaciones analógicas.

Fue diseñado para ser una forma más simple y eficiente en el espacio de almacenar datos de música digital que PCM. Es importante destacar que DSD también fue diseñado para que sea fácil de convertir a archivos PCM con frecuencias de muestreo basadas en múltiplos de 44,1 kHz.

El principal atractivo de DSD es su simplicidad y, con ello, lo económico de implementación. Necesita menos procesamiento que PCM y puede usar DAC más simples y mucho menos costosos.

DSD usa un solo bit de información, y toda esta información nos dice si la muestra actual de la forma de onda analógica es más alta o más baja que la anterior. En comparación con los más de 65.000 valores diferentes que tiene el PCM de 16 bits, los dos valores (0 si la nueva muestra si la señal es menor o 1 si es mayor) de DSD parecen muy limitantes.

Las grabaciones DSD estándar todavía son relativamente raras en comparación con las alternativas PCM, y esas versiones de mayor velocidad son extremadamente específicas.

MQA

MQA tiene como objetivo “cambiar fundamentalmente la forma en que todos disfrutamos de la música“. Es un método para capturar y almacenar digitalmente grabaciones maestras originales como archivos que son lo suficientemente pequeños y convenientes para descargar o transmitir, sin los sacrificios sónicos tradicionalmente asociados con los archivos comprimidos.

MQA afirma que sus pistas utilizan un ancho de banda similar al requerido para transmisiones con calidad de CD. Entonces, si puede transmitir el nivel de alta fidelidad de Tidal con relativa facilidad, entonces el nuevo nivel de Tidal Masters que usa MQA no debería ser un problema.

Los archivos MQA se pueden empaquetar dentro de cualquier contenedor sin pérdidas como FLAC, WAV o Apple Lossless. Necesitarás hardware compatible, como un transmisor de música o un reproductor de música portátil, o software como la aplicación de escritorio Tidal, para decodificar los archivos MQA.

¿Qué formato de audio es el adecuado para ti?

Para la mayoría de las personas, la decisión es bastante sencilla:

Si estás capturando y editando audio sin procesar, usa un formato sin comprimir. De esta manera, trabajarás con la mejor calidad de audio posible. Cuando hayas terminado, puedes exportar o convertir a un formato comprimido.
Si estás escuchando música y deseas una representación de audio fiel, utiliza la compresión de audio sin pérdidas. Esta es la razón por la que los audiófilos siempre luchan por álbumes FLAC en lugar de álbumes MP3. Ten en cuenta que necesitarás mucho espacio de almacenamiento para estos.
Si estás de acuerdo con la calidad de la música “suficientemente buena”, si tu archivo de audio no tiene música o si necesitas ahorrar espacio en el disco, utiliza la compresión de audio con pérdida. La mayoría de las personas no pueden escuchar la diferencia entre compresión con pérdida y sin pérdida.

Para aquellos que desean la máxima calidad en su reproducción de música, los archivos de audio de alta calidad no importarán si tu dispositivo de reproducción no puede recrear fielmente esos sonidos. Es decir, necesitas tener auriculares o altavoces de buena calidad. Y asegúrate de ver los mejores reproductores de música de Windows para audio de alta resolución.