- ¿Qué es MPEG
- Clasificación
- Audio MPEG-1
- Reproductores MPEG
- Aplicaciones empleando el reproductor-3
- Transmisión digital satelital
- Demanda de audio
- Conclusiones
Actualmente, las técnicas eficientes de codificación se emplean en el procesamiento de datos de audio digital y de video por computadora. La compresión de datos de imágenes de movimiento y sonido es la clave tecnológica para cualquier aplicación con una transmisión limitada o capacidad de almacenamiento. En años recientes, una infinidad de progresos se han llevado a cabo. Como existían varios formatos propios de las empresas para la codificación de audio y video, el comité ejecutivo de la estandarización ISO/IEC optó por crear un estándar internacional (MPEG) para herramientas poderosas de codificación de audio y video.
Sin la compresión de datos, las señales de audio digital consisten en muestras almacenadas de 16 bits a una razón de muestreo de más del doble del ancho de banda del audio actual (por ejemplo 44,1 kHz para Compact Disc). De esta manera se necesitan más de 1440 kbits para representar solo un segundo de música estéreo en calidad CD. Al emplear la codificación de audio MPEG uno puede reducir los sonidos originales de un CD a un factor de 12 sin perder la calidad del sonido. Factores de 24 o más siguen manteniendo la misma calidad en el sonido que es significativamente mejor que reducir la razón de muestreo y la resolución de los muestreos. Básicamente esto es realizado por técnicas de "codificación perceptual" que direccionan la percepción de ondas de sonido por el oído humano.
MPEG es el "Grupo de Expertos de Imágenes en Movimiento", por sus siglas en ingles. MPEG es un grupo de personas que se encuentran dentro de la Organización Internacional de Estándares (ISO, por sus siglas en inglés) para generar estándares para video digital (secuencias de imágenes en tiempo) y compresión de audio. En particular, ellos definen una trama de bits comprimida, la cual implícitamente define un descomprimidor. Como cada empresa tiene sus propios algoritmos de compresión, es ahí donde recae la importancia de contar con un estándar internacional. MPEG se reúne cuatro veces al año durante una semana completa. En medio de las reuniones un gran trabajo es hecho por los miembros, así que no todo ocurre en las reuniones. El trabajo es organizado y planeado en las reuniones.
MPEG clasifica los estándares multimedia en:
þ MPEG-1: "Codificación de Imágenes de Movimiento y Audio Asociado para Medios de Almacenamiento Digital a 1,5 Mbits/s".
þ MPEG-2: "Codificación Genérica de Imágenes de Movimiento e Información de Audio Asociada".
þ MPEG-3: Originalmente planeada para aplicaciones de HDTV (Televisión de Alta Definición), pero finalmente fue incluida en MPEG-2.
þ MPEG-4: "Codificación de Objetos de Audio-Visual".
CATEGORIAS DE MPEG-1
q IS-11172-1 ("Sistema") describe la sincronización y multiplexeo de las señales de audio y video. |
q IS-11172-2 ("Video") describe la compresión de señales de video, enfoque en video progresivo (y principalmente a aplicaciones de "Video-on-CD"). |
q IS-11172-3 ("Audio") describe una familia genérica de codificación con tres miembros jerárquicos compatibles ("Layer-1", "Layer-2" y "Layer-3"). |
q IS-11172-4 ("Pruebas de Conformidad") describe procedimientos para determinar las características de los tramas de bits codificadas y los procesos de decodificación y para pruebas de conformidad con los requerimientos deseados en otras partes. |
q DTR-11172-5 ("Simulación de Software") es un reporte técnico acerca de una completa implementación del software de las tres primeras partes de MPEG-1. |
CATEGORIAS DE MPEG-2
q IS-13818-1 ("Sistema") describe la sincronización y multiplexeo de las señales de audio y video; es también estandarizado por ITU-T como H.22. |
q IS-13818-2 ("Video") describe un conjunto de herramientas para codificar video genérico, soportando escaneo entrelazado, también estandarizado por ITU-T como H.262. |
q IS-11172-3 ("Audio") describe una extensión compatible anterior de MPEG-1 para codificación multicanal de audio ("sonido surround", "sonido multilingual") y una extensión anterior no compatible a razones menores de muestreo para soportar aplicaciones de sonido con un limitado ancho de banda. |
q IS-13818-4 ("Pruebas de Conformidad") describe procedimientos para determinar las características de los tramas de bits codificadas y los procesos de decodificación y para pruebas de conformidad con los requerimientos deseados en otras partes. |
q DTR-13818-5 ("Simulación de Software") es un reporte técnico acerca de una completa implementación del software en las tres primeras partes de MPEG-2. |
q IS-13818-6 ("Extensiones del Sistema – Medios de Almacenamiento Digital: Comando y Control (DSM-CC)") describe un conjunto de protocolos para aplicaciones cliente–servidor. |
q CD-13818-7 ("Codificación de Audio Anterior No Compatible") describe un esquema mejorado de codificación de audio para señales mono y estereofónicas tan bien como el sonido multicanal. |
q 13818-8 ("Video, Extensión a Muestreos de Entrada de 10 Bits) ha sido retirada dado el poco interés mostrado. |
q IS-13818-9 ("Especificación de la Interfaz en Tiempo Real para Aplicaciones Low-Jitter") define el tiempo no empleado en la distribución en tiempo real del transporte de las tramas de bits de MPEG-2. |
q WD-13818-10 ("Extensiones de Conformidad –DSM-CC") describe el apéndice a IS13818-4 para DSM-CC. |
Lo primero que se debe conocer es como se almacena el sonido en una computadora. El sonido es una diferencia de presiones en el aire. Cuando este se toma por un micrófono y se pasa a través de un amplificador este se llega a convertir en niveles de voltaje. El voltaje es muestreado por la computadora un número de veces por segundo. Para una calidad de audio de CD se necesita muestrear 44100 veces por segundo y cada muestreo tiene una resolución de 16 bits. En estéreo se necesitan 1,4 Mbit por segundo y es donde se emplea la compresión.
La compresión de audio MPEG-1 trata de remover tanto las partes irrelevantes como las redundantes de la señal. Las partes del sonido que no se escuchan pueden ser desechadas. Para realizar esto MPEG Audio emplea principios psicoacústicos.
MPEG puede comprimir una trama de bits de 32 kbits/s a 384 kbits/s (Layer II). Una rama de una trama de PCM (Código de Modulación de Pulso: código donde la señal de entrada es representada por un número dado de señales de muestreo por segundo, a menudo empleado en redes telefónicas) es de 705kbits/s, con se puede tener una razón máxima de compresión de 22. La razón normal de compresión es de 1:6 ó 1:7. 96 kbits/s se considera como transparente para la mayoría de las aplicaciones prácticas, esto significa que uno no notará la diferencia entre la señal original y la comprimida. Para aplicaciones más demandantes tales como los conciertos de piano se necesitarán 128 kbits/s.
MPEG-1 Audio lleva a cabo la razón de compresión de dos maneras. Una es muestrear menos veces ó muestrear con menor resolución (menos de 16 bits por muestreo). Si se quiere calidad entonces no se puede hacer mucho con la frecuencia de muestreo. Los humanos pueden escuchar sonidos desde los 20 Hz hasta los 20 kHz. De acuerdo con el Teorema de Nyquist se debe muestrear al menos dos veces la máxima frecuencia que se desee reproducir. Dado que se emplean filtros imperfectos, una razón de muestreo de 44,1 kHz puede emplearse sin ocasionar problema alguno. Así el comité de MPEG opto por trabajar con la reducción de la resolución.
La verdadera justificación de emplear 16 bits es tener una buena razón de señal a ruido (s/r). El ruido del que se habla es de cuantificación del procesamiento digital. Por cada bit que se añade, se obtienen 6dB s/r. El audio con CD lleva a cabo 90 dB s/r. Esto permite que el rango dinámico del oído trabaje de forma correcta. Esto origina que no se escuche ruido proveniente del sistema de audio.
Si se empleará una resolución de 8 bits se percibiría ruido en el aparato de sonido, esto se percibe como momentos de silencio en la música, entre palabras ó frases si la grabación es una voz humana.
Cuando no se detecta cualquier clase de ruido en trozos grandes es porque entra en acción el efecto de ocultación. MPEG emplea principios de psico-acústica cuando realiza esto.
Este efecto es la llave de la codificación MPEG Audio, ya que este pertenece a una ciencia llamada psico-acústica que trata de estudiar la forma en que el cerebro percibe el sonido.
Supongamos que se tiene un tono fuerte de 1 kHz. Además se tiene un tono cerca de 1,1 kHz. Este segundo tono es 18 dB menor. No se escuchará este segundo tono ya que es completamente ocultado por el tono de 1 kHz. Cualquier sonido débil cerca de uno fuerte es ocultado. Si se introduce otro tono de 2 kHz, también 18 dB debajo del tono de 1 kHz, se escuchará éste. Se tendría que reducir el tono de 2 kHz a 45 dB debajo del tono de 1 kHz antes de que este sea ocultado por el primer tono. El efecto de ocultación significa que se puede elevar el ruido de nivel alrededor de un sonido fuerte ya que el ruido será ocultado de todas formas. El elevar el ruido de nivel es lo mismo que emplear menos bits y el usar menos bits es lo mismo que una compresión.
Ahora se tratará de explicar como es que MPEG Audio lo emplea. MPEG Audio divide el espectro de frecuencias (20 Hz a 20 kHz) en 32 subbandas. Cada uno de estas subbandas contiene una pequeña porción del espectro de audio. Por ejemplo la región superior de la subbanda 8 cuenta con un tono de 1kHz a un nivel de 60 dB. El codificador calcula el efecto de ocultación de este sonido y encuentra si existe un nivel de umbral de ocultación para toda la octava subbanda (todos los sonidos con una frecuencia) 35 dB debajo de este tono. La razón entonces aceptable de s/r es de 60 – 35 = 25 dB, o sea una resolución de 4 bits. Hay efecto de ocultación de la banda 9-13 y de la 5-7, el efecto decrece con la distancia de la banda 8. En una situación de la vida real se tienen sonidos en la mayoría de las bandas y el efecto de ocultación se presenta. El codificador considera la sensitividad del oído para varias frecuencias. El oído poco sensible a las altas y bajas frecuencias. El pico de la sensibilidad está alrededor de los 2 a los 4kHz, la misma región que la voz humana ocupa.
Las subbandas deben igualar al oído, esto es que cada subbanda debe de constar de frecuencias que tengan las mismas propiedades psico-acústicas. Sería mucho más favorable si las subbandas fueran estrechas en el rango de bajas frecuencias y amplias en el rango de las altas frecuencias. Para realizar esto se requieren filtros complejos. Para mantener los filtros sencillos estos escogen añadir la FFT (Transformada Rápida de Fourier, por sus siglas en ingles) en paralelo con el filtraje y que usan las componentes espectrales de la FFT como información adicional al codificador. De este forma se obtiene una mayor resolución a bajas frecuencias donde el oído es mas sensible. El efecto de ocultación ocurre antes y después de un sonido fuerte (pre y post ocultación).
Si ocurre un cambio significativo (de 30 a 40 dB) en el nivel, es porque se cree que el cerebro necesita algún tiempo de procesamiento. La preocultación es de 2 a 5 ms. La postocultación puede ser de hasta 100ms. Otras técnicas de compresión de bits consideran las componentes tantos tonales como no tonales del sonido. Una señal estereofónica tiene mucha redundancia entre canales. El último paso antes del formato es la codificación Huffman (para una distribución dada de caracteres se asignan códigos cortos a los caracteres que frecuentemente aparecen y códigos largos a aquellos caracteres que no aparecen muy seguido, la codificación de redundancia mínima Huffman reduce el promedio de bytes requeridos para representar los caracteres en un texto).
El codificador calcula los efectos de ocultación por un proceso iterativo hasta que se agote el tiempo. Ya sea que se implemente o que se empleen más bits en el cambio menos inoportuno. Los codificadores de algunos reproductores (Layers) trabajan a 23 ms de sonido (1152 muestras) a la vez. En ciertos casos el tiempo de ventana de 23 ms puede ser un problema. Este normalmente se presenta en una situación con transitorios donde existen grandes diferencias en el nivel de sonido por arriba de los 23 ms. La ocultación es calculada a partir de sonido más fuerte y las partes débiles serán despreciadas en ruido de cuantificación. Esto se percibe como ruido de eco en el oído.
Una es de 48kHz (empleada en equipo profesional de sonido), otra de 44,1kHz (que se usa en equipo para consumidores como audio en CD) y finalmente una de 32kHz (que se puede emplear en algunos equipos de comunicaciones).
MPEG-1 permite dos canales de audio. Estos pueden ser: sencillo (mono) dual (dos canales mono), estéreo o estéreo combinado (estéreo de alta intensidad ó m/s-estéreo). En estéreo normal (l/r) un canal transporta la señal de audio izquierda y otro canal transporta la señal de audio derecha. En estéreo m/s un canal transporta la señal de suma (l+r) y el otro la señal de diferencia (l-r). En estéreo de alta intensidad la parte de las altas frecuencias (arriba de 2 kHz) es combinada. La imagen del estéreo es conservada pero solo el sobre temporal es transmitido.
COMPAÑIAS QUE EMPLEAN AUDIO MPEG-1
Phillips emplea MPEG para sus nuevos CD´s de video digital. Ellos dicen que empezarán a grabar películas y videos musicales en CD para su CD-I (Compact Disc Interactivo, tiene como función proveer una plataforma estándar en aplicaciones de multimedia, un reproductor de CD-I contiene: una CPU, RAM, ROM, Sistema Operativo y Decodificadores de audio/video/(MPEG). Es un formato para el consumidor electrónico que usa el disco óptico en combinación con una computadora para proveer un sistema de entretenimiento casero en el que se tenga música, gráficas, texto, animación y video en la sala de una casa. Un reproductor de CD-I es un sistema que no requiere de una computadora externa, este se conecta directamente a una TV y a un sistema de audio, además viene con un control remoto que le permite al usuario interactuar con el software de los discos. El tamaño de un sector de los tracks de un CD-I es de aproximadamente 2 kbytes, los sectores pueden ser multiplexados por 16 canales de audio y 32 canales para los demás tipos de datos).
MPEG es aceptado por Eureka-147. Esto significa que cuando la transmisión de radio digital comience en Europa dentro de dos años, se recibirá Audio MPEG codificado. La IUMA (Archivo Musical Subterráneo de Internet, por sus siglas en inglés) tiene muchos clips de audio en formato MPEG comprimidos, pero se necesita configurar su buscador WWW para poder tener acceso a estos.
Se emplean filtros de convolución para dividir la señal de audio (por ejemplo sonido a 48 kHz) dentro de subbandas de frecuencias que se aproximen a las 32 bandas críticas: filtrado de subbanda.
‚ Se determina la cantidad de ocultación de cada banda originada por la banda próxima empleando el modelo psicoacústico.
ƒ Si la energía en una banda es menor al umbral de ocultación, esta no se codificará.
„ De otra manera se determina el número de bits que se necesitan para representar el coeficiente tal que el ruido introducido por cuantificación sea menor que el efecto de la ocultación (1 bit de cuantificación introduce cerca de 6 dB de ruido).
… Finalmente el formato de la trama de bits.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
DIAGRAMA DEL ALGORITMO DE COMPRESION DE AUDIO MPEG
REPRODUCTORES MPEG
MPEG realiza la compresión de señales de audio empleando tres esquemas de codificación simplemente llamados: Reproductor-1, Reproductor-2 y Reproductor-3 (Layer-1, Layer-2 y Layer 3 respectivamente). Como se observa de la siguiente figura, cada reproductor divide los datos en marcos, cada uno de estos contiene 384 muestras, 12 muestras por cada una las 32 subbandas.
AGRUPAMIENTO DE LAS MUESTRAS EN LAS SUBBANDAS PARA LOS REPRODUCTORES 1, 2 Y 3
Del Reproductor-1 al Reproductor-3, la complejidad del codificador y el funcionamiento (calidad del sonido por rango de bits) se incrementan. Los tres codificadores son compatibles en una forma jerárquica, por ejemplo un decodificador de un Reproductor–N es capaz de decodificar la trama de bits codificada en el Reproductor-N y en todos los Reproductores debajo de este.
El estándar MPEG define para cada reproductor el formato de la trama de bits y el decodificador. Para permitir futuras mejoras al reproductor no se especifica el codificador, pero un capítulo informativo da un ejemplo de un codificador para cada Reproductor.
SIMILITUDES DE LOS REPRODUCTORES
q Todos los reproductores emplean la misma estructura básica. El esquema de codificación puede ser descrito como "Formador de Ruido Perceptual" ó "Subbanda Perceptual / Codificación de Transformación". |
q El codificador analiza las componentes espectrales de las señales de audio al calcular la FFT y aplica un modelo psico-acústico para estimar el nivel de ruido sensible. |
q En su etapa de cuantificación y de codificación, el codificador trata de repartir el número disponible de bits de datos tanto para los requerimientos de la razón de bits como para los de ocultación. |
q El decodificador es mucho menos complejo. Este únicamente tiene la función de sintetizar una señal de audio hasta que se agoten las componentes espectrales. |
q Usan el mismo análisis (polifásico con 32 subbandas). |
q Emplean la misma "información de cabecera" en su trama de bits para soportar la estructura jerárquica del estándar. |
q Tienen una sensibilidad similar a los bits de errores. Ellos usan una estructura de trama de bits que contiene partes que son más sensibles a tener bits de errores ("cabecera", "repartición de bits", "factores de escala") y partes que son menos sensibles ("datos que contienen las componentes espectrales"). |
q Soportan la inserción de información adicional ("datos auxiliares") dentro de su trama de bits de audio. |
q Usan frecuencias de muestreo de: 32, 44,1 ó 48 kHz. |
q Pueden trabajar con razones de bits similares: þ Reproductor-1: de 32 kbps a 448 kbps. þ Reproducotr-2: de 32 kbps a 384 kbps. þ Reproducotr-3: de 32 kbps a 320 kbps. |
q Razones de compresión: þ Reproductor-1: de 1:4 þ Reproducotr-2: de 1:6 a 1:8. þ Reproducotr-3: de 1:10 a 1:12 |
CARACTERÍSTICAS AVANZADAS DEL REPRODUCTOR-3
El reproductor-3 (Layer-3) es la miembro más poderoso de la familia de codificación en MPEG Audio. Para un nivel dado en la calidad del sonido, este requiere la menor razón de bits o para una razón dada de bits lleva a cabo la mejor calidad en el sonido.
Algunos de los procesamientos de datos hechos por el Reproductor-3 son:
CALIDAD DEL SONIDO | ANCHO DE BANDA | MODO | RAZÓN DE BITS | RAZÓN DE COMPRESIÓN |
Sonido telefónico | 2,5 kHz | Mono | 8 kbps | 96:1 |
Mejor que onda corta | 4,5 kHz | Mono | 16 kbps | 48:1 |
Mejor que radio AM | 7,5 kHz | Mono | 32 kbps | 24:1 |
Similar a radio FM | 11 kHz | Estéreo | 56 a 64 kbps | 26 a 24:1 |
Casi CD | 15 kHz | Estéreo | 96 kbps | 16:1 |
CD | > 15 kHz | Estéreo | 112 a 128 kbps | 14 a 12:1 |
q Fue diseñado para funcionar en forma eficiente con razones de bits pequeñas. |
q Tiene un mayor número de características que el Reproductor-1 (originalmente diseñado para el DCC (Casete Compacto Digital, por sus siglas en inglés)) y que el Reproductor-2 (diseñado como un tratado entre la complejidad y el funcionamiento) como una mejor frecuencia de resolución (18 veces más grande que el Reproductor-2) la cual le permite al codificador del Reproductor-3 adaptar el ruido de cuantificación mucho mejor al umbral de ocultación. |
q Usa una codificación entrópica (entropía es el promedio de la cantidad de información representado por un símbolo en un mensaje, o sea es una medida de la información contenida en el mensaje, es el límite inferior para poder comprimir) para reducir la redundancia. |
q Para valorar la calidad del sonido se emplean los métodos: "Triple Estímulo, Referencia Escondida" y "La Escala de Deterioro CCIR". La secuencia de escucha es "ABC", con A = original, BC = par de original / señal codificada con secuencia aleatoria y el oyente tiene que evaluar ambos B y C con un número entre 1.0 y 5.0. El significado de estos valores es: þ 5.0 = Transparente (este debe ser la señal original). þ 4.0 = Perceptible pero no molesto (primer diferencia notable). þ 3.0 = Ligeramente molesto. þ 2.0 = Molesto. þ 1.0 = Demasiado molesto. |
REPRODUCTORES-3 DE TIEMPO REAL
Permite una decodificación sencilla por software en cualquier computadora Pentium en tiempo real. Una computadora 80486 con una unidad del punto flotante permitirá solo ciertas operaciones. En una Pentium a 90 MHz, WinPlay3 consume menos del 30% de los recursos del CPU al decodificar el Reproductor-3 en tipo estéreo @ 44,1 kHz o alrededor del 5% en tipo mono @ 16 kHz.
Por lo menos una tarjeta de sonido de 8 bits se requiere, para una completa calidad de audio se recomienda una tarjeta de 16 bits. El manejador de las tarjetas MCI soporta frecuencias de muestreo de 8 kHz hasta 49 kHz. Una tarjeta gráfica VGA también se necesita.
Como WinPlay3 necesita de 4 segundos para el buffer con datos de sonido debido a las limitaciones de la arquitectura multitareas de Microsoft Windows, alrededor de 1 Mbyte de memoria física debe estar disponible.
WinPlay3 funciona con los siguientes sistemas operativos: Microsoft Windows 3.1/3.11 (en modo 386 extendido), Windows 95 y Windows NT (archivos con nombre largos aún no son soportados).
REPRODUCTOR MPEG LAYER-3
Hecho especialmente para usuarios que trabajen bajo la plataforma del sistema operativo Mac, este reproductor es muy similar al WinPlay3 y vendrá a sustituir la preversión 0.99 beta del mismo.
SONIDO DEL REPRODUCTOR-3 EN CD
Los CD-ROM´s (y los discos duros) han llegado a ser los dispositivos más populares para el almacenamiento de datos "multimedia". Con la llegada del nuevo estándar DVD (Disco de Video Digital, por sus siglas en inglés) se requerirá de una mayor capacidad en el almacenamiento. Para señales estéreo sin comprimir de un CD se requieren de más de 10 Mbytes para almacenar un minuto de música. Empleando el Reproductor-3, menos de 1 Mbyte es suficiente para el mismo tiempo de ejecución y obviamente una menor cantidad de memoria es necesaria. Como ejemplo tenemos la enciclopedia "Discovery 97" de Bertelsmann que provee información de 100.000 temas con una basta información multimedia (más de 2400 fotos a color e imágenes, 41 mapas interactivos, más de 30 minutos de clips de video, 27 presentaciones) incluyendo 150 minutos de tracks de sonido codificados con el Reproductor-3 MPEG.
SONIDO DEL REPRODUCTOR-3 EN SILICIO
Actualmente las memorias del estado sólido (RAMs, Flash-ROMs) son únicamente empleadas como dispositivos de almacenamiento de audio en aplicaciones específicas, el único problema es que los costos por byte son muy altos si se compara con otros medios (discos magneto-ópticos ó cintas magnéticas). Pero desde 1993 en que Meister Electronic anunció sistemas con el Reproductor-3 los costos en la capacidad de almacenamiento se redujeron y al mismo tiempo la calidad del audio se mejoró.
Hoy en día, las tarjetas de PC con Flash-ROMs están disponibles, ofreciendo una capacidad de memoria de 100 MByte ó más, pero un alto costo para las aplicaciones del consumidor está presente. Gracias al avance en la tecnología de las tarjetas y de las memorias ahora se puede hablar de aplicaciones en "tarjetas de audio en chip". Una prueba de esto se dio en Agosto del 95 en Munich Alemania, donde Siemens anunció la llegada de una nueva tecnología ROM de bajo costo llamada "chip ROS" (ROS = Grabado en Silicio, por sus siglas en inglés). La primer generación de los chips ROS estará en producción en 1997 con una capacidad de almacenamiento de 64 Mbit; una próxima generación con 256 Mbit como versión de una sola vez programable seguirá. Los chips ROS serán puestos en las nuevas tarjetas multimedia de Siemens, una tarjeta de bajo costo multimedia que almacene datos, texto, gráficos, imágenes y sonido. Siemens ha mostrado un reproductor alimentado con pilas empleando un prototipo de "Tarjeta de Audio" que contiene tracks de sonido codificados con el MPEG Reproductor-3.
APLICACIONES EMPLEANDO EL REPRODUCTOR-3
Las redes digitales telefónicas (ISDN = Red Digital de Servicios Integrados, por sus siglas en inglés) ofrecen conexiones con dos canales de datos de 64 kbps por adaptador básico.
Empleando el Reproductor-3, una conexión ISDN de bajo costo con un ancho de banda pequeño permite transmitir sonido con la calidad CD. Las estaciones emisoras y los estudios de sonido se benefician de las aplicaciones de la "música por teléfono" de muchas maneras. Una es que ellos se ahorran dinero porque pagan únicamente los derechos de transmisión por el tiempo actual de uso (no 24 horas al día en caso de una línea telefónica contratada) y por un mejor canal de datos (un conector telefónico de una ISDN por un enlace de música estéreo). Las estaciones de radio incrementan la atractividad de sus programas: los reporteros transmiten entrevistas de alta calidad ó las noticias en vivo sin el molesto "ruido telefónico". Además nuevas aplicaciones podrán ser posibles como un "estudio virtual" donde artistas remotos tocarán algún material preproducido sin la necesidad de viajar al estudio.
Promovida por WorldSpace, un sistema de transmisión de audio digital satelital está bajo construcción bajo el nombre de "WorldStar", usará 3 satélites de órbita geoestacionaria llamados: "AfriStar 1" (Este 21), "CaribStar 1" (Oeste 95) y "AsiaStar 1" (Este 105), con AfriStar 1 que será lanzado a mediados de 1988. El resto de los satélites serán lanzados a mediados de 1999. Cada satélite está equipado con tres emisiones de enlaces que cubrirán poblaciones enteras para proveer al oyente la base de radio más grande. Cada enlace usa TDM (Multiplexeo por División de Tiempo, por sus siglas en inglés) para transportar 96 canales (de 16kbps cada uno). Los canales están combinados para transportar el rango de transmisión de los mismos de 16 kbps a 128 kbps; los canales de radiodifusión están codificados empleando el MPEG Reproductor-3.
Los receptores de radio serán diseñados para una máxima conveniencia de uso y un costo mínimo. El receptor usará una pequeña antena la cual no requerirá orientación hacia algún satélite en especial y sintonizará automáticamente los canales seleccionados.
Internet es una amplia red mundial conmutada empaquetada de computadoras enlazadas en forma conjunta por varios tipos de sistemas de comunicación. Los proveedores de servicios a Internet accesan a la red a través de enlaces a una alta razón de bits. (ISDN a 2 Mbps ó ATM a 2 Gbps). Sin embargo el común de los consumidores emplea conexiones a una baja razón de bits (ISDN a 64 kbps ó Modems de líneas telefónicas a 28.8 ó 14.4 kbps). La razón actual de transmisión depende de la carga del usuario y de la infraestructura por parte de proveedor de servicios a Internet.
Sin la codificación de audio, el bajar archivos sin comprimir de alta calidad de audio de un servidor remoto de Internet resultaría en largos tiempos desfavorables de transmisión. Por ejemplo con una razón promedio de transmisión de 28.8 kbaud, un track de 3 minutos estéreo (31,7 Mbyte) requeriría un tiempo de bajada de más de 2 horas. Es por eso que el audio en Internet requiere de un esquema de código de audio que mantenga la mejor calidad del sonido y permita un decodicamiento en tiempo real en un número grande plataformas de computadoras sin la necesidad de un hardware especial. El Reproductor-3 cumple con estos requerimientos.
Las Intranets presentan un caso especial, ya que están proveen una razón de bits suficiente para tener un cierto número de enlaces de audio en tiempo real.
Varios sistemas de ventas de música han sido desarrollados por Cerberus Sound & Vision. La compañía usa un Reproductor-3 de tiempo real y un esquema de encriptación propia para vender archivos de sonido via Internet en una base "por canción". Los servidores de música y sitios espejo se encuentran localizados en Londres, Nueva York, Tokio y Río; Melbourne y Berlín se añadirán próximamente.
þ En el presente trabajo se trató de abordar de una manera accesible lo que cada vez se hace más popular: los archivos de música con formato MP3, se han vuelto así porque cada vez un número mayor de usuarios de Internet bajan un reproductor y pueden convertir los tracks de un CD a archivos de la forma *.mp3, propios del estándar y subirlos a la red, con esto la difusión de diferentes tipos de música se hace aún más común para los distintos usuarios de la red de redes.
þ Todo lo dicho anteriormente, si lo abordamos desde el punto de vista computacional es posible gracias a la inversión tanto económica como técnica que han hecho las empresas dedicadas al desarrollo de nuevas técnicas cada vez más eficientes y complejas de compresión de datos de audio basándose siempre en el mismo principio básico: el de ocultar tonos de menor intensidad (en dB) que estén cerca de otro de mayor intensidad dado un umbral de ocultación.
þ Por lo que se mencionó, se debe de tomar en cuenta algo que es determinante, si nuestro objetivo es tener una calidad de música de un CD y sabiendo que la ocultación que se leva a cabo es ruido, los compresores deben forzosamente realizar una eficiente cuantificación digital para que el oído no perciba señales indeseables.
þ Ya que se trata de un estándar a nivel internacional, las empresas se deben de acatar a las normas establecidas por MPEG para poder realizar sus reproductores de tiempo real. Con esto no se violarán los acuerdos establecidos para la configuración de la trama de bits, dando la plena libertad a las empresas de realizar sus reproductores.
þ Un problema con el que se han topado los usuarios de un reproductor (como Winplay3) es que si ellos deciden ocupar además del reproductor otra aplicación, al momento de seleccionar tal aplicación, está hace uso de los recursos del sistema originando una interrupción o distorsión de la música que percibimos, esto se presenta en computadoras con microprocesadores Pentium de 90 a 166 MHz teniendo 8 Mbytes en RAM, el problema se llega casi a nulificar si se usan computadoras con microprocesadores de la familia Intel: MMX y Pentium II corriendo a una velocidad de al menos 200 MHz y con una memoria RAM de 32 Mbytes.
COMPUTACIÓN GENERAL
WILSON REATEGUI MARROU
LIMA PERU