Descargar

Codificación de la voz (Powerpoint) (página 2)

Enviado por Pablo Turmero


Partes: 1, 2, 3
edu.red

Muestreo y cuantificación Creación del codebook: (con N codevectors)

Dada una secuencia de entrenamiento (siendo cada muestra xi k-dimensional):

Sea el codebook:

edu.red

Codificadores de voz: clasificación Los codificadores de voz pueden dividirse en 3 grupos:

Codificadores de forma de onda Conservan la forma de onda de la señal Calidad alta: 16 – 64 kbps

Vocoders (codificadores paramétricos) Explotan la naturaleza de la señal de voz para reducir el bitrate Calidad baja/media: 1.2 – 4.8 kbps

Codificadores híbridos Mezcla de los dos anteriores Calidad media/alta: 2.4 – 16 kbps

edu.red

Codificadores de forma de onda Estos codificadores pueden clasificarse en dos grupos según el dominio en el que trabajan:

En el dominio del tiempo: PCM, LogPCM, DPCM, ADPCM, etc…

En el dominio de la frecuencia: Codificación por subbandas Codificación por transformada

edu.red

Codificadores: dominio del tiempo PCM: Cuantificador uniforme No aprovecha la FDP de la señal Óptimo solo si FDP es uniforme (Gp:) Muestreo (Gp:) Q (Gp:) Codificación

edu.red

Codificadores: dominio del tiempo DPCM, PCM diferencial: La potencia del error de cuantificación es proporcional a la potencia de la señal Reducir pot. de la señal ? reducir pot. ruido Emplearemos un predictor: Cuantificamos la señal de error (Gp:) Codificador (Gp:) + (Gp:) Q (Gp:) Codificador (Gp:) + (Gp:) P (Gp:) x[n] (Gp:) x[n] (Gp:) x[n] (Gp:) ê[n] (Gp:) e[n] (Gp:) c[n] (Gp:) ^ (Gp:) ~

edu.red

Codificadores: dominio del tiempo DPCM: PCM Diferencial

(Gp:) Decodificador (Gp:) + (Gp:) Decodificador (Gp:) P (Gp:) x[n] (Gp:) x[n] (Gp:) c[n] (Gp:) ^ (Gp:) ~ (Gp:) e[n] (Gp:) ~

edu.red

Codificadores: dominio del tiempo ADPCM: PCM Diferencial Adaptativo DPCM + adaptación del tamaño de los niveles del cuantificador Estándar G.721 ? ADPCM 32 kbps (Gp:) Codificador (Gp:) + (Gp:) Q (Gp:) + (Gp:) P Adaptativo (Gp:) x[n] (Gp:) Ajuste tamaño escalón (Gp:) Ajuste tamaño escalón (Gp:) P Adaptativo (Gp:) + (Gp:) Q Inverso (Gp:) Decodificador

edu.red

Codificadores: en frecuencia Hay dos tipos dependiendo de la forma de obtener el espectro:

Codificación por subbandas Dividen la señal en N bandas de frecuencia por medio de un banco de filtros paso banda

Codificación por transformada Calculan el espectro mediante una transformada (Fourier, coseno, etc…)

edu.red

Codificadores: en frecuencia Codificación por subbandas: Banco de filtros QMF (generalmente de 4 a 8) Cada banda puede emplear más o menos bits Ruido de cuantificación: confinado en cada banda PCM, DPCM, ADPCM, … (Gp:) FPB1 (Gp:) FPBn (Gp:) n:1 (Gp:) n:1 (Gp:) Diezmado (Gp:) x[n] (Gp:) x1[n] (Gp:) xn[n] (Gp:) 1:n (Gp:) 1:n (Gp:) FPB1 (Gp:) FPBn (Gp:) + (Gp:) Interp. (Gp:) y[n]

Codificar Decodificar … … … …

edu.red

Codificadores: en frecuencia Codificación por transformada: Es necesario trabajar por bloques Ventanas…

Se calcula el espectro de cada bloque y se cuantifica el espectro, no la señal temporal

El decodificador reconstruye el espectro y calcula la transformada inversa

Generalmente se emplea la transformada discreta de coseno ya que condensa mejor los coeficientes

edu.red

Vocoders Se basan en el modelo simplificado de producción de voz Explotan las características de la voz Codificador: Calcula los parámetros del modelo Transmite los parámetros al decodificador Decodificador: Reconstruye la señal de voz a partir de los parámetros Permiten tasas binarias muy bajas Consiguen inteligibilidad pero no naturalidad.

(Gp:) Análisis (Gp:) Síntesis (Gp:) Voz (Gp:) Voz (Gp:) Parámetros

edu.red

Vocoders Modelo de producción: (Gp:) Excitación Periódica (Gp:) Ruido Aleatorio (Gp:) Pitch (Gp:) Envolvente espectral (Gp:) G (Gp:) Parámetros Espectrales (Gp:) Voz

Un único modelo ? Varios vocoders

edu.red

Vocoder LPC Vocoder de predicción lineal

El codificador trabaja por segmentos: Frecuencia fundamental (F0 o pitch) Decisión sonoro/sordo (incluido en pitch) Coeficientes LPC Factor de ganancia

El decodificador sintetiza la voz empleando los parámetros

edu.red

Vocoder LPC Vocoder LPC vs DPCM

Ambos emplean predicción lineal

DPCM envía el error muestra a muestra El vocoder solo envía los parámetros del modelo Para obtener la señal de error emplea el pitch o un ruido blanco (sonoro/sordo)

La calidad de la voz sintética del vocoder es muy inferior El vocoder tiene una tasa binaria mucho menor

edu.red

LPC-10 Diseñado por el DOD estadounidense (1976) Permite la codificación de la señal de voz a 2400 bps

Emisor Análisis LPC Voz FPB Filtro Inverso LPC 2º Orden AMDF Pitch Detector Sonoridad Corrector Pitch Codificación RC’s y RMS

edu.red

LPC-10 Receptor (Gp:) Excitación Periódica (Gp:) Generador Ruido (Gp:) Pitch (Gp:) LPC (Gp:) G (Gp:) RC’s (Gp:) Voz

RMS

edu.red

Codificadores híbridos Combinan las técnicas de los codificadores de forma de onda con las de los vocoders

Intención: mejorar la calidad empleando bitrates bajos

Forma de mejorar la calidad: Mejorar el modelo de la fuente Sustituir el modelo de la fuente Enviando el residuo (o parte de el) de alguna forma

A algunos de ellos se les conoce como codificadores de “Análisis por síntesis”

edu.red

RELP

Residual-Excited LPC Vocoder El filtro LPC quita la correlación entre muestras, pero no elimina toda la información útil Esta información permanece en el error de predicción Transmitiremos parte del residuo e intentaremos reconstruirlo por completo Filtro Inverso LPC Filtro LPC Residuo Voz Voz

edu.red

RELP

Información a transmitir: Coeficientes del filtro LPC Parte del residuo Solamente se envía baja frecuencia Se aplica un diezmado (~800 Hz) Así se quitan muestras y se reduce el bitrate

Las altas frecuencias del residuo se “reconstruyen” en el decodificador generalmente aplicando un proceso no lineal: Saturación Énfasis en alta frecuencia Adición de ruido Etc…

edu.red

RELP

Diagrama de bloques del codificador:

(Gp:) Análisis LPC (Gp:) Filtro Inverso (Gp:) Diezmado (Gp:) Mux

s[n] LPC coefs e[n] e’[n]

edu.red

RELP

Diagrama de bloques del decodificador:

(Gp:) Síntesis LPC (Gp:) Generación HF (Gp:) Filtro PA (Gp:) De-Mux (Gp:) LPC coefs (Gp:) e[n] (Gp:) + (Gp:) Interpolación (Gp:) e’[n]

edu.red

MELP

Mixed Excitation LPC La señal de excitación se genera como una mezcla de dos señales: Ruido gausiano Trenes de impulsos Esta operación se realiza en varias bandas de frecuencia (entre 4 y 10 bandas distintas) Se debe determinar el “grado de sonoridad” de la señal Además se le aplica cierto Jitter a la señal para generar naturalidad.

edu.red

Codificación multipulso, MPC

Alimenta al filtro LPC con una serie pulsos sin tener en cuenta si la señal es sonora o sorda. No aplica el modelo de fuente sonora. Amplitudes y posiciones Síntesis LPC Generador multipulsos FPB v[n] s[n] ^ LPC coefs Residuo reconstruido

edu.red

Codificación multipulso, MPC

Ejemplo de señal multipulso: (Gp:) Residuo LPC Original (Gp:) Excitación multipulso

edu.red

Codificación multipulso, MPC

Al no emplear el modelo de fuente sonora está libre de errores debido a: El propio modelo de la fuente Ej: Tramos mezcla sonoro/sordo La estimación de los parámetros del modelo Ej: Errores en la estimación del pitch

Mayor inconveniente: Calcular las amplitudes y posiciones óptimas de la señal multipulso en cada caso Dos opciones: bucle abierto y bucle cerrado

edu.red

Codificación multipulso, MPC

Cálculo de la señal multipulso: Bucle abierto Relativamente sencillo Filtro Inverso LPC Análisis LPC Selección de pulsos Codificación y empaquetado Residuo Voz Coefs. LPC Amplitudes y posiciones

edu.red

Codificación multipulso, MPC

Cálculo de la señal multipulso: Bucle cerrado Más complejo pero mejor resultado (Análisis por Síntesis) Análisis LPC Filtro LPC Generador excitación Minimización del error + Codificación y empaquetado Voz Error Voz sintética LPC – Amplitudes y posiciones

edu.red

Codificación multipulso, MPC

Mejoras que podemos realizar:

Implementar un predictor de retardo largo para blanquear aún más la señal de excitación

Solo tener en cuenta el error perceptible por el oído: Añadir un filtro de ponderación perceptual

edu.red

Predictor a largo plazo

El pitch genera una correlación de retardo largo que no elimina el filtro LPC Soluciones: Aumentar el orden de la LPC (50 o más) Aplicar otro predictor específico

Preferible: otro predictor

Necesitamos calcular el periodo del pitch y el valor del coeficiente del filtro T: Periodo del pitch b: coef. LPC de largo plazo

edu.red

Predictor a largo plazo

La señal estimada es:

Por tanto el error (cuadrático) cometido será:

Minimizando el error… Autocorrelación [Ec. 1] [Ec. 2]

Partes: 1, 2, 3
 Página anterior Volver al principio del trabajoPágina siguiente