Análisis de la voz – Parametrización

Partes: 1, 2, 3, 4

Análisis localizado de la voz La señal de voz solo presenta características pseudo-estacionarias a corto plazo

Será necesario procesar la señal de voz en segmentos de corta duración: Análisis Localizado

El mecanismo que nos permite realizar este análisis es el enventanado de la señal

edu.red Enventanado de la señal s[n]: Señal de voz w[n]: Ventana de análisis N: Tamaño de la ventana M: Desplazamiento S[n] (Gp:) w[n]

(Gp:) w[M-n]

(Gp:) w[2M-n]

(Gp:) w[3M-n]

N (Gp:) M

edu.red Perfiles: Rectangular, Hanning, Hamming, Blackman…

edu.red Espectros de los perfiles: Lóbulo principal Lóbulos laterales

edu.red Problemas del enventanado: Produce derrame espectral (leakage). El lóbulo principal dificulta la identificación de frecuencias cercanas entre sí. Los lóbulos laterales introducen señal en frecuencias donde no debería haber nada.

Se debe llegar a un compromiso entre el ancho del lóbulo principal y la minimización de los laterales. Generalmente se prefiere minimizar los lóbulos laterales.

Perfiles típicos para voz: Hanning/Hamming y rectangular.

edu.red Análisis temporal localizado Parámetros típicos que se suelen calcular:

Energía localizada (o en su defecto la magnitud)

Tasa de cruces por cero

Autocorrelación

Estimación de la frecuencia fundamental F0 (Pitch)

edu.red Energía localizada E[m]: Energía localizada

Energía localizada de la palabra “Hipotenusa”: i p o t e n u s a

edu.red E[m]: Energía localizada

Esta ecuación se puede interpretar como:

Esto a su vez se puede interpretar como: Siendo: (Gp:) x[n]2 (Gp:) x[n] (Gp:) h[n] (Gp:) E[m]

edu.red Magnitud M[m]: Magnitud

Es un parámetro alternativo a la energía Menor complejidad Menor margen dinámico Muestras elevadas pueden desvirtuar el valor de la energía al ser elevadas al cuadrado

edu.red Ejemplo del cálculo de la magnitud para la palabra “Hipotenusa” i p o t e n u s a

Partes: 1, 2, 3, 4

Página siguiente