Será necesario procesar la señal de voz en segmentos de corta duración: Análisis Localizado
El mecanismo que nos permite realizar este análisis es el enventanado de la señal
Enventanado de la señal s[n]: Señal de voz w[n]: Ventana de análisis N: Tamaño de la ventana M: Desplazamiento S[n] (Gp:) w[n]
(Gp:) w[M-n]
(Gp:) w[2M-n]
(Gp:) w[3M-n]
N (Gp:) M
Perfiles: Rectangular, Hanning, Hamming, Blackman…
Espectros de los perfiles: Lóbulo principal Lóbulos laterales
Problemas del enventanado: Produce derrame espectral (leakage). El lóbulo principal dificulta la identificación de frecuencias cercanas entre sí. Los lóbulos laterales introducen señal en frecuencias donde no debería haber nada.
Se debe llegar a un compromiso entre el ancho del lóbulo principal y la minimización de los laterales. Generalmente se prefiere minimizar los lóbulos laterales.
Perfiles típicos para voz: Hanning/Hamming y rectangular.
Análisis temporal localizado Parámetros típicos que se suelen calcular:
Energía localizada (o en su defecto la magnitud)
Tasa de cruces por cero
Autocorrelación
Estimación de la frecuencia fundamental F0 (Pitch)
Energía localizada E[m]: Energía localizada
Energía localizada de la palabra “Hipotenusa”: i p o t e n u s a
E[m]: Energía localizada
Esta ecuación se puede interpretar como:
Esto a su vez se puede interpretar como: Siendo: (Gp:) x[n]2 (Gp:) x[n] (Gp:) h[n] (Gp:) E[m]
Magnitud M[m]: Magnitud
Es un parámetro alternativo a la energía Menor complejidad Menor margen dinámico Muestras elevadas pueden desvirtuar el valor de la energía al ser elevadas al cuadrado
Ejemplo del cálculo de la magnitud para la palabra “Hipotenusa” i p o t e n u s a
Página siguiente |