Donde sgn() es la función signo definida por:
Tasa de cruces por cero Indica la relación entre la energía a baja y alta frecuencia. Las señales sonoras dan un tasa menor que las señales sordas. Tasa de cruces por cero de “Hipotenusa” h i p o t e n u s a
Aplicaciones E, M y Tcc Entre las principales aplicaciones se encuentran: Clasificación de sonidos Sonoros/Sordos, etc…
Detector de actividad (VAD: Voice Activity Detector) Uso en codificación: Ej. GSM: para reducir interferencias y ahorrar batería. Uso en reconocimiento: Mayor eficiencia y evitar reconocimientos erróneos.
Detector de actividad: ¿E[m] ó M > Umbral? ¿Tcc[m] > Umbral? Voz Ruido Si Si No No
Autocorrelación Rm[k]: Autocorrelación
Propiedades: Es una función par Tiene un máximo en k=0, i.e.:
Para desplazamientos de k igual al periodo de la señal la autocorrelación tiene máximos locales La autocorrelación de una señal periódica es periódica
En una señal de voz: Los máximos locales de la autocorrelación corresponden con el pitch (frecuencia fundamental, f0) y los formantes del tracto vocal.
Estimación del Pitch A partir de la correlación Es el mayor máximo local de la autocorrelación (excluyendo el máximo global) Segmento Sonoro Segmento Sordo
Problema: No siempre el mayor máximo local corresponde con el pitch
Para facilitar su localización emplearemos una función de recorte
Esta función eliminará toda la señal de entrada que no sobrepase un determinado umbral
Función de recorte:
Autocorrelación de la señal recortada
AMDF, Average Magnitude Difference Function Estima del pitch empleando la Magnitud en vez de la correlación Menor complejidad y coste computacional En este caso en vez de buscar máximos se deben buscar mínimos
AMDF, Average Magnitude Difference Function
Análisis localizado en frecuencia Para realizar un análisis localizado en frecuencia basta con calcular la TF de un segmento de señal enventanado.
Espectrogramas También denominados Sonogramas Representan la evolución del espectro con el tiempo Estas variables son inversas Al ganar resolución en una de ellas, la perdemos en la otra
Tipos de espectrogramas: Banda ancha Banda estrecha
Banda ancha (poca resolución en frecuencia) Ventanas temporales cortas
Banda estrecha (poca resolución en el tiempo) Ventanas temporales largas
Análisis Homomórfico: Cepstrum Utilidad: Permite separar la señal de excitación de la respuesta del filtro del tracto vocal
Un segmento sonoro es la convolución entre: La señal de excitación glotal e[n] El filtro del tracto vocal h[n]
La convolución en el tiempo es una multiplicación en frecuencia
Aprovechando las propiedades de los logaritmos:
Si ahora regresamos al “tiempo”: Cepstrum (Gp:) s[n] (Gp:) FFT (Gp:) Log (Gp:) IFFT (Gp:) c[n]
El cepstrum puede ser real o complejo: Cepstrum complejo: tomamos logaritmos del espectro completo (con la fase desenrollada, unwrapped)
Cepstrum real: sólo aplicamos el logaritmo al módulo del espectro
El cepstrum complejo se puede deshacer, el real no al no contener información de fase
Para voz se suele emplear el cepstrum real
Página anterior | Volver al principio del trabajo | Página siguiente |