Descargar

Análisis de la voz – Parametrización (página 2)

Enviado por Pablo Turmero


Partes: 1, 2, 3, 4
edu.red Tasa de cruces por cero Tcc[m]: Tasa de cruces por cero

Donde sgn() es la función signo definida por:

edu.red Tasa de cruces por cero Indica la relación entre la energía a baja y alta frecuencia. Las señales sonoras dan un tasa menor que las señales sordas. Tasa de cruces por cero de “Hipotenusa” h i p o t e n u s a

edu.red Aplicaciones E, M y Tcc Entre las principales aplicaciones se encuentran: Clasificación de sonidos Sonoros/Sordos, etc…

Detector de actividad (VAD: Voice Activity Detector) Uso en codificación: Ej. GSM: para reducir interferencias y ahorrar batería. Uso en reconocimiento: Mayor eficiencia y evitar reconocimientos erróneos.

edu.red Detector de actividad: ¿E[m] ó M > Umbral? ¿Tcc[m] > Umbral? Voz Ruido Si Si No No

edu.red Autocorrelación Rm[k]: Autocorrelación

Propiedades: Es una función par Tiene un máximo en k=0, i.e.:

edu.red Para desplazamientos de k igual al periodo de la señal la autocorrelación tiene máximos locales La autocorrelación de una señal periódica es periódica

edu.red En una señal de voz: Los máximos locales de la autocorrelación corresponden con el pitch (frecuencia fundamental, f0) y los formantes del tracto vocal.

edu.red Estimación del Pitch A partir de la correlación Es el mayor máximo local de la autocorrelación (excluyendo el máximo global) Segmento Sonoro Segmento Sordo

edu.red Problema: No siempre el mayor máximo local corresponde con el pitch

Para facilitar su localización emplearemos una función de recorte

Esta función eliminará toda la señal de entrada que no sobrepase un determinado umbral

edu.red Función de recorte:

edu.red Autocorrelación de la señal recortada

edu.red AMDF, Average Magnitude Difference Function Estima del pitch empleando la Magnitud en vez de la correlación Menor complejidad y coste computacional En este caso en vez de buscar máximos se deben buscar mínimos

edu.red AMDF, Average Magnitude Difference Function

edu.red Análisis localizado en frecuencia Para realizar un análisis localizado en frecuencia basta con calcular la TF de un segmento de señal enventanado.

edu.red Espectrogramas También denominados Sonogramas Representan la evolución del espectro con el tiempo Estas variables son inversas Al ganar resolución en una de ellas, la perdemos en la otra

Tipos de espectrogramas: Banda ancha Banda estrecha

edu.red Banda ancha (poca resolución en frecuencia) Ventanas temporales cortas

edu.red Banda estrecha (poca resolución en el tiempo) Ventanas temporales largas

edu.red Análisis Homomórfico: Cepstrum Utilidad: Permite separar la señal de excitación de la respuesta del filtro del tracto vocal

Un segmento sonoro es la convolución entre: La señal de excitación glotal e[n] El filtro del tracto vocal h[n]

La convolución en el tiempo es una multiplicación en frecuencia

edu.red Aprovechando las propiedades de los logaritmos:

Si ahora regresamos al “tiempo”: Cepstrum (Gp:) s[n] (Gp:) FFT (Gp:) Log (Gp:) IFFT (Gp:) c[n]

edu.red El cepstrum puede ser real o complejo: Cepstrum complejo: tomamos logaritmos del espectro completo (con la fase desenrollada, unwrapped)

Cepstrum real: sólo aplicamos el logaritmo al módulo del espectro

El cepstrum complejo se puede deshacer, el real no al no contener información de fase

Para voz se suele emplear el cepstrum real

Partes: 1, 2, 3, 4
 Página anterior Volver al principio del trabajoPágina siguiente