Descargar

Parametrización en el Análisis de la voz

Enviado por Pablo Turmero


Partes: 1, 2, 3

    edu.red

    Parametrización en el Análisis de la voz 1.- Análisis localizado de la voz

    2.- Análisis temporal localizado

    3.- Análisis localizado en frecuencia

    4.- Análisis de predicción lineal

    5.- Análisis espectral localizado

    edu.red

    1.- Análisis localizado de la voz La señal de voz solo presenta características pseudo-estacionarias a corto plazo

    Será necesario procesar la señal de voz en segmentos de corta duración: Análisis Localizado

    El mecanismo que nos permite realizar este análisis es el enventanado de la señal

    edu.red

    1.1.- Enventanado de la señal s[n]: Señal de voz w[n]: Ventana de análisis N: Tamaño de la ventana M: Desplazamiento S[n] (Gp:) w[n]

    (Gp:) w[M-n]

    (Gp:) w[2M-n]

    (Gp:) w[3M-n]

    N (Gp:) M

    edu.red

    1.1.- Enventanado de la señal Perfiles: Rectangular, Hanning, Hamming, Blackman…

    edu.red

    1.1.- Enventanado de la señal Espectros de los perfiles: Lóbulo principal Lóbulos laterales

    edu.red

    1.1.- Enventanado de la señal Problemas del enventanado: Produce derrame espectral (leakage). El lóbulo principal dificulta la identificación de frecuencias cercanas entre sí. Los lóbulos laterales introducen señal en frecuencias donde no debería haber nada.

    Se debe llegar a un compromiso entre el ancho del lóbulo principal y la minimización de los laterales. Generalmente se prefiere minimizar los lóbulos laterales.

    Perfiles típicos para voz: Hanning/Hamming y rectangular.

    edu.red

    2.- Análisis temporal localizado Parámetros típicos que se suelen calcular:

    Energía localizada (o en su defecto la magnitud)

    Tasa de cruces por cero

    Autocorrelación

    Estimación de la frecuencia fundamental F0 (Pitch)

    edu.red

    2.1.- Energía localizada E[m]: Energía localizada

    Energía localizada de la palabra “Hipotenusa”: i p o t e n u s a

    edu.red

    2.1.- Energía localizada E[m]: Energía localizada

    Esta ecuación se puede interpretar como:

    Esto a su vez se puede interpretar como: Siendo: (Gp:) x[n]2 (Gp:) x[n] (Gp:) h[n] (Gp:) E[m]

    edu.red

    2.2.- Magnitud M[m]: Magnitud

    Es un parámetro alternativo a la energía Menor complejidad Menor margen dinámico Muestras elevadas pueden desvirtuar el valor de la energía al ser elevadas al cuadrado

    edu.red

    2.2.- Magnitud Ejemplo del cálculo de la magnitud para la palabra “Hipotenusa” i p o t e n u s a

    edu.red

    2.3.- Tasa de cruces por cero Tcc[m]: Tasa de cruces por cero

    Donde sgn() es la función signo definida por:

    edu.red

    2.3.- Tasa de cruces por cero Indica la relación entre la energía a baja y alta frecuencia. Las señales sonoras dan un tasa menor que las señales sordas. Tasa de cruces por cero de “Hipotenusa” h i p o t e n u s a

    edu.red

    2.4.- Aplicaciones E, M y Tcc Entre las principales aplicaciones se encuentran: Clasificación de sonidos Sonoros/Sordos, etc…

    Detector de actividad (VAD: Voice Activity Detector) Uso en codificación: Ej. GSM: para reducir interferencias y ahorrar batería. Uso en reconocimiento: Mayor eficiencia y evitar reconocimientos erróneos.

    edu.red

    2.4.- Aplicaciones E, M y Tcc Detector de actividad: ¿E[m] ó M > Umbral? ¿Tcc[m] > Umbral? Voz Ruido Si Si No No

    edu.red

    2.5.- Autocorrelación Rm[k]: Autocorrelación

    Propiedades: Es una función par Tiene un máximo en k=0, i.e.:

    Partes: 1, 2, 3
    Página siguiente