Descargar

Reconocimiento de voz (Presentación Powerpoint)

Enviado por Pablo Turmero


Partes: 1, 2, 3

    edu.red

    1.- Introducción Reconocimiento de voz: Identificar las palabras pronunciadas. Entender el significado.

    Ventajas: Comunicación rápida y agradable. Libera otros “recursos” (manos, vista, …) Permite movilidad (no es necesario teclado, …) Facilita la reducción de los interfaces de control Mejora la interacción a minusválidos

    edu.red

    2.- Problemática Problema mucho más complejo que la síntesis de voz

    Factores que determinan la complejidad: Variabilidad locutor: Intralocutor e interlocutor.

    Forma de hablar: Habla continua… Coarticulación: Los sonidos (silabas, fonemas, …) pronunciados en una palabra o de forma aislada tienen espectros distintos Segmentación: es difícil separar silabas, fonemas, …

    Vocabulario: cuanto menor sea mejor funcionará el reconocedor. (palabras parecidas, mayor proceso, …)

    El entorno: ruido de fondo.

    edu.red

    3.- Clasificación Según el objetivo del reconocedor: Palabras aisladas Habla conectada Habla continua

    Según el locutor: Dependiente del locutor Multilocutor Independiente del locutor

    edu.red

    3.- Clasificación Según el vocabulario: Pequeño (Menos de 100 palabras) Mediano/Intermedio (Entre 100 y 1000 palabras) Grande (Más de 1000 palabras)

    Según el medio: Telefónico Microfónico

    edu.red

    4.- Esquema de trabajo Un reconocedor tiene dos fases:

    Entrenamiento: Se enseña al reconocedor los modelos o patrones del vocabulario

    Reconocimiento: El reconocedor analiza el sonido recibido y lo clasifica asignándole (si es el caso) una palabra del vocabulario

    edu.red

    4.- Esquema de trabajo Diagrama de bloques genérico: (Gp:) Voz (Gp:) Segmentación (Gp:) Extracción características (Gp:) Clasificación (Gp:) Vocabulario (Gp:) Preprocesado (Gp:) Resultado

    edu.red

    4.- Esquema de trabajo Preprocesado: Normalizar Ecualizar Eliminar ruido (sustracción espectral)

    Segmentación: Dividir la señal en bloques (10-20ms)

    Extracción de características: Transformar la información de un bloque en un conjunto reducido de parámetros (no es necesario recuperar luego la señal) Vectores de características (feature vectors)

    edu.red

    4.- Esquema de trabajo Extracción de características: En general se puede emplear todas las técnicas vistas en la parametrización de la señal de voz.

    Técnicas de extracción de características: Banco de filtros Transformadas (FFT, DCT, …) Predicción lineal (LPC) MFCC: Mel Frequency Cepstral Coefficients

    edu.red

    4.- Esquema de trabajo Diagrama de bloques genérico: (Gp:) Voz (Gp:) Segmentación (Gp:) Extracción características (Gp:) Clasificación (Gp:) Vocabulario (Gp:) Preprocesado (Gp:) Resultado

    edu.red

    5.- Técnicas de reconocimiento Ajuste de plantillas o patrones: Alineamiento temporal óptimo DTW: Dynamic Time Warping

    Redes Neuronales NN: Neural Networks

    Modelos Ocultos de Markov HMM: Hidden Markov Models

    Partes: 1, 2, 3
    Página siguiente