1.- Introducción Reconocimiento de voz: Identificar las palabras pronunciadas. Entender el significado.
Ventajas: Comunicación rápida y agradable. Libera otros “recursos” (manos, vista, …) Permite movilidad (no es necesario teclado, …) Facilita la reducción de los interfaces de control Mejora la interacción a minusválidos
2.- Problemática Problema mucho más complejo que la síntesis de voz
Factores que determinan la complejidad: Variabilidad locutor: Intralocutor e interlocutor.
Forma de hablar: Habla continua… Coarticulación: Los sonidos (silabas, fonemas, …) pronunciados en una palabra o de forma aislada tienen espectros distintos Segmentación: es difícil separar silabas, fonemas, …
Vocabulario: cuanto menor sea mejor funcionará el reconocedor. (palabras parecidas, mayor proceso, …)
El entorno: ruido de fondo.
3.- Clasificación Según el objetivo del reconocedor: Palabras aisladas Habla conectada Habla continua
Según el locutor: Dependiente del locutor Multilocutor Independiente del locutor
3.- Clasificación Según el vocabulario: Pequeño (Menos de 100 palabras) Mediano/Intermedio (Entre 100 y 1000 palabras) Grande (Más de 1000 palabras)
Según el medio: Telefónico Microfónico
4.- Esquema de trabajo Un reconocedor tiene dos fases:
Entrenamiento: Se enseña al reconocedor los modelos o patrones del vocabulario
Reconocimiento: El reconocedor analiza el sonido recibido y lo clasifica asignándole (si es el caso) una palabra del vocabulario
4.- Esquema de trabajo Diagrama de bloques genérico: (Gp:) Voz (Gp:) Segmentación (Gp:) Extracción características (Gp:) Clasificación (Gp:) Vocabulario (Gp:) Preprocesado (Gp:) Resultado
4.- Esquema de trabajo Preprocesado: Normalizar Ecualizar Eliminar ruido (sustracción espectral)
Segmentación: Dividir la señal en bloques (10-20ms)
Extracción de características: Transformar la información de un bloque en un conjunto reducido de parámetros (no es necesario recuperar luego la señal) Vectores de características (feature vectors)
4.- Esquema de trabajo Extracción de características: En general se puede emplear todas las técnicas vistas en la parametrización de la señal de voz.
Técnicas de extracción de características: Banco de filtros Transformadas (FFT, DCT, …) Predicción lineal (LPC) MFCC: Mel Frequency Cepstral Coefficients
4.- Esquema de trabajo Diagrama de bloques genérico: (Gp:) Voz (Gp:) Segmentación (Gp:) Extracción características (Gp:) Clasificación (Gp:) Vocabulario (Gp:) Preprocesado (Gp:) Resultado
5.- Técnicas de reconocimiento Ajuste de plantillas o patrones: Alineamiento temporal óptimo DTW: Dynamic Time Warping
Redes Neuronales NN: Neural Networks
Modelos Ocultos de Markov HMM: Hidden Markov Models
Página siguiente |