Sintesis de Voz

Introducción

El ser humano se ha preocupado cada día más porque la tecnología nos facilite la forma en que vivimos y los procesos que realizamos; para esto es necesaria una comunicación hombre-máquina. El medio de comunicación más fácil para el hombre es el habla, es el medio de comunicación que tenemos más desarrollado y que usamos todos los días en nuestra vida cotidiana, por lo tanto ¿porque no usar el mismo medio de comunicación con las máquinas? A esto es a lo que apunta el estudio de síntesis y reconocimiento de voz: que en un futuro logremos hablarle a la máquina, y esta nos responda de la misma forma. Actualmente se está trabajando en diversos sistemas para que las máquinas logren convertir texto en voz sintetizada, y que a futuro se logre manejar una maquina con la voz. Este trabajo busca dar una muestra del desarrollo que se ha logrado hasta el día de hoy en el proceso de lograr que la maquina emule la voz humana, es decir en la síntesis de voz. Este también será un mecanismo para llevar la tecnología a personas que presentan dificultades a la hora de leer en el monitor del computador, o de intentar interactuar con los actuales medios de comunicación del mismo.

Actualmente existen diversas maneras en que se puede producir la síntesis de voz en las máquinas, todas basadas en el estudio de la lingüista y fonética del idioma, además de crear diferentes patrones matemáticos para generar voz. Básicamente lo que se busca es descomponer las palabras en fonemas, para que mediante diferentes mecanismos que tiene la máquina los convierta en voz, es decir, se basa en la reconstrucción de la voz. Hoy en día se tiene 4 tipos de sintetizadores: los articulatorios, los formantes, derivados de técnicas de predicción lineal y por concatenación de forma de onda, siento este último es más utilizado. En este trabajo, se explicara brevemente cada uno, y con más profundidad la síntesis por concatenación.

Objetivos:

Conocer el proceso de desarrollo que se ha dado en el desarrollo de la síntesis de voz.
Analizar el proceso actual usado para que las maquinas emulen la voz humana.
Determinar cuáles son las grandes dificultades en el desarrollo de la síntesis de voz.

¿Qué es la Síntesis de voz?

La síntesis de voz es el proceso mediante el cual se busca que una máquina genere voz, o simule el habla humana, a partir de un texto, mediante el uso de procesos matemáticos y el estudio de la fonética y la teoría lingüística. Dicho de forma más sencilla, es la producción artificial de expresiones vocales por parte de la máquina, sin que estas sean pregrabadas.

La síntesis de voz busca ser útil para situaciones en las cuales los ojos deben estar enfocados en otras cosas, como al conducir un automóvil, o en medio de cierto procedimiento científico en el cual se dificulta colocar la atención en la máquina para leer un resultado. Así mismo se busca que sea útil a personas con discapacidades que les impidan leer correctamente los monitores de las maquinas.

Tipos de Síntesis:

A lo largo de los años, mediante diferentes investigaciones y el desarrollo de la tecnología se ha llegado a diversas formas de sintetizar voz en las maquinas, las cuales se describen a continuación:

Sintetizador Articulatorio:

Se basa en hacer una analogía entre los parámetros de los órganos articulatorios del hombre, con parámetros circuitales, que le permitan a la maquina emularlos. La calidad que ofrecen es muy alta, sin embargo es un sistema muy complicado en términos de controlar y configurar los parámetros del sistema. Los principales problemas que presenta este tipo de síntesis es que hace falta mucha información sobre los movimientos de los articulados, y se requieren de una gran carga computacional.

Sintetizadores por formantes:

Busca imitar el tracto vocal humano mediante una serie de filtros, que se activan por fuentes que simulan las cuerdas vocales. Estos se basan en modelos matemáticos que controla la frecuencia fundamental o la amplitud de la onda, además de otros factores como el tiempo de apertura del sonido o lo abrupto de la onda, entre otros que pueden afectar la forma en que sale la voz. Por otro lado se crean modelos para la salida de la voz, simulando la faringe la cavidad bucal y los labios, mediante una función modelada por conjuntos de polos, de los cuales cada par es un formante. Todos los modelos cuentan con parámetros que le permiten conocer la frecuencia de un resonador, su ancho de banda o la ganancia del generador; estos parámetros son controlados mediante reglas que dependen del contexto, o análisis que dependen del análisis de la voz natural. Maneja sintetizadores tanto en serie como en paralelo, dependiendo del tipo de sonido que se busque (sonoro u oclusivo, respectivamente). Este tipo de síntesis permite que se puedan simular distintos tipos de voces, sea masculina, femenina, joven, etc. Su principal problema es q necesita que nueva información alimente al sistema constantemente (10 ms.), y hay características de la síntesis de voz que dependen del hablante o el contexto por lo cual no se puede automatizar la generación de estas ecuaciones, además de producir una voz muy robótica y artificial, que bajo ninguna circunstancia se puede llegar a confundir con una voz humana.

Sintetizadores derivados de las técnicas de predicción lineal:

Son sintetizadores basados en los dos anteriores, en los cuales se logra el monitoreo de los parámetros mediante parámetros LPC.

Sintetizadores por concatenación de forma de onda:

Tienen una base de datos con unidades, o fonemas, pregrabados, de modo que después del correcto análisis concatena las unidades adecuadas para generar nuevas frases. Su grado de complejidad es alto y se limita a las características de un solo hablante (aquel que realiza las grabaciones),pero mejora la calidad y se tienen muy buenos resultados, siendo el método más usado en la actualidad para diversas aplicaciones. A continuación se profundiza un poco más en este tipo de síntesis.

Síntesis por concatenación:

Como ya se mencionó anteriormente, este método está basado en bloques de voz pregrabada de forma tal, que dependiendo del sistema, se unan adecuadamente para poder llegar a formar las frases o palabras que se ingresaron por texto.

Bloques

Los bloques son la base de este sistema de síntesis de voz, pues es a partir de los cuales se buscara que el ordenador construya las frases a generar. Se tiene diferentes maneras de generarlos a partir de grabaciones de una persona que mantenga un forma constante al hablar. Estas grabaciones para obtener la información puede se puede realizar de 4 formas diferentes:

Frases naturales: Se graban diferentes frases que contengan las unidades que se quieren.
Frases portadoras: Se graba una estructura fija, donde se cambian algunas palabras para obtener los bloques que se quieren.
Palabras aisladas: se graba cada palabra, y se procede a fragmentarla si es necesario.
Logatomos: palabras que no tengan sentido semántico, pero que contengan el bloque deseado. Es generalmente usado cuando el bloque consiste en difonemas o trifonemas, y tiene una estructura dada. Se compone por tres silabas separadas con sonidos explosivos entre ellas (dos sonidos explosivos en total), siendo la silaba del medio la que queremos extraer como bloque. (Ej. Opoat´e: o-p-oa-t-´e se extrae el difonema oa[1]

En cualquier tipo de grabación se debe tener claro cuál será el punto de corte.

Por esta razón en cada sistema de síntesis de voz se debe tener claro cuál va a ser la unidad básica de concatenación, si serán silabas, palabras, frases, etc. Esto se hace basado en la calidad que se busca al generar la voz y en la cantidad de memoria con la que se cuenta, pues a tramos de voz más grandes mejor calidad, pero también se necesita mayor uso de memoria. No se recomienda usar palabras pues la entonación de las palabras es totalmente diferente al usarlas en frases que al decirlas de forma independiente; se pierden características como el ritmo o la entonación, además que se necesitaría una gran base de datos para agrupar todas las palabras existentes. Por otro lado se tiene la síntesis por silabas, lo cual también necesitaría un gran número de las mismas.

La unidad más aceptada hasta el momento es el difonema, que sería la unión de fonemas. El lenguaje, y su fono táctica, tienen una gran influencia en la definición de los difonemas, por lo que el número puede variar dependiendo del idioma que se maneje en el sintetizador. Para el español existe aproximadamente 30, dando un aproximado de 900 difonemas. Estos consisten en crear los bloques desde la mitad de un fonema a la mitad del siguiente, pues al tomar los fonemas como el bloque base se presentan problemas articulatorios en las palabras. Otra ventaja de los difonemas es que no se usan todos, por lo que se pueden eliminar los formados por dos consonantes, que no se den en el lenguaje. (En resumen se puede obtener una base de datos con 550 difonemas, incluyendo los necesarios para representar las diferentes acentuaciones, y algunos casos con trifonemas (unión de tres fonemas) que se digan a gran velocidad. Estos se graban, se seleccionan puntos de corte, y se deben etiquetar o nombrar cada fragmento.

Para resumir, al realizar la elección de bloques del sistema se debe tener en cuenta 4 criterios importantes:

Usar el menor numero de concatenación posible
Que las uniones se realicen en zonas que sean acústicamente estables
Que limitaciones de memoria se tiene.
Tener en cuenta el control de la coarticulación.[2]

Proceso

El proceso de la síntesis de voz por concatenación se basa en dos procesos fundamentales, denominados front-end y back-end, uno encargado del proceso de analizar la voz entrante y el otro encargado de sintetizar la voz a partir del texto que se ingresa.

El proceso básico en la síntesis del habla tiene 4 pasos generales:

1. En el primer paso se lleva a cabo el análisis textual, que consiste en dividir el texto en tokens, y analizar cada token de modo que se llegue a una estandarización del texto, de modo que las frases generadas posteriormente sean correctas. Se busca darle el correcto valor fonético las abreviaturas (Ej. Cambiar "Sr." por "señor"), a los números y a diferentes palabras que se deben pronunciar diferente a la forma textual en que se escriben. Además se debe dar concordancia a las palabras que varian de acuerdo al contexto en el que se encuentran (Por ejemplo, "1" se puede leer tanto "un" como "una" dependiendo del contenido de la frase).
2. Después de realizar la división por tokens y el análisis textual del texto, se debe analizar la pronunciación del mismo, pues el sonido de ciertas letras o silabas, unidas a otras puede tomar un sonido diferente al que habría en otra situación, como es el caso de la letra "r" si se encuentra al comienzo de la palabra o en el medio de la misma.
3. Cuando ya se ha analizado la forma correcta de pronunciar cada parte de las frases, se procede a determinar la forma de decir las frases, de modo que se logre la entonación y ritmo (duración y amplitud, tanto de los sonidos como de las pausas) más adecuados. De esta forma se puede determinar el tipo de la frase que se está generando y saber cuáles son las relaciones entre las partes de la frase y entre las frases mismas.
4. Finalmente los datos del análisis se transfieren al módulo de elaboración de la señal, donde se realiza la síntesis y se genera la señal sonora. En el proceso de síntesis se selecciona los bloques adecuados para la concatenación de la frase, de entre varias opciones que se tengan.

Módulos

Para realizar este proceso, los sintetizadores de voz cuentan con diferentes módulos que los componen. Estos módulos se muestran en el Diagrama 1, y son los siguientes:

1. Diccionario de unidades acústicas: Hace referencia a la base de datos con todos los bloques pregrabados que hagan parte de nuestro sistema de síntesis de voz.
2. Módulo de análisis lingüístico: Este módulo se encarga de las funciones 1 y 2 descritas anteriormente, es decir se encarga de procesar las abreviaturas, símbolos, números, etc. de modo que se llegue a un estándar en el texto. Además realiza la función de silabificación, descomponiendo cada palabra en sus respectivas silabas o bloques básicos, basado en reglas de posicionamiento relativo de vocales y consonantes. Otro proceso que se lleva a cabo en este módulo es el análisis de acentuación, representando la acentuación de cada palabra de manera textual, para saber que silaba es la acentuada y poder asignar el difonema correcto a cada parte de la palabra. Finalmente el último proceso se encarga de la transcripción fonética, es decir, pasar cada representación ortográfica del texto a la cadena de fonemas correspondiente, realizando un análisis letra por letra. Los análisis realizados en esta etapa alimentaran las siguientes a los otros dos módulos. Siempre se debe tener en cuenta que los procesos realizados en este módulo depende de cada idioma, pues la forma de tratar tanto la prosodia como la estructura de frases, palabras, silabas y difonemas varía de idioma a idioma. Al módulo de síntesis se envía la cadena que se ha creado de fonemas a partir del texto, mientras que al generador de prosodia se le envía el tipo de frase que es para darle la correcta entonación. Este tipo se extrae del mismo texto, basado en la puntuación. Dependiendo del signo de puntuación que finalice cada frase se determina si es una frase enunciativa inacabada (",",";"), acabada ("."), exclamativa("!") o interrogativa ("?").

Diagrama 1: Tomado de http://dihana.cps.unizar.es/investigacion/voz/ctv.html#diagrama

3. Generador de Prosodia: Se encarga de generar la plantilla de prosodia adecuada que permita al sintetizador generar voz con una buena entonación, de modo que se tenga una emisión natural de la voz generada. Además influye en la forma en que se entiende el mensaje, pues el significado se puede modificar, aunque se usen las mismas palabras. Dependiendo del tipo de información que posee cada frase se le asigna un patrón melódico, es decir, una onda especifica que permite el estudio de la entonación. Existen 4 patrones que se pueden tener en cuenta, siendo estos los patrones enunciativos, interrogativos, exclamativos (expresan emociones) y volativos (expresan mandato, imperativos).

Teniendo en cuenta toda esta información se elige un modelo o patrón de prosodia para aplicar la onda más adecuada a la cadena de difonemas que se sintetizara en el módulo de síntesis.

4. Módulo de síntesis: En el módulo de síntesis se lleva a cabo el 4 paso antes mencionado, se toma toda la información de bloques, de prosodia y tomando de la base de datos los bloques adecuados, sintetiza la onda que se emite.

Front-End y Back-End

Conociendo cuales son los diferentes módulos de un sintetizador de voz se puede expresar con mayor facilidad cuales forman parte del front-end y cuáles del back-end, conceptos vistos anteriormente.

Front-end: El front-end de un sintetizador de voz se ve conformado tanto por el analizador de texto como por el generador de prosodia, es decir, se encarga de todo el procesamiento del texto a su representación fonética, tanto al realizar la normalización del texto, como su conversión a fonemas y la extracción de información prosódica.

Back-end: El back-end del sintetizador se encuentra constituido por el sintetizador en sí, es decir por el que se encarga de convertir la cadena de formantes en una onda que simula la voz humana.

Tipos de Concatenación

La síntesis por concatenación se puede dar desde tres puntos de vista diferentes:

1. Por selección de unidades: Se realiza mediante la grabación de una o más horas habladas, de modo que estas grabaciones se puedan fraccionar en diferentes unidades, como silabas, palabras, frases, etc. Las unidades pueden ser tanto homogéneas como heterogéneas. Después se procede a la corrección manual, para obtener unidades con diferentes entonaciones, por lo que cada unidad puede contar con más de una grabación. A la hora de formar la onda, se selecciona la unidad más adecuada, basado en un árbol de decisión debidamente ponderado. Es la concatenación más natural, pues no procesa digitalmente la señal, aunque en algunos casos se puede usar para suavizar la onda formada. Una desventaja es que puede requerir una base de datos muy grande.
2. Por síntesis de diáfanos: En este caso se forma una base de datos de los diáfanos, en la que cada diafono se encuentra una sola vez. Luego, a la hora de la ejecución, mediante un procesado digital de la onda, se sobrepone la prosodia a la cadena de diafonos formada. La calidad obtenida es menor que la obtenida por selección de unidades, y se obtiene menos naturalidad. Su mayor ventaja es el tamaño de la base de datos, pero actualmente está limitado al área de investigación.
3. Síntesis específica para un dominio: es un enfoque muy similar al de selección de unidades. Se diferencia en que se crea una base de datos con fragmentos más grandes, como palabras o frases creadas para ser salidas completas, por lo que se logra una gran naturalidad. Al ser un sintetizador limitado a cierto dominio se tiene sesgado el vocabulario usado, por lo que se puede tener una base de datos más pequeña. Por esto mismo, se usa cuando la variedad de textos es limitada (como un sistema de información meteorológica). Es el enfoque más usado a nivel comercial, por su facilidad de implementación.

Sin importar cuál de los enfoques se elija, se sigue el mismo proceso descrito anteriormente, ignorando algunos pasos, dependiendo del tipo de síntesis que se busque.

Medidas de calidad

Para saber que tan bueno es el diseño y la implementación de un sintetizador de voz se tiene dos conceptos claves, que ya se han mencionado anteriormente: que sea comprensible (inteligibilidad) y que suene como si fuera una persona la que está hablando (naturalidad). La entonación juega un papel muy importante en estos dos factores.

Inteligibilidad:

Cuando hablamos de inteligibilidad hacemos referencia a la capacidad del sistema de producir palabras, frases y diálogos que se puedan entender, lo cual dependerá de la exactitud con que se concatenan los diferentes bloques, de modo que la estructura quede bien formada. También se tiene en cuenta que se tenga entendimiento sobre el sentido de la frase, y no solo la formación de palabras, pues no es lo mismo decir una oración enunciativa, que una interrogativa, por más que se forme con las mismas palabras.

Se han creado diferentes pruebas para poder medir el grado de inteligibilidad que provee un sintetizador de voz. Uno de estos es el Diagnostic Rhyme Test (DRT), en el cual se tiene a un oyente que debe elegir cual fue la palabra que dijo la máquina, entre dos opciones que varían entre sí por la consonante inicial. También existe un derivado de este tipo de prueba, llamada Modified Rhyme Test (MRT), pero en este caso el oyente debe elegir entre 6 palabras, que variaran tanto en la consonante inicial como en la final. Otr prueba de calidad que existe se llama SUS, y consiste en emitir frases sin ningún sentido semántico, o semánticamente impredecibles, como "la mesa corre edificios con gatos."

Naturalidad:

La naturalidad se da en la forma de decir las frases, por lo cual tiene un gran énfasis en el análisis prosódico que se le da al texto. La prosodia es "el estudio de hechos fónicos no segmentares que ayudan a organizar tanto el léxico como la sintaxis."[3] En otras palabras, es la encargada del estudio de acentos, entonaciones y ritmos en la frase de modo que se logre dar el sentido correcto a la frase, independientemente del contenido de la misma. En este aspecto la naturalidad depende principalmente de la selección de los bloques que se haga a la hora de concatenarlos para producir la síntesis final de voz. El enfoque que se le ha dado a la generación de prosodia, para poder mejorar la naturalidad en la síntesis de voz, se ha dado mediante la creación de estructuras, como árboles o arreglos, que predicen parámetros, como la ubicación de la silaba, donde se encuentran los sonidos fuertes o los sonidos débiles. Sin embargo todos estos esfuerzos no logran una total naturalidad pues no se tiene en cuenta las diferencias de habla que hay entre personas incluso del mismo idioma, pues cada persona desarrolla ciertos estilos de habla y velocidad dependiendo del contexto, que no se puede reproducir fácilmente en un sistema de síntesis de voz.

Otro factor que afecta la naturalidad con que se escucha una frase se relaciona al ritmo, o el tiempo en que se emite cada letra (especialmente las vocales). Afecta en tal magnitud que una diferencia de 2% puede afectar la calidad para bien o para mal. De los tipos de concatenación, la selección de unidades da la máxima naturalidad debido al hecho de que no aplica mucho procesado digital de la señal al habla grabada, lo que a menudo hace que el sonido grabado suene menos natural.

Entre estas dos medidas el mayor reto con el que se encuentra la síntesis de voz es lograr la naturalidad de la misma, ya que al concatenar los diferentes bloques de sonido, si se tiene una buena calidad de grabación, y puntos de corte adecuados, al llevar a cabo la concatenación se puede lograr la inteligibilidad. Sin embargo la naturalidad es difícil de simular, ya que es difícil lograr que el sistema una los bloques de modo que todas las frases queden formadas con las entonaciones, pausas y fluidez en que lo haría una persona. Una prueba general de calidad consiste en calificar el sintetizador de voz, con valores entre 1 y 5, de modo que se pueda calcular una media. Esta prueba se llama Mean Opinion Score (MOS).

Bibliografía

1. Introducción a la Síntesis de Voz – C:UsersAngieDocumentsDocumentsLA GIGIUniversidadSeptimoIntroComsintesis_voz.pdf
2. www.linguatec.es/products/tts/information/technology
3. http://dihana.cps.unizar.es/investigacion/voz/ctv.html#diagrama
4. _k9blXSnMW4.pdf
5. www.giro.infor.uva.es/proyectos/memAgenteMS.pdf
6. http://docs.google.com/viewer?a=v&q=cache:hUFjSu6UBeQJ:rua.ua.es/dspace/bitstream/10045/16038/5/RUA%2520-%2520Tema%25205.ppt+sintesis+de+voz+inteligibilidad&hl=es&gl=es&pid=bl&srcid=ADGEESh8zZzi6IyPjvaPmEZIka3HUY_plEYtyKPrlZXEYCf0ZNddNfqT2U_Ar3RvIvWbfxCOtssGBtQmssWbejcobClId0WCa5Q1P4w9C2aCwQphmNYxwVFGQW0vXOBv1P-T47-2TWSX&sig=AHIEtbQslf3w2FIVxzJYGnjX7e0bkJpa5g
Autor:
María Angélica Loeber
Universidad Austral
Introducción a la Computación
Buenos Aires, Argentina
Noviembre 2011
[1] http://dihana.cps.unizar.es/investigacion/voz/ctv.html#diagrama
[2] Sintesis de la voz y del habla, http://docs.google.com/viewer?a=v&q=cache:hUFjSu6UBeQJ:rua.ua.es/dspace/bitstream/10045/16038/5/RUA%2520-%2520Tema%25205.ppt+sintesis+de+voz+inteligibilidad&hl=es&gl=es&pid=bl&srcid=ADGEESh8zZzi6IyPjvaPmEZIka3HUY_plEYtyKPrlZXEYCf0ZNddNfqT2U_Ar3RvIvWbfxCOtssGBtQmssWbejcobClId0WCa5Q1P4w9C2aCwQphmNYxwVFGQW0vXOBv1P-T47-2TWSX&sig=AHIEtbQslf3w2FIVxzJYGnjX7e0bkJpa5g
[3] Laboratorio de Fonetica ULA, Universidad de los Andes Venezuela, http://ceidis.ula.ve/cursos/humanidades/fonetica/tutorial_de_linguistica/prosodia.html