Separación de voz cantada (página 2)

Partes: 1, 2

procesamiento perif´erico se descompone la entrada ac´ustica en una representaci´on T-F, que se realiza a trav´es de ?ltrados pasabandas y un proceso de enventa- nado temporal. En la segunda etapa se extraen caracter´isti- cas de acuerdo a principios auditivos del ASA. Finalmente en las etapas de segmentaci´on y agrupamiento, utilizando las caracter´isticas halladas anteriormente, el sistema gene- ra segmentos para las distintas fuentes ac´usticas, y luego se agrupan los segmentos perteneciente a cada fuente en distin- tos stream. Una vez que se tiene el stream de cada fuente, el pr´oximo paso consiste en obtener la forma de onda temporal de cada una de ellas. El sistema implementado es un caso particular de un sis- tema CASA. Se considera que la entrada ac´ustica est´a com- puesta por dos fuentes sonoras, la voz cantada y el acom- panamiento musical. El objetivo es lograr extraer la senal de voz cantada de la entrada ac´ustica. Cabe destacar, que el sistema realiza la separaci´on del instrumento arm´onico predominante. Debido a lo anterior, se tienen que cumplir dos hip´otesis para el correcto funcio- namiento del algoritmo de separaci´on. La primera es que est´e presente en el fragmento de audio la senal de voz canta- da,yaquedeotramaneraserealizar´ialaseparaci´ondealg´un otro instrumento arm´onico. Asimismo para que se extraiga correctamente la senal de voz cantada, esta debe predominar por sobre el acompanamiento musical. El art´iculo est´a fuertemente basado en [12] y [13], los cuales presentan un sistema para separar la voz hablada de alguna interferencia ac´ustica. Es de destacar que se deci- di´o basarse en [13] para realizar la implementaci´on del al- goritmo de separaci´on, realiz´andose las modi?caciones y las adaptaciones necesarias para el caso de la separaci´on de voz ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ cantada. En la ?gura 2 se puede observar un diagrama de bloques de punta a punta del enfoque propuesto en [1].

Figura 2: Diagrama de bloques del enfoque propuesto por Li-Wang en [1]. El primer bloque tiene como objetivo particionar la senal de entrada en regiones en donde est´e presente la voz canta- da, de forma tal de quedarse con estos fragmentos y utili- zarlos a lo largo de todo el algoritmo, ya que en las partes subsiguientes se requiere contar con una senal que conten- ga la voz cantada y el acompanamiento musical al mismo tiempo. Dicho bloque no fue implementado, debido a que se procesan fragmentos de corta duraci´on (por lo que se deci- di´o poner como restricci´on al sistema que la senal de entrada contenga voz cantada y acompanamiento musical al mismo tiempo). Antes de proseguir, es bueno aclarar que el sistema sepa- ra solamente las partes de la senal de voz que son sonoras, no as´i las partes que son sordas. El algoritmo hace la sepa- raci´on en base a la detecci´on de la frecuencia fundamental predominante, por lo que est´a pensado para realizar la se- paraci´on de una senal arm´onica. Los sonidos sonoros son peri´odicos o cuasi-peri´odicos, es por ello que el sistema lle- va a cabo su separaci´on. Por otro lado, los sonidos sordos carecen de una estructura arm´onica, y para realizar su sepa- raci´on se deben utilizar otras t´ecnicas, en [13] se presenta una forma de llevar a cabo esta tarea. Esta limitaci´on no es tan severa, ya que en diversos estilos musicales el porcenta- je de sonidos sonoros en la voz cantada llega al 90%. Por lo mencionado anteriormente hay que tener en cuenta que cada vez que se hable de la separaci´on de la senal de voz cantada, se estar´a hablando de la separaci´on de las partes sonoras de dicha senal. Las partes sordas quedan por tanto relegadas de la separaci´on, incurriendo en errores perceptibles. 2. Modelo auditivo La primera etapa del sistema consiste en realizar una re- presentaci´on en tiempo-frecuencia de la senal de entrada, para ello se utiliza un modelo computacional del sistema au- ´ das llamados gammatone que imitan el ?ltrado que realiza la c´oclea en el o´ido humano [14], seguido por el modelo de Meddis que simula los procesos no lineales que all´i suceden [15]. Elmodeloqueseutilizaparalaconstrucci´ondelos?ltros es el propuesto en [14], la respuesta al impulso de cada uno de ellos viene dada por:

edu.red

g(t) = tl-1e-2pt1,019ERBcos(2pfct) con t = 0 (1) ˜ Donde l = 4 es el orden del ?ltro y fc es su frecuencia central asociada. Por otro lado, el ancho de banda de ca- da ?ltro es ajustado de acuerdo a las medidas del ancho de banda rectangular equivalente (ERB por sus siglas en ingl´es Equivalent Rectangular Bandwidth) 1 de los ?ltros auditi- vos humanos [16]. Para realizar la implementaci´on se utiliz´o un banco de 128 (canales) ?ltros gammatone, con las frecuencias centra- les dentro de un rango de inter´es de entre 80 y 5000 Hz. En la ?gura 3 se puede observar una representaci´on gr´a?ca de las frecuencias centrales y ERB en funci´on del n´umero de canal. El canal n´umero 1 corresponde a la frecuencia m´as alta y el canal 128 a la frecuencia m´as baja.

Figura 3: Frecuencias centrales y ERB vs n´umero de canal.

Se puede apreciar que las frecuencias centrales quedan distribuidas en una escala cuasi-logar´itmica, entre los valo- res de 80 y 5000 Hz. Del mismo modo, los anchos de ban- da de los ?ltros tambi´en quedan distribuidos en una esca- la cuasi-logar´itmica. Para valores de frecuencias bajas los ?ltros presentan anchos de banda angostos, y luego en los valores de frecuencias m´as altas los anchos de banda son mayores. En la ?gura 4 se pueden ver las respuestas al impulso para 8 ?ltros gammatone, as´i como tambi´en sus respuestas en frecuencia.

1 El ERB de un ?ltro dado, se de?ne como el ancho de banda de un ?ltro rectangular ideal con la misma ganancia de pico, y que deja pasar la misma cantidad de potencia cuando la senal de entrada es ruido blanco. ˜ ´ ˜ ˜ ˜ Figura 4: Filtros gammatone. En la ?gura de la izquierda se observa la respuesta al impulso para 8 ?ltros gammato- ne. En la ?gura de la derecha se puede ver la respuesta en frecuencia de estos ?ltros. Las respuestas en frecuencia de la ?gura 4 muestran que los ?ltros son pasabanda, y que sus frecuencias centrales y sus anchos de banda aumentan logar´itmicamente con la fre- cuencia.Otrapropiedad relevantequeseobservaenla?gura es el solapamiento de los espectros de los ?ltros. Los anchos de banda de los ?ltros se incrementan cuasi- logar´itmicamente, a medida que aumenta su frecuencia cen- tral. Por lo tanto, para una senal arm´onica se diferencian dos casos, en el rango de las bajas frecuencias un ?ltro auditivo tiene un ancho de banda angosto y generalmente contiene s´olo un arm´onico, mientras que en el rango de las altas fre- cuencias tiene un ancho de banda m´as amplio y usualmente contiene m´ultiples arm´onicos. Un arm´onico es llamado re- suelto si existe un canal del banco de ?ltros que responde primariamente a el, en caso contrario, es llamado no resuel- to.Sepuedeverentoncesqueconelmodelodelbancode?l- tros auditivos, una serie arm´onica es dividida en arm´onicos resueltos y no resueltos. En el rango de las bajas frecuen- cias se encuentran los primeros arm´onicos, en general son resueltos ya que en cada banda hay s´olo uno de ellos. Por otro lado, en el rango de las altas frecuencias es encuentran los arm´onicos m´as altos, son frecuentemente no resueltos ya que en una misma banda se combinan varios [17], [18]. Tanto en el caso de voz hablada como cantada, el valor que se toma para diferenciar el rango de las bajas y las altas fre- cuencias es generalmente de 1 kHz, y es por tanto el que se utiliza en el algoritmo de separaci´on. A la salida de cada ?ltro, la senal es dividida en tramas temporales consecutivas. Este proceso resulta en una des- composici´on de la senal en un mapa de dos dimensiones, tiempo y frecuencia. Cada unidad del mapa es llamada uni- dad T-F, que corresponde a un determinado canal del banco de ?ltros en una determinada trama temporal. A partir de esta descomposici´on T-F, se de?ne el objetivo computacio- nal del sistema, el cual consiste en retener las unidades T-F en donde la voz predomina por sobre el acompanamiento, y remover las otras. Lo anterior se puede ver tambi´en como el hecho de identi?car una m´ascara binaria en donde un 1

edu.red

la cual est´a dada por: l 1 2pt1,019ERBfs, donde l y ERB son ˜ ˜ ˜ ˜ ˜ ˜ ˜ indica que la voz predomina sobre el acompanamiento, y un 0 indica lo contrario. Esta m´ascara es llamada m´ascara ideal binaria (IBM, por sus siglas en ingl´es Ideal Binary Mask) [11], [19]. La base de lo planteado anteriormente se encuen- tra en lo que se denomina fen´omeno de enmascaramiento auditivo, el cual dice que dentro de una banda cr´itica una senal tiende a ser enmascarada por otra m´as fuerte [20]. La m´ascara binaria estimada que se obtiene en todo el proceso de separaci´on se pretende que se parezca lo m´as posible a la IBM. Una propiedad muy importante es que la respuesta de los ?ltros auditivos a m´ultiples arm´onicos es modulada en am- plitud, y la frecuencia de la envolvente de dicha respuesta es la frecuencia fundamental (f0) 2 [21]. Adem´as, estudios psicof´isicos muestran que el sistema auditivo humano utili- za diferentes mecanismos para procesar arm´onicos resuel- tos y no resueltos [17], [22]. Los primeros sistemas basa- dos en CASA empleaban la misma estrategia para tratar a los diferentes arm´onicos, esa t´ecnica funcionaba razonable- mente bien para los arm´onicos resueltos pero ten´ia un po- bre desempeno para los arm´onicos no resueltos. Tomando en cuenta lo anterior, el art´iculo propone utilizar distintos m´etodos para realizar la separaci´on de los arm´onicos resuel- tos y de los no resueltos, o lo que es lo mismo, se trabaja de distintas maneras en bajas y en altas frecuencias. Si se observa la ecuaci´on 1, se puede ver que los ?ltros gammatone introducen un desfasaje entre muestras, distinto para cada canal. Si se quieren hacer comparaciones entre ca- nales, como es el caso del algoritmo de separaci´on descrito en este art´iculo, tal caracter´istica se vuelve un inconvenien- te. Se implementaron dos m´etodos para tratar de resolver este problema, uno es el de doble ?ltrado y el otro es el pre- sentado por Hu-Wang en [13]. El m´etodo de doble ?ltrado consiste en primero ?ltrar la senal en un sentido, aqu´ise introduce un desfasaje que viene dado por el argumento de la transferencia del ?ltro, ?, luego se invierte todo el sentido de las muestras de la senal, y ?- nalmente se pasa por el ?ltro nuevamente introduciendo un desfasaje de -?. Por lo tanto el desfasaje total luego de este proceso es cero. 3 Si bien este m´etodo funciona correcta- mente para lograr un desfasaje nulo, tiene como desventaja que la ganancia del ?ltro se duplica, por lo que el ?ltrado es m´as severo en cada banda. Por otro lado, el m´etodo descrito en [13] consiste en re- tardarlasmuestrasporunacantidadconstanteencadacanal, – los mismos que en la ecuaci´on 1 y fs es la frecuencia de muestreo (16 kHz). Los detalles exactos del c´alculo pueden encontrarse en [23]. Si bien no es una correcci´on exacta, ya

2 La suma de dos senales sinusoidales puede verse como una senal de frecuencia intermedia, cuya amplitud est´a modulada por una sinusoide de frecuencia igual a la resta de las frecuencias originales. 3 Matlab brinda la posibilidad de hacer este proceso mediante la funci´on ?lt?lt. ˜ ˜ ˜ que los ?ltros tienen fase no lineal, se comprob´o experimen- talmente que se obtienen buenos resultados. En la ?gura 5 se observa para una entrada sinusoidal de 300 Hz las salidas de los ?ltros junto con las correcciones de fase.

Figura 5: Comparaci´on entre la salida original de los ?ltros y las correcciones de fase para una entrada sinusoidal de 300 Hz. En la ?gura superior se muestra la salida sin nin- guna correcci´on de fase, en la ?gura del medio la salida con correcci´on de fase de Hu-Wang, mientras que en la ?gura in- ferior est´a la salida con correcci´on de fase de doble ?ltrado. Las frecuencias centrales var´ian entre 200 y 400 Hz. Enla?gurasuperiorsepuedeobservarqueefectivamente se introduce un retardo a la salida de cada canal, y que es distinto para cada uno de ellos. Se puede ver que los picos quedan desalineados entre los diferentes canales. Asimismo se aprecia que debido al solapamiento de las bandas de paso de los ?ltros, la entrada sinusoidal activa el canal de 300 Hz y los adyacentes.

2.1. Cocleagrama Para realizar una representaci´on gr´a?ca de la senal en tiempo y en frecuencia generalmente se utiliza un espec- trograma, el cual consiste en calcular el espectro de las fre- cuencias en consecutivas tramas temporales solapadas. Se obtiene por tanto una representaci´on de las variaciones de la energ´ia de la senal en una matriz de dos dimensiones, cu- yos ejes vertical y horizontal son la frecuencia y el tiempo respectivamente. Cabe destacar que el eje de las frecuencias tiene una escala lineal. Al utilizar el modelo auditivo para descomponer la senal en una representaci´on de tiempo-frecuencia, se realiza un ?ltrado pasabanda a trav´es del banco de ?ltros gammatone, seguido por una recti?caci´on no lineal al utilizar el modelo de Meddis. El cocleagrama consiste en gra?car el logaritmo de la energ´ia de cada unidad T-F. Aqu´i se obtiene una escala en frecuencia cuasi-logar´itmica, y los anchos de banda de cada ?ltro dependen de la frecuencia. Asimismo el coclea- grama tiene mucho m´as resoluci´on en bajas frecuencias que en altas, debido a la distribuci´on de las frecuencias centra- les de los distintos canales. El cocleagrama es por tanto una

edu.red

˜ ˜ representaci´on m´as apropiada cuando se utiliza el modelo auditivo, ya que se obtiene una resoluci´on variable de los anchos de banda de cada ?ltro y de sus frecuencias centra- les asociadas.

En la ?gura 6 se puede ver el espectrograma y el coclea- grama para una senal de voz cantada.

Figura 6: Comparaci´on entre el espectrograma y el coclea- grama. En la ?gura superior se presenta el espectrograma de la senal, mientras que en la inferior est´a el cocleagrama.

3. Extracci´on de caracter´isticas En esta etapa se extraen caracter´isticas para cada unidad T-F, las cuales son utilizadas en las etapas posteriores. Una de ellas es una estructura llamada correlograma, que consis- ˜ te en hallar la autocorrelaci´on de las respuestas de los ?ltros en cada unidad, y es utilizada como medida de la periodici- dad de la senal. La otra caracter´istica es la correlaci´on cru- zada entre canales, la cual mide la similitud entre las autoco- rrelaciones de dos canales adyacentes, o lo que es lo mismo, la similitud entre los patrones de periocidad. Es utilizada como indicador de si dos canales adyacentes responden a un mismo componente ac´ustico. Ambas caracter´isticas son calculadas en los canales de bajas frecuencias. En altas fre- cuencias estas caracter´isticas no son buenos indicadores, de- bido a que las respuestas de los ?ltros est´an moduladas en amplitud y su envolvente ?uct´ua a f0. Por lo tanto en altas frecuencias se calculan las mismas caracter´isticas, pero so- bre la envolvente de amplitud de la respuesta de los ?ltros.

El correlograma consiste en un arreglo tridimensional, donde cada componente es la autocorrelaci´on de las res- puestas a la salida del modelo auditivo. Es decir, la auto- correlaci´on de cada unidad T-F para determinado instante de tiempo. En la ?gura 7 se puede ver una representaci´on esquem´atica del correlograma. ˜ ´ Figura 7: Representaci´on esquem´atica del correlograma, donde el tiempo, la frecuencia y la autocorrelaci´on son vis- tos en ejes ortogonales.

El correlograma es generalmente usado para obtener una representaci´on de la periocidad de la senal, es util tanto en las etapas de segmentaci´on y agrupamiento, como en la eta- pa de detecci´on de f0. Para computar el correlograma, se calcula la autocorre- laci´on en todas las unidades T-F. Para esto, en el algoritmo implementado se utiliza la versi´on normalizada de la auto- correlaci´on.SealaunidadT-Fuc,m paraelcanalcylatrama m, el correlograma normalizado a la salida del bloque audi- tivo viene dado por: AH(c,m,t) = N-1 n=0 h(c,mT + n)h(c,mT + n + t) N-1 n=0 h2(c,mT + n) N-1 n=0 h2(c,mT + n + t) (2) ˜ Donde h es la salida del modelo auditivo, m es el ´indice de la trama y c es el ´indice del canal. El valor de N es de 256 muestras ya que se utilizan ventanas de 16 ms, mientras que T = 160 al utilizar solapamientos entre ventanas de 10 ms. El correlograma es calculado para valores de t compren- didos entre 32 y 200, debido a que corresponden al rango de?nido de variaci´on del pitch de la senal, el cual es entre 80 y 500 Hz. Como se mencion´o anteriormente, las caracter´isticas pre- sentadas se calculan de diferente forma seg´un se est´e en al- ta o baja frecuencia. En baja frecuencia se calculan sobre la unidad T-F y en el caso de alta frecuencia se computan sobre las envolventes de las unidades T-F. Las siguientes ?- guras ilustran c´omo cambia el correlograma al utilizar las envolventes para los canales de alta frecuencia. La ?gura 8 muestra el correlograma para una trama de audio. En el mismo, no se realiza la discriminaci´on entre canales de baja y alta frecuencia. Se calcula las autocorrela- ciones sobre las unidades T-F para todos los canales.

edu.red

˜ Figura 8: Correlograma computado sobre todas las unidades T-F, tanto en los canales de baja frecuencia como en los de alta. En la parte superior de la ?gura 8 se observa la trama de audio en estudio. En la parte central, el correlograma computado sobre todas las unidades T-F. En bajas frecuen- cias (canales inferiores sobre el eje vertical), se observa en rojo, los picos de la autocorrelaci´on. Se aprecian los arm´oni- cos f0, 2f0 y 3f0, por ejemplo. En los canales de alta fre- cuencia se observa el efecto del batido. La ?gura inferior muestra el resultado de sumar todos los canales del correlo- grama. En ella se observan los picos de la autocorrelaci´on, los cuales indican el per´iodo de la senal. Cabe destacar que tambi´en aparecen picos espurios, esto es no deseable ya que puede inducir a errores. Para evitar estos picos espurios es justamente que se utiliza la envolvente. La ?gura 9 muestra, para la misma trama de audio, el correlograma utilizando la envolvente para los canales de alta frecuencia.

Figura 9: Correlograma computado sobre todas las unidades T-F en baja frecuencia y sobre las envolventes de las unida- des en alta frecuencia. La ?gura anterior muestra en la parte superior nuevamen- te la trama de audio en estudio. En la parte central se tiene el correlograma. En los canales de baja frecuencia el correlo- grama es id´entico al de la ?gura 8, nuevamente se aprecian los arm´onicos f0, 2f0 y 3f0. En la parte de alta frecuen- cia se realiza el correlograma sobre las envolventes de las unidades T-F. Se observa claramente c´omo el correlograma ˜ ˜ ˜ ˜ ˜ en alta frecuencia presenta m´aximos (zonas rojas) s´olo en la frecuencia fundamental f0. De este modo, se justi?ca lo que se coment´o inicialmente, que la envolvente en alta fre- cuencia ?uct´ua entorno a la frecuencia fundamental f0. En la parte inferior de la ?gura 9 se calcula nuevamente la su- ma del correlograma. Los m´aximos que se observan indican el per´iodo de la senal en estudio. Se puede ver, que si bien estos picos son m´as suaves que los que se muestran en la ?- gura 8, no aparecen los picos espurios. Por lo tanto, al utili- zar un detector de picos (o m´aximos) se obtendr´ian mejores resultados al haber menos probabilidad de cometer error. La ?gura 9 muestra claramente el efecto que tiene la discrimi- naci´on entre canales de baja y alta frecuencia y justi?ca el trabajar de este modo.

La correlaci´on cruzada entre dos canales adyacentes mi- de la similitud entre las autocorrelaciones de ambos. Es una medida de que tan similares son los patrones de periocidad de sus respuestas. Como un arm´onico activa varios canales consecutivos, si dos canales adyacentes presentan alta corre- laci´on cruzada, se puede suponer que responden a un mismo componente ac´ustico. Para cada unidad T-F uc,m, su correlaci´on de canal cru- zada con uc+1,m viene dada por: L-1 CH(c,m) = A(c,m)A(c + 1,m) (3) t=0 Dondecindicaelcanal,mlatramayAeslaautocorrelaci´on con media cero y varianza uno de la senal. Se utiliza la auto- correlaci´on de esta forma para asegurarse de que CH(c,m) sea sensible s´olo a los patrones de periocidad, y no a las variaciones de la media que introducen los ?ltros auditivos. 4. Detecci´on del pitch predominante Esta etapa implementa la detecci´on de pitch o frecuen- cia fundamental f0. Est´a basado en el m´etodo propuesto en [24], el cual permite detectar el contorno de m´ultiples pit- ches (de voz cantada y otras fuentes arm´onicas provenientes de instrumentos musicales, por ejemplo). Esta etapa es de vital importancia para obtener buenos resultados al ?nal del sistema de separaci´on de voz cantada.

Figura 10: Representaci´on esquem´atica del m´etodo para la obtenci´on del pitch. A diferencia de otros algoritmos de detecci´on de pitch, como son por ejemplo los provistos por los programas Wa- veSurfer [25] o Praat [26], se calcula el pitch para el caso

edu.red

˜ polif´onico, es decir, cuando est´a presente m´as de una fuente arm´onica. Una hip´otesis fuerte que se realiza en esta etapa es que en una trama donde est´e presente la voz cantada y el acompanamiento musical, el pitch predominante ser´a el de la voz cantada. Los dos primeros bloques del algoritmo de detecci´on de pitch son similares a los explicados anteriormente. En este caso se usan los correlogramas para obtener los picos de la autocorrelaci´on, los cuales se utilizan para calcular la fre- cuencia fundamental f0. El bloque de selecci´on de canales y picos se encarga pri- mero de seleccionar distintos canales, con el ?n de eliminar aquellos que posean interferencia y as´i de este modo, evitar cometer errores en el c´alculo de la frecuencia fundamental. Luego para cada uno de los canales resultantes, se seleccio- nan diferentes picos y se guardan los valores de los retardos de los picos en un conjunto de picos. Para modelar el proceso de generaci´on de pitch se utiliza un modelo oculto de Markov (HMM), el cual se ilustra en la ?gura 11.

Figura 11: Diagrama esquem´atico del HMM. En verde se muestran los nodos ocultos, los cuales representan posibles estados de pitch en cada trama. En celeste est´an los nodos observados, los cuales representan el conjunto de picos se- leccionados en cada trama. El espacio de estados de pitch ? es la uni´on de tres subes- pacios:

? = ?0 ? ?1 ? ?2 (4) Donde ?0, ?1 y ?2 son subespacios de cero, una y dos dimensiones respectivamente. Cada uno de ellos represen- ta una colecci´on de hip´otesis de pitch con cero, uno y dos pitches respectivamente. Un estado en el espacio de estados es representado como el par: x = (y,Y ) (5) Donde y ? RY e Y ? 0,1,2 es el ´indice del subespacio. En cada trama temporal, un nodo oculto del HMM indi- ca un posible estado de pitch, mientras que el nodo obser- ´ ˜ ˜ ˜ ˜ ˜ vado indica el conjunto de picos seleccionados. En el blo- que de integraci´on de canales se calculan las probabilidades de observaci´on, que son las probabilidades de observar un conjunto de picos (nodo observado) estando en un estado en particular (nodo oculto). Por ultimo, en el bloque ?nal se calculan las probabilidades asociadas a la din´amica de pitch (las transiciones entre distintos estados), y ?nalmente se halla la secuencia de estados m´as probable, o lo que es lo mismo, el valor del pitch predominante en cada trama.

5. Segmentaci´on En las etapas anteriores, la senal de entrada ha pasado por el modelo auditivo, donde se realiz´o una descomposici´on en unidades T-F. Luego a cada una de ellas se le calcularon varias caracter´isticas, adem´as de la frecuencia fundamental predominante. Este cap´itulo presenta la siguiente etapa, que es la etapa de segmentaci´on de las unidades T-F. Un segmento es una regi´on de unidades T-F, se pretende que cada uno de ellos pertenezca a una misma fuente (una de las fuentes que ge- nera la senal de entrada). Cabe destacar que el segmento contiene m´as informaci´on que una unidad T-F aislada, ya que contiene informaci´on sobre la continuidad temporal y en frecuencia. Considerando que las senales de voz son continuas tanto en el tiempo como en frecuencia, las unidades T-F vecinas en el tiempo tienden a ser originadas por la misma fuen- te. Asimismo, debido a la forma de los ?ltros del modelo auditivo, los cuales hacen que haya un solapamiento signi- ?cativo entre los canales de frecuencia, un arm´onico activa cierto n´umero de canales adyacentes. Esto lleva a realizar la formaci´on de segmentos teniendo en cuenta la continui- dad temporal y la correlaci´on cruzada entre canales. En los canales de alta frecuencia, ser´an las envolventes de las res- puestas de los ?ltros las que presenten similares patrones de periocidad en canales adyacentes. Es as´i que en los cana- les de alta frecuencia se realiza la segmentaci´on en base a la continuidad temporal y a la correlaci´on cruzada entre las envolventes de los canales. Debido a que el correlograma es una representaci´on de la periocidad de la senal, este m´etodo est´a pensado para que funcione bien s´olo en las partes sonoras, no esper´andose buenos resultados en aquellas partes no peri´odicas, como las sordas. En una primera instancia se realiza el marcado de las unidades T-F, el cual consiste en marcar las unidades con alta correlaci´on cruzada entre canales (implica que el ori- gen de esas senales provienen de la misma fuente). Toman- do en cuenta el efecto de la modulaci´on en amplitud para los arm´onicos no resueltos en canales de alta frecuencia, en forma separada se marcan las unidades con alta correlaci´on cruzada entre las envolventes de los canales. En los canales de baja frecuencia se marcan dos unida-

edu.red

> TA AE(c,m,tS(m)) des T-F adyacentes uc,m y uc+1,m 4 con un valor de 1 si se cumple que: CH(c,m) > ?H (6) DondeCH(c,m)eslacorrelaci´oncruzadaentreuc,m yuc+1,m y ?H = 0,986. En los canales de alta frecuencia se marcan unidades de dos tipos. Dos unidades T-F se marcan con un valor de 1 utilizando el mismo criterio que en baja frecuencia. Por otro lado, con el ?n de identi?car las unidades T-F que respon- den a arm´onicos no resueltos, se marcan dos unidades T-F adyacentes con un valor de 2 si se cumple que: CE(c,m) > ?E (7) ˜ Donde CE(c,m) es la correlaci´on cruzada entre las envol- ventes de uc,m y uc+1,m y ?E = 0,975. En la ?gura 12 se muestra un ejemplo del marcado de unidades T-F.

Figura 12: En la ?gura superior se observa el cocleagrama de la senal de entrada, mientras que en la ?gura inferior se pueden ver las unidades T-F marcadas, en verde est´an las unidades marcadas con 1, mientras que en rojo se aprecian las que fueron marcadas con 2. Las unidades T-F vecinas con la misma marca se juntan en segmentos, formando por tanto segmentos tipo-1 y seg- mentos tipo-2, de acuerdo a la naturaleza de sus arm´onicos, es decir, si son resueltos o no. Dos unidades son consideradas vecinas si comparten el mismo canal y aparecen en tramas temporales consecutivas, o si comparten la misma trama y est´an en canales adyacen- tes. Una vez que se termina de formar los diferentes segmen- tos, el pr´oximo paso es agruparlos con el ?n de formar el stream ?nal, el cual est´a constituido por segmentos prove- nientes de una misma fuente, en este caso de la voz cantada. Los criterios para agrupar los segmentos se presentan en la siguiente secci´on. 4 Donde ui,j es la unidad T-F del canal c, en la trama m-´esima. 6. Agrupamiento En esta secci´on se presenta la etapa de agrupamiento. El objetivo es obtener una m´ascara binaria llamada stream for- ˜ mada por las unidades T-F. Un valor de 1 en dicha m´ascara indica que la unidad pertenece a la senal de voz cantada, ˜ ˜ ˜ ˜ ˜ mientras que un valor de 0 indica que pertenece a la senal de acompanamiento musical. En una primera instancia se realiza un etiquetado indivi- dual de las unidades T-F. Las unidades en las que la voz pre- domina sobre el acompanamiento son etiquetadas como voz dominante, mientras que las otras se etiquetan como acom- panamiento dominante. Luego se etiqueta cada segmento como voz dominante o acompanamiento dominante, teniendo en cuenta si la suma de la energ´ia de sus unidades T-F etiquetadas como voz do- minante es mayor a la energ´ia total de todo el segmento. Los ˜ segmentos etiquetados como voz dominante son agrupados al stream ?nal. Finalmente con el objetivo de re?nar el re- sultado se remueven regiones signi?cativas de unidades T-F etiquetadas como acompanamiento dominante, y se agregan unidades T-F vecinas etiquetadas como voz dominante que no pertenecen a ning´un segmento. Para etiquetar las unidades T-F se procede de distinta ma- nera seg´un los segmentos hayan sido formados teniendo en cuenta si sus arm´onicos eran resueltos o no. En las bajas fre- cuencias, para etiquetar una unidad se compara su perioci- dad con el per´iodo del pitch predominante en esa trama. Por otro lado, en las altas frecuencias, las respuestas son modu- ladas en amplitud y sus envolventes ?uct´uan a la frecuencia fundamental f0, por lo que se compara la periocidad de su envolvente con el per´iodo del pitch predominante. Las unidades T-F uc,m que pertenecen a segmentos tipo- 1 son etiquetadas como voz dominante si la autocorrelaci´on en el canal c y la trama m, evaluada en el pitch estimado tS(m) es comparable con el m´aximo valor de la autocorre- laci´on dentro del posible rango de pitch G: AH(c,m,tS(m)) m´axt?G AH(c,m,t) > TT (8) ˜ Donde TT = 0,688. En el caso de no cumplir esta condi- ci´on, la unidad T-F se etiqueta como acompanamiento do- minante. El resto de las unidades T-F se etiquetan como voz domi- nante si el valor del correlograma de la envolvente, evaluado en el pitch estimado, es comparable con su valor m´aximo dentro del posible rango de pitch:

(9) m´axt?G AE(c,m,t) Donde TA = 0.688. En la ?gura 13 se muestra un ejemplo del etiquetado de unidades. Se pueden ver las unidades marcadas y las unida- des etiquetadas.

edu.red

˜ ˜ ´ Figura 13: En la ?gura superior se pueden ver las unidades marcadas, en verde son las tipo 1 y en rojo las tipo 2. En la ?gura inferior se observan en rojo las unidades etiquetadas comovozdominante,ylasrestantessonlaetiquetadascomo acompanamiento dominante. El proceso de agrupaci´on de segmentos se divide en tres etapas. La primera etapa es la m´as importante, en la cual se realiza una agrupaci´on inicial de los segmentos formados en la etapa de segmentaci´on. Un segmento es considerado como voz dominante y agrupado en el stream ?nal, si se cumple que la suma de la energ´ia correspondiente a sus uni- dades etiquetadas como voz dominante, es mayor a la mitad de la energ´ia contenida en todo el segmento. Las pr´oximas dos etapas son de re?namiento del proceso descrito ante- riormente. La segunda etapa consiste en eliminar del stream anterior, grandes regiones de unidades T-F etiquetadas como acompanamiento dominante. La tercera y ultima etapa, tie- ne como objetivo reunir m´as unidades T-F etiquetadas como voz dominante para agregarlas al stream. Para ello se buscan unidades etiquetadas como voz dominante en la vecindad de los segmentos etiquetados como voz dominante, y que no pertenezcan a ning´un segmento. A modo de comparaci´on, en la ?gura 14 se puede ob- servar el stream ?nal obtenido, junto con la m´ascara ideal binaria para el ejemplo de voz cantada que se ha venido mostrando. Se observa que hay similitud entre ambas. Figura 14: En la ?gura superior se observa la m´ascara bina- ria obtenida con el c´odigo implementado. En la ?gura infe- rior se ve la m´ascara ideal binaria. En la ?gura 15 se pueden ver los cocleagramas del ejem- plo de voz cantada. Se muestra el correspondiente al de la ˜ ˜ ˜ senal de voz, al del acompanamiento musical y ?nalmente al de la mezcla. Se puede observar que el cocleagrama de la senal de mezcla es una superposici´on de los otros dos. ˜ ˜ ˜ ˜ ˜ ˜ Figura 15: En la ?gura superior se puede ver el cocleagra- ma de la senal de voz, en la central el de la senal de acom- panamiento musical, y en la inferior el de la mezcla. El objetivo del sistema es identi?car cu´ales regiones del cocleagrama de la mezcla pertenecen a la senal de voz. El stream es justamente un indicador de en qu´e zonas la voz predomina por sobre el acompanamiento. En la ?gura 16 se ilustra lo anterior. En ella se puede observar el cocleagrama de la senal de voz original, junto con el cocleagrama de la mezcla enmascarado con la m´ascara ideal binaria y con el stream obtenido con el algoritmo. Se observa la similitud entre los cocleagramas enmascarados con el cocleagrama de la voz original. ˜ ˜ Figura 16: En la ?gura superior se encuentra el cocleagrama de la senal de voz, en la central el cocleagrama de la mezcla enmascarado con la m´ascara ideal binaria, y en la inferior el enmascarado con la m´ascara producida por el algoritmo. 7. Res´intesis La funci´on de res´intesis constituye el bloque ?nal del al- goritmo de separaci´on, la cual permite obtener la forma de onda en el dominio del tiempo de la senal de voz cantada. Para ello, en esta etapa se utilizan como entradas el stream ?nal obtenido en la etapa de agrupamiento y la salida del banco de ?ltros auditivos.

edu.red

I2(n) SNR = 10log10[ ] (10) n(I(n) – O(n)) ˜ ˜ ˜ ˜ ˜ ˜ ˜ El algoritmo de res´intesis, realiza la reconstrucci´on de la senal utilizando las unidades T-F a la salida de los ?ltros gammatone en donde el stream ?nal vale 1, o sea, se utilizan las unidades en las cuales la voz predomina sobre el acom- panamiento. Por lo tanto, se hace un enmascaramiento entre el mapa de unidades T-F obtenido por los ?ltros auditivos y el stream ?nal. A diferencia de etapas anteriores, en esta etapa es muy importante que el desfasaje entre muestras de la senal sea lo menor posible, ya que se reconstruye la senal muestra a muestra. Por tanto en esta etapa se utiliza la salida del ban- co de ?ltros con correcci´on de fase mediante doble ?ltrado, ya que aqu´i lo que interesa es la alineaci´on de las muestras entre diferentes canales. La implementaci´on del algoritmo de res´intesis consiste en 3 pasos: 1 Quedarse con aquellas unidades T-F que valen 1 en el stream ?nal, o lo que es lo mismo, con las unidades T-F en las cuales la voz predomina sobre el acom- panamiento. Para ello se realiza un enmascaramiento entre el mapa de unidades T-F y el stream ?nal. 2 Utilizar una ventana de coseno elevado para ponderar cada muestra dentro de las unidades T-F resultantes del paso anterior. 3 Sumar todas las senales que se obtienen del paso 2 para reconstruir la senal de voz cantada en el dominio del tiempo. En la ?gura 17 se muestra un ejemplo de los resultados obtenidos.

Figura 17: Formas de ondas obtenidas con el algoritmo de res´intesis para el ejemplo de voz cantada. En la ?gura su- perior se muestra la forma de onda original de la voz. En la ?gura central est´a la forma de onda obtenida al resintetizar con la m´ascara ideal binaria, mientras que en la ?gura in- ferior est´a la forma de onda obtenida al resintetizar con el stream ?nal. En el ejemplo anterior se puede ver que la forma de onda queseobtienealresintetizarconlam´ascaraidealesmuypa- recida a la de la voz original. Asimismo, se puede observar ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ que la forma de onda obtenida con el algoritmo implemen- tado es similar a la forma de onda obtenida con la m´ascara ideal. 8. Evaluaci´on y resultados Los conceptos principales para realizar la evaluaci´on son la m´ascara binaria obtenida (stream ?nal) y la m´ascara ideal binaria (IBM). Cabe recordar que el objetivo computacional delsistemaesqueelstream?nalsealom´asparecidoposible a la IBM. La m´ascara ideal puede obtenerse f´acilmente si se tiene por separado la senal de voz cantada y la senal del acom- panamiento musical. Primero se calcula la energ´ia de cada unidad T-F para ambas senales, y luego se comparan estos resultados. Si la energ´ia de la unidad perteneciente a la voz cantada es mayor o igual a la del acompanamiento musical, se asigna el valor 1 en la m´ascara ideal, de lo contrario toma el valor 0. Los fragmentos de senales necesarios para la ob- tenci´on de la m´ascara ideal se obtuvieron a partir de discos compactos de karaoke. Teniendo en cuenta lo anterior, la forma de onda que se obtiene al resintetizar la mezcla a partir de la m´ascara bina- ria ideal, es tomada como la senal de voz cantada de referen- cia. Si bien a priori, se podr´ia pensar en utilizar la senal de voz cantada disponible en forma separada para realizar las evaluaciones,esto no ser´ia del todo correcto. En este caso no se estar´ia tomando en cuenta el verdadero objetivo del siste- ma, el cual es obtener la m´ascara binaria, as´i como tampoco se tendr´ian en cuenta el enmascaramiento auditivo y las dis- torsiones introducidas en la representaci´on de la senal y en la res´intesis. Seg´un estudios realizados, la inteligibilidad de la senal obtenida con la m´ascara ideal binaria para el caso de voz hablada es muy buena [27], [28], [29]. En lo que sigue se presenta un criterio para medir la per- formance del sistema. Para cuanti?car la mejora obtenida por el sistema, lo que se hace es calcular la relaci´on senal a ruido (SNR por sus siglas en ingl´es Signal to Noise Ratio) antes y despu´es de la separaci´on. Luego,setomacomomedidadeperformancelaganancia de la SNR, es decir, la diferencia entre la SNR antes y des- pu´es de la separaci´on. La SNR es una comparaci´on entre la potencia de la senal portadora de informaci´on, y la potencia del ruido que obstaculiza la percepci´on de la informaci´on, como es habitual se mide en decibeles (dB). En el sistema planteado la SNR se de?ne como [1]:

n 2 Cuando se considera el c´alculo de la SNR antes de la separaci´on, I(n) es la senal de voz cantada obtenida al re- sintetizar la mezcla con la m´ascara ideal binaria, y O(n) es la mezcla resintetizada con una m´ascara cuyos valores son todos 1, lo cual compensa la distorsi´on introducida en

edu.red

˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ ˜ la res´intesis. Por otro lado, cuando se considera el c´alculo despu´es de la separaci´on, I(n) es la misma senal que la an- terior, pero O(n) es la salida del sistema. Si se considera a la senal de entrada como la suma de I(n) m´as una senal de error e(n), tal que I(n) + e(n) = O(n), la ganancia da una medida de cu´anto se redujo la senal de error que acompana a la senal de voz I(n) al pa- sar por el sistema. Previo a la separaci´on, se puede conside- rar que la senal e(n) est´a principalmente compuesta por el acompanamiento musical. Luego de la separaci´on, se puede considerar que e(n) est´a compuesta por la senal de acom- panamiento que no fue correctamente separada. Por lo tan- to, la ganancia del sistema es una medida de cu´anto se pudo disminuir la senal de acompanamiento musical. Con el ?n de realizar una evaluaci´on intermedia al siste- ma, se implementa una comparaci´on entre la m´ascara bina- ria obtenida (stream ?nal) y la m´ascara ideal. De esta ma- nera, se puede tomar un indicador que es independiente de la etapa de res´intesis. Para llevar a cabo la evaluaci´on del stream obtenido, se compara la cantidad de unidades distin- tas entre ambas m´ascaras en relaci´on a las unidades totales. Sea L la cantidad de canales y sea M la cantidad de tramas, se de?ne entonces la siguiente medida de performance: ?M = |IBM – stream| L × M (11) ˜ ˜ Por otra parte, debido a que el bloque de detecci´on de la frecuencia fundamental es de vital importancia y en el mis- mo se introducen errores considerables, se decidi´o realizar la evaluaci´on del sistema tomando en cuenta dos escenarios diferentes:

1. Utilizando el pitch hallado con WaveSurfer sobre la voz cantada solamente. De esta manera puede eva- luarse al sistema sin considerar el bloque de detecci´on de f0, lo que permite evaluar toda la parte de separa- ci´on sin considerar los errores de ese bloque.

2. Utilizando el pitch hallado por el algoritmo imple- mentado.Aqu´iserealizalaevaluaci´ondepuntaapun- ta del sistema, obteni´endose las medidas de perfor- mance del algoritmo implementado.

Para realizar la evaluaci´on del sistema se construy´o una base de datos compuesta por 18 fragmentos de grabaciones musicalesdecortaduraci´on.Paradichosfragmentossetiene disponibledeantemanolavozcantadayelacompanamiento musical en forma separada. Se trat´o de encontrar ejemplos que contemplen distintos casos, como por ejemplo fragmen- tos que contengan principalmente sonidos sonoros u otros con muchos sordos, que hayan tanto cantantes masculinos como femeninos, o tambi´en que se encuentren distintos ti- pos de acompanamientos. Todos ellos son fragmentos en idioma ingl´es de m´usica rock, pop y country. A continuaci´on se presenta una gr´a?ca comparativa para las ganancias obtenidas en ambos casos, se muestran para los 18 fragmentos utilizados.

Figura 18: Ganancias obtenidas. Puede observarse que si bien se obtienen mejores resul- tados con el pitch calculado con WaveSurfer, los resultados obtenidos al utilizar el algoritmo de detecci´on de f0 imple- mentado, no di?eren mucho, salvo en algunos casos. Para el primer caso tomando promedios entre los valores ˜ ˜ ˜ ˜ de las ganancias, se llega a un valor de 4,54dB. Tambi´en promediando la comparaci´on entre las m´ascaras se obtiene al valor de ?M = 29,8. Los valores obtenidos para las ga- nancias son comparables con los valores presentados en [1], en dicho art´iculo los mismos est´an entre 0dB y 12dB. Cabe destacar que en [1] se realiza la medida de la performan- ce sobre distintos fragmentos, mezclados a diferentes SNR. Es decir, Se mezcla un fragmento para que la voz est´e pre- sente con mayor intensidad que el acompanamiento, por lo tanto se obtiene una ganancia mayor, y vice versa, para que est´e presente el acompanamiento con mayor intensidad, se obtiene por lo tanto una ganancia menor. Enelsegundocasolagananciallegaalvalorpromediode 2,97 dB, y la comparaci´on entre las m´ascaras da un porcen- taje de error promedio de ?M = 32,6%. Si bien el valor de la ganancia promedio es algo menor al obtenido en el ca- so 1, es comparable con los valores presentados en [1]. Una observaci´on importantes es que en casi todos los casos se consigue mejorar la SNR. Con respecto a los resultados de inteligibilidad, vale la pena destacar que si bien se obtienen senales de audio que se escuchan correctamente, en todos los casos queda un rui- do de fondo y distorsi´on. Otra observaci´on importante es que las senales obtenidas utilizando el pitch obtenido con el WaveSurfer se escuchan mejor. Esto era de esperarse, ya que el error al calcular el pitch, es menor al que se puede obtener con el algoritmo de detecci´on de f0 presentado.

edu.red

Optimizar el algoritmo de detecci´on de pitch. Este es [4] Y. Wang, M. Kan, T.Nwe, A. Shenoy, and J. Yin, “Lyrically: Optimizar la funci´on de autocorrelaci´on. Esta puede ˜ ˜ ˜ ˜ ˜ 9. Conclusiones Los resultados obtenidos mediante el c´odigo implemen- tado son exitosos, estando a la par de los algoritmos de se- paraci´on de voz cantada existentes, [1] y [30] por ejemplo. Como se mencion´o anteriormente el bloque de detecci´on de pitch es desde el punto de vista de desarrollo equivalente al resto del algoritmo, siendo computacionalmente la parte m´as costosa. La evaluaci´on del algoritmo de separaci´on de voz cantada aqu´i presentada se realiza en dos escenarios di- ferentes, teniendo en cuenta este hecho. Se realiza una eva- luaci´on utilizando el pitch calculado con WaveSurfer por un lado y luego utilizando el bloque de detecci´on de f0 im- plementado, observ´andose que el resultado ?nal del sistema depende fuertemente de la detecci´on de pitch. Asimismo, tambi´en se realiza por separado la evaluaci´on del m´etodo de detecci´on de pitch. De los resultados de las evaluaciones an- teriores, se puede a?rmar que, si se impone que el contorno de pitch sea una entrada al sistema implementado los resul- tados obtenidos son muy buenos, concluyendo por lo tanto, que el m´etodo de separaci´on funciona de manera aceptable. Cuando se utiliza la funci´on de detecci´on de f0 implementa- dalosresultadosobtenidostambi´ensonexitosos,peroexiste una mayor dependencia de las caracter´isticas de la senal de entrada, incurriendo en mayores errores en general. Cuan- do la senal de entrada no presenta un porcentaje elevado de sonidos sordos y no presenta largos silencios, el pitch obte- nido es muy bueno. Es importante destacar nuevamente, que el pitch detectado por el algoritmo presentado en este docu- mento, detecta el contorno de pitch para la voz cantada a partir de la senal de mezcla, voz cantada y acompanamien- to musical, a diferencia de WaveSurfer que lo calcula s´olo sobre la senal de voz cantada. Finalmente al comparar los resultados obtenidos contra la IBM, la cual es el objetivo computacional, tambi´en se ob- tienenresultadosaceptables.Enelcasodeevaluaralsistema utilizando el contorno de pitch como una entrada m´as al sis- tema, se comete un error de 29,8% en promedio, mientras que si se eval´ua al sistema utilizando el m´etodo de detec- ci´on de pitch implementado, se comete un error de 32,6% en promedio. Cabe destacar que el error que se comete en el m´etodo de detecci´on de pitch es de 30% en promedio. Si bien estos valores pueden parecer elevados, son compa- rables con los obtenidos en [1].

10. Trabajo futuro Como trabajo futuro quedan pendientes varios puntos a mejorar del algoritmo implementado.

´ implementarse utilizando la transformada discreta de Fourier (fft en Matlab), de este modo se podr´ian dis- minuir los tiempos de ejecuci´on, ya que dicha funci´on implica un gran costo computacional y es una de las ˜ ˜ ˜ limitantes para introducir fragmentos de mayor dura- ci´on al sistema implementado. ´ el que insume mayor tiempo y costo computacional.

Incluir las funciones necesarias para manejar los so- nidos sordos. Se recuerda que si bien son un porcen- taje menor que los sonoros (10% frente a un 90% de sonidos sonoros), el algoritmo implementado, trata a ambos sonidos por igual, cometiendo errores al en- contrase frente a un sonido sordo. Recientemente se public´o un art´iculo que trata sobre la separaci´on de los sonidos sordas [31].

Mejora de la funci´on de detecci´on de Pitch.Esta fun- ci´on es de vital importancia para obtener buenos re- sultados al ?nal del sistema.

En la etapa ?nal del algoritmo se podr´ia implementar alg´un m´etodo de mejora para la senal obtenida luego de la res´intesis. Si bien luego de normalizarla y ?ltrar- la se obtiene una senal entendible, en general suena “poco natural”.

Incluir el bloque de detecci´on vocal/no-vocal. Este primer bloque es de vital importancia para el correc- to funcionamiento del sistema implementado. Debido a la limitante de poder usar solamente fragmentos de corta duraci´on se opt´o por descartar la implementa- ci´on del mismo, ya que al utilizar fragmentos cortos se pueden elegir f´acilmente aquellos que incluyan voz cantada y acompanamiento musical todo el tiempo.

Pasaje del sistema implementado en Matlab a C o C++. Referencias

[1] Y. Li and D. Wang, “Separation of singing voice from music accompaniment for monaural recordings,” disponi- ble WWW, http://www.cse.ohio-state.edu/ dwang/papers/Li- Wang.taslp07.pdf, 2007. [2] M. Rocamora, E. L´opez, and G. Sosa, “B´usqueda de m´usica por tarareo,” IIE, Facultad de Ingenier´ia, Universidad de la Republica Oriental del Uruguay, 2004. [3] R.L.C.K.WangandY.Chiang,“Anautomaticsingingtrans- cription system with multilingual singing lyric recognizer and robust melody tracker,” Proceedings of EUROSPEECH, 2003. ˜ automatic synchronization of acoustic musical signals and textual lyrics,” Proceedings of the 12th Annual ACM Inter- national Conference on Multimedia, pp. 212–219, 2004. [5] A. Berenzweig, D. Ellis, and S. Lawrence, “Using voice seg- ment to improve artist classi?ction of music,” AES 22nd In- ternational Conference on Virtual, Synthetic and Entertain- ment Audio, 2002.

edu.red

[6] Y. Kim and B. Whitman, “Singer identi?cation in popular music recording using voice coding features,” Proceeding of International Conference on Music Information Retrieval, 2002. [7] A. Bregman, Auditory Scene Analysis. MIT Press, 1990. [8] G. Brown and D. Wang, “Separation of speech by compu- tational auditory scene analysis,” Speech Enhancement, pp. 371–402, 2005. [9] P. Divenyi, Speech Separation by Humans and Machines. Norwell, MA: Kluver Academic, 2005. [10] D. Rosenthal and H. Okuno, Computational Auditory Scene Analysis. Mahwah, New Jersey: Lawrence Erlbaum, 1998. [11] D. Wang and G. Brown, Computational Auditory Scene Analysis: Principles, Algorithms and Applications. Wiley- IEEE Press, 2006. [12] A. Hu and D. Wang, “Monoaural speech segregation based on pitch tracking and amplitude modulation,” IEEE Transac- tions on Neural, vol. 15, pp. 1135–1150, 2004. [13] A. Hu and D. Wang, “An auditory scene analysis approach to monaural speech segregation,” Hansler E. and Schmidt G. (ed.), pp. 485–515, 2006. [14] R. Patterson, Nimmo-Smith, J. Holdsworth, and P. Rice, “An ef?cient auditory ?lterbank based on the gammatone fun- ction,” tech. rep., MRC Applied Psychology Unit, Cambrid- ge, 1987. [15] R. Meddis, “Simulation of auditory–neural transduction: Further studies,” Journal of the Acoustical Society of Ame- rica, vol. 83, pp. 1056–1063, 1988. [16] B. Glasberg and B. Moore, “Derivation of auditory ?lter sha- pes from notched–noise data,” Hearing Research, vol. 47, pp. 103–138, 1990. [17] R. Carlyon and T. Shackleton, “Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms?,” Acoustical Society of America Journal, vol. 95, pp. 3541–3554, 1994. [18] R. Plomp and M. Mimpen, “The ear as a frequency analyzer,” Acoustical Society of America Journal, vol. 43, pp. 764–767, 1964. [19] D. Wang, “On ideal binary mask as the computational goal of auditory scene analysis,” Speech Separation by Humans and Machines, pp. 181–197, 2005. [20] B. Moore, An Introduction to the Psychology of Hearing. San Diego, CA, USA: Academic Press, 5th ed., 2003. [21] H.Helmholtz,OntheSensationofTone. Braunschweig,Ger- many: Vieweg and Son, 1863. [22] J. Bird and C. Darwin, “Effects of a difference in fundamen- tal frequency in separating two sentences,” Psychophysical and Physiological Advances in Hearing, 1997. [23] J. Holdsworth, Nimmo-Smith, R. Patterson, and P.Rice, “Im- plementing a gammatone ?lter bank,” tech. rep., MRC Ap- plied Psychologi Unit, Cambridge, 1988. [24] Y. Li and D. Wang, “Detecting pitch of singing voice in polyphonic audio,” Proceedings of IEEE International Con- ference on Acoustics, Speech, and Signal Processing, vol. 3, pp. 17–20, 2005. [25] K. Sj¨ol and J. Beskow, “Wavesurfer- an open source speech tool,” http://www.speech.kth.se/wavesurfer. [26] P. Boersma and D. Weenink, “Praat: doing phonetics by computer,” http://www.fon.hum.uva.nl/praat. [27] D. Brungart, P. Chang, B. Simpson, and D. Wang, “Isolating the energetic component of speech-on-speech masking with ideal time-frequency segregation,” Journal of the Acoustical Society of America, vol. 120, pp. 4007–4018, 2006. [28] P. Chang, “Exploration of behavioral, physiological, and compuetationalapproachestoauditorysceneanalysis,”Mas- ter’s thesis, The Ohio State University, Deparment of Com- puter Science and Engineering, 2004. [29] N. Roman, D. Wang, and G. Brown, “Speech segregation ba- sed on sound localization,” Journal of the Acoustical Society of America, vol. 114, no. 4, pp. 2236–2252, 2003. [30] A. Ozerov, P. Philippe, R. Gribonval, and F. Bimbot, “Adap- tation of bayesian models for single-channel source separa- tion and its application to voice/music separation in popular songs,” IEE Workshop on Application of Signal Processing to Audio an Acoustics, 2007. [31] G. Hu and D. Wang, “Segregation of unvoiced speech from nonspeech interference,” Journal of the Acoustical Society of America, 2008.

Partes: 1, 2

Página anterior

Volver al principio del trabajo

Página siguiente