una grabaci´on musical en un s´olo canal. Esta pudo haber Separaci´on de Voz Cantada (Singing Voice Separation)
Ariel Decarlini, Alessandro Palermo, Andr´es Samas Instituto de Ingenier´ia El´ectrica Facultad de Ingenier´ia de la Universidad de la Rep´ublica Montevideo, Uruguay decaland,ok.aless,[email protected] ˜ ´ ´ ˜ Abstract El problema principal que abord´o este proyecto de ?n de carrera es la extracci´on de la voz cantada en una grabaci´on musical. El objetivo es construir un sistema que reciba co- mo entrada un archivo de m´usica, y que devuelva como sa- lida la voz cantada. Con el ?n de desarrollar la soluci´on, se realiz´o un estudio de los enfoques existentes y ?nalmente se opt´o por implementar el propuesto en [1]. Keywords: Cocleagrama, pitch, m´ascara binaria.
1. Introducci´on El sistema auditivo humano tiene la capacidad de separar los sonidos de diferentes fuentes ac´usticas, en especial pue- deescucharyseguirlavozcantadaenpresenciadeunacom- panamiento musical. Esta tarea le requiere poco esfuerzo, sin embargo, un sistema computacional que realice lo ante- rior no es algo trivial, y se han propuesto pocas soluciones. Debido al gran volumen de datos multimedia que circula por las redes, se tiene la necesidad de implementar siste- mas que permitan realizar b´usquedas por contenido, ya sea con el ?n del ordenamiento, del almacenamiento o de la cla- si?caci´on de los datos. Esto permitir´a luego, por ejemplo, buscar en una base de datos alg´un archivo con cierta carac- ter´istica, como ser canciones de un mismo cantante o de un mismo g´enero. Un sistema de separaci´on de voz cantada es muy util para realizar esta tarea, ya que la voz cantada con- tiene informaci´on como la melod´ia. Por lo tanto se podr´ia usar como un primer bloque de procesamiento para este ti- po de sistemas. Por ejemplo, la extracci´on de la voz cantada podr´ia ir seguida de alg´un sistema de b´usqueda de canciones mediante tarareo, como el presentado en [2]. Otrasareasdeaplicaci´onsonelreconocimientoautom´ati- co de las letras de las canciones y el alineamiento. Los siste- mas de reconocimiento de letras a menudo necesitan que la entrada sea la voz cantada [3]. El alineamiento de letras con la voz cantada es una tarea fundamental para sistemas del tipo karaoke, tal proceso es muy dif´icil cuando est´a presen- te el acompanamiento, sin embargo, al tener la voz cantada separada se pueden lograr mejores resultados [4]. Tambi´en se encuentra especial uso en la identi?caci´on de cantantes [5], [6]. ˜ ˜ ˜ El enfoque propuesto en [1] es el que se decidi´o imple- mentar para resolver el problema de separaci´on de voz can- tada. A continuaci´on se presenta un resumen de la t´ecnica utilizada. El objetivo es separar la voz cantada del acompanamien- to musical en el caso monoaural, es decir, cuando se tiene ´ sido obtenida al grabar utilizando un micr´ofono solamen- te, o como resultado de una mezcla ?nal de audio. Como senales de entrada se utilizan archivos de audio muestrea- dos a 16 kHz, los cuales deben ser fragmentos musicales de corta duraci´on que contengan voz cantada y acompanamien- to al mismo tiempo. Esto es debido a que el sistema presenta un gran costo computacional, y la demora para procesar ar- chivos de m´as duraci´on es considerable. El punto de partida de la teor´ia sobre la que se basa el art´iculo se encuentra en los resultados de los estudios psi- cof´isicos del sistema auditivo humano, en los cuales se bus– ca conocer la forma en que nuestro sistema auditivo sepa- ra las distintas fuentes sonoras que constituyen la entrada ac´ustica. El libro m´as in?uyente es el escrito por Bregman [7], en este libro se propone que el sonido que llega al o´ido humano est´a sujeto a un proceso llamado an´alisis de la es- cena auditiva (ASA, por sus siglas en ingl´es Auditory Sce- ne Analysis). Este proceso se realiza en dos grandes etapas: segmentaci´on y agrupamiento. En la etapa de segmentaci´on, la entrada ac´ustica es descompuesta en una serie de regiones tiempo-frecuencia (T-F) locales, llamadas segmentos. Cada uno de ellos se espera que sea originado por una sola fuente de la entrada ac´ustica. La segunda etapa es la de agrupa- miento, en donde los segmentos que probablemente perte- nezcan a una misma fuente son agrupados juntos, forman- do unas estructuras perceptuales llamadas stream para cada fuente sonora. La segmentaci´on y el agrupamiento son lle- vados a cabo por mecanismos perceptuales, que determinan c´omo la escena auditiva es organizada de acuerdo a princi- pios auditivos del ASA. A partir del ASA, se ha investigado y se han desarrollado sistemas para obtener la representaci´on computacional de la teor´ia del an´alisis de la escena auditiva. Se abord´o a lo que se conoce como an´alisis de la escena auditiva computacio-
ditivo humano. Este consta de un banco de ?ltros pasaban- ˜ ˜ ˜ ˜ ˜ ˜ ´ ˜ nal (CASA, por sus siglas en ingl´es Computational Auditory Scene Analysis) [8], [9], [10], [11]. El objetivo de los siste- mas CASA es realizar la separaci´on de las distintas fuentes sonorasquecomponenlaentradaac´ustica.Setieneportanto una senal ac´ustica de entrada compuesta por varias fuentes sonoras, y el objetivo es obtener a la salida cada una de ellas en forma separada. Una de las grandes ventajas que tienen lossistemasCASAfrenteaotrosm´etodosesquenosesupo- nen grandes restricciones sobre las propiedades ac´usticas de las senales de entrada, lo cual permite abordar un espectro amplio de problemas. En la ?gura 1 se puede ver un diagra- ma de bloques de un sistema CASA t´ipico.
Figura 1: Sistema CASA. En la etapa de
Página siguiente |