Descargar

Modelos de redes bayesianas en el estudio de secuencias genómicas y otros problemas biomédicos (página 2)


Partes: 1, 2, 3, 4, 5
a bajo la curva ROC, del inglés, Area under the Receiving Operation Characteristic Curve AD: Árbol de Decisión, del inglés Decision Tree LOO-CV: validación cruzada dejando uno fuera, del inglés Leave one out crossvalidation

edu.red

INTRODUCCIÓN La secuenciación de genomas ha generado un amplio catálogo de miles de millones de secuencias de pares de bases nucleotídicas de ADN (Ácido desoxirribonucleico), o moléculas esenciales de la vida. Una de las dificultades que se afronta en los estudios biológicos actuales proviene, paradójicamente, de esta enorme cantidad de datos. Se conocen las secuencias (nucleotídicas o de aminoácidos para los cuales ellas codifican) de más de un millón y medio de proteínas, las de más de cien genomas (ver anexo 1 de conceptos básicos), la estructura tridimensional de más de 20 mil proteínas, etc. Gracias a los experimentos de matrices de ADN o micro arreglos (micro arrays) se sabe cuándo y cómo se expresan muchos genes; también se dispone de muchos datos que indican qué proteínas interactúan entre sí. Además, todo el conocimiento científico acumulado a lo largo de las últimas décadas se encuentra disperso en más de 12 millones de artículos (Galperin 2007). La disponibilidad de genomas completos de muchas especies, además del humano, el volumen de información ubicado actualmente en las bases de datos públicas, por ejemplo la base de datos GenBank (Benson et al. 2005), y los ambiciosos proyectos masivos de estudios sobre la interacción entre proteínas, han generado un cambio de paradigma en las investigaciones biológicas: de una estrategia de extraer el máximo de información a partir de unos pocos datos, se ha pasado a la necesidad de obtener la información esencial a partir de grandes volúmenes de datos. Para sólo poner un ejemplo, cuando se secuencia un genoma se tiene poco más que una larga serie de letras (bases nucleotídicas) (Dopazo y Valencia 2002) que constituyen realmente instrucciones y datos complicados. Para avanzar en la compresión de la información que encierran estos libros de instrucciones se deben encontrar los genes y predecir su función y esto está lejos de ser resuelto para cualquiera de los genomas ya secuenciados. Se ha dado un avance en el planteamiento de la estructura-función en los genes así como la interrelación entre ellos y a su vez, su relación, por ejemplo, con procesos metabólicos normales así como con enfermedades asociadas a factores hereditarios o transformaciones genéticas. Estos descubrimientos conllevan el manejo de una cantidad elevada de datos,

edu.red

Introducción 2 imposibles de procesar de forma manual y que exigen de aplicaciones informáticas especializadas. Por tal motivo son muy importantes los avances en el orden computacional que se aplican al procesamiento de los datos para convertirlos en información esencial. Por ejemplo, los 34 000 genes humanos (la cifra es aproximada) pueden dar lugar a varios cientos de miles de proteínas y funciones, cifra que se multiplica gracias al multiuso de secciones codificantes, facilitado por el evento conocido como "splicing" o corte de intrones1 y además, a las modificaciones postraduccionales que pueden sufrir las proteínas.

El enfoque clásico, que consistía en conocer una determinada función y buscar el gen responsable, se transformó y creó un nuevo escenario donde se dispone de un importante número de genes desconocidos a los que es necesario asignar una función. Este nuevo momento dio lugar al desarrollo de la Bioinformática (Christos y Valencia 2003).

Existe consenso acerca de la necesidad de la revisión y adaptación de algoritmos y sistemas existentes en el campo de la Ciencia de la Computación con estos objetivos, e incluso, el diseño de nuevos algoritmos e implementaciones.

Antecedentes

Los estudios bioinformáticos que se desarrollan en el mundo tienen mucho de experimental, de uso de métodos de prueba y error, de abuso de hipótesis “ad-hoc”, además de ser inmensamente costosos por los materiales y la información que requieren, tanto para la experimentación biológica como para el procesamiento computacional.

En el año 2002 se crea el Grupo de Bioinformática en la Universidad Central “Marta Abreu” de Las Villas (UCLV) con objetivos específicos, que emprenden el estudio, desde el punto de vista matemático puro y estadístico, de estructuras algebraicas en el código genético con pretensiones de ayudar a predecir estructura, funciones, evolución o mutaciones en general. Estas investigaciones básicas obtienen un rápido éxito.

Una vez que estos resultados se han obtenido y publicado (Sánchez y Grau 2005), (Sánchez et al. 2004) , se hace necesario buscar nuevas herramientas computacionales que junto a 1 intrones: segmentos no codificantes para proteínas que forman parte de los genes de organismos superiores y que se intercalan con los exones, o zonas codificantes en un gen.

edu.red

Introducción 3 estas representaciones algebraicas permitan perfeccionar el análisis de secuencias. Los enfoques de aprendizaje automático o Machine Learning (ML), por ejemplo las Redes Neuronales, los Modelos Ocultos de Markov, las Máquinas con Vectores Soporte, las Redes Bayesianas (RB), etc., se ajustan idealmente para dominios caracterizados por la presencia de grandes volúmenes de datos, modelos “ruidosos”, y la ausencia de teorías generales que permitan hacer análisis determinísticos o incluso estadísticos.

La idea fundamental que se persigue es descubrir conocimiento o aprender automáticamente desde los datos, a través de un proceso de inferencia o modelo de adaptación. Una arquitectura unificada dentro de los métodos de aprendizaje automático es el enfoque probabilístico bayesiano para la modelación e inferencia (Baldi y Soren 2001).

Las RB son una técnica de Inteligencia Artificial (IA) que ha mostrado resultados relevantes frente a este tipo de datos. Ellas constituyen una representación del conocimiento que tiene en cuenta las relaciones entre las variables2 y hacen una selección de las más importantes por su propia caracterización, a la vez que permiten hacer inferencias sobre las mismas y en particular pueden ser usadas para tareas de clasificación. Esencialmente, una RB es un grafo dirigido acíclico (GDA) y una distribución de probabilidad para cada nodo del grafo (Buntine 1996), (Castillo et al. 1997), (Heckerman 1996), (Charles River Analytics 2004).

La definición de una RB supone siempre dos tareas. La primera es determinar la estructura de relaciones de dependencia entre las variables “independientes”3, digamos por ejemplo, las posiciones de una secuencia, en relación a una variable “dependiente”. La segunda tarea es obtener la distribución de probabilidades (parámetros) que permitirá hacer inferencias. Entre estas dos tareas, la primera es esencial por ser realmente la más difícil y es imprescindible para poder realizar la segunda. Así, las posibilidades del uso de las RB se fortalece si es posible realizar el aprendizaje de las mejores estructuras y parámetros, 2 Indistintamente se utilizan los términos variables, atributos o rasgos para referirnos a las variables predictoras en los problemas que se tratan, y cuando se habla de la variable dependiente se refiere como variable dependiente o clase. 3 estos términos por analogía con los de otras técnicas de pronóstico pero se anotan por esa razón entre comillas. Las llamadas variables independientes, son las predictivas de la variable dependiente u objetivo, pero no son independientes entre sí.

edu.red

Introducción 4 especialmente si se logra optimizar el aprendizaje estructural acorde con el dominio del campo de aplicación, en este trabajo la Bioinformática y en particular el análisis de secuencias genómicas. Se requiere además la implementación de estas nuevas técnicas de aprendizaje y de inferencia en productos de software, preferiblemente en plataformas de software libre para facilitar la divulgación y uso por la comunidad científica.

Las RB se han utilizado en Biología e incluso en Bioinformática (Wilkinson 2007), pero se usan técnicas muy generales de aprendizaje que tal vez no tienen en cuenta la información esencial de los datos biológicos o de las secuencias genómicas (Liu y Logvinenco 2003). Este es el campo de estudio. A continuación se detalla esta situación problémica.

Situación problémica

La genómica y la proteómica, generan continuamente grandes cantidades de datos que plantean problemas de gestión y análisis, lo cual enfrenta a la Bioinformática el reto de encontrar nuevas soluciones que permitan el procesamiento eficiente de dicha información. Los especialistas confrontan no solo el problema técnico que presenta el manejo de grandes volúmenes de datos, sino la búsqueda de nuevos algoritmos con los que se pueda extraer nuevo conocimiento desde datos ruidosos o sujetos a errores. Las herramientas bioinformáticas clásicas más usadas en el contexto del análisis de secuencias incluyen métodos de búsqueda de secuencias similares e inducción de propiedades a partir de la similaridad. Los programas BLAST (Basic Local Alignment Search Tool)4 y FASTA (FAST-All, (EBI 1999))5 son muy conocidos; también el alineamiento múltiple (CLUSTAL es un algoritmo clásico para esta tarea), la definición de regiones conservadas con posible significado funcional, y el uso de estas regiones para buscar nuevas secuencias, así como métodos filogenéticos en aras de reconstruir relaciones evolutivas entre las secuencias (Cohen 2004). Esencialmente, ellas son herramientas de aprendizaje no supervisado o supervisado. Sin embargo, algunas de estas herramientas bioinformáticas, por ejemplo las de alineamiento están diseñadas para trabajar con una 4 5 BLAST se utiliza para buscar regiones similares entre secuencias biológicas. FASTA permite hacer una comparación rápida de proteínas o nucleótidos.

edu.red

Introducción 5 cantidad relativamente pequeña de secuencias o de clases objetivo, y se limita así el procedimiento clásico para saber más sobre una secuencia que consiste, básicamente, en alinear ésta con otras disponibles en bases de datos, cuyas características o funciones son conocidas y “buscar” información sobre la misma a partir de similaridades con un grupo reducido de secuencias conocidas. Un nuevo reto del análisis de secuencias biológicas está en la manipulación de mucha información, que además, puede contener incertidumbre. Usualmente los especialistas de bioinformática afrontan así la realización de dos tareas principales: clasificar los datos en grupos y después, investigar qué información tienen en común los miembros de cada grupo, que los distinguen del resto de los otros grupos. La ejecución de estas tareas se basa esencialmente en la aplicación de técnicas de agrupamiento y de la aplicación posterior de otros métodos que permitan extraer información característica de un grupo de elementos. Es dentro de la segunda tarea que se pretende utilizar las RB. Los métodos para extraer la información en la segunda fase pueden incluir cualquier técnica de aprendizaje supervisado; pero la extracción de conocimiento en el análisis de secuencias genómicas o datos biológicos no siempre constituye un problema de regresión o clasificación. Dada la incertidumbre presente en estos datos, resulta apropiada la aplicación de métodos bayesianos, por las ventajas que ofrece sobre las técnicas estadísticas y bioinformáticas convencionales (Silva y Muñoz 2000).

Las RB aventajan a métodos tradicionales de clasificación en dos aspectos esenciales:

1. Permiten realizar inferencias en presencia de información o evidencias incompletas.

2. Las inferencias pueden ser no solo sobre la “clase o variable dependiente” sino sobre cualquiera de las variables “independientes” cuya información se desconozca a partir de evidencias de otras variables.

Estos dos aspectos son típicos en los problemas actuales de análisis de secuencias. Por ejemplo, a partir de una base de datos de mutaciones de un virus con niveles conocidos de resistencia antiviral ante determinada droga, puede ser interesante el clásico problema de clasificación de la resistencia de una nueva mutación, aun cuando no se tengan disponibles todos los datos de ésta. Puede también ser interesante, a partir de cierto nivel de resistencia

edu.red

Introducción 6 deseado, conocer información probabilística sobre determinadas posiciones de esa secuencia, necesaria para obtener un determinado nivel de resistencia, así como combinaciones de las distintas interrogantes que se puedan presentar. Todos estos problemas se pueden resolver si se hacen diferentes inferencias con una RB única que tenga una buena estructura y una vez que se definan los parámetros asociados a la misma.

También en otras aplicaciones biológicas y médicas se presentan problemas similares. Por ejemplo, en el diagnóstico probabilístico diferenciado de una determinada enfermedad, a partir de una base de casos con información sobre riesgos y casos nuevos con información incompleta, o la investigación de la necesidad probabilística de un riesgo difícil de explorar ante casos con diagnóstico conocido.

Debido a las bondades que presentan las RB surge la idea de trabajar con este tipo de técnica; aunque esto no necesariamente alivia la solución de los problemas, y mucho menos la solución combinada con técnicas de la IA, si la estructura de la red exige el cálculo de un gran número de probabilidades condicionales o parámetros, como es usual. Se plantea entonces el problema de simplificar la estructura de la red con el apoyo de otros modelos gráficos probabilísticos o de optimización, así como en información concreta del dominio de aplicación, para en definitiva aliviar el cálculo de probabilidades, facilitar inferencias y reducir complejidad computacional.

Hay otras insuficiencias en el estado del arte actual de algunas aplicaciones computacionales. Por ejemplo, la plataforma inteligente para aprendizaje Weka (Waikato Environment for Knowledge Analysis) (Witten y Frank 2005), que es libre y de código abierto, tiene incorporadas muchas técnicas estadísticas o de IA y brinda la posibilidad de experimentar con el conjunto de ellas para investigar con cuáles se obtienen mejores resultados. Pero las RB que incluye hasta ahora usan sólo los métodos clásicos de aprendizaje y apenas permiten resolver tareas de clasificación, no así de inferencia inversa como las mencionadas anteriormente.

Además, en el campo de la aplicación al análisis de secuencias genómicas, existen muchos problemas abiertos, los cuales han sido abordados por diferentes técnicas, en particular, de clasificación, con resultados que aún no satisfacen las expectativas de los especialistas en

edu.red

Introducción 7 ciencias biológicas y que sugieren la aplicación de nuevos métodos con el propósito de alcanzar mejores desempeños en las predicciones. Entre los ejemplos de tales problemas se encuentran la localización de los sitios de splicing, la detección de interacciones de proteínas, la predicción de actividad antiviral y otros que serán abordados en la presente tesis con la aplicación de los métodos propuestos en la misma.

La comunidad bioinformática actual ha llegado al consenso de que ninguna técnica por separado dará una solución definitiva a varios de estos problemas, producto de las indeterminaciones propias de los procesos biológicos y la presencia de muchos ruidos o ausencia de información y ello reclama de los “ensembles” o “multiclasificadores”. Es ello otra justificación para la búsqueda, casi interminable, de nuevos algoritmos que, desde una óptica diferente, puedan aportar elementos extras a la solución de tales problemas en conjunción con otros algoritmos o modelos. En este sentido, el presente trabajo contribuye a la detección de interacciones esenciales entre variables supuestamente predictivas para abordar tales problemas.

Consecuentemente se plantea el siguiente:

Objetivo general

Desarrollar e implementar nuevos algoritmos de aprendizaje estructural de RB a partir de la combinación de métodos clásicos con otros modelos gráficos como los árboles de decisión y los algoritmos de optimización bioinspirados, que simplifiquen la red, que tengan resultados con eficiencia similar o superior a las RB clásicas y otras técnicas en problemas de clasificación de carácter biológico, y capaces de ser utilizados efectivamente en el análisis de secuencias genómicas para extraer información múltiple y adicional de las mismas.

Este objetivo general se desglosa en los siguientes objetivos específicos: • Desarrollar nuevos algoritmos de aprendizaje estructural de RB que conduzcan a redes relativamente simples, en las cuales se minimicen las relaciones esenciales de dependencia entre las variables, con eficiencia similar o superior a las ya existentes, y particularmente aplicables en estudios bioinformáticos y biomédicos.

edu.red

Introducción 8 •

• Realizar la implementación computacional de los métodos propuestos en plataformas de software libre, de modo que se facilite su utilización práctica por la comunidad científica internacional, y a su vez poder compararlos con otros modelos clásicos de RB u otras técnicas de aprendizaje. Ilustrar cómo los modelos desarrollados pueden contribuir a la solución de problemas reales y aun abiertos de Bioinformática, relacionados con el análisis de secuencias genómicas, e ilustrar su generalidad con las posibilidades de aplicación también en otros problemas de diagnóstico médico. Para el cumplimiento de estos objetivos se trazaron las siguientes

Tareas de investigación 1.

2.

3.

4. Confección del marco teórico relacionado con la teoría de las RB y las experiencias reportadas de aplicación a la Bioinformática. Revisión de la teoría relacionada con los modelos que se pretenden combinar. Desarrollar y formalizar nuevos algoritmos de aprendizaje estructural de RB basados en: a. Integración de árboles de decisión obtenidos con el algoritmo de detección de interacciones basado en Chi-cuadrado (CHAID) b. Detección de interacciones esenciales, perfeccionado el algoritmo de búsqueda de las mismas c. Algoritmos de optimización bioinspirados, concretamente la optimización basada en enjambres de partículas, para contribuir a la reducción de atributos. Implementar y evaluar los tres algoritmos elaborados sobre la plataforma Weka y realizar la validación cruzada en forma paralela para así facilitar la evaluación de los algoritmos en problemas bioinformáticos. Mostrar y evaluar los resultados de la aplicación en problemas tales como: a. Detección de interacciones entre proteínas b. Localización de genes a través de la predicción de splice sites c. Diagnóstico médico de la hipertensión arterial ( HTA)

Partes: 1, 2, 3, 4, 5
 Página anterior Volver al principio del trabajoPágina siguiente