Descargar

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 2)


Partes: 1, 2, 3, 4, 5, 6, 7, 8

A pesar de que en el proceso de evolución molecular la mayoría de los genes codificantes para proteínas se originaron a partir de la combinación de regiones codificantes para dominios estructurales de las proteínas ancestros, es posible distinguir los taxa a partir de las diferencias estadísticamente detectables en el número estimado de codones que codifican para cada aminoácido.

Objetivo del trabajo

Este trabajo se propone como objetivo:

Detectar diferencias estadísticamente significativas en el número estimado de codones que codifican para cada aminoácido que estén en correspondencia con las clasificaciones taxonómicas existentes.

Tareas de investigación

Para el cumplimiento del objetivo y responder a las preguntas de investigación, demostrando la hipótesis anterior, fue necesario:

  • Construir dos bases de datos con 9 grupos de organismos (archaea, bacterias, invertebrados, insectos, plantas, vertebrados que no son mamíferos, mamíferos que no son primates, primates y homo sapiens), ellas se componen una de cadenas de aminoácidos y otra de la frecuencia del uso de codones, ambas extraídas de Internet, la primera de Direct public access to the National Library of Medicine's Medline Biomedical literature search engine through the NCBI.  www.ncbi.nlm.nih.gov/entrez/  (PubMed) y la segunda de Codon Usage Database.
  • Calcular la frecuencia de aparición de cada aminoácido en la cadena representativa de los organismos.
  • Determinar el número estimado de codones para subgrupos de organismos formando así vectores 20 dimensionales con los que se realizaron las pruebas estadísticas.
  • Calcular las distancias genéticas entre los pares de poblaciones estudiadas donde cada distancia equivale al grado de divergencia proporcional entre las dos poblaciones, en la base de datos  de aminoácidos, utilizando la distancia de Hellinger y la Entropía Relativa.
  • Realizar el análisis estadístico aplicando la técnica del CHAID y Análisis de Discriminante.
  • Evaluar la eficacia de los clasificadores a través de Curvas ROC y los parámetros que se obtienen de la matriz de confusión que nos permita sustentar la hipótesis de investigación.
  • Construir los árboles filogenéticos referidos a la base de datos de aminoácidos,  mostrando nuevos aspectos de  las relaciones de evolución entre las especies.

Novedad Científica

La novedad científica del presente trabajo se resume en:

  1. Se encuentran evidencias estadísticamente significativas acerca de la factibilidad del empleo del número estimado de codones que codifican para cada aminoácido en la clasificación taxonómica de los organismos vivos.
  2. Se muestran la factibilidad del empleo de las estimaciones de las probabilidades de aparición de los aminoácidos en proteínas en la construcción de árboles filogenéticos y en la detección de posibles ancestros extintos durante grandes extinciones masivas.

Importancia teórica

En este trabajo se desarrolla un tratamiento alternativo de la información presente en las secuencias de genes y proteínas para su uso en el análisis taxonómico y filogenético. En particular, el tratamiento realizado permite prescindir de los posibles errores tautológicos derivados de los procesos de multialineación de secuencias de genes o de secuencias de proteínas, el cual es una etapa necesaria cuando se realizan los análisis mencionados partiendo de las secuencias biológicas.

Importancia práctica

La variabilidad de secuencias de genes y de proteínas de los múltiples organismos utilizadas en esta tesis, implica que la complejidad de los procedimientos matemático-computacionales a realizar, para minimizar los errores tautológicos derivados de los multialinemientos de las secuencias biológicas, requiere de una logística computacional e intelectualmente multidisciplinaría muy costosa y poco frecuente en los grupos de trabajo de Bioinformática. Luego, el procedimiento que se propone en este trabajo puede resultar una alternativa muy útil.

Estructura del trabajo

La tesis ha sido estructurada de la siguiente forma: introducción, 4 capítulos, conclusiones, recomendaciones y anexos. En el capítulo 1 desarrollamos el marco teórico que le permita al lector un conocimiento general del tema abordado y la comprensión de los capítulos siguientes. En el capítulo 2 nos proponemos dra cumplimiento a la primera tarea de nuestro trabajo,  explicando con detalles la conformación de estas bases de datos. El tercer capítulo está destinado a describir las pruebas estadísticas  realizadas con el SPSS y un cuarto capítulo donde se expone lo relacionado con las relaciones evolutivas encontradas a partir del procesamiento de estas bases de datos. Finalmente aparecen las conclusiones del trabajo.

BASES BIOLÓGICAS Y MATEMÁTICAS

En este capítulo se realiza una descripción de las bases teóricas que conducen a las aplicaciones que tiene hoy en día el estudio molecular. Primeramente, se describe un sumario biológico con aquellos términos más usados, elementos importantes del código genético y aspectos biológicos de la evolución molecular. Posteriormente, se presentan una descripción de  las herramientas estadísticas y bioinformáticas usadas en el trabajo. 

1.1.              Sumario Biológico Teórico

Algunos de los términos biológicos usados en el trabajo son lo que siguen:

Especie son agrupamientos de poblaciones naturales intercruzantes, con las mismas características, que ocupan una determinada área geográfica y están reproductivamente aisladas de otros grupos.

Taxón: (del griego taxis = arreglo, poner orden) Término aplicado a un grupo de organismos situado en una categoría de un nivel determinado en un esquema de clasificación taxonómica.

Taxonomía: (del griego taxis = arreglo, poner orden; nomos = ley): Método sistemático de clasificar plantas y animales. Clasificación de organismos basada en el grado de similitud, las agrupaciones representan relaciones evolutivas (filogenéticas).

Micro Taxonomía es la taxonomía que trata los organismos a nivel de especies y poblaciones.

Macro Taxonomía es la taxonomía que trata los organismos a nivel de las categorías superiores como género, familia, orden, etc.

El proteoma es el conjunto completo de proteínas que se expresan en el genoma. Algunos genes codifican para múltiples proteínas, el tamaño del proteoma es mayor que el número de genes. A veces el término se usa para describir el comportamiento de proteínas expresadas por una célula en un momento.  Puede usarse para referirse al juego de proteínas codificadas por el genoma entero  o en particular para cualquier célula o tejido. 

El genoma es el juego completo de genes de un organismo. Se define por la sucesión de ADN completa, aunque en la práctica no puede ser  posible identificar exactamente cada gen solamente en base a la sucesión que lo representa.

El transcriptoma es el juego completo de genes expresado bajo particulares condiciones. Se define como el juego de moléculas de ARN que están presentes, y puede referirse a un solo tipo de célula o a la unión más compleja de células o al organismo completo. Como algunos genes generan el mRNAs múltiple, es probable que el transcriptoma sea más grande que el número de genes definido directamente en el genoma.

Las proteínas pueden funcionar independientemente o como parte del multiprotein. Si se pudieran  identificar todas las interacciones entre  proteínas, podríamos definir el número total de dominios  independientes de proteínas. 

Ortólogos son las proteínas correspondientes en dos especies diferentes en  sucesiones homólogas. Por lo general contamos que dos genes en organismos diferentes, proporcionan funciones correspondientes si sus secuencias son similares sobre el 80 % de la longitud, Figura 1.1.1. Según este criterio, el 20 % aproximadamente de los genes de mosca tiene ortólogos tanto en la levadura como en el gusano. Todo el reino eucariotes posiblemente requiere estos genes. La proporción aumenta al 30 % cuando la mosca y el gusano son comparados, representando la adición de las funciones que son comunes al reino eucariotes multicelular [1].

Figura 1.1.1. Las proteínas Ortólogos.

Los genes quehaceres domésticos (gen Constitutivo) son aquéllos (teóricamente) expresados  en todas  las células porque ellos proporcionan funciones básicas necesarias para el sustento de todos los organismos celulares. 

El estudio de las secuencias genómicas puede ayudar a la comprensión de la función de las proteínas y los genes. Los estudios de proteína y evolución del gen involucran la comparación de sucesiones homólogas que tienen los orígenes comunes pero pueden o no tener una actividad común. Sucesiones que comparten un arbitrario nivel de similitud determinado por la alineación de emparejar las bases son homólogas. Ellos se heredan de un común antepasado que tenía estructura similar, aunque la estructura del antepasado puede  ser difícil de determinar porque se ha modificado a través del descenso. Homólogos son la mayoría normalmente cualquier ortólogo, parólogos, o xenólogos.

Ortólogos son homólogos producidos por la especiación. Ellos representan genes derivados de un antepasado común que divergió, son asociados con la deuda de la divergencia de los organismos,  tienden a tener función similar. 

Parólogos son homólogos producidos por la duplicación del gen. Ellos representan los genes derivados de un gen hereditario común que se reprodujo dentro de un organismo y entonces como consecuencia divergido,  tienden a tener las funciones diferentes. 

 Xenólogos son homólogos que son el resultado del traslado del gen horizontal entre dos organismos.  

Arqueo bacterias (del griego arkhaios = antiguo; bakterion = bastón: grupo de procariotas de unos 3.500 millones de años de antigüedad, presentan una serie de características diferenciales que hicieron que Carl Woese  profesor de la Universidad de Illinois, Urbana, U.S.A., proponga su separación del reino Moneras y la creación de uno nuevo: Archaea, propuesta que hoy es aceptada.

ARN ribosómico: Uno de los tres tipos de ARN, el ARNr es un componente estructural de los ribosomas. Son el "core" (parte principal) de los ribosomas y posiblemente la clave del mecanismo de traducción de las proteínas. Su estudio comparativo llevó a postulación de un Árbol Filogenético Universal.  

Eubacterias (del griego eu = bueno, verdadero; bakterion = bastón): subgrupo del reino Monera que incluye a las bacterias verdaderas como Escherichia coli

Eucariotas (del griego eu = bueno, verdadero; karyon = núcleo, nuez): organismos caracterizados por poseer células con un núcleo verdadero rodeado por membrana. El registro arqueológico muestra su presencia en rocas de aproximadamente 1.200 a 1500 millones de años de antigüedad.

Filogenía (del griego phylon = raza, tribu):

1) el estudio de relaciones evolutivas en un grupo.

 2) hipótesis evolutiva representada en un diagrama como un "árbol evolutivo".

3) estudio de la formación y la evolución de los organismos, con el objeto de establecer su parentesco.

Genes (del griego genos = nacimiento, raza; del latín genus = raza, origen): segmentos específicos de ADN que controlan las estructuras y funciones celulares; la unidad funcional de la herencia. Secuencia de bases de ADN que usualmente codifican para una secuencia polipeptídica de aminoácidos.

LUCA (del ingles, Last Universal Cellular Ancestor): antepasado común de las células modernas equivale a lo que es Lucy en el árbol evolutivo de Homo sapiens, es decir, no la primera célula sino una célula ya evolucionada, con todas las características de sus futuros descendientes: los actuales procariotas y eucariotas (ADN, Código genético, síntesis proteica etc.). Término propuesto en un coloquio de la Fundación Treille:   http://www-archbac.u-psud.fr/Meetings/LesTreilles

Transferencia horizontal de genes: mecanismo por el cual se transmiten genes individuales, o grupos de ellos, de una especie a otra.

Secuencia conservada: Secuencia de base en una molécula de ADN (o de aminoácidos en una proteína) que ha permanecido prácticamente intacta a lo largo de la evolución.

Evolución paralela o convergente es la evolución de un carácter en dos o más especies, como la aptitud para volar, puede producirse de dos formas. El carácter puede aparecer en un ancestro común a ambas especies y transmitirse por herencia; en este caso se habla de homología. Los caracteres considerados podrían asimismo evolucionar de manera independiente en cada especie. En la evolución paralela se conserva el estado ancestral de las dos especies que comparten el carácter común; en la evolución convergente se modifica el estado ancestral. Por ejemplo la capacidad de volar se ha desarrollado de manera independiente en murciélagos, aves e insectos, además de en grupos ahora extinguidos y conocidos por sus fósiles, como los reptiles llamados pterosaurios. Todos estos animales han desarrollado alas por evolución convergente.

Una extinción masiva (también llamado evento a nivel de extinción o ELE por sus siglas en inglés) es un período de tiempo en el cual desaparece un número muy grande de especies. Por el contrario, se estima que en períodos normales las especies desaparecen a un ritmo de entre dos y cinco familias biológicas de invertebrados marinos y vertebrados cada millón de años. Desde que la vida empezó en la Tierra se han detectado seis sucesos de extinción graves en el eón Fanerozoico.

1.2.              El código genético y aspectos biológicos de la evolución molecular.

La Biología Teórica actual centra su atención en la investigación de las estructuras básicas de la vida. Una de estas estructuras básicas es el sistema bioquímico que hace posible el flujo de la información genética en los organismos vivos, el código genético. La relación entre las secuencias de ADN y las proteínas correspondientes es llamada código genético [1].  En este sistema se establecen las reglas mediante las cuales toda secuencia de nucleótidos del ADN, correspondiente a un gen, es transcripta en la secuencia de codones del ARNm y seguidamente es traducida en la secuencia de aminoácidos de la proteína correspondiente. Inicialmente se pensó que el código era universal -abarcando a todas las especies vivas- pero, posteriormente, fueron encontradas variaciones nucleares y mitocondriales [2] (para una revisión ver [3]). Sin embargo, estas variaciones son limitadas y corresponden esencialmente a reasignaciones de uno o varios codones a otros aminoácidos. Luego, el código genético puede ser considerado, con justicia, universal [4].

El código genético es la piedra angular del sistema de información genética. Consecuentemente, es de esperar que toda construcción teórica que intente explicar las relaciones cuantitativas y cualitativas existentes en el sistema de información genética tome como punto de partida el código genético. Lewin también define el código genético como la correspondencia entre los tripletes de bases en el ADN (o en el ARN) y los aminoácidos en las proteínas. En el código genético encontramos que los aminoácidos, excepto el Triptófano (W) y la Metionina (M), son codificados por más de un codón, por lo cual se dice que es un código degenerado. Las reglas mediante las cuales los aminoácidos fueron asignados a los tripletes de base que forman el código genético constituyen un enigma hasta el presente.El conjunto de tripletes de bases o codones que forman el código genético es una extensión del alfabeto de cuatro "letras" encontradas en la molécula del ADN.

Tabla 1.2.1. Tabla del código genético estándar a, b.

 

Segunda base del Codón

 

 

 

U

C

A

G

 

 

Primera base del Codón

U

UUU

Phe

F

UCU

Ser

S

UAU

Tyr

Y

UGU

Cys

C

U

Tercera base del Codón

UUC

UCC

UAC

UGC

C

UUA

Leu

L

UCA

UAA

TER

 -

UGA

TER

A

UUG

UCG

UAG

UGG

Trp

W

G

C

CUU

CCU

Pro

P

CAU

His

H

CGU

Arg

R

U

CUC

CCC

CAC

CGC

C

CUA

CCA

CAA

Gln

Q

CGA

A

CUG

CCG

CAG

CGG

G

A

AUU

Ile

I

ACU

Thr

T

AAU

Asn

N

AGU

Ser

S

U

AUC

ACC

AAC

AGC

C

AUA

ACA

AAA

Lys

K

AGA

Arg

R

A

AUG

Met

M

ACG

AAG

AGG

G

G

GUU

Val

V

GCU

Ala

A

GAU

Asp

D

GGU

Gly

G

U

GUC

GCC

GAC

GGC

C

GUA

GCA

GAA

Glu

E

GGA

A

GUG

GCG

GAG

GGG

G

 

 

U

C

A

G

 

 

a Los aminoácidos codificados por cada codón se representan con el símbolo de tres letras y el símbolo de una letra.

b El codón AUG es utilizado con mayor frecuencia como codón de inicio de la transcripción y codifica para el aminoácido Metionina (Met). Los codones UAA, UAG y UGA (TER) son marcadores del final de los genes.

Estas "letras" son las bases nitrogenadas del ADN: adenina, guanina, citosina y timina, las cuales son denotadas usualmente como A, G, C y T respectivamente (en la molécula del ARN la base T es cambiada por el uracilo, U). En la doble hélice formada por el ADN, la base G es complementaria de la base C y la base A es complementaria de la base T. Estas bases están apareadas en la doble hélice de acuerdo con la siguiente regla: GºC, AºT, donde "-" simboliza un puente de hidrógeno.

El código genético estándar (Tabla 1.2.1) puede ser considerado, con toda justicia, universal [4],  pues solo existen algunas variaciones en mitocondrias, bacterias y algunos eucariotes unicelulares  (para una revisión ver [3]). Sin embargo, estas variaciones son limitadas y corresponden esencialmente a reasignaciones de uno o varios codones a otros aminoácidos. Los códigos genéticos conocidos han sido usualmente representados en tablas de cuatro entradas donde los codones están localizados atendiendo a la segunda base. Estas tablas pueden encontrarse en la página web (del NCBI): http://130.14.29.110/Taxonomy/Utils/wprintgc.cgi?mode=c.

En la tabla del código genético estándar tres entradas corresponden a los cambios de bases en los codones, realizados de acuerdo a diferentes criterios. Como resultado, los aminoácidos hidrofóbicos e hidrofílicos quedan localizados en diferentes columnas. De la observación del código genético se destaca que la degeneración del código implica solamente  a la tercera posición del codón en la mayoría de los casos (son excepciones la Arginina (R), la Leucina (L) y la Serina (S) (Tabla 1.2.1). De esta forma resulta que las dos primeras bases de cada codón son las determinantes principales de su especificidad. La posición tercera, esto es, el nucleótido situado en el extremo 3" del codón tiene menor importancia y no encaja con tanta precisión, está suelto y tiende a "vacilar" según expresiones de F. H. C. Crick [2]. De manera que en la tabla del código estándar localizamos una partición natural en cuatro grupos de aminoácidos atendiendo a la base encontrada en la segunda posición: los aminoácidos cuyos codones poseen en la segunda posición la base U, los que poseen A, los que poseen G y los que poseen C (Tabla 1.2.1). Esta partición resalta una diferencia en las propiedades fisicoquímicas de los aminoácidos; por ejemplo, los aminoácidos que tienen U en la segunda posición de sus codones son hidrofóbicos: {I, L, M, F}[1], mientras que los aminoácidos que tienen A en la segunda posición son hidrofílicos (también conocidos como aminoácidos polares): {D, E, H, N, K, Q, Y} [2]. Tales observaciones llevaron a Epstein señalar que los aminoácidos afines deben tener alguna relación extendida entre sus codones [5, 6]. Las regularidades observadas en el código genético -ampliamente discutidas en [2]- sugirieron desde su descubrimiento que la asignación de los aminoácidos a los codones no debió ocurrir al azar [2, 7]. La tendencia a representar aminoácidos similares por codones similares minimiza los efectos de las mutaciones. Este hecho incrementa la probabilidad de que un simple cambio de base no  resulte en la sustitución de un aminoácido por otro o, al menos, involucre aminoácidos con propiedades fisicoquímicas similares [2].

Por otra parte algunos autores han planteado que el código genético está optimizado y fijado [7, 8]; aunque autores, como Woese y Gillis y colaboradores, han sugerido que el código genético pudo ser optimizado para limitar los errores en los procesos de transcripción y de traducción [4, 9]. En realidad, parece que el código genético ha evolucionado en la dirección de minimizar las consecuencias de los errores producidos durante la transcripción y la traducción [10]. Un código genético óptimo se refiere a una asignación óptima de los aminoácidos a los codones de manera tal que los efectos negativos causados por los eventos mutacionales durante el proceso de evolución molecular sean minimizados [23,24].

La importancia de la posición de las bases es sugerida por las frecuencias de errores encontradas en los codones. En otras palabras, los errores −mutaciones fijadas en la población de genes− en la tercera base del codón son más frecuentes que en la primera y estos a su vez son más frecuentes que los errores en la segunda base [9, 11-13]. Estas posiciones son, sin embargo, más conservativas con respecto a los cambios en la polaridad de los aminoácidos codificados [14]. Como consecuencia, los efectos de las mutaciones están reducidos en los genes y las mutaciones fijadas en la población decrecen desde la tercera base a la segunda.

En los diferentes organismos (especies) existen diferencias en cuanto al uso que se hace de cada codón [15]. Se ha determinado que existe un uso preferencial de algunos codones sinónimos sobre otros, de manera que algunos codones son más frecuentemente usados que otros (ver por ejemplo. http://www.kazusa.or.jp/codon) y cada especie tiene sus codones "preferidos" o codones más frecuentemente usados. Esto significa que muestran un sesgo en el uso de los codones sinónimos. El uso de los codones no es al azar y puede estar asociado a varios factores tales como el nivel de expresión genética [16], la longitud del gen [17] y la estructura secundaria de las proteínas [17- 21]. Y aún más, para la mayoría de los aminoácidos en todas las especies vivas existe una asociación altamente significativa con la función del gen correspondiente, indicando que, en general, el uso de codones al nivel de aminoácidos individuales está estrechamente coordinado con la función del gen [22]. Esto nos sugiere que para los codones existen diferencias cuantitativas en valores que son expresados en las secuencias de codones de los genes. Estas diferencias cuantitativas precisamente nos posibilitan una descripción formal, mediante modelos matemáticos, de las relaciones existentes entre los codones y entre los genes.

1.3.       Herramientas estadísticas y bioinformáticas

El cálculo de probabilidades suministra las reglas apropiadas para cuantificar la incertidumbre y constituye la base para la estadística inductiva o inferencial. Las medidas no paramétricas de divergencia entre distribuciones de probabilidad se definen como expresiones funcionales, que miden el grado de discrepancia entre dos distribuciones cualesquiera, no necesariamente pertenecientes a una misma familia paramétrica. Después de los trabajos pioneros de Pearson (prueba ji-cuadrado) y Hellinger (la famosa distancia de Hellinger, publicada en 1909), medida de distancia definida sobre el espacio de las distribuciones de probabilidad, otros autores han estudiado divergencias (Shannon, Kullbach y Leibler, Renyi, etc). La divergencia aplicada a distribuciones de probabilidad serían introducidas por Csiszar (1963, 1967, 1972, 1975), estudiadas en diferentes versiones por Matusita (1955, 1964), Havrda y Charvat (1967), Vajda (1972) y generalizadas por Burbea y Rao (1982). Las divergencias tienen aplicaciones en inferencia estadística y en procesos estocásticos.

Para desarrollar nuestra investigación como herramientas estadísticas se usaron del SPSS el análisis CHAID  y el Discriminante, para evaluar el desempeño de estos clasificadores se realizaron las curvas ROC y se calcularon los parámetros a partir de la matriz de confusión. Como herramienta Bioinformática se uso el MEGA4.  A continuación describimos algunos aspectos técnicos de estas herrmientas.

1.3.1.        CHAID, Chi-squared Automatic Interaction Detector

El método detector de interacciones basado en chi-cuadrado (CHAID) surge como una técnica de segmentación [33]. Su propósito es segmentar o dividir una población en dos o más grupos en las categorías del mejor predictor de una variable dependiente. El algoritmo se basa en la prueba chi-cuadrado para seleccionar la mejor división en cada paso, la división se realiza hasta que no haya más variables predictoras significativas o hasta que se satisfaga algún otro criterio de parada, relacionado por ejemplo con el número mínimo de casos en un nodo para analizar su divisibilidad.

En un estudio real existen frecuentemente múltiples variables (predictivas o independientes) que pueden tener asociación con una variable dependiente y además efectos de interacción entre ellas sobre dicha variable dependiente. La presentación de muchas tablas de contingencia, no siempre refleja las asociaciones esenciales, y usualmente se convierte en un listado inútil de tablas que desinforman en lugar de orientar, aun cuando se utilicen estadísticos (como la V de Cramer) para ordenar la fortaleza de las asociaciones. Un estudio multivariado trata de enfocar el efecto posible de todas las variables conjuntamente incluyendo sus posibles correlaciones; pero puede ser particularmente interesante, si considera además la posibilidad de la interacción entre las variables predictivas sobre la variable dependiente. Cuando el número de variables crece, el conjunto de las posibles interacciones crece en demasía, resulta prácticamente imposible analizarlas todas y por ello adquiere especial interés una técnica de detección automática de interacciones fundamentales. CHAID es exactamente eso, es útil en todos aquellos problemas en que se quiera subdividir una población a partir de una variable dependiente, y posibles variables predictivas que cambien los valores de la variable dependiente en cada una de las subpoblaciones o segmentos. La técnica de CHAID es capaz de segmentar la población en grupos de acuerdo con determinados valores de las variables y sus interacciones que distinguen de forma óptima, diferencias esenciales en el comportamiento de la variable dependiente (CHAID 1994).

Un análisis de CHAID automático comienza dividiendo la población total en dos o más subgrupos distintos basado en las categorías del mejor predictor de la variable dependiente (en principio por el estadígrafo chi-cuadrado de Pearson) [27]. Divide cada uno de estos subgrupos en pequeños sub-subgrupos y así sucesivamente. CHAID visualiza los resultados de la segmentación en forma de un diagrama tipo árbol cuyas ramas (nodos) corresponden a los grupos (subgrupos conformados en cada nivel). Entiéndase en este caso que está seleccionando sucesivamente las variables más significativamente asociadas con la clase y las variables que deben ser fuentes de estratificaciones sucesivas.

1.3.2.           Analisis Discriminante.

Las técnicas de comparación Multivariada que se basan en particular en la construcción de una función de clasificación -conocida como análisis discriminante – han sido desarrolladas recientemente comparadas con otras técnicas. Las primeras ideas surgen en la cuarta década del siglo XX, relacionadas precisamente con investigaciones biológicas y antropométricas, y desarrolladas fundamentalmente por Mahalonobis (1930) y Fischer (1936).

Son las técnicas de comparación Multivariada más ricas porque permiten la distinción general de los grupos, la determinación del orden de importancia de las variables discriminantes o distintivas y la precisión de una variable aleatoria discreta (Grupo) respecto a m variables en principio continuas o al menos ordinales:

Para determinar el orden de importancia de las variables  en la clasificación, se puede utilizar el coeficiente de correlación de estas variables con la función discriminante y tener una medida de las posibilidades de error.

La interpretación de la no presencia de una variable en la ecuación no puede ser interpretada como la independencia del proceso de clasificación respecto a esta variable pues de hecho en la ecuación puede haber otras variables que se correlacionan fuertemente con ésta. En definitiva la importancia absoluta de una variable la sigue brindando la significación del coeficiente de correlación de esa variable con la función, esté o no ella en la ecuación. Usualmente se exige que el por ciento de casos bien clasificados del total de la muestra no sea inferior a un 75% para que el criterio de clasificación sea considerado bastante bueno; pero este porcentaje "mínimo" puede variar sobre todo en el sentido de ser más exigente, en dependencia de los requisitos y características de la investigación.

La lambda de Wilks es otro estadístico que permite evaluar la hipótesis de que dos o más grupos provienen de poblaciones con las mismas medias para un conjunto de variables. El valor de esta lambda siempre está entre 0 y 1. Grandes valores de lambda indican que los grupos no parecen ser diferentes (en el caso de lambda igual a 1  los grupos fueran el mismo). Valores de lambda pequeños indican diferencias entre las medias de grupos. Precisamente por esto en cada paso del análisis discriminante se introduce la variable que más contribuye a la reducción de lambda entre los grupos. El estadístico lambda a veces se refiere en la literatura como estadístico U del análisis multivariado y se considera uno de los mejores criterios de comparación Multivariada y poco sensible a hipótesis de normalidad.

Existen varios métodos de análisis discriminante que pueden conducir a diferentes funciones de clasificación. En general estos métodos parten de hipótesis de normalidad conjunta de la variable vectorial  entre los grupos; pero en última instancia y sobre todo, en la normalidad de la variable que define la función discriminante:

Esto permite que podamos utilizar variables  que no tienen necesariamente una distribución normal conjunta, de hecho podemos utilizar incluso variables ordinales siempre y cuando la función discriminante resultante cumpla las condiciones de normalidad. Si se desea utilizar una variable nominal con k valores posibles, es conveniente sustituirla por k – 1 variables con valores (-1, 0, 1) como se hace en la regresión lineal múltiple.

La validez del análisis discriminante es menos sensible a la violación de la hipótesis de homogeneidad de covarianza si los volúmenes de las muestras son iguales. Se recomienda por ello utilizar diseños equilibrados.

1.3.3.  El desempeño de los clasificadores usados. Matrices de confusión y las curvas ROC (Curva característica de operación del receptor)

El desempeño de un clasificador y sus diferentes alternativas de uso son validadas siguiendo los criterios clásicos de evaluación, en el trabajo se usan los parámetros de las matrices de confusión y las curvas ROC.

Las matrices de confusión contienen información acerca de los valores reales y las clasificaciones predichas hechas por cualquier sistema de clasificación. El desempeño de un sistema es usualmente evaluado usando los datos en dicha matriz.

 

Clase verdadera

Pos

Neg

Clase Predicha

pos

TP

FP

neg

FN

TN

Total columna

P

N

Figura1.3.3.1. Matriz de confusión.

En la Figura1.3.3.1 se muestra la matriz de confusión de un problema para dos clases, donde Pos/pos es la clase positiva y Neg/neg  la clase negativa; TP y TN son los elementos bien clasificados de la clase positiva y negativa respectivamente. FP y FN son los elementos negativos y positivos mal clasificados respectivamente.

Han sido definidos varios términos estándar para medir el desempeño de un clasificador [26], de uso general en cualquier rama donde se apliquen sistemas de clasificación:

La Exactitud (Ac, del inglés Accuracy) es la proporción del número total de predicciones que fueron correctas:

La Razón de Verdaderos Positivos (TP, del inglés True Positive Rate), es la proporción de casos positivos que fueron correctamente identificados:

 

La Razón de Verdaderos Negativos (TN, del inglés True Negative Rate) es la proporción de casos negativos que han sido correctamente clasificados:

 

Finalmente, la Precisión (P, en inglés, también Precisión) es la proporción de casos predichos positivos que fueron correctos:

 

La Razón de Falsos Negativos (FN, del inglés False Negative Rate es la proporción de casos positivos que fueron incorrectamente clasificados como negativos:

La Razón de Falsos Positivos (FP, del inglés False Positive Rate) es la proporción de casos negativos que han sido incorrectamente clasificados como positivos:

 

Cuando el problema de clasificación abarca más de 2 clases, digamos tres clases, hay una TP rate para cada clase.

Otra forma de evaluar el rendimiento de un clasificador es por las curvas ROC (Receiver Operator Characteristic, Curva característica de operación del receptor) (Fawcett 2004) [25]. En esta curva se representa el valor de razón de TP vs la razón de FP, mediante la variación del umbral de decisión. Se denomina umbral de decisión a aquel que decide si una instancia x, a partir del vector de salida del clasificador, pertenece o no a cada una de las clases. Usualmente, en el caso de dos clases se toma como umbral por defecto 0.5; pero esto no es siempre lo más conveniente. Se usa el área bajo esta curva, denominada AUC (Área Under the Curve, área bajo la curva ROC) como un indicador de la calidad del clasificador. En tanto dicha área esté más cercana a 1, el comportamiento del clasificador está más cercano al clasificador perfecto (aquel que lograría 100% de TP con un 0% de FP).

Una curva ROC es un gráfico con la Razón de Falsos Positivos (FP=1-Sp) en el eje X y la Razón de Verdaderos Positivos (TPrate) en el eje Y. Las curvas quedan en el cuadrado [0,1] x [0,1]. El vértice superior izquierdo de este cuadrado: (0,1) representa al clasificador perfecto porque clasifica todos los casos positivos y todos los casos negativos correctamente pues FPrate=0 y TPrate=1. El vértice inferior izquierdo (0,0) representa un clasificador que predice todos los casos como negativos, mientras que el vértice superior derecho (1,1) corresponde a un clasificador que predice todos los casos como positivos. El punto (1,0) es un clasificador pésimo o estúpido que resulta incorrecto en todas las clasificaciones.

Una curva (o un punto) ROC es independiente de la distribución de las clases o el costo de los errores, es decir, no depende de que en la base de aprendizaje haya más casos negativos que positivos o viceversa.

Una curva ROC resume toda la información contenida en la matriz de confusión ya que FNrate es el complemento de TPrate y TNrate es el complemento de FPrate. Las curvas ROC constituyen una herramienta visual para examinar el equilibrio entre la habilidad de un clasificador para identificar correctamente los casos positivos y el número de casos negativos que están incorrectamente clasificados.

El área bajo la curva ROC puede ser usada como una medida de la exactitud en muchas aplicaciones. Si se comparan dos clasificadores, a través de sendas curvas ROC podemos decidir en general que la de mayor área bajo ella identifica al mejor clasificador.

Cuando el problema de clasificación abarca más de 2 clases, digamos tres clases, habrá que hacer una curva ROC para cada clase y se tendrá un área bajo cada una de las curvas.

1.3.4.  MEGA: "Molecular Evolutionary Genetics Analysis"

MEGA es un instrumento integrado para conducir la alineación de secuencia automática y manual, deduciendo filogenéticamente árboles, extrayendo de bases de datos de web, estimando las tarifas de evolución molecular y probando hipótesis evolutivas [32].

Las relaciones filogenéticas de genes u organismos normalmente se presentan en árboles formados con una raíz que se llama un árbol arraigado. También es posible dibujar un árbol sin una raíz. El modelo de la bifurcación del árbol se llama una topología.

Hay numerosos métodos para construir los árboles filogenéticos de datos moleculares (Nei y Kumar 2000). Ellos pueden ser clasificados en los métodos de Distancia, métodos de parsimonia y métodos de Probabilidad.

UPGMA es un método que asume que la proporción de nucleotide o substitución del aminoácido es el mismo para todos los linajes evolutivos. Un aspecto interesante de este método es que él produce un árbol que imita un árbol de la especie. El MEGA4 brinda la posibildad al usuario de  introducir su propia matriz de distancia para construir los árboles filogenéticos. Esta posibilidad fue aprovechada en nuestro trabajo.

CONSTRUCCIÓN DE LAS BASES DE DATOS Y PREPARACIÓN DE LAS MISMAS

La comparación de la sucesión del genoma humana con sucesiones encontradas en otras especies de organismos vivos es revelador  del proceso de evolución,  en nuestro trabajo se construyen dos bases de datos con 9 grupos de organismos(archaea, bacterias, invertebrados, insectos, plantas, vertebrados que no son mamíferos, mamíferos que no son primates, primates y homo sapiens), ellas se componen una de cadenas de aminoácidos ver Anexo2 y otra de la frecuencia del uso de codones ver Anexo 3, ambas extraídas de Internet, la primera de Direct public access to the National Library of Medicine's Medline Biomedical literature search engine through the NCBI.  www.ncbi.nlm.nih.gov/entrez

(PubMed) y la segunda de Codon Usage Database. Los grandes bancos de datos existentes en el mundo, dentro de los que se encuentran los usados por nosotros, se caracterizan por reunir las proteínas con gran variedad, dentro de las que se encuentran aquellas que podrían falsear nuestra información por su carácter de proteína conservadas dentro del proceso evolutivo de las especies, por lo que se realizó un minucioso trabajo de selección de las proteínas representativas en cada especie en cuestión. Además de contar con una representatividad de organismos y de proteínas en cada grupo, consideramos necesario explicar que los resultados obtenidos en la investigación muestran en determinados momentos aquellos datos presentes en la literatura, [1] como ejemplo en la Figura 2.1, donde se analizan los genes según su distribución en la naturaleza. Empezando con los más representativos, 21% de genes son comunes a eucariotas y procariotas. éstos tienden a codificar para proteínas que son esenciales para todos los organismos vivientes – el metabolismo típicamente básico, repetición, trascripción, y traducción.

Moviéndonos  en el sentido de las agujas del reloj, el 33% de genes se presentan generalmente en los organismos eucariotes. éstos tienden a codificar para las proteínas involucradas en funciones que son generales a las células eucariotas pero no a las bacterias – por ejemplo, ellos pueden tener relación con especificar organelas o componentes del citoesqueleto. Otro 24% de genes sin especificar los vertebrados que incluyen son necesarios  para  el multicelularismo y para el desarrollo de diferentes tipos de tejidos. Y el 22% de los genes son únicos  de  los vertebrados mamíferos.

Figura 2.1. Distribución de los genes en la naturaleza según las funciones necesarias para la vida.

éstos principalmente codifican para las proteínas de los sistemas  inmune y nervioso; ellos codifican para muy pocas enzimas, relacionado con la idea que las enzimas tienen  orígenes antiguos, y que las funciones metabólicas se originaron temprano en el proceso de  evolución. Observamos, por consiguiente, que la progresión de las bacterias a los vertebrados requiere la suma de grupos de genes que representan las nuevas funciones necesarias en cada fase.

Una manera de definir las proteínas normalmente necesitadas es identificar las proteínas presentes en todos los proteomas [1]. Comparando el proteoma humano en más detalle con los  proteomas de  otros organismos, 46% del proteoma de levadura, 43% del proteoma del gusano, y 61% del proteoma de la mosca están presentes en el proteoma humano. Un grupo importante de  aproximadamente 1300 de las proteínas están presentes en los cuatro proteomas. Las proteínas comunes son básicas, aquellas requeridas para las funciones esenciales lo cual queda resumido en Figura 2.2. Las funciones principales se representan por la trascripción y  la traducción (35%), metabolismo (22%), transporte (12%), repetición de ADN y  la modificación (10%), proteína de plegado y degradación (8%), y el resto representan otros procesos celulares.

Figura 2.2 Distribución de los genes según los procesos celulares que realizan.

Uno de los rasgos llamativos del proteoma humano es que tiene muchas nuevas proteínas  comparándolo con otros organismos eucariotes, pero tiene relativamente pocos nuevos dominios de la proteína. La mayoría de los dominios de las proteínas parecen ser comunes al reino animal. Hay sin embargo, muchas nuevas arquitecturas de la proteína, definidas como las nuevas combinaciones de dominios. 

Además de los genes funcionales, hay también copias de genes que se han convertido en genes no funcionales (identificados como tal por las interrupciones en las sucesiones de proteína codificadas). éstos se llaman  pseudos genes (vea  Molecular Biology 1.4.6 Pseudogenes are dead ends of evolution). El número de pseudos genes puede ser grande. En el ratón y en el genoma humano, el número de pseudo genes es aproximadamente el 10% del número de genes potencialmente activos.

Teniendo en cuenta las  razones expuestas anteriormente, la selección de las bases de datos fue primordial para el logro de nuestros objetivos.

1.4.              Construcción de las bases de datos.

La base de datos de proteínas para el entrenamiento esta formada por los nueve grupos nombrados anteriormente cada uno con aproximadamente 1000 cadenas y una variedad en cuanto a organismos y tipos de proteínas ver Tabla 2.1.1, esta base es nombrada en el trabajo como base curada por la selección minuciosa tanto de los organismos como de los tipos de proteínas que la forman. Luego se confeccionó una base de datos para validar resultados, esta la nombramos base no curada  la que esta formada por los mismos nueve taxa nombrados, pero con alrededor de 500 cadenas de aminoácidos y sin hacer ningún tipo de selección en lo que se refiere a proteínas que la forman. Para los análisis realizados en las taxa: archaea-bacteria, archaea-bacteria-eucariotes, vertebrados-invertebrados, vertebrados no mamiferos-mamiferos y homo sapiens-primates, se uso el 70% de la base que llamamos extendida que está constituida por la unión de la base curada más la no curada. Además en el caso de la taxa archaea-bacteria-eucariotes se uso la base extendida aumentada en número de cadenas pero sin tener en cuenta ningún tipo de selección de las proteínas ni de los organismos que la forman. En el caso de las taxa vertebrados-invertebrados y vertebrados no mamiferos-mamiferos se reorganizaron todos aquellos organismos que pertenecen a estos grupos aumentando asi el número de secuencias.

Tabla 2.1.1. Bases de datos.

Proteinas

 

 

 

 

 

 

Uso de Codones

 

Base curada

Base no curada

Base extendida

Base curada

Grupos de org.

No. de Sec.

 50 subgrp.

No. de Sec.

 20 subgrp.

Subgrps/No. de Sec.

No. de Sec.

No. de Sec.

 50 subgrp.

Archaea

1566

31

736

36

200/139

27844

1317

26

Bacterias

1334

26

449

22

200/28

5667

830

26

Eucariotes

 

 

 

 

200/124

24927

 

 

Invertebrados

1221

24

768

38

100/37

3742

2187

43

Insectos

1010

20

743

37

 

 

979

19

Plantas

1762

35

488

24

 

 

2114

42

Vertebrados

 

 

 

 

100/93

9387

 

 

Vertebrados no Mamiferos

1498

29

440

21

100/19

1938

1465

29

Mamiferos

 

 

 

 

100/74

7450

 

 

Mamiferos no Primates

1593

31

519

25

 

 

2036

40

Primates

1473

29

394

19

70/26

1867

1831

36

Homo Sapiens

897

28

1162

55

70/20

2059

1821

36

En la base de datos referida al uso de codones contamos al igual que la anterior con el mismo número de taxa cada una con alrededor de 1000 cadenas y la variedad en cuanto a tipo proteínas y especies que la forman, ver Tabla 2.1.1. Los análisis se realizaron solo con la base curada, no se formaron bases externas pues ello hubiera requerido mayor tiempo y otros objetivos no trazados en este trabajo.

1.5.              Cálculo de los vectores NECk a partir de las bases de secuencias.

Los sistemas vivos, jerarquizados son altamente complejos ya desde el inicio de la vida misma [35]. Una bacteria tiene un sistema génico complejísimo muy similar al de cualquier Metazoo [28]. Las formas más elementales de estos comparten con los Metazoos más evolucionados, como los mamíferos, idénticas porciones de sus genomas. Estos hechos conducen directamente al planteamiento del problema que da lugar al trabajo de tesis, el cual acarrea definir el concepto de "número estimado de codones" (NEC). El concepto de NEC es derivado de la degeneración del código genético estándar (CGS) y de la existencia de un uso diferenciado de codones para cada especie (ver sección 1.1). Si se supone que el proceso de síntesis de proteínas ha sido optimizado y adaptado a las variaciones ambientales durante el proceso de evolución molecular que dio lugar a la especiación entonces, se debe esperar que, mientras mayor sea la frecuencia observada de un aminoácido faa en los genomas de los organismos vivos, mayor será, en general, su representación en la tabla del CGS. El NECk que codifican para el aminoácido k puede definirse como:

                                                       (2.2.1)

donde k = 1,…, 20 y el número 61 hace referencia al número total de codones en la tabla del CGS que codifican para los aminoácidos. Como se muestra en la Tabla 2.2.1 existe una correlación positiva entre el NEC y las frecuencias faa en las proteínas y los genomas de Archaeas, Bacterias y Eucariotes. Sin embargo, las frecuencias faa deben de estar afectadas por el uso de codones (ver sección 1.1), de manera que, como se aprecia en la Tabla 2.2.1, para cada aminoácido el NEC difiere en alguna medida del número de codones que codifican para dicho aminoácido en la tabla del CGS (ver Tabla 1.2.1 y Tabla 2.2.1).

Tabla 2.2.1. Correlación entre el NEC y las frecuencias faa en las proteínas y los genomas de Archaeas, Bacterias y Eucariotes.a

Aminoácido

No. Codonesb

Archaeas %

Bacterias %

Eucariotes %

Todos

Frec. Aa c

Ala

4

4.789

4.929

3.953

4.758

4.697

Arg

6

3.611

3.044

3.196

3.190

3.111

Asp

2

3.337

3.087

3.239

3.166

3.172

Asn

2

2.074

2.824

2.904

2.666

2.623

Cys

2

0.543

0.610

1.135

0.671

1.220

Glu

2

4.752

3.874

4.050

4.099

3.782

Gln

2

1.159

2.373

2.611

2.105

2.501

Gly

4

4.569

4.087

3.587

4.130

4.514

His

2

1.037

1.263

1.470

1.238

1.403

Ile

3

4.630

4.301

3.343

4.240

3.233

Leu

6

5.887

6.417

5.704

6.192

5.551

Lys

2

3.684

3.922

3.843

3.855

3.599

Met

1

1.519

1.336

1.421

1.391

1.464

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente