Descargar

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 8)


Partes: 1, 2, 3, 4, 5, 6, 7, 8

 

 

Mamiferos

94.6

90.3

90.9

92.5

94.6

Validación externa

Vert No Mamif

96.4

96.2

96.4

96.3

96.4

 

 

Mamiferos

96.2

96.4

96.2

96.3

96.2

Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).

 

70 % base de datos extendida

 

Vert No Mamif

93.1

93.2

93.1

93.2

93.1

 

 

Mamiferos

93.2

93.1

93.2

93.2

93.2

Validación  cruzada

Vert No Mamif

88.9

90.5

90.1

89.7

88.9

 

 

Mamiferos

90.5

88.9

89.3

89.7

90.5

Validación externa

Vert No Mamif

96.4

100.0

100.0

98.1

96.4

 

 

Mamiferos

100.0

96.4

96.3

98.1

100.0

Predicciones de los miembros del Grupo con CHAID

 

 

 

 

70 % base de datos extendida

 

Vert No Mamif

91.7

93.2

93.0

92.5

91.7

 

 

Mamiferos

93.2

91.7

92.0

92.5

93.2

Validación externa

Vert No Mamif

78.6

84.6

84.6

81.5

78.6

 

 

Mamiferos

84.6

78.6

78.6

81.5

84.6

1.8.6.  Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas  en primates y homo sapiens.

Teniendo en cuenta las peculiaridades de estas dos especies por su cercania en el árbol filogenético universal, explicadas el la sección dedicada a esta misma taxa pero para el estudio de las secuencias de aminoácidos, los resultados obtenidos con la aplicación del método CHAID, son esperados desde el punto de vista biológico, pues existe una aceptada correlación entre todos los aminoácidos. Solamente tres de ellos no alcanzan valores significativos, la Serina, la Leucina y Cisteína, mientras la mayoria muestra indices de clasificación por encima de 90%, como muestra la Tabla 3.3.6.1. Cuando se realiza una validación al 70% de la base curada, Tabla 3.3.6.2, se observa que los porcientos de clasificación son inferiores a los obtenidos anteriormente, sin embargo es de esperar que con una base externa con este método usando la probabilidad en el uso de codones se diferencien bien las especies involucradas en esta taxa, lo cual contribuye a la verificación de una de nuestras hipótesis de investigación. 

Tabla 3.3.6.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Glicina

0.024266804

93

Metionina

0.016568011

94

Histidina

0.015554361

92

Valina

0.003344738

89

Glutamina

0.002464145

88

Asparagina

0.002171647

85

Alanina

0.000387709

85

Lisina

0.000319111

91

Fenilalanina

0.000218361

86

Arginina

8.5694E-05

91

Prolina

2.31555E-05

91

Isoleucina

2.87011E-06

91

Triptófano

1.68E-06

89

Tirosina

8.32568E-07

92

Ácido Aspártico

2.73194E-07

94

Ácido Glutámico

5.53884E-08

93

Treonina

1.04E-08

92

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.3.6.2. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

Figura 3.3.6.1 Arbol de Aminoácidos asociados con los resultados de una validación cruzada en la base curada con las clasificaciones taxonómica de primates y homo sapiens.

1.8.6.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

Con el análisis Discriminante realizado en esta taxa en cuanto al uso de codones se ratifica los resultados con el método CHAID, pues lo porcientos de clasificación mejoran considerablemente. Podemos observar en la Tabla 3.3.6.1.1 que las funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia, solo la Tirosina no aparece mientras que con el método Stepwise aparecen solamente el ácido Aspártico, la Treonina y la Tirosina.

En la Tabla 3.3.6.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares, indicando el buen desempeño de las funciones discriminantes.  

Con las curvas ROC se ilustra Figura 3.3.6.1.1 que el análisis Discriminante supera al CHAID, las difencias en los valores de las áreas bajo la curva Tabla 3.3.6.1.3, ratifican el hecho de que aunque las diferencias no son altamente significativas, el Intervalo de confianza asintótico para el 95% del CHAID queda completamente incluído en los intervalos de los métodos de Discriminante, mostrando su superioridad a la hora de la clasificación de estos organismos.

Al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, también nos sugieren que existen algunas diferencias entre ellos, en la Tabla 3.3.6.1.4 se muestran los valores de los parámetros mencionados.

Tabla 3.3.6.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

3.2271755

Cisteína

2.3901049

Ácido Aspártico

4.3812572

-2.830154

Ácido Glutámico

2.9292366

Fenilalanina

2.6504594

Glicina

2.0562512

Histidina

1.6416941

Isoleucina

2.9344641

Lisina

1.2136819

Leucina

2.4635822

Metionina

0.9738945

Asparagina

2.571989

Prolina

2.4680417

Glutamina

1.4374376

Arginina

2.3757739

Serina

1.889281

Treonina

-1.243473

3.2178151

Valina

0.7428819

Tirosina

2.2715964

Triptófano

1.4286537

(Constant)

-122.672

-7.493221

Tabla 3.3.6.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

2.827

100

100

0.859

1

0.261

97.297

3

0.000

Todas las variables

1

4.062

100

100

0.896

1

0.198

104.601

19

0.000

Tabla 3.3.6.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Homo Sapiens (Análisis Disc. Stepwise)

0.999

0.002

0.000

0.996

1.000

Probabilidad Homo Sapiens (Análisis CHAID)

0.932

0.027

0.000

0.879

0.984

Probabilidad Homo Sapiens (Análisis Discriminante)

0.999

0.002

0.000

0.996

1.000

Figura 3.3.6.1.1 Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.

Tabla 3.3.6.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Primates

94.9

100.0

100.0

97.4

94.9

 

 

HomoS

100.0

94.9

94.9

97.4

100.0

Validación  cruzada

Primates

87.2

100.0

100.0

93.4

87.2

 

 

HomoS

100.0

87.2

88.1

93.4

100.0

Validación externa

Primates

90.9

100.0

100.0

95.8

90.9

 

 

HomoS

100.0

90.9

92.9

95.8

100.0

Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).

70 % base de datos extendida

Primates

97.4

97.3

97.4

97.4

97.4

 

 

HomoS

97.3

97.4

97.3

97.4

97.3

Validación  cruzada

Primates

84.6

94.6

94.3

89.5

84.6

 

 

HomoS

94.6

84.6

85.4

89.5

94.6

Validación externa

Primates

100.0

100.0

100.0

100.0

100.0

 

 

HomoS

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con CHAID

 

 

 

70 % base de datos extendida

Primates

92.3

89.2

90.0

90.8

92.3

 

 

HomoS

89.2

92.3

91.7

90.8

89.2

Validación externa

Primates

63.6

84.6

77.8

75.0

63.6

 

 

HomoS

84.6

63.6

73.3

75.0

84.6

ANÁLISIS FILOGENéTICOS.

La reconstrucción de la historia evolutiva de genes y especies es actualmente uno de los asuntos más importantes en la evolución molecular. En la medida en que los análisis filogenéticos realizados sean  fiables, ellos verterán la luz en la sucesión de eventos evolutivos que han generado la diversidad de hoy día de las especies y nos ayuda a entender los mecanismos de evolución así como la historia de organismos.   

1.9.         ANÁLISIS FILOGENéTICOS EN LA BASE DE PROTEINAS.

La filogenia es la ciencia de estimar el pasado, en particular la filogenia molecular basada en comparación de secuencias de proteínas o de DNA. Un árbol filogenético es un árbol que muestra las relaciones de evolución entre varias especies u otras entidades que se cree que tuvieron una descendencia común, además se consideran una estructura matemática que se usa para modelar la historia evolutiva de un grupo de secuencias o de organismos. Usa  información proveniente de fósiles así como aquélla generada por la comparación estructural y molecular. En nuestro trababjo se comparan secuecias de organismos actuales de una base datos curados con la verificación en una base extendida descritas ambas en el Capitulo 2.

Los árboles filogenéticos se construyen tomando en cuenta la teoría de la evolución, que nos indica que todos los organismos son descendientes de un ancestro común: la protocélula ver anexo 1. Así, todos los organismos, ya sean vivos o extintos, se encuentran emparentados en algún grado.

Para la obtención de los árboles se utilizó el MEGA 4. En la sección 1.2.2 se explica lo relacionado con las posibilidades que este software brinda y las herramientas que fueron utilizadas en el trabajo con el mismo. En particular, el uso de este software nos permitió seleccionar una función de distancia apropiada entre los vectores NECk que nos permitiera obtener árboles plausibles desde el punto de vista evolutivo, los cuales no se encontraran en abierta contradicción con las observaciones y evidencias biológicas.

El uso del MEGA permitió verificar que si las bases de datos correspondientes a cada grupo taxonómico se sobrecargan con secuencias de proteínas vinculadas a procesos biológicos esenciales para todas las células vivas entonces, al construir el árbol filogenético se obtienen ramas ubicadas de forma errónea en el árbol. Un ejemplo concreto se obtiene al sobrecargar la base de invertebrados con proteínas involucradas en las cadenas de transporte de electrones, un proceso esencial para todas las células vivas. En particular, la familia de los citocromos, vinculadas con estos procesos, se caracteriza por poseer dominios estructurales en sus secuencias de aminoácidos conservadas, en la mayoría de los taxa, desde los procariotes hasta el homo sapiens. Este hecho provoca que gran parte de la información estadística reflejada en los vectores NECk sea común para mayoría de los taxa. Como consecuencia se obtiene el efecto que se observa en el árbol de la Figura 4.1.1, en el cual los invertebrados (sin incluir los insectos) se ubican en una rama próxima a los primates, cuando, desde un punto de vista evolutivo, deben ubicarse en una rama contígua al ancestro de los vertebrados. Sin embargo, los insectos (invertebrados no incluidos en el taxa que lleva este nombre) respecto a los vertebrados se ubican en una rama con mayor sentido evolutivo. La causa de este resultado se explica debido a que la base de insectos posee un mejor balance en cuanto a la variabilidad de los tipos de proteínas. Debemos mencionar que estos efectos tienen lugar debido a la naturaleza estadística de la información utilizada, pues para construir los árboles las matríces de distancias no se calculan directamente de las secuencias de proteínas alineadas, como en el análisis filogenético clásico, sino que se estiman a partir de vectores que expresan regularidades estadísticas presentes en las secuencias no alineadas.

Finalmente, la construcción de las bases de datos teniendo en cuenta las restricciones biológicas descritas en el capítulo 2, permitió construir un árbol filogenético que muestra resultados importantes desde el punto de vista evolutivo en el reino animal [34] (Figuras 4.1.2 y 4.1.3).

Comúnmente cada árbol construido se valida en alguna medida utilzando un procedimiento bootstrap. En particular, cuando se parte de secuencias de proteínas alineadas y se utilizan las funciones de distancia que tiene por defecto el MEGA4, este software tiene la opción de construir 500 árboles y llegar a un árbol consenso que alcance el 70%. Tal procedimiento no es aplicable a nuestro caso. Luego, para obtener un árbol consenso se realizaron muestreos aleatorios de las bases de datos y a partir de cada submuestra generada se calcularon las matrices de distancia ver Anexo 9. Tomando una selección aleatoria del 90% de la base se construyen las primeras 100 matrices obteniéndose un árbol consenso que representa el 72%. Al construir 100 más se obtiene un árbol consenso que representa el 80% de los doscientos posibles árboles. Lo anterior corrobora la información que brinda el árbol obtenido de nuestra base de datos, dando respuesta asi a nuestra segunda interrogante de investigación.

Este resultado, además de estar en correspondencia con el árbol filogenético evolutivamente esperado, presenta la peculiaridad que dos grupos de organismos, los vertebrados no mamiferos y los mamiferos están enraizados en el mismo nodo lo que sugiere una pérdida de información acerca de los ancestros de estos taxa, en algún momento del proceso evolutivo. La causa de esta pérdida de información pudo estar determinada por un proceso de extinción a gran escala, a partir del cual los grupos de organismos sobrevivientes, adaptados a un medio ambiente que les permitió sobrevir durante la extinción, eran portadores de caracteres genéticos comunes, los cuales pudieron ser frutos de un proceso de evolución convergente estimulado por el ecosistema en que se desarrollaron. A lo largo de la historia evolutiva de las especies hay varios ejemplos de este tipo de evolución (ver ejemplo en el sumario biológico, capítulo 1). No obstante en nuestra investigación nos dimos a la tarea de corroborar, en la literatura actualizada, primero la existencia de grupos de mamíferos desde la Era Mesozoica donde dominaban los vertebrados no mamíferos y segundo aquellos procesos de extinción que involucraron a estos organismos y lo que los caracterizó pudiendo referenciar criterios científicos como:

  • El carácter fundamental de la Era Mesozoica, en cuanto a lo que a Vertebrados se refiere, es el desarrollo inusitado que durante esta época tuvieron los reptiles, adaptándose a diversos medios ecológicos tanto continentales (estegosauros, tyrannosaurus, triceratops), como marinos (plesiosaurios, ictiyosaurios, mosasaurios), y aéreos (pterosaurios), donde llegaron a desarrollar grandes dimensiones. Se inicia entonces el desarrollo de todo el conjunto de reptiles que llegan hasta la actualidad (cocodrilos, quelonios, saurios, ofidios), así como el grupo de los terápsidos, que son los precursores de los mamíferos. La mayoría de estos grupos aparecen entre el Pérmico y el Triásico, que son los periodos de máxima expansión reptiliana.
  • Los restos más antiguos de mamíferos, proceden del Triásico superior. En el Mesozoico los fósiles de mamíferos son escasos, en general, grupos especiales de organismos no placentados (marsupiales). Los primeros registros fósiles de mamíferos placentados corresponden con materiales de finales del Cretácico (en Mongolia), que corresponden a organismos de pequeña talla, tipo de los Insectívoros y con caracteres muy primitivos.
  • En las superficies continentales la mayor expansión corresponde a los mamíferos (presentes desde el Mesozoico). Los marsupiales desarrollan numerosas formas adaptativas en Australia y América del Sur, durante la ausencia de predadores carnívoros placentados, ya que la diversidad de los mamíferos placentados en general, presenta una evolución genética mucho más eficaz. En la actualidad más del 95% de los mamíferos conocidos son placentarios.

Con los argumentos anteriores se corrobora la existencia de mamíferos con características muy peculiares, por su forma de adaptación al medio, presentes en la época resplandeciente de los grandes reptiles. En particular, dos carácterísticas comunes a la mayoría de estos mamíferos es su pequeño tamaño y la presencia de adaptaciones que les permitían vivir bajo tierra en la salvaguarda de los grandes depredadores. Es bien conocido que todos los animales que se adaptan a un mismo ambiente, independientemente de la clase a la que pertenezcan desarrollan caracteres genéticos similares que les permiten sobrevivir en dicho medio ambiente. Por lo que se sugiere que antes de la ocurrencia de la gran extinción masiva pudo tener lugar la evolución convergente de muchos caracteres presentes en mamíferos y reptiles pequeños, las cuales le permitieron sobrevivir a la extinción. La evolución convergente de muchos de estos caracteres debió quedar grabada en las regularidades estadísticas encontradas en los genes y proteínas actuales derivadas de genes y proteínas de los mamiferos y reptiles ancestros que sobrevivieron al proceso de extinción. Este análisis explicaría la aparente presencia de un "ancestro común" entre vertebrados no mamíferos y mamíferos mostrada en la Figura 4.1.2A y la posible pérdida de información causada durante la extinción:

·         Hacia finales del Mesozoico ocurrió una extinción masiva en el Cretáceo terciario. Este fue el evento de extinción que acabó con los dinosaurios (entre otros). Muchos de los animales y plantas que sobrevivieron (tales como mamíferos y aves) se multiplicaron después del Cenozoico. Los mamíferos, que eran pequeños y poco abundantes durante el Mesozoico, se hicieron más diversos. Nuevas especies de mamíferos evolucionaron y fueron capaces de vivir y alimentarse en áreas usadas por los dinosaurios durante el Mesozoico, según investigadores dirigidos por Olaf Bininda-Emonds, de la universidad Jena de Friedrich-Schiller, en Alemania.

 Otra posibilidad de analizar la pérdida de información acerca de los ancestros de estos dos grupos de organismos es la exclusión de uno de ellos para ver el comportamiento del árbol. Cuando se excluye el grupo de vertebrados que no son mamíferos se obtiene un árbol en correspondencia con lo discutido aquí, luego se realiza la  prueba  de construir un determinado número de matrices de distancia con una selección  aleatoria del 90% de la base extendida aleatorizada  y con las primeras cien pruebas se obtiene un árbol consenso del 70 %. En el árbol filogenético mostrado en la Figura 4.1.2B se evidencia que debió existir un ancestro común de todos los mamíferos actuales. Esta evidencia proporciona una respuesta estadística a una de nuestras preguntas de investigación y corrobora lo sucedido en el proceso de evolución y su estrecha relación con las probabilidades de aparición de un aminoácido en una secuencia de proteínas.

Figura 4.1.1. Árbol obtenido con base de datos donde el grupo de invertebrados tenía un por ciento considerable de proteínas del tipo Cytochrome (transporte) conservadas en el proceso de evolución.

Figura 4.1.2. Árbol obtenido con base de datos curada. A: Logrando un árbol consenso del 80%, con la construcción de 200 matrices de la base de datos extendida. B: Verificando el hecho que excluyendo los vertebrados no mamíferos el comportamiento es el mismo y se obtiene un árbol consenso del 70 % con las primeras cien matrices de la base de datos extendida.

CONCLUSIONES Y RECOMENDACIONES

Conclusiones

A partir de los resultados obtenidos podemos concluir que:

  • Los análisis realizados con los vectores NECk, calculados a partir de las secuencias de proteínas y del uso de codones en los genes, nos permitieron detectar diferencias estadísticamente significativas entre los taxa estudiados en correspondencia con la clasificación taxonómica.
  • Mediante el uso de la distancia de Hellinger entre los vectores estimados de distribución de probabilidades de aparición de aminoácidos en las proteínas, fue posible detectar relaciones filogenéticas entre los taxa estudiados en concordancia con la taxonomía evolutiva.

Recomendaciones

1.     Realizar un análisis filogenético usando los vectores NECk calculados a partir de las bases uso de codones similar al realizado para los vectores NECk calculados a partir de las bases de secuencias de proteínas.

2.     Investigar la variación de las distribuciones de las frecuencias de los aminoácidos en función del tiempo evolutivo transcurrido

REFERENCIAS BIBLIOGRÁFICAS

  1. Lewin, B. Genes VIII. Pearson Prentice Hall. 2004.
  2. Crick, F.H.C. The origin of the genetic code. J. Mol. Biol. 38, 367-379, 1968.
  3. Knight RD, Freeland SJ, Landweber LF, 2001. Rewiting the keyboard: evolvability of the genetic code. Nat Rev Gente, 2:49-58.
  4. Gillis, D; Massar, S.; Cerf, N.J. y Rooman, M. (2001) Optimality of the genetic code with respect to protein stability and amino acid frequencies. Genome Biology 2, research0049.1-research0049.12, 2001.
  5. Epstein, C. J. Role of the amino-acid "code" and of selection for conformation in the evolution of proteins. Nature 210, 25-28, 1966
  6. Epstein C. Non randomnes of amino-acid changes in the evolution of homologous proteins. Nature, 215, 355-359, 1967
  7. Freeland, S. y Hurst, L. The genetic code is one in a million. J. Mol. Evol. 47, 238-248, 1998.
  8. Frappat, L., Sciarrino A. y Sorba, P. "A crystal base for the genetic code" Phys. Lett. A250,  214-221, 1998.
  9. Woese, C.R. On the evolution of the genetic code. Proc. Natl. Acad. Sci. USA 54, 1546-1552, 1965.
  10. Haig, D. y Hurst, L. D. A quantitative measure of error minimization in the genetic code. J. Mol. Evol. 33, 412-417, 1991.
  11. Friedman, S.M. y Weinstein, I.B. Lack of fidelity in the translation of   ribopolynucleotides. Proc. Natl. Acad. Sci. USA, 52, 988-996, 1964
  12. Parker J. Errors and alternatives in reading the universal genetic code. Microbiol. Rev. 53, 273-298, 1989.
  13. Yang, Z.: Adaptive molecular evolution.  In Handbook of statistical genetics, (Balding, M., Bishop, M. & Cannings, C., eds), Wiley:London, pp. 327-50, 2000.
  14. Alff-Steinberger, C. The genetic code and error transmission. Proc. Natl. Acad. Sci. USA 64, 584-591, 1969
  15. Nakamura Y, Gojobori T, y Ikemura T. Codon usage tabulated from international DNA sequence database: status for the year. Nucleic Acids Research 28, pp 292, 2000.
  16. Makrides, S.C.: Strategies for achieving high-level expression of genes in Escherichia coli. Microbiol Rev 60, 512-38, 1996.
  17. Duret, L., Mouchiroud, D.: Expression pattern and, surprisingly, gen length, shape codón usage in Caenorhabditis, Drosophila, and Arabidopsis. Proc Natl Acad Sci 96, 17-25, 1999.
  18. Gu, W., Zhou, T., Ma, J., Sun, X., Lu, Z.: The relationship between synonymous codon usage and protein structure in Escherichia coli and Homo sapiens. Biosystems 73, 89-97, 2004.
  19. Gupta, S.K., Majumdar, S., Bhattacharya, K., Ghosh, T.C.: Studies on the relationships between synonymous codon usage and protein secondary structure. Biochem Biophys Res Comm 269, 692-6, 2000.
  20. Oresic. M., Shalloway, D.: Specific correlations between relative synonymous codon usage and protein secondary structure. J Mol. Biol. 281, 31-48, 1998.
  21. Tao, X., Dafu, D.: The relationship between synonymous codon usage and protein structure. FEBS Lett 434, 93-6, 1998.
  22. Fuglsang, A.: Strong associations between gene function and codon usage. APMIS 111, 843-7, 2003.
  23. Sanchez, R.:"Estudio del orden en el Código Genético mediante la aplicación de métodos algebraico y estadístico, 2003.
  24. Sanchez, R.:"Regularidades algebraicas del código genético: aplicaciones a la evolución molecular". Tesis presentada en opción al grado científico de Doctor en Ciencias Biológicas, 2006.
  25. Fawcett, T.: ROC Graphs: Notes and Practical Considerations for Data Mining Researchers, Hewlett-Packard Company, 2003.
  26. Weiss, G. M., and Provost, F.: Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction, JAIR 19, 315-354, 2003.
  27. University of Waterloo, Department of Statistics and Actuarial Science, SPSS Instruction Manual, September 1, 1998
  28. Swanson, R. A unifying concept for the amino acid code. Bull. Math. Biol. 46, 187-203, 1984.
  29. Gillis, D; Massar, S.; Cerf, N.J. y Rooman, M. (2001) Optimality of the genetic code with respect to protein stability and amino acid frequencies. Genome Biology 2, research0049.1-research0049.12, 2001.
  30. Taylor, J.D.T. y Thornton, J.M. Recompilation of the mutation matrices. CABIOS 8, 275-282, 1991.
  31. Kira S. Makarova, Yuri I. Wolf, Sergey L. Mekhedov, Boris G. Mirkin1 and Eugene V. Koonin. Ancestral paralogs and pseudoparalogs and their role in the emergence of the eukaryotic cell. 4626-4638 Nucleic Acids Research, 2005, Vol. 33, No. 14
  32. Koichiro Tamura, Joel Dudley, Masatoshi Nei, Sudhir Kumar. Center of Evolutionary Functional Genomics, Biodesign Institute, Arizona State University. MEGA Molecular Evolutionary Genetics Analysis. VERSION 4, 1993 – 2008.
  33. CHAID, W. (1994). "CHAID para SPSS sobre Windows. Técnicas de segmentación basadas en razones de verosimilitud Chi-cuadrado." User Manual. SPSS Inc.
  34. PhD Mohammad Badii1, Dr. Jerónimo Landeros2, Dr. Victoriano Garza3. Historia evolutiva de la vida, CULCyT//Enero -Febrero, 2008, Año 5, No 24
  35. Ana Aber, Coordinadora, Alfredo Langguth, Editor, BIODIVERSIDAD Y TAXONOMÍA PRESENTE Y FUTURO. Resultados del Taller realizado en la Facultad de Ciencias, Universidad de la República. 14 – 18 de junio de 2004

ANEXOS

Anexos 1. Árbol Filogenético Universal.

Anexo 2. Fragmento de base de datos de cadenas de proteínas.

>gi|127069|sp|P16455|MGMT_HUMAN Methylated-DNA–protein-cysteine methyltransferase (6-O-methylguanine-DNA methyltransferase) (MGMT) (O-6-methylguanine-DNA-alkyltransferase)

MDKDCEMKRTTLDSPLGKLELSGCEQGLHEIKLLGKGTSAADAVEVPAPAAVLGGPEPLMQCTAWLNAYF

HQPEAIEEFPVPALHHPVFQQESFTRQVLWKLLKVVKFGEVISYQQLAALAGNPKAARAVGGAMRGNPVP

ILIPCHRVVCSSGAVGNYSGGLAVKEWLLAHEGHRLGKPGLGGSSGLAGAWLKGAGATSGSPPAGRN

>gi|74720969|sp|Q9UJV8|PURG_HUMAN Purine-rich element-binding protein gamma

MERARRRGGGGGRGRGGKNVGGSGLSKSRLYPQAQHSHYPHYAASATPNQAGGAAEIQELASKRVDIQKK

RFYLDVKQSSRGRFLKIAEVWIGRGRQDNIRKSKLTLSLSVAAELKDCLGDFIEHYAHLGLKGHRQEHGH

SKEQGSRRRQKHSAPSPPVSVGSEEHPHSVLKTDYIERDNRKYYLDLKENQRGRFLRIRQTMMRGTGMIG

YFGHSLGQEQTIVLPAQGMIEFRDALVQLIEDYGEGDIEERRGGDDDPLELPEGTSFRVDNKRFYFDVGS

NKYGIFLKVSEVRPPYRNTITVPFKAWTRFGENFIKYEEEMRKICNSHKEKRMDGRKASGEEQECLD

>gi|1346918|sp|Q00577|PURA_HUMAN Transcriptional activator protein Pur-alpha (Purine-rich single-stranded DNA-binding protein alpha)

MADRDSGSEQGGAALGSGGSLGHPGSGSGSGGGGGGGGGGGGSGGGGGGAPGGLQHETQELASKRVDIQN

KRFYLDVKQNAKGRFLKIAEVGAGGNKSRLTLSMSVAVEFRDYLGDFIEHYAQLGPSQPPDLAQAQDEPR

RALKSEFLVRENRKYYMDLKENQRGRFLRIRQTVNRGPGLGSTQGQTIALPAQGLIEFRDALAKLIDDYG

VEEEPAELPEGTSLTVDNKRFFFDVGSNKYGVFMRVSEVKPTYRNSITVPYKVWAKFGHTFCKYSEEMKK

IQEKQREKRAACEQLHQQQQQQQEETAAATLLLQGEEEGEED

>gi|13629600|sp|Q9Y2U8|MAN1_HUMAN Inner nuclear membrane protein Man1 (LEM domain-containing protein 3)mamifero

MAAAAASAPQQLSDEELFSQLRRYGLSPGPVTESTRPVYLKKLKKLREEEQQQHRSGGRGNKTRNSNNNN

TAAATVAAAGPAAAAAAGMGVRPVSGDLSYLRTPGGLCRISASGPESLLGGPGGASAAPAAGSKVLLGFS

SDESDVEASPRDQAGGGGRKDRASLQYRGLKAPPAPLAASEVTNSNSAERRKPHSWWGARRPAGPELQTP

PGKDGAVEDEEGEGEDGEERDPETEEPLWASRTVNGSRLVPYSCRENYSDSEEEDDDDVASSRQVLKDDS

LSRHRPRRTHSKPLPPLTAKSAGGRLETSVQGGGGLAMNDRAAAAGSLDRSRNLEEAAAAEQGGGCDQVD

SSPVPRYRVNAKKLTPLLPPPLTDMDSTLDSSTGSLLKTNNHIGGGAFSVDSPRIYSNSLPPSAAVAASS

SLRINHANHTGSNHTYLKNTYNKPKLSEPEEELLQQFKREEVSPTGSFSAHYLSMFLLTAACLFFLILGL

TYLGMRGTGVSEDGELSIENPFGETFGKIQESEKTLMMNTLYKLHDRLAQLAGDHECGSSSQRTLSVQEA

AAYLKDLGPEYEGIFNTSLQWILENGKDVGIRCVGFGPEEELTNITDVQFLQSTRPLMSFWCRFRRAFVT

VTHRLLLLCLGVVMVCVVLRYMKYRWTKEEEETRQMYDMVVKIIDVLRSHNEACQENKDLQPYMPIPHVR

DSLIQPHDRKKMKKVWDRAVDFLAANESRVRTETRRIGGADFLVWRWIQPSASCDKILVIPSKVWQGQAF

HLDRRNSPPNSLTPCLKIRNMFDPVMEIGDQWHLAIQEAILEKCSDNDGIVHIAVDKNSREGCVYVKCLS

PEYAGKAFKALHGSWFDGKLVTVKYLRLDRYHHRFPQALTSNTPLKPSNKHMNSMSHLRLRTGLTNSQGS

S

>gi|8475983|sp|O75916|RGS9_HUMAN Regulator of G-protein signaling 9 (RGS9)

MTIRHQGQQYRPRMAFLQKIEALVKDMQNPETGVRMQNQRVLVTSVPHAMTGSDVLQWIVQRLWISSLEA

QNLGNFIVRYGYIYPLQDPKNLILKPDGSLYRFQTPYFWPTQQWPAEDTDYAIYLAKRNIKKKGILEEYE

KENYNFLNQKMNYKWDFVIMQAKEQYRAGKERNKADRYALDCQEKAYWLVHRCPPGMDNVLDYGLDRVTN

PNEVKVNQKQTVVAVKKEIMYYQQALMRSTVKSSVSLGGIVKYSEQFSSNDAIMSGCLPSNPWITDDTQF

WDLNAKLVEIPTKMRVERWAFNFSELIRDPKGRQSFQYFLKKEFSGENLGFWEACEDLKYGDQSKVKEKA

EEIYKLFLAPGARRWINIDGKTMDITVKGLKHPHRYVLDAAQTHIYMLMKKDSYARYLKSPIYKDMLAKA

IEPQETTKKSSTLPFMRRHLRSSPSPVILRQLEEEAKAREAANTVDITQPGQHMAPSPHLTVYTGTCMPP

SPSSPFSSSCRSPRKPFASPSRFIRRPSTTICPSPIRVALESSSGLEQKGECSGSMAPRGPSVTESSEAS

LDTSWPRSRPRAPPKARMALSFSRFLRRGCLASPVFARLSPKCPAVSHGRVQPLGDVGQQLPRLKSKRVA

NFFQIKMDVPTGSGTCLMDSEDAGTGESGDRATEKEVICPWESL

Anexo 3. Fragmento de base de datos de uso de codones.

>AB000095AB000095176..17171542BAA25014.1Homo, sapiensHomo, sapiens, mRNA, for, hepatocyte, growth, factor, activator, inhibitor,complete, cds./codon_start=1/product="hepatocyte, growth, factor, activator, inhibitor"/protein_id="BAA25014.1"/db_xref="GI:2924601"

0, 16, 8, 0, 1, 7, 3, 12, 19, 2, 0, 5, 1, 9, 1, 5, 8, 4, 6, 18, 8, 4, 8, 20, 3, 5, 3, 23, 5, 3, 7, 20, 7, 6, 3, 9, 22, 1, 3, 15, 22, 1, 2, 18, 10, 2, 13, 19, 23, 4, 12, 5, 25, 6, 17, 6, 1, 13, 3, 4, 7, 0, 0, 1

>AB000099AB000099106..462357BAA25877.1Homo, sapiensHomo, sapiens, mRNA, for, DCRB,, complete, cds./codon_start=1/product="DCRB"/protein_id="BAA25877.1"/db_xref="GI:3090432"

0, 0, 1, 0, 4, 1, 0, 3, 4, 3, 1, 2, 4, 2, 1, 4, 4, 2, 1, 3, 2, 1, 4, 2, 1, 5, 3, 3, 0, 3, 1, 0, 3, 0, 0, 1, 0, 1, 5, 2, 1, 0, 2, 2, 3, 1, 3, 1, 2, 6, 2, 0, 2, 1, 1, 2, 3, 4, 2, 1, 2, 0, 0, 1

>AB000114AB000114101..13661266BAA19055.1Homo, sapiensHomo, sapiens, mRNA, for, osteomodulin,, complete, cds./codon_start=1/product="osteomodulin"/protein_id="BAA19055.1"/db_xref="GI:1769800"

1, 1, 0, 2, 5, 1, 13, 8, 4, 15, 6, 4, 8, 1, 0, 8, 4, 5, 6, 1, 0, 9, 15, 2, 1, 9, 4, 1, 0, 4, 5, 1, 2, 6, 4, 2, 4, 4, 18, 6, 9, 24, 17, 6, 9, 12, 26, 4, 10, 16, 10, 15, 4, 5, 12, 13, 6, 6, 14, 12, 1, 0, 1, 0

>AB000115AB000115242..14831242BAA19056.1Homo, sapiensHomo, sapiens, mRNA, expressed, in, osteoblast,, complete, cds./codon_start=1/protein_id="BAA19056.1"/db_xref="GI:1769802"

2, 0, 3, 6, 8, 7, 7, 4, 7, 7, 10, 10, 4, 4, 1, 14, 3, 4, 5, 5, 1, 9, 7, 4, 0, 3, 10, 4, 1, 4, 9, 4, 4, 4, 3, 4, 8, 9, 17, 8, 6, 15, 6, 5, 5, 4, 13, 8, 14, 18, 3, 12, 4, 8, 2, 11, 9, 5, 23, 17, 1, 0, 0, 1

>AB000220AB000220563..28182256BAA32398.1Homo, sapiensHomo, sapiens, mRNA, for, semaphorin, E,, complete, cds./codon_start=1/product="semaphorin, E"/protein_id="BAA32398.1"/db_xref="GI:3426163"

7, 5, 8, 3, 13, 13, 3, 5, 17, 7, 12, 7, 10, 13, 1, 17, 8, 11, 19, 9, 3, 19, 11, 7, 4, 12, 9, 9, 3, 16, 18, 10, 11, 5, 6, 10, 22, 16, 27, 19, 18, 22, 12, 20, 11, 13, 23, 11, 17, 26, 12, 14, 11, 12, 20, 16, 10, 12, 21, 17, 8, 1, 0, 0

>AB000221AB00022164..333270BAA21670.1Homo, sapiensHomo, sapiens, mRNA, for, CC, chemokine,, complete, cds./gene="PARC"/codon_start=1/product="CC, chemokine"/protein_id="BAA21670.1"/db_xref="GI:2289719"

0, 0, 1, 0, 1, 0, 1, 6, 2, 2, 0, 0, 0, 2, 0, 1, 2, 0, 0, 5, 0, 0, 2, 3, 0, 0, 2, 3, 0, 2, 0, 2, 0, 2, 0, 5, 0, 2, 2, 7, 1, 2, 2, 4, 0, 0, 1, 1, 3, 0, 1, 2, 5, 2, 1, 0, 1, 3, 1, 2, 2, 0, 0, 1

Anexo 4. Secciones B y C del árbol de aminoácidos asociados con las clasificaciones taxonómicas de organismos vivos

 

Anexo 5. Secciones A y B árbol y regla de clasificación de aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaea, bacterias y eucariotes. 

Regla de Clasificación

/* Node 13 */

IF (Histidina NOT MISSING   AND  (Histidina <= 1.12076082557669))  AND  (Isoleucina NOT MISSING AND  (Isoleucina <= 3.6787991498406))  AND  (Ácido Glutámico NOT MISSING   AND  (Ácido Glutámico <= 4.86217846935535))

THEN

            Node = 13

            Prediction = 2

            Probability = 0.571429

/* Node 14 */

IF (Histidina NOT MISSING   AND  (Histidina <= 1.12076082557669))  AND  (Isoleucina NOT MISSING   AND  (Isoleucina <= 3.6787991498406))  AND  (Ácido Glutámico IS MISSING  OR (Ácido Glutámico > 4.86217846935535))

THEN

            Node = 14

            Prediction = 1

            Probability = 1.000000

/* Node 15 */

IF (Histidina NOT MISSING   AND  (Histidina <= 1.12076082557669))  AND  (Isoleucina IS MISSING  OR (Isoleucina > 3.6787991498406  AND  Isoleucina <= 4.65842040565458))  AND  (Valina NOT MISSING   AND  (Valina <= 4.80227023068473))

THEN

            Node = 15

            Prediction = 2

            Probability = 0.636364

/* Node 16 */

IF (Histidina NOT MISSING   AND  (Histidina <= 1.12076082557669))  AND  (Isoleucina IS MISSING  OR (Isoleucina > 3.6787991498406  AND  Isoleucina <= 4.65842040565458))  AND  (Valina IS MISSING  OR (Valina > 4.80227023068473))

THEN

            Node = 16

            Prediction = 2

            Probability = 1.000000

/* Node 7 */

IF (Histidina NOT MISSING   AND  (Histidina <= 1.12076082557669))  AND  (Isoleucina NOT MISSING   AND  (Isoleucina > 4.65842040565458))

THEN

            Node = 7

            Prediction = 1

            Probability = 1.000000

/* Node 8 */

IF (Histidina NOT MISSING   AND  (Histidina > 1.12076082557669  AND  Histidina <= 1.39913310456926))  AND  (Ácido Glutámico NOT MISSING   AND  (Ácido Glutámico <= 3.66998451669985))

THEN

            Node = 8

            Prediction = 3

            Probability = 1.000000

/* Node 17 */

IF (Histidina NOT MISSING   AND  (Histidina > 1.12076082557669  AND  Histidina <= 1.39913310456926))  AND  (Ácido Glutámico IS MISSING  OR (Ácido Glutámico > 3.66998451669985  AND  Ácido Glutámico <= 4.86217846935535))  AND  (Serina IS MISSING  OR (Serina <= 4.18460680423871))

THEN

            Node = 17

            Prediction = 2

            Probability = 0.941176

/* Node 18 */

IF (Histidina NOT MISSING   AND  (Histidina > 1.12076082557669  AND  Histidina <= 1.39913310456926))  AND  (Ácido Glutámico IS MISSING  OR (Ácido Glutámico > 3.66998451669985  AND  Ácido Glutámico <= 4.86217846935535))  AND  (Serina NOT MISSING   AND  (Serina > 4.18460680423871))

THEN

            Node = 18

            Prediction = 3

            Probability = 1.000000

/* Node 10 */

IF (Histidina NOT MISSING   AND  (Histidina > 1.12076082557669  AND  Histidina <= 1.39913310456926))  AND  (Ácido Glutámico NOT MISSING   AND  (Ácido Glutámico > 4.86217846935535))

THEN

            Node = 10

            Prediction = 1

            Probability = 0.966667

/* Node 11 */

IF (Histidina NOT MISSING   AND  (Histidina > 1.39913310456926  AND  Histidina <= 1.51311126860383))  AND  (Serina NOT MISSING   AND  (Serina <= 3.6231101511879))

THEN

            Node = 11

            Prediction = 1

            Probability = 0.857143

/* Node 12 */

IF (Histidina NOT MISSING   AND  (Histidina > 1.39913310456926  AND  Histidina <= 1.51311126860383))  AND  (Serina IS MISSING  OR (Serina > 3.6231101511879))

THEN

            Node = 12

            Prediction = 3

            Probability = 1.000000

/* Node 4 */

IF (Histidina IS MISSING  OR (Histidina > 1.51311126860383))

THEN

            Node = 4

            Prediction = 3

            Probability = 1.000000

Anexo 6. Matriz de correlaciones entre los aminoácidos en los Taxa archaeas, bacterias y eucariotes.

Anexo 7. Implementación en el Matemática de los calculos necesaris para la partición de las bases de datos en subgrupos  y la obtención de los vectores NECk.

Anexo 8. Implementación en el Matemática para la selección aleatoria de las matrices de distancia

Agradecimientos

A mi tutor Robersy Sánchez  por su apoyo en todo  momento

A mis padres y hermanas

                        Al Grupo de Bioinformática

                    Al Departamento de Matemática

A  todos los que me han ayudado

Agradecimiento especial

A mi hija María Fernanda y a mi esposo por ser fuentes inspiradoras  en cada paso por el camino de la vida

Autora:

María Milena Rodríguez Fernández

Autores:   

Msc. María Milena Rodríguez Fernández

Dr. Robersy Sánchez Rodríguez

País: Cuba.

Institución: UNIVERSIDAD CENTRAL "MARTA ABREU" DE LAS VILLAS. FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN

[1] Aunque no es indispensable para la comprensión de texto, si el lector está interesado, el nombre del aminoácido correspondiente a cada símbolo lo puede encontrar en la sección 2.2.

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente