Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 3)
Enviado por María Milena Rodríguez Fernández
Phe | 2 | 2.440 | 2.788 | 2.562 | 2.678 | 2.440 |
Pro | 4 | 2.702 | 2.434 | 3.142 | 2.599 | 3.111 |
Ser | 6 | 3.617 | 3.770 | 5.185 | 3.941 | 4.209 |
Thr | 4 | 2.910 | 3.142 | 3.398 | 3.123 | 3.599 |
Trp | 1 | 0.628 | 0.671 | 0.689 | 0.665 | 0.854 |
Tyr | 2 | 2.245 | 1.970 | 1.848 | 2.013 | 1.952 |
Val | 4 | 4.862 | 4.191 | 3.715 | 4.276 | 4.026 |
Coef. Corr. Pearson d |
| 0.634 | 0.643 | 0.743 | 0.666 | 0.735 |
aFrecuencias de aminoácidos en 8 genomas de archaeas, 22 genomas de bacterias y 5 genomas de eucariotes [29].
b Número de codones que codifican para cada aminoácido en la tabla del CGS (ver Tabla 1.2.1).
c Frecuencias de aminoácidos en proteínas [30].
d Todas las correlaciones son altamentente significativas (p < 0.01).
Luego, el NEC constituye una variable que expresa la divergencia existente entre el CGS y el número efectivo funcional de codones. Por ejemplo, en la Tabla 2.2.1 el Ácido Glutámico (Glu) en Eucariotes posee un NEC=4.050, sin embargo en el CGS solo dos codones codifican para este aminácido. Esto no significa que en los organismos eucariotes existen más de dos codones que codifican para el Ácido Glutámico (pues solo hay dos), sino sugiere que, funcionalmente durante la síntesis de proteínas, se garantiza el material necesario (tRNA, enzimas involucradas, etc) para producir un efecto en la eficiencia del proceso de síntesis equivalente al que tendría la existencia de más de dos codones codificantes para dicho aminoácido.
Estos análisis nos sugieren utilizar la variable NEC tal y como se plantea en la hipótesis de investigación. Luego, los vectores NECk (20-dimensionales) se calcularon (Anexo 8) a partir de las secuencias de proteínas y del uso de codones que conforman las bases de datos descritas en las secciones anteriores. Con este propósito cada base de secuencias de proteínas fue particionada en subconjuntos de secuencias en correspondencia con su tamaño.
(2.2.2)
Como consecuencia a cada taxa le corresponde un conjunto de vectores NECk los cuales fueron utilizados en las pruebas estadísticas que se realizaron para verificar la hipótesis de investigación.
Cuando se parte del uso de codones cada subconjunto de la partición está formado por vectores 64-dimensionales, cada uno de los cuales contiene las frecuencias de uso de los 64 codones del gen que representa. Si ni () denota el número de codones que codifican para el aminoácido i (i =1,..,20), k denota el k-ésimo vector que contiene las frecuencias (j = 1,.., ni) de uso de los 64 codones presentes en el k-ésimo gene, entonces la frecuencia observada del aminoácido i en un subconjunto conformado por m genes se estimó como:
(2.2.3)
Como consecuencia, a cada taxa le corresponde un conjunto de vectores NECk estimados por la expresión (2.2.1), los cuales fueron utilizados en las pruebas estadísticas que se realizaron para verificar la hipótesis de investigación.
En una primera etapa se realizaron análisis con la técnica CHAID a las 11 taxa a partir de los resultados obtenidos y con un marcado interés biológico se decide estudiar 6 de estas taxa, con la aplicación de otras técnicas, como variables dependientes escogidas una a una:
- Taxa1– Archaea, Bacterias, Insectos, Invertebrados, Plantas, Vertebrados no mamíferos, Mamíferos no primate, Primates y Homo Sapiens.
- Taxa2– Archaea, Bacterias.
- Taxa3– Archaea, Bacterias y Eucariotes.
- Taxa4- Archaea, Bacterias e Invertebrados.
- Taxa5- Insectos y otros invertebrados.
- Taxa6– Invertebrados y Vertebrados.
- Taxa7– Vertebrados no mamíferos y Mamíferos (mamíferos no primates, primates y homo sapiens).
- Taxa8- Vertebrados no mamíferos y Mamíferos no primates.
- Taxa9- Mamíferos y Primates (homo sapiens).
- Taxa10- Mamíferos no primates, Primates y Homo Sapiens.
- Taxa11- Primates y Homo Sapiens.
, 20 variables independientes que representan los aminoácidos:
- 3 clases de 6 tripletes, para los aminoácidos Serina (S), Leucina (L) y Arginina (R).
- 5 clases de 4 tripletes, para los aminoácidos Treonina (T), Alanina (A), Valina (V), Glycina (G) y Prolina (P).
- 2 clases de 3 tripletes, para la Isoleucina (I) y la señal de parada, respectivamente.
- 9 clases de 2 tripletes, para los aminoácidos ácido Glutámico (E), Glutamina (Q), Asparagina (N), ácido Aspártico (D), Histidina (H), Lisina (K), Tirosina (Y), Cisteína (C), y Fenilalanina (F).
- 2 clases de un solo triplete, para la Metionina (M) y el Triptófano (W).
LAS DIFERENCIAS EN EL NÚMERO ESTIMADO DE CODONES Y LA CLASIFICACIÓN EVOLUTIVA.
Las especies se clasifican a través de un sistema jerárquico en el cual cada categoría superior incluye otras inferiores. La teoría y la práctica de clasificar los organismos son el objeto de la Taxonomía. Los taxa se pueden clasificar basándose estrictamente en las relaciones de parentesco o valorizando también las novedades adaptativas que aparecen en los linajes. Sin embargo, existe cierta subjetividad en el proceso de clasificación a este nivel. Con el objetivo de eliminar, en alguna medida, la subjetividad presente, la taxonomía no solo se aprovecha de los datos ofrecidos por áreas clásicas de las ciencias biológicas como la Morfología, la Etología, la Citogenética, la Biología Molecular y la Biogeografía, sino además, de las herramientas desarrolladas por la Bioestadística, la Bioinformática y la Informática, las cuales realizan contribuciones significativas a la taxonomía. El análisis taxonómico está estrechamente vinculado con la historia evolutiva de las especies.
Con el propósito de verificar la hipótesis de investigación se aplicaron las técnicas de CHAID y análisis de discriminantes a vectores NECk (20-dimensionales) provenientes de las bases de datos descritas en el capítulo 2. El empleo de dos clasificadores diferentes se debe a que la experiencia acumulada en el campo de la bioinformática ha conducido al consenso de que ninguna técnica por separado dará una solución definitiva o muy eficiente a los problemas de clasificación de secuencias de proteínas o de ADN, producto de las indeterminaciones propias de los procesos biológicos y la presencia de muchos ruidos o ausencia de información. La clasificación con el CHAID se ve limitada desde el punto de vista de que cada clasificador que se obtenga, partiendo de algún aminoácido, involucra no a todos los aminoácidos. Sin embargo, a través de este método se pueden detectar cuales aminoácidos y cuales interacciones están asociadas con la clasificación de los vectores NECk. Por otra parte, el análisis de discriminante, aunque no incluye el análisis de las interacciones, aporta una verificación alternativa de la hipótesis de investigación y permite evaluar la importancia absoluta de las variables predictivas en la clasificación a través de las correlaciones de estas con la funciones discriminantes, sin importar si la variable se encuentra o no en las funciones discriminantes. En este capítulo se presentan y discuten los resultados obtenidos utilzando las herramientas mencionadas.
1.6. Comparaciones entre los vectores NECk correspondientes a cada taxa
En una primera etapa del análisis se compararon los vectores NECk derivados para cada taxa con los correspondientes vectores esperados calculados a partir del código genético señalado para cada grupo taxonómico. Como criterios de comparación se emplearon tres funciones usualmente utilizadas en el análisis comparativo de vectores de probabilidades (o frecuencias):
c2 : (3.1.1)
Entropía Relativa: (3.1.2)
Distancia de Hellinger: (3.1.3)
Las funciones (3.1.2) y (3.1.3) están expresadas en sus aproximaciones a la función Chi-cuadrado, es decir, la entropía relativa y la distancia de Hellinger han sido multiplicadas por 2, de manera que, si las diferencias entre los vectores que se comparan son suficientemente pequeñas entonces, estas funciones siguen una distribución Chi-cuadrado. En la Tabla 3.1.1 se muestran los resultados de las comparaciones realizadas (utilizando la función 3.1.1) entre los vectores NECk y los valores esperados de acuerdo con las estimaciones realizadas a partir de los códigos genéticos correspondientes a cada taxa. Se incluyen, además, los valores de las comparaciones entre los vectores NECk calculados a partir de las bases de datos de las secuencias de proteínas y los vectores correspondientes calculados a partir de las bases de datos de las secuencias de genes (derivados de la base de usos de codones). En todas las comparaciones realizadas no se detectaron diferencias estadísticamente significativas entre los vectores. Resultados similares se obtienen para las otras funciones.
Tabla 3.1.1. Resultados de las comparaciones realizadas entre los vectores NECk y los valores esperados de acuerdo con las estimaciones realizadas a partir de los códigos genéticos correspondientes a cada taxa.
Grupos de Org. | Esperado vs Obs. | Esperado vs Obs. | Obs. AA vs Obs. Uso de Codones |
c2 | Uso de codones | Base AA |
|
Bacterias | 9.43774 | 10.6452 | 3.26328 |
Archaea | 17.8872 | 15.966 | 3.22017 |
Plantas | 6.40237 | 5.58239 | 0.366178 |
Insectos | 6.88278 | 6.80905 | 2.35033 |
invertebrados | 10.4236 | 8.06901 | 7.8716 |
vertebrados no mamiferos | 6.68555 | 9.23761 | 7.30781 |
Primates | 4.42358 | 4.79673 | 1.08405 |
homo sapiens | 6.01274 | 6.03157 | 2.68314 |
mamíferos no primates | 6.07456 | 7.44816 | 4.31209 |
En este caso se verificó, con todas las funciones utilizadas, que no tenemos criterios estadísticamente suficientes para decir que existen diferencias entre los vectores NECk correspondientes a cada taxa. En otras palabras, en todas las comparaciones realizadas entre vectores, los valores obtenidos (para todas las funciones) son muy pequeños al compararse con el valor de la distribución Chi-cuadrado con 19 grados de libertad (30.1435) y, por lo tanto, siguen una distribución Chi-cuadrado. Los resultados obtenidos pueden observarse en las Tablas 3.1.2, 3.1.3 y 3.1.4. Notemos que las comparaciones entre vectores correspondientes a cada par de taxa analizado dan lugar a valores muy similares de las funciones (3.1.1), (3.1.2) y (3.1.3). Este hecho, pudiera utilizarse en estudios bioinformáticos posteriores, para la elaboración de pruebas de hipótesis o en la implementación de algún nuevo algoritmo.
Tabla 3.1.2.Distribución Chi-cuadrado [19,0.95]= 30.1435
| Archea | Bact | Plantas | Invert | Insect | Vert | Mamíf | Prim | Homo |
Archea | 0 | 0.02045 | 0.07204 | 0.08990 | 0.07097 | 0.21748 | 0.17240 | 0.14214 | 0.12048 |
Bact | 0.02037 | 0 | 0.07217 | 0.07166 | 0.06362 | 0.21259 | 0.17009 | 0.15285 | 0.12858 |
Plantas | 0.06446 | 0.04787 | 0 | 0.01334 | 0.00582 | 0.11157 | 0.06686 | 0.03586 | 0.02606 |
Invert | 0.09339 | 0.05734 | 0.01303 | 0 | 0.00915 | 0.09024 | 0.05638 | 0.04120 | 0.02965 |
Insect | 0.07129 | 0.04938 | 0.00568 | 0.00913 | 0 | 0.08055 | 0.04729 | 0.02559 | 0.02121 |
Vert | 0.27661 | 0.23412 | 0.11100 | 0.09786 | 0.08667 | 0 | 0.00905 | 0.03328 | 0.05742 |
Mamíf | 0.20388 | 0.16946 | 0.06814 | 0.06244 | 0.05028 | 0.00891 | 0 | 0.01385 | 0.02507 |
Prim | 0.15221 | 0.12829 | 0.03516 | 0.04310 | 0.02589 | 0.03335 | 0.01351 | 0 | 0.01334 |
Homo | 0.12255 | 0.10167 | 0.02602 | 0.03207 | 0.02010 | 0.05836 | 0.02615 | 0.01375 | 0 |
Tabla 3.1.3. Comparación de vectores con la Entropía Relativa.
| Archea | Bact | Plantas | Invert | Insect | Vert | Mamíf | Prim | Homo |
Archea | 0 | 0.01931 | 0.06799 | 0.08364 | 0.06633 | 0.19914 | 0.18674 | 0.13197 | 0.10901 |
Bact | 0.01927 | 0 | 0.06193 | 0.06367 | 0.05580 | 0.18612 | 0.17514 | 0.12798 | 0.10782 |
Plantas | 0.06634 | 0.05448 | 0 | 0.01043 | 0.00439 | 0.08518 | 0.07353 | 0.03107 | 0.02036 |
Invert | 0.08452 | 0.05841 | 0.01039 | 0 | 0.00932 | 0.07902 | 0.07168 | 0.03963 | 0.02683 |
Insect | 0.06682 | 0.05170 | 0.00435 | 0.00926 | 0 | 0.06560 | 0.05692 | 0.02391 | 0.01658 |
Vert | 0.21438 | 0.18980 | 0.08518 | 0.08004 | 0.06684 | 0 | 0.00341 | 0.02446 | 0.04659 |
Mamíf | 0.19883 | 0.17674 | 0.07456 | 0.07356 | 0.05824 | 0.00339 | 0 | 0.01905 | 0.03468 |
Prim | 0.13529 | 0.12099 | 0.03080 | 0.03931 | 0.02363 | 0.02447 | 0.01894 | 0 | 0.01378 |
Homo | 0.10931 | 0.09967 | 0.02037 | 0.02739 | 0.01637 | 0.04660 | 0.03500 | 0.01394 | 0 |
Tabla 3.1.4. Construcción de las matrices con la Distancia de Hellinger.
| Archea | Bact | Plantas | Invert | Insect | Vert | Mamíf | Prim | Homo |
Archea | 0 |
|
|
|
|
|
|
|
|
Bact | 0.0202 | 0 |
|
|
|
|
|
|
|
Plantas | 0.0651 | 0.0555 | 0 |
|
|
|
|
|
|
Invert | 0.0883 | 0.0612 | 0.0131 | 0 |
|
|
|
|
|
Insect | 0.0691 | 0.0539 | 0.0057 | 0.0091 | 0 |
|
|
|
|
Vert | 0.2237 | 0.2038 | 0.1062 | 0.0905 | 0.0810 | 0 |
|
|
|
Mamíf | 0.1756 | 0.1579 | 0.0657 | 0.0579 | 0.0480 | 0.0089 | 0 |
|
|
Prim | 0.1377 | 0.1293 | 0.0350 | 0.0413 | 0.0254 | 0.0328 | 0.0136 | 0 |
|
Homo | 0.1161 | 0.1080 | 0.0257 | 0.0304 | 0.0204 | 0.0568 | 0.0254 | 0.0135 | 0 |
1.7. Construcción de árboles de clasificación mediante el método CHAID atendiendo a las frecuencias de aminoácidos en proteínas
Durante el proceso de evolución molecular que tiene lugar en cada organismo vivo se originan nuevas variantes mutacionales de muchas de las proteínas que conforman el proteoma de este. En el transcurso del tiempo evolutivo la acumulación de mutaciones en genes duplicados deriva en el origen de nuevas especies de organismos, de nuevas proteínas y de nuevas variantes funcionales de proteínas ya existente en las especies ancestros [31].
La aparición de nuevas proteínas en el proceso de especiación pudo conducir a un cambio en la distribución de las frecuencias de aminoácidos. En esta sección proponemos dar respuesta a la primera pregunta de investigación utilizando el método CHAID, el método Discriminante y realizando una evaluación del desempeño de estos clasificadores a través de las curvas ROC y los parámetros calculados a partir de la matriz de confusión.
Para obtener los resultados primeramente se realizó una validación cruzada, una validación al 70% de la muestra inicial, una validación con una muestra externa de 20 vectores de probabilidades, sin tener en cuenta que contienen diferentes tipos de proteínas y solamente guiados por la clasificación inicial de los 9 grupos, también se realizó una validación cruzada y una validación del 70% de la muestra formada por la base llamada extendida, por los resultados obtenidos en el análisis con los 9 grupos se definieron las 6 taxas que reúnen de diferentes formas a los grupos descritos anteriormente.
1.7.1. Aminoácidos asociados con las clasificaciones taxonómicas de organismos vivos.
Como primera etapa en nuestro análisis se aplicó el método CHAID utilizando todas las bases de datos de proteínas descritas en la sección 2.1. En todos los análisis realizados los porcientos de clasificación entre los 9 grupos de organismos no fueron aceptables, con riegos superiores 27.1% en el entrenamiento y 41% en la validación cruzada. Sin embargo, estos análisis nos permitieron detectar que los 20 aminoácidos están asociados con la clasificación taxonómica de las especies y clases analizadas. En la Tabla 3.2.1.1 se muestran los aminoácidos ordenados según sus niveles de significaciones.
El resultado obtenido es esperado desde el punto de vista biológico, si tenemos en cuenta las variaciones en los genomas y proteomas que tuvieron lugar durante el proceso de evolución de los organismos vivos. Como fue explicado en el capítulo 2 la aparición de nuevas especies involucró la aparición de proteínas que no estaban involucradas en procesos esenciales para todos los organismos vivos. De manera que las variaciones en la distribución de aminoácidos deben tender, en general, a ser mayores en la medida que las especies son filogenéticamente más lejanas. Además, si se tienen en cuenta los porcientos que representan algunos genes que codifican para proteínas que están presentes en un número importante de especies, el resultado obtenido es de esperar (ver Fig. 2.1 y 2.2). Luego, la significación estadística de la asociación de los aminoácidos con los taxa debe variar dependiendo de los taxa involucrados en el análisis.
Tabla 3.2.1.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Ácido Aspártico | 6.7531E-209 | 69,1 |
Ácido Glutámico | 2.0188E-166 | 72,4 |
Triptófano | 2.7178E-146 | 71,6 |
Valina | 1.0947E-132 | 70,4 |
Leucina | 1.0341E-121 | 69,8 |
Arginina | 6.9567E-113 | 69,6 |
Alanina | 1.2499E-108 | 69,6 |
Fenilalanina | 1.7228E-105 | 71,6 |
Metionina | 5.9298E-102 | 71,6 |
Histeina | 5.38196E-92 | 69,3 |
Prolina | 1.19184E-91 | 70,4 |
Aspargina | 6.7187E-89 | 69,8 |
Isoleucina | 1.43677E-84 | 71,1 |
Cisteína | 1.00026E-80 | 68,2 |
Treonina | 3.73344E-76 | 67,8 |
Lisina | 1.0605E-75 | 68 |
Sirina | 1.34548E-74 | 66 |
Glicina | 7.06354E-54 | 68,7 |
Tirosina | 1.1733E-50 | 68,7 |
Glutamina | 1.83921E-47 | 69,1 |
aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.
Figura 3.2.1.1A. Sección del árbol de Aminoácidos asociados con los resultados de una validación cruzada en la base curada con las clasificaciones taxonómica de organismos vivos.
Estos resultados sugieren que el análisis se realice en diferentes combinaciones de taxa en las que se reflejen peculiaridades más específicas entre las especies analizadas.
El árbol de clasificación abunda en información biológicamente significativa, ver Anexo 4. En la Fig. 3.2.1.1A se muestra una sección del árbol donde se puede apreciar que si el Ácido Aspártico posee un número esperado de codones (NECD) entre 3.335 y 4.045, y si, además, para la Fenilalanina (nodo 5) se cumple que NECF ≤ 1.935 entonces el 100% de las bacterias en este nodo se separa del resto de los taxa. Mientras que si el NECF > 2.723 entonces el 100% de los invertebrados se separan del resto de los taxa. Por otra parte, si el NECD > 4.045 y si para la Alanina tenemos NECA ≤ 4.851 entonces el 93.8% de los vectores de distribución corresponde a bacterias. Mientras que si NECA > 4.851 entonces el 95.8 % de los vectores corresponde a archaeabactarias. Además, si se cumplen las condiciones: NECD > 4.045, NECA > 4.851 y NECG >5.057 entonces el 100% de los vectores clasificados corresponde a archaeabacterias. Notemos que los NECD, NECA y NECG difieren notablemente de los números esperados de codones en la Tabla 1.2.1 del código genético estándar, hecho que nos sugiere una mayor cercanía a la célula primordial (progenota) ver Anexo 1, para la cual el código genético primitivo pudo encontrarse más alejado del óptimo que los códigos actuales, manifestando valores no optimizados de los NEC de estos aminoácidos (ver sección 1.2). Esta observación está en correspondencia con los planteamientos de los autores en [3, 8, 13, 38] expuestos en la sección 1.2. Esta hipótesis biológica explica, además, el porqué existe una separación completa de los eucariotes (resto de los taxa) en estas ramas del árbol, los cuales se encuentran filogenéticamente más distantes del progenota.
En el resto de las ramas del árbol, en las que aparecen los taxa eucariotes, los organismos procariotas están ausentes, lo cual corrobora el hecho de que los NECD, NECA y NECG anteriormente mencionados caracterizan realmente a toda la muestra de procariotas. Sin embargo, estas ramas no aportan una buena clasificación, ver Anexo 4. No obstante, como se muestra en la Tabla 3.2.1.1, el análisis con el método CHAID de todos los taxa revela que los 20 aminoácidos están asociados de forma altamente significativa con la clasificación taxonómica (biológica).
Resultados comparables se obtienen con el análisis de discriminante. En la Tabla 3.2.1.2 se presentan las correlaciones canónicas de las funciones discriminantes canónicas con los taxa y en la Tabla 3.2.1.3 las correlaciones de los aminoácidos con las funciones discriminantes canónicas. En particular, para la mayoría de estas funciones los valores de correlación son altos, indicando un desempeño aceptable de estas funciones en la clasificacicón. Para la base de entrenamiento (70%) se obtuvo un 87% de clasificación correcta, 83% en la validación cruzada y un 80% en la validación externa. De esta manera se verifica, una vez más, la asociación de los aminoácidos con los taxa.
Tabla 3.2.1.2. Correlaciones de las variables discriminantes con las funciones discriminantes canónicas.
Sin embargo, estos hechos nos sugieren realizar un análisis agrupando los taxa siguiendo criterios biológicos con el propósito de alcanzar una mayor significación estadística en la diferenciación de los taxa. En particular, por su importancia biológica, se consideran los grupos taxonómicos que divergen de un ancestro común.
Tabla 3.2.1.3. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.
1.7.2. Aminoácidos asociados con la clasificación taxonómica en archaeabacterias, bacterias y eucariotes.
Los resultados obtenidos en la clasificación de organismos vivos nos sugiere limitar nuestro campo de análisis para la clasificación de los tres reinos: archaea, bacterias y eucariotes, partiendo de una base curada y realizando una validación cruzada como se muestra en la Tabla 3.2.2.1, se mantiene para este taxa la asociación entre los 20 aminoácidos. Los porcientos de clasificación aumentan considerablemente lo cual sugiere la ya demostrada hipótesis de la existencia de los tres reinos bien definidos que forman el árbol filogenético universal ver Anexo1. En la Tabla 3.2.2.1 se observa que el Ácido Aspártico posee la mejor significación para la ramificación del nodo inicial entre todos los aminoácidos y los resultados del árbol de clasificación son aceptables (ver Tabla 3.2.2.2 y Figura 3.2.2.1). Sin embargo, la Cisteína, aunque posee una menor significación, alcanza 99,3 % de clasificación.
Tabla 3.2.2.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Alanina | 1.13359E-80 | 98 |
Cisteína | 5.12355E-70 | 99,3 |
Ácido Aspártico | 1.926E-137 | 98 |
Ácido Glutámico | 1.6169E-121 | 98 |
Fenilalanina | 3.35584E-86 | 98,4 |
Glicina | 9.26829E-42 | 98,4 |
Histeina | 2.04308E-93 | 97,6 |
Isoleucina | 3.51131E-27 | 97,1 |
Licina | 2.1581E-34 | 96,9 |
Leucina | 2.39256E-60 | 97,6 |
Metionina | 1.12471E-62 | 97,8 |
Aspargina | 2.42534E-40 | 99,3 |
Prolina | 1.02933E-76 | 96,7 |
Glutamina | 3.86159E-21 | 97,3 |
Arginina | 1.24853E-63 | 97,8 |
Serina | 4.71165E-78 | 98,4 |
Treonina | 1.68436E-17 | 96,9 |
Valina | 6.4982E-98 | 98,7 |
Triptófano | 1.1792E-101 | 98 |
Tirosina | 4.6616E-46 | 97.3 |
aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.
Tabla 3.2.2.2. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.
Figura 3.2.2.1. Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaea, bacterias y eucariotes.
Tabla 3.2.2.3. Clasificación obtenida con método CHAID en la bases de datos extendida con validación cruzada.
Además de esto, el método CHAID nos permite detectar los aminoácidos que interaccionan en esta clasificación, lo cual resulta de gran interés desde el punto de vista biológico, pues destaca el papel de conjunto jugado por los aminoácidos en la diferenciación de los taxa. En otras palabras, se han detectado interaciones estadísticamente significativas entre los aminoácidos, las cuales son, además, biológicamente significativas, pues permiten derivar reglas de clasificación capaces de diferenciar los taxa (ver Anexo 5). Se puede realizar una discusión más abundante acerca de este interesante tema pero está fuera del alcance y del objetivo de este trabajo.
Realizando una validación cruzada a la base de datos extendida los procientos de clasificación son igualmente buenos, lo cual mostramos en la Tabla 3.2.2.3, mientras en el árbol (ver Anexo 5) podemos observar que para esta base de datos el aminoácido con mayor significación es la Histidina y así aparece en el nodo principal.
La base usada en el análisis anterior se incrementó en el número de secuencias y se formaron 200 nuevos vectores NECK para cada taxa. En esta base se seleccionó aleatoriamente el 70% de los datos como entrenamiento y el resto para validación externa con el propósito de aplicar, además de la técnica CHAID, el análisis de discriminante y comparar el desempeño de estos. En esta ocasión el aminoácido Serina fue el de mayor significación para la ramificación del nodo inicial del árbol. En la Tabla 3.2.2.4 se muestran los resultados para este árbol.
Tabla 3.2.2.4. Clasificación obtenida con método CHAID en la nueva base de datos extendida tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa. El árbol inicia su ramifiación con el aminoácido Serina.
1.7.2.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores.
Con el análisis de discriminante realizado en esta taxa se corroboró el resultado, previamente obtenido con el CHAID, de que todos los aminoácidos están asociados con la clasificación de los vectores NECk en los tres reinos. En la Tabla 3.2.2.1.1 se puede ver que, incluso, aminoácidos como la Isoleucina y la Asparagina, los cuales no están incluidos en las combinaciones lineales de las funciones discriminantes cuando se utiliza el método Stpwise, poseen correlaciones mayores que algunos de los incluídos. La explicación de este hecho se encuentra en la matríz de correlaciones mostrada en el Anexo 7, se puede apreciar que la Isoleucina (r1 = -0.159 y r2 = 0.38, en la Tabla 3.2.2.1.1), posee coeficientes de correlación absolutos elevados y altamente significativos (p < 0.01) con la Glutamina (-0.768), la Arginina (-0.627), Alanina (-0.567) y la Lisina (-0.506), las cuales se incluyen en las funciones discriminantes (Tabla 3.2.2.1.2). Luego, si no se aplica un método Stepwise para la introducción de las variables entonces debemos esperar que todas las variables, que superen el test de tolerancia, esten presentes en la combinación lineal que conforman las funciones discriminantes, a pesar de que estás últimas incluirán información redundante, la cual se evidencia en las correlaciones existentes entre las mismas. En la Tabla 3.2.2.1.2 se presentan las funciones discriminantes obtenidas por el método Stepwise minimizando la Lambda de Wilk y sin aplicar este método.
Tabla 3.2.2.1.1. Correlaciones de las variables discriminantes con las funciones discriminantes canónicas.
Aminoácido | Función discriminante | |
1 | 2 | |
Histidina | 0.352* | -0.011 |
Ácido Aspártico a | -0.278* | -0.209 |
Ácido Glutámico | -0.274* | -0.009 |
Triptófano a | 0.243* | -0.023 |
Valina | -0.200* | -0.193 |
Prolina a | 0.200* | -0.166 |
Leucina a | 0.180* | 0.038 |
Treonina a | 0.175* | 0.034 |
Metionina | 0.158* | 0.080 |
Alanina | -0.058 | -0.497* |
Arginina | -0.012 | -0.471* |
Glutamina | 0.191 | -0.429* |
Tirosina | -0.055 | 0.391* |
Isoleucina a | -0.159 | 0.380* |
Serina | 0.350 | 0.377* |
Asparagina a | -0.159 | 0.343* |
Lisina | -0.262 | 0.338* |
Cisteína | 0.240 | 0.263* |
Fenilalanina a | 0.160 | 0.186* |
Glicina | 0.000 | -0.042* |
* La mayor correlación absoluta entre cada variable y las funciones discriminantes obtenidas por el método Stepwise minimizando la Lambda de Wilk.
a Aminoácidos que no se incluyen en la combinación lineal de variables de las funciones discriminantes.
Mientras, en la Tabla 3.2.2.1.3 se puede apreciar que la eficacia de las funciones discriminates en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares. En particular, para todas las funciones los valores de estos parámetros son altos, indicando el buen desempeño de las funciones discriminantes.
Los resultados de la clasificación global no son estadísticamente diferentes para los métodos de obtención de las funciones discriminantes y para el método CHAID.
Tabla 3.2.2.1.2. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.
Aminoácido | Todas | Stepwise | ||
Función discriminante | Función discriminante | |||
1 | 2 | 1 | 2 | |
Alanina | 0.817868518 | 0.557817117 | -0.634610589 | -0.073293422 |
Página anterior | Volver al principio del trabajo | Página siguiente |