Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 4)
Enviado por María Milena Rodríguez Fernández
Cisteína | 3.310732231 | -1.692376434 | 1.901286543 | 1.965185789 |
Ácido Aspártico | 1.558358609 | 0.317792496 | – | – |
Ácido Glutámico | 0.792671149 | -0.964414539 | -0.747640779 | 1.387547125 |
Fenilalanina | 1.464973618 | 0.261072156 | – | – |
Glicina | 0.905491907 | 0.298178086 | -0.661236016 | 0.17008811 |
Histidina | 3.650391437 | -0.681412275 | 2.111016944 | 1.442137596 |
Isoleucina | 1.251241606 | 0.315105464 | – | – |
Lisina | 1.291028255 | 0.781428574 | -0.259736438 | -0.365299324 |
Leucina | 1.692656627 | 0.627164431 | – | – |
Metionina | 2.232989862 | 0.355582763 | 0.735120813 | 0.096567728 |
Asparagina | 1.755662058 | 0.466027904 | – | – |
Prolina | 1.680706246 | 0.694573323 | – | – |
Glutamina | 2.661642231 | 1.967428169 | 1.217848927 | -1.606940573 |
Arginina | 1.453948483 | 0.854261427 | 0.061374096 | -0.534533261 |
Serina | 2.386767639 | -0.472410556 | 0.987602167 | 0.817741217 |
Treonina | 1.355212891 | 0.56985644 | 0.924887649 | -0.466115737 |
Valina | 2.522376259 | 1.000621086 | – | – |
Tirosina | – | – | -1.546234127 | 0.906075053 |
Triptófano | 1.599846115 | -0.626305971 | – | – |
(Constante) | -95.07061812 | -21.02880013 | -2.504492874 | -6.918114573 |
Tabla 3.2.2.1.3. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 7.052 | 78.88 | 78.88 | 0.936 | 1 a 2 | 0.043 | 1275.937 | 24 | 0.000 |
2 | 1.888 | 21.12 | 100 | 0.809 | 2 | 0.346 | 430.085 | 11 | 0.000 |
Todas las variables | |||||||||
1 | 7.248 | 78.578 | 78.578 | 0.937 | 1 a 2 | 0.041 | 1286.631 | 38 | 0.000 |
2 | 1.976 | 21.422 | 100 | 0.815 | 2 | 0.336 | 438.414 | 18 | 0.000 |
Figura 3.2.2.1.1 Gráfico de dispersión de la función Discriminante.
Este hecho se ilustra en las curvas ROC obtenidas (Figura 3.2.2.1.2) y en la Tabla 3.2.2.1.4, en la que se muestra que los intervalos de confianza asintóticos para 95% de confianza de las áreas bajo la curva ROC se solapan. Sin embargo, al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren que existen algunas diferencias entre los clasificadores. En la Tabla 3.2.2.1.5 se muestran los valores de los parámetros mencionados.
Tabla 3.2.2.1.4. Resultado del área bajo la curva en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza asintótico para el 95% | |
Límite inferior | Límite superior | ||||
Probabilidad Archaea (Análisis Disc. Stepwise) | 0.991 | 0.003 | 0.000 | 0.985 | 0.996 |
Probabilidad Archaea (Análisis CHAID) | 0.987 | 0.004 | 0.000 | 0.980 | 0.995 |
Probabilidad Archaea (Análisis Disc. Todas) | 0.991 | 0.003 | 0.000 | 0.986 | 0.997 |
Probabilidad Bacteria (Análisis Disc. Stepwise) | 0.982 | 0.004 | 0.000 | 0.974 | 0.990 |
Probabilidad Bacteria (Análisis CHAID) | 0.967 | 0.008 | 0.000 | 0.952 | 0.983 |
Probabilidad Bacteria (Análisis Discriminante) | 0.983 | 0.004 | 0.000 | 0.975 | 0.991 |
Probabilidad Eucariotes (Análisis Disc. Stepwise) | 0.999 | 0.001 | 0.000 | 0.998 | 1.000 |
Probabilidad Eucariotes (Análisis CHAID) | 0.984 | 0.005 | 0.000 | 0.975 | 0.994 |
Probabilidad Eucariotes (Análisis Discriminante) | 0.999 | 0.001 | 0.000 | 0.997 | 1.000 |
Figura 3.2.2.1.2Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.
Tabla 3.2.2.1.5 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. Discriminante Stepwise | ||||||
| 70 % base de datos extendida | |||||
Org. | Archaea | Bacteria | Eucariotes | Razón de TP | Razón TN | Precisión |
Archaea | 93.2 | 6.8 | 0.0 | 93.2 | 94.0 | 92.6 |
Bacteria | 8.2 | 90.3 | 1.5 | 90.3 | 95.4 | 90.3 |
Eucariotes | 0.0 | 2.3 | 97.7 | 97.7 | 91.8 | 98.5 |
| Validación cruzada | |||||
Archaea | 92.6 | 7.4 | 0.0 | 92.6 | 92.5 | 91.3 |
Bacteria | 9.7 | 88.8 | 1.5 | 88.8 | 94.3 | 88.1 |
Eucariotes | 0.0 | 3.8 | 96.2 | 96.2 | 90.8 | 98.4 |
| Validación externa | |||||
Archaea | 88.5 | 11.5 | 0.0 | 88.5 | 92.5 | 93.9 |
Bacteria | 4.5 | 92.4 | 3.0 | 92.4 | 90.8 | 84.7 |
Eucariotes | 0.0 | 7.4 | 92.6 | 92.6 | 90.7 | 96.9 |
Predicciones de los miembros del Grupo con Anl. Discriminante (todas) | ||||||
| 70 % base de datos extendida | |||||
Archaea | 91.9 | 8.1 | 0.0 | 91.9 | 94.4 | 93.2 |
Bacteria | 7.5 | 91.0 | 1.5 | 91.0 | 94.6 | 89.1 |
Eucariotes | 0.0 | 2.3 | 97.7 | 97.7 | 91.5 | 98.5 |
| Validación cruzada | |||||
Archaea | 91.9 | 8.1 | 0.0 | 91.9 | 92.5 | 92.5 |
Bacteria | 8.2 | 90.3 | 1.5 | 90.3 | 93.2 | 86.4 |
Eucariotes | 0.0 | 5.3 | 94.7 | 94.7 | 91.1 | 98.4 |
| Validación externa | |||||
Archaea | 90.4 | 9.6 | 0.0 | 90.4 | 91.8 | 92.2 |
Bacteria | 6.1 | 90.9 | 3.0 | 90.9 | 91.7 | 85.7 |
Eucariotes | 0.0 | 7.4 | 92.6 | 92.6 | 90.7 | 96.9 |
| Predicciones de los miembros del Grupo con CHAID | |||||
| 70 % base de datos extendida | |||||
Archaea | 95.3 | 4.7 | 0.0 | 95.3 | 95.5 | 99.3 |
Bacteria | 0.7 | 95.5 | 3.7 | 95.5 | 95.4 | 90.8 |
Eucariotes | 0.0 | 4.5 | 95.5 | 95.5 | 95.4 | 96.2 |
| Validación externa | |||||
Archaea | 47.0 | 4.0 | 1.0 | 90.4 | 91.8 | 100.0 |
Bacteria | 0.0 | 62.0 | 4.0 | 93.9 | 90.0 | 84.9 |
Eucariotes | 0.0 | 7.0 | 61.0 | 89.7 | 92.4 | 92.4 |
1.7.3. Aminoácidos asociados con la clasificación taxonómica en archaeabacterias y bacterias.
En un primer análisis se utilizó la técnica del CHAID con validación cruzada en la base de datos curada. El método CHAID construye, por defecto, el árbol de la variable con mayor significación estadística. Para esta base el aminoácido de mayor significación es la Alanina, cuyo árbol se muestra en la Figura 3.2.3.1. En la tabla de clasificación correspondiente se aprecia que para las bacterias se alcanza un 100% de clasificación, mientras que en la clasificación total se logra un 96% (Tabla 3.2.3.1). No obstante, en la Tabla 3.2.3.2 se puede ver que todos los aminoácidos están fuertemente asociados con la clasificación taxonómica biológica y que el aminoácido con mayor significación estadística no es el que causa el mejor porciento de clasificación.
Figura 3.2.3.1 Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaea y bacterias.
Tabla 3.2.3.1. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.
Tabla 3.2.3.2. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Serina | 0.043322937 | 99 |
Glicina | 0.042580131 | 96 |
Fenilalanina | 0.005793191 | 100 |
Valina | 0.002078548 | 97 |
Cisteína | 0.001020605 | 96 |
Prolina | 0.000393157 | 98 |
Treonina | 0.000319579 | 97 |
Glutamina | 0.000292468 | 97 |
Tirosina | 0.000151604 | 93 |
Metionina | 2.52667E-08 | 94 |
Leucina | 9.64362E-10 | 93 |
Arginina | 4.37685E-10 | 92 |
Triptófano | 2.64469E-13 | 96 |
Ácido Glutámico | 1.63794E-14 | 93 |
Histidina | 1.4771E-14 | 97 |
Isoleucina | 5.9E-15 | 95 |
Ácido Aspártico | 7.09697E-19 | 96 |
Lisina | 6.90823E-20 | 96 |
Asparagina | 6.90823E-20 | 97 |
Alanina | 1.28E-24 | 96 |
aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5
En la Figura.3.2.3.2 se muestra el árbol de decisión obtenido por método CHAID en la base de datos curada forzando la entrada del aminoácido Fenilalanina, mientras que en la Tabla 3.2.3.3 se muestra los porcientos de clasificación. Los resultados muestran que forzando la entrada del aminoácido Fenilalanina produce una separación definitiva de las archaeas y bacterias. Notemos que, para este aminoácido se obtiene el 100 % de clasificación, aunque está lejos de tener una buena significación estadística (si lo comparamos con el resto de los aminoácidos).
Figura 3.2.3.2.A. Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaea y bacterias, forzando la Fenilalanina.
Figura 3.2.3.2.B. Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaea y bacterias, forzando la Fenilalanina.
Tabla 3.2.3.3. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada, forzando la Fenilalanina.
Tabla 3.2.3.4. Clasificación obtenida con método CHAID en la nueva base de datos extendida tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.
Hasta este punto, se ha verificado que es posible diferenciar los reinos de bacterias y archaeas utilizando bases de secuencias en las que se ha reducido el número de secuencias que comparten características comunes a ambas taxa y expresan, en mayor medidad, la variabilidad propia de cada taxa. Sin embargo, por construcción, la base curada no contiene la variabilidad necesaria, en las secuencias de proteínas que la conforman, para ser útil como base de entrenamiento que permita obtener un clasificador capáz de alcanzar un buen desempeño ante una base externa con alta variabilidad de secuencias. Estos hechos evidencian que si se desea clasificar secuencias de proteínas con mayor variabilidad en las distribuciones de aminoácidos correspondientes, es necesario extender la base curada con secuencias que compartan características estadísticas comunes a ambos taxa. En la Tabla 3.2.3.4 se muestra el resultado del análisis con el CHAID de la base extendida formada por 200 vectores de cada taxa. En la base de entrenamiento (70% de la base) se alcanzó el 98% de clasificación total, mientras que en la validación externa el 99% (30% de la base).
1.7.3.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores.
El análisis de discriminante realizado en esta taxa muestra que todos los aminoácidos están asociados con la clasificación de los vectores NECk. En la Tabla 3.2.3.1.1 se puede ver que, incluso aquellos que no están presentes en uno de los dos métodos Tabla 3.2.3.1.2, o en ambos, como es el caso de la Tirosina poseen correlaciones mayores que algunos de los incluidos.
En la Tabla 3.2.3.1.3 se puede apreciar que los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares. La eficacia de las funciones discriminantes en la separación de los casos en grupos, se expresa a través de los valores de las correlaciones canónicas.
Para evaluar el desempeño del CHAID y el Discriminante usamos las curvas ROC obtenidas (Figura 3.2.3.1.1) y en la Tabla 3.2.3.1.4, tenemos los valores de las áreas bajo la curva, estos elementos muestran que no hay diferencias significativas entre los dos métodos. Al utilizar los parámetros derivados de la matríz de confusión, nos sugieren que las diferencias entre los clasificadores son mínimas. En la Tabla 3.2.3.1.5 se muestran los valores de los parámetros mencionados.
Tabla 3.2.3.1.1. Correlaciones de las variables discriminantes con las funciones discriminantes canónicas.
Aminoácido | Función Discriminante |
Glutamina | 0.55 |
Isoleucina a | -0.45 |
Arginina | 0.428 |
Lisina | -0.403 |
Tirosina a | -0.367 |
Alanina | 0.357 |
Prolina | 0.318 |
Asparagina | -0.311 |
Serina | -0.246 |
Fenilalanina a | -0.202 |
Histidina a | 0.138 |
Cisteína a | -0.118 |
Leucina | 0.104 |
Ácido Aspártico | 0.087 |
Valina | 0.067 |
Treonina | 0.045 |
Triptófano a | 0.039 |
Ácido Glutámico a | -0.029 |
Metionina | -0.025 |
Glicina | 0.009 |
Tabla 3.2.3.1.2. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.
Aminoácidos | Función discriminante | |
Todas | Stepwise | |
Alanina | 0.86593423 | 0.8051423 |
Cisteína | 0.56531521 | – |
Ácido Aspártico | 0.82557749 | 0.71594929 |
Ácido Glutámico | 0.33801189 | – |
Fenilalanina | 0.10955719 | – |
Glicina | 0.55514944 | 0.64425764 |
Histidina | 0.26960293 | – |
Isoleucina | 0.26424837 | – |
Lisina | 1.55534119 | 1.54844199 |
Leucina | 1.85565316 | 1.99078812 |
Metionina | 2.25971271 | 2.38887696 |
Asparagina | 2.20713337 | 2.33146195 |
Prolina | 2.27098881 | 2.46609259 |
Glutamina | 2.69197518 | 2.63442816 |
Arginina | 1.15922745 | 1.12068112 |
Serina | 0.47466926 | 0.50092619 |
Treonina | 2.20243491 | 2.44662457 |
Valina | 1.10444373 | 1.04160686 |
Triptófano | 0.05608013 | – |
(Constant) | 59.0681373 | 61.4489587 |
Tabla 3.2.3.1.3. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 3.789 | 100 | 100 | 0.889 | 1 | 0.209 | 448.777 | 13 | 0.000 |
Todas las variables | |||||||||
1 | 3.886 | 100 | 100 | 0.892 | 1 | 0.205 | 449.715 | 19 | 0.000 |
Tabla 3.2.3.1.4. Resultado del área bajo la curva en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza asintótico para el 95% | |
Límite inferior | Límite superior | ||||
Probabilidad Bacteria (Análisis Disc. Stepwise) | 0.995 | 0.002 | 0.000 | 0.991 | 0.999 |
Probabilidad Bacteria (Análisis CHAID) | 0.996 | 0.002 | 0.000 | 0.992 | 1.000 |
Probabilidad Bacteria (Análisis Discriminante) | 0.996 | 0.002 | 0.000 | 0.992 | 1.000 |
Figura 3.2.3.1.1Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID para bacterias.
Tabla 3.2.3.1.5 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw). |
|
|
| ||||
|
| Grupos | Razón de TP | Razón de TN | Prec. | Exac. | % de Clasf. |
70 % base de datos extendida | Archaea | 99.3 | 93.2 | 93.7 | 96.3 | 99.3 | |
|
| Bacteria | 93.2 | 99.3 | 99.3 | 96.3 | 93.2 |
Validación cruzada | Archaea | 99.3 | 91.1 | 91.9 | 95.3 | 99.3 | |
|
| Bacteria | 91.1 | 99.3 | 99.3 | 95.3 | 91.1 |
Validación externa | Archaea | 96.1 | 98.1 | 98.0 | 97.1 | 96.1 | |
|
| Bacteria | 98.1 | 96.1 | 96.4 | 97.1 | 98.1 |
Predicciones de los miembros del Grupo con Anl. Discriminante (Todas). |
|
|
| ||||
70 % base de datos extendida | Archaea | 100.0 | 93.8 | 94.3 | 96.9 | 100.0 | |
|
| Bacteria | 93.8 | 100.0 | 100.0 | 96.9 | 93.8 |
Validación cruzada | Archaea | 99.3 | 90.4 | 91.4 | 94.9 | 99.3 | |
|
| Bacteria | 90.4 | 99.3 | 99.2 | 94.9 | 90.4 |
Validación externa | Archaea | 98.0 | 98.1 | 98.0 | 98.1 | 98.0 | |
|
| Bacteria | 98.1 | 98.0 | 98.1 | 98.1 | 98.1 |
Predicciones de los miembros del Grupo con CHAID |
|
|
|
| |||
70 % base de datos extendida | Archaea | 99.3 | 96.6 | 96.7 | 98.0 | 99.3 | |
|
| Bacteria | 96.6 | 99.3 | 99.3 | 98.0 | 96.6 |
Validación externa | Archaea | 100.0 | 98.1 | 98.1 | 99.0 | 100.0 | |
|
| Bacteria | 98.1 | 100.0 | 100.0 | 99.0 | 98.1 |
1.7.4. Aminoácidos asociados con la clasificación taxonómica en vertebrados e invertebrados.
Cuando se aplica la técnica CHAID a la base curada con una validación cruzada se tienen los datos de la Tabla 3.2.4.1, donde podemos observar la correlación de los aminoácidos exceptuado la Cisteína la que tiene una significación mayor que 0.05, tenemos aquí el mejor porciento de clasificación presente en la Leucina, Tabla 3.2.4.2 y el que mejor significación presenta Ácido Aspártico, por lo que aparece en el nodo principal del árbol, Figura 3.2.4.1, donde además aparecen en nodos secundarios la Isolecina, Ácido Glutámico y Triptófano aminoácidos con buena significación y buen porciento de clasificación. En la base de datos extendida con una validación del 70% de la muestra los resultados no son aceptables Tabla 3.2.4.3, pero fueron usados para la comparación con otro clasificador.
Tabla 3.2.4.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Histidina | 0.000313443 | 96,7 |
Tirosina | 4.26129E-05 | 94 |
Glutamina | 4.56215E-06 | 96 |
Fenilalanina | 7.25884E-07 | 97 |
Serina | 1.23944E-07 | 93,7 |
Alanina | 2.88E-08 | 94,7 |
Glicina | 2.22134E-09 | 96 |
Valina | 1.14447E-09 | 96,3 |
Isoleucina | 9.30623E-10 | 95 |
Página anterior | Volver al principio del trabajo | Página siguiente |