Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 7)
Enviado por María Milena Rodríguez Fernández
Ácido Glutámico | 5.42E-24 | 96 |
Fenilalanina | 5.41845E-24 | 95 |
Isoleucina | 5.41845E-24 | 96 |
Alanina | 1.28041E-24 | 96 |
Glutamina | 4.21E-25 | 97 |
Lisina | 1.33286E-26 | 96 |
aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.
Tabla 3.3.3.2. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.
Figura 3.3.3.1 Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaeas y bacterias.
Tabla 3.3.3.3. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.
1.8.3.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores.
Con el análisis de discriminante realizado en esta taxa en la Tabla 3.3.3.1.1 se puede ver que, el aminoácido tirosina es el único que no aparece en el método cuando entran todas las variables, que superan el test de tolerancia, mientras que cuando se ejecuta el método con la variante Stepwise solo intervienen seis aminoácidos.
Mientras, en la Tabla 3.3.3.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares.
Los resultados de clasificación global no son estadísticamente diferentes para los métodos de obtención de las funciones discriminantes y para el método CHAID. Este hecho se ilustra en las curvas ROC obtenidas (Figura 3.3.3.1.1) y en la Tabla 3.3.3.1.3, en la que se muestra los indicadores de las áreas bajo la curva ROC. Al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, observamos que las diferencias no son significativas. En la Tabla 3.3.3.1.4 se muestran los valores de los parámetros mencionados.
Tabla 3.3.3.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.
Aminoácidos | Función discriminante | |
| Todas | Stepwise |
Alanina | 4.62486353 | – |
Cisteína | 3.40866802 | – |
Ácido Aspártico | 4.35329008 | – |
Ácido Glutámico | 3.01312637 | 0.87285347 |
Fenilalanina | 4.69645842 | – |
Glicina | 4.75110106 | – |
Histidina | 8.76823771 | 2.83974481 |
Isoleucina | 4.40842095 | – |
Lisina | 3.10784031 | 0.95375833 |
Leucina | 3.62521345 | – |
Metionina | 3.67463302 | – |
Asparagina | 6.09094983 | 2.73620833 |
Prolina | 2.35739495 | – |
Glutamina | 6.27960072 | 2.3650078 |
Arginina | 3.79944512 | – |
Serina | 4.48932266 | – |
Treonina | 4.5272397 | – |
Valina | 3.02606723 | – |
Tirosina | – | 3.71432475 |
Triptófano | 2.84141122 | – |
(Constant) | 242.335636 | 1.59086365 |
Tabla 3.3.3.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 25.143 | 100 | 100 | 0.981 | 1 | 0.038 | 231.714 | 6 | 0.000 |
Todas las variables | |||||||||
1 | 32.793 | 100 | 100 | 0.985 | 1 | 0.030 | 227.057 | 19 | 0.000 |
Tabla 3.3.3.1.3. Resultado del área bajo la curva en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza asintótico para el 95% | |
Límite inferior | Límite superior | ||||
Probabilidad Bacteria (Análisis Disc. Stepwise) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Bacteria (Análisis CHAID) | 0.970 | 0.020 | 0.000 | 0.931 | 1.000 |
Probabilidad Bacteria (Análisis Discriminante) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Figura 3.3.3.1.1 Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.
Tabla 3.3.3.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw). |
| ||||||
|
| Grupos | Razón de TP | Razón de TN | Prec. | Exac. | % de Clasf. |
70 % base de datos extendida | Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
|
| Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Validación cruzada | Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
|
| Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Validación externa | Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
|
| Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Predicciones de los miembros del Grupo con Anl. Discriminante (Todas). | |||||||
70 % base de datos extendida |
| Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
|
| Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Validación cruzada | Archaea | 100.0 | 97.3 | 97.5 | 98.7 | 100.0 | |
|
| Bacteria | 97.3 | 100.0 | 100.0 | 98.7 | 97.3 |
Validación externa | Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
|
| Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Predicciones de los miembros del Grupo con CHAID |
|
|
| ||||
70 % base de datos extendida |
| Archaea | 100.0 | 94.6 | 95.1 | 97.4 | 100.0 |
|
| Bacteria | 94.6 | 100.0 | 100.0 | 97.4 | 94.6 |
Validación externa | Archaea | 100.0 | 92.3 | 91.7 | 95.8 | 100.0 | |
|
| Bacteria | 92.3 | 100.0 | 100.0 | 95.8 | 92.3 |
1.8.4. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en vertebrados e invertebrados.
El análisis realizado en esta taxa nos proporcionó los datos que aparecen la Tabla 3.3.4.1, donde podemos ver que el aminoácido Asparagina que alcanza mayor porciento de clasificación con validación cruzada. Mientras la Leucina es la de mayor significación aplicando este mismo método.
Tabla 3.3.4.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Glicina | 0.048974524 | 91,3 |
Ácido Glutámico | 0.00427 | 92 |
Valina | 0.001548906 | 89 |
Metionina | 0.00087178 | 91,7 |
Fenilalanina | 6.84314E-05 | 92,7 |
Lisina | 6.33727E-05 | 91,7 |
Prolina | 1.14097E-05 | 90,7 |
Arginina | 9.60722E-06 | 90,7 |
Alanina | 6.9889E-06 | 90,7 |
Histidina | 4.03007E-06 | 90,7 |
Isoleucina | 2.63794E-06 | 93 |
Treonina | 9.61E-07 | 90,7 |
Cisteína | 2.88813E-08 | 91 |
Glutamina | 1.47E-09 | 94 |
Tirosina | 9.34572E-10 | 92,3 |
Serina | 1.80376E-10 | 93 |
Triptófano | 7.40E-11 | 90,3 |
Ácido Aspártico | 2.5637E-21 | 92,7 |
Asparagina | 2.12837E-31 | 94,7 |
Leucina | 5.6054E-32 | 92,3 |
aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.
Tabla 3.3.4.2. Clasificación obtenida con método CHAID en la bases de datos curada con
validación cruzada.
Tabla 3.3.4.3. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.
1.8.4.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores.
Con el análisis de discriminante realizado se obtinen los resultados que aparecen en la Tabla 3.3.4.1.1 donde se presentan las funciones discriminantes obtenidas por el método Stepwise minimizando la Lambda de Wilk y sin aplicar este método considerando que entren todas las que superen el test de tolerancia, en este caso como podemos observar solo una la tirosina no entra, mientra en el método de Stepwise solo participan 7 aminoácidos.
Mientras, en la Tabla 3.3.4.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares.
El hecho de que no haya diferencias estadísticamente detectables en los metodos de Discriminante y CHAID se ilustra en las curvas ROC obtenidas (Figura 3.3.4.1.1) y en la Tabla 3.3.4.1.3, donde aparecen los parámetros que describen las áreas bajo la curva ROC. Sin embargo, al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren que existen algunas diferencias entre los clasificadores. En la Tabla 3.3.4.1.4 se muestran los valores de los parámetros mencionados.
Tabla 3.3.4.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.
Aminoácidos | Función discriminante | |
| Todas | Stepwise |
Alanina | -1.153408 | 1.3635172 |
Cisteína | 0.6291342 | – |
Ácido Aspártico | -1.283027 | 1.3734601 |
Ácido Glutámico | 1.3230351 | -0.501296 |
Fenilalanina | 0.4843401 | – |
Glicina | -0.091928 | – |
Histidina | 0.8533897 | – |
Isoleucina | 0.1842257 | – |
Lisina | 0.11743 | – |
Leucina | 1.0027172 | -0.790415 |
Metionina | -2.053798 | 2.2627063 |
Asparagina | -1.582589 | 1.9864618 |
Prolina | 0.7630663 | – |
Glutamina | -0.440902 | – |
Arginina | 0.1671537 | – |
Serina | 0.69771 | -0.447447 |
Treonina | -0.036089 | – |
Valina | 0.6549796 | – |
Tirosina | – | – |
Triptófano | 0.1301897 | – |
(Constant) | -6.046161 | -10.44801 |
Tabla 3.3.4.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 3.364 | 100 | 100 | 0.878 | 1 | 0.229 | 209.965 | 7 | 0.000 |
Todas las variables | |||||||||
1 | 3.841 | 100 | 100 | 0.891 | 1 | 0.207 | 215.275 | 19 | 0.000 |
Tabla 3.3.4.1.3. Resultado del área bajo la curva en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza asintótico para el 95% | |
Límite inferior | Límite superior | ||||
Probabilidad Vertebrados (Análisis Disc. Stepwise) | 0.996 | 0.002 | 0.000 | 0.991 | 1.000 |
Probabilidad Vertebrados (Análisis CHAID) | 0.945 | 0.017 | 0.000 | 0.912 | 0.978 |
Probabilidad Vertebrados (Análisis Disc. Todas) | 0.990 | 0.007 | 0.000 | 0.977 | 1.000 |
Figura 3.3.4.1.1 Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.
Tabla 3.3.4.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw). |
| ||||||
|
| Grupos | Razón de TP | Razón de TN | Prec. | Exac. | % de Clasf. |
70 % base de datos extendida | Vert | 94.4 | 97.4 | 97.1 | 95.9 | 94.4 | |
|
| Invert | 97.4 | 94.4 | 94.9 | 95.9 | 97.4 |
Validación cruzada | Vert | 93.1 | 96.1 | 95.7 | 94.6 | 93.1 | |
|
| Invert | 96.1 | 93.1 | 93.6 | 94.6 | 96.1 |
Validación externa | Vert | 96.4 | 95.8 | 96.4 | 96.2 | 96.4 | |
|
| Invert | 95.8 | 96.4 | 95.8 | 96.2 | 95.8 |
Predicciones de los miembros del Grupo con Anl. Discriminante (Todas). |
| ||||||
70 % base de datos extendida | Vert | 95.8 | 97.4 | 97.2 | 96.6 | 95.8 | |
|
| Invert | 97.4 | 95.8 | 96.1 | 96.6 | 97.4 |
Validación cruzada | Vert | 95.8 | 96.1 | 95.8 | 95.9 | 95.8 | |
|
| Invert | 96.1 | 95.8 | 96.1 | 95.9 | 96.1 |
Validación externa | Vert | 92.9 | 95.8 | 96.3 | 94.2 | 92.9 | |
|
| Invert | 95.8 | 92.9 | 92.0 | 94.2 | 95.8 |
Predicciones de los miembros del Grupo con CHAID |
|
|
| ||||
70 % base de datos extendida | Vert | 90.3 | 93.4 | 92.9 | 91.9 | 90.3 | |
|
| Invert | 93.4 | 90.3 | 91.0 | 91.9 | 93.4 |
Validación externa | Vert | 75.0 | 83.3 | 84.0 | 78.8 | 75.0 | |
|
| Invert | 83.3 | 75.0 | 74.1 | 78.8 | 83.3 |
1.8.5. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en vertebrados no mamíferos y mamíferos.
Cuando se aplica la técnica CHAID a vectores que expresan probabilidad de frecuencia en el uso de codones en estos dos grupos de organismos tan cercanos en los aspectos que los caracterizan desde el punto de vista evolutivo, los resultados obtenidos de la base de datos curada con una validación cruzada, Tabla 3.3.5.1, muestran que al igual que para las secuencias de aminoácidos la Metionina es la que mejor significación tiene, mientras que la Leucina es la de mayor porciento de clasificación. Podemos señalar que en este caso dos aminoácidos no alcanzan valores menores que 0.05 en su significación ellos son la Fenilalanina y el Ácido Glutámico. En la tabla 3.3.5.2, se observan los porcientos que se obtienen al realizar una validación del 70% de la base curada como entrenamiento con una validación externa con el resto de la base.
Tabla 3.3.5.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.
AA | Sig.a | %clasificación |
Glutamina | 3.2514E-05 | 88,5 |
Valina | 6.6791E-06 | 88,5 |
Cisteína | 0.000192 | 87 |
Treonina | 6.7907E-06 | 90 |
Tirosina | 0.002 | 87,5 |
Prolina | 0.004356 | 87 |
Histidina | 0.000184 | 89 |
Isoleucina | 0.031889439 | 88,5 |
Arginina | 0.003529707 | 90 |
Lisina | 0.001127208 | 91,5 |
Glicina | 0.000644454 | 89 |
Ácido Aspártico | 2.9716E-05 | 91 |
Triptófano | 3.39E-06 | 89 |
Leucina | 1.36446E-08 | 93,5 |
Asparagina | 1.33436E-08 | 91 |
Serina | 4.77861E-09 | 90 |
Alanina | 1.76108E-10 | 90 |
Metionina | 6.9716E-11 | 90,5 |
aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.
Tabla 3.3.5.2. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.
1.8.5.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores.
El análisis de discriminante realizado en esta taxa, Tabla 3.3.5.1.1, donde se describen las funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise, para el cual solo intervienen 8 aminoácidos. Se pude señalar en el caso del aminoácido Tirosina no aparece en ninguno de los dos métodos aplicados.
En la Tabla 3.3.5.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares.
En las curvas ROC obtenidas (Figura 3.3.5.1.1), que el análisis Discriminante realizado es superior en sus dos variantes al CHAID y en la Tabla 3.3.5.1.3, en la que se muestra que los intervalos de confianza asimtóticos para 95% de confianza de las áreas bajo la curva ROC también se observan que los mejores indicadores se refieren a la técnica Discriminante. Al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren los mismos criterios que nos bridan las curvas ROC de los clasificadores. En la Tabla 3.3.5.1.4 se muestran los valores de los parámetros mencionados.
Tabla 3.3.5.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.
Aminoácidos | Función discriminante | |
Todas | Stepwise | |
Alanina | 0.2269488 | 0.8519413 |
Cisteína | 0.9328881 | – |
Ácido Aspártico | 1.8950519 | -0.852225 |
Ácido Glutámico | 0.7074865 | – |
Fenilalanina | 1.5171704 | – |
Glicina | 0.6465456 | – |
Histidina | 1.2819573 | – |
Isoleucina | 0.077029 | 0.5565968 |
Lisina | 0.7912264 | – |
Leucina | -0.291125 | 1.0783397 |
Metionina | 3.6952632 | -2.950158 |
Asparagina | 1.6428562 | – |
Prolina | -0.516774 | 1.4921253 |
Glutamina | 0.7912194 | – |
Arginina | 1.2166805 | – |
Serina | 1.6386476 | -1.005287 |
Treonina | 0.70664 | – |
Valina | 0.852321 | – |
Tirosina | – | – |
Triptófano | -0.898853 | 1.6170774 |
(Constant) | -47.3287 | -5.956623 |
Tabla 3.3.5.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 2.199 | 100 | 100 | 0.829 | 1 | 0.313 | 162.796 | 8 | 0.000 |
Todas las variables | |||||||||
1 | 2.411 | 100 | 100 | 0.841 | 1 | 0.293 | 165.020 | 19 | 0.000 |
Tabla 3.3.5.1.3. Resultado del área bajo la curva en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza asintótico para el 95% | |
Límite inferior | Límite superior | ||||
Probabilidad Mamifero (Análisis CHAID) | 0.949 | 0.017 | 0.000 | 0.915 | 0.982 |
Probabilidad Mamifero (Análisis Disc. Todas) | 0.989 | 0.005 | 0.000 | 0.978 | 0.999 |
Probabilidad Mamifero (Análisis Disc. Stepwise) | 0.985 | 0.007 | 0.000 | 0.970 | 0.999 |
Figura 3.3.5.1.1 Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.
Tabla 3.3.5.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw). |
|
| |||||
|
| Grupos | Razón de TP | Razón de TN | Prec. | Exac. | % de Clasf. |
70 % base de datos extendida | Vert No Mamif | 91.7 | 94.6 | 94.3 | 93.2 | 91.7 | |
|
| Mamiferos | 94.6 | 91.7 | 92.1 | 93.2 | 94.6 |
Validación cruzada | Vert No Mamif | 90.3 | 94.6 | 94.2 | 92.5 | 90.3 |
Página anterior | Volver al principio del trabajo | Página siguiente |