Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 6)
Enviado por María Milena Rodríguez Fernández
Cisteína | -0.112406 |
Isoleucina | -0.097109 |
Arginina | 0.0765084 |
Alanina | -0.072726 |
Serina | -0.07265 |
Fenilalanina | -0.069234 |
Metionina | -0.061917 |
Glutamina | 0.0590462 |
Asparagina | 0.0554707 |
Tabla 3.2.6.1.2. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.
Aminoácidos | Función discriminante | |
| Todas | Stepwise |
Alanina | -0.120741 | – |
Cisteína | -0.112789 | – |
Ácido Aspártico | 1.2602754 | 1.3495373 |
Ácido Glutámico | 1.6410213 | 1.3228442 |
Fenilalanina | 1.0233814 | 1.0276529 |
Glicina | 0.9222785 | 1.1378398 |
Histidina | 1.8013634 | 2.0428226 |
Isoleucina | 0.2280033 | – |
Lisina | 0.8002481 | 1.1375742 |
Leucina | -0.844817 | -0.747004 |
Metionina | 2.740958 | 3.3493038 |
Asparagina | -0.54982 | – |
Prolina | 2.0142909 | 3.3493038 |
Glutamina | -0.023842 | – |
Arginina | -0.991585 | – |
Serina | 0.1109863 | – |
Treonina | -0.717032 | – |
Valina | 0.2848558 | – |
Triptófano | -2.760603 | -3.129541 |
(Constant) | -18.40188 | -26.26685 |
Tabla 3.2.6.1.3. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise |
|
|
|
|
|
|
|
|
|
1 | 6.352 | 100 | 100 | 0.930 | 1 | 0.136 | 191.516 | 10 | 0.00 |
Todas las variables |
|
|
|
|
|
|
|
| |
1 | 6.942 | 100 | 100 | 0.935 | 1 | 0.126 | 189.601 | 19 | 0.00 |
Tabla 3.2.6.1.4. Resultado del área bajo la curva en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza asintótico para el 95% | |
|
|
|
| Límite inferior | Límite superior |
Probabilidad Homo Sapiens (Análisis Disc. Stepwise) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Homo Sapiens (Análisis CHAID) | 0.949 | 0.020 | 0.000 | 0.911 | 0.988 |
Probabilidad Homo Sapiens (Análisis Discriminante) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Figura 3.2.6.1.1Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID para Homo Sapiens.
Tabla 3.2.6.1.5 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw). |
|
|
| |||||
|
| Grupos | Razón de TP | Razón TN | Prec. | Exac. | % de Clasf. | |
70 % base de datos extendida | Primates | 98.2 | 100.0 | 100.0 | 99.0 | 98.2 | ||
|
| HomoS | 100.0 | 98.2 | 97.9 | 99.0 | 100.0 | |
Validación cruzada | Primates | 98.2 | 100.0 | 100.0 | 99.0 | 98.2 | ||
|
| HomoS | 100.0 | 98.2 | 97.9 | 99.0 | 100.0 | |
Validación externa | Primates | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | ||
|
| HomoS | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
Predicciones de los miembros del Grupo con Anl. Discriminante (Todas). |
|
| ||||||
70 % base de datos extendida | Primates | 98.2 | 100.0 | 100.0 | 99.0 | 98.2 | ||
|
| HomoS | 100.0 | 98.2 | 97.9 | 99.0 | 100.0 | |
Validación cruzada | Primates | 96.4 | 97.9 | 98.2 | 97.1 | 96.4 | ||
|
| HomoS | 97.9 | 96.4 | 95.8 | 97.1 | 97.9 | |
Validación externa | Primates | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | ||
|
| HomoS | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
Predicciones de los miembros del Grupo con CHAID |
|
|
|
| ||||
70 % base de datos extendida | Primate | 96.4 | 89.4 | 91.5 | 93.2 | 96.4 | ||
|
| HomoS | 89.4 | 95.5 | 95.5 | 93.2 | 89.4 | |
Validación externa | Primate | 92.9 | 65.2 | 61.9 | 75.7 | 92.9 | ||
|
| HomoS | 65.2 | 93.8 | 93.8 | 75.7 | 65.2 | |
1.8. Construcción de árboles de clasificación mediante el método CHAID atendiendo a las frecuencias del uso de codones de los aminoácidos en los genes.
Al pasar de una secuencia de codones a la correspondiente secuencia de aminoácidos se pierde información debido a la degeneración del código genético (ver sección 1.2). Por tal motivo, pudiera pensarse que ocurra un cambio en los vectores NECk tal que afecte la clasificación de los taxa. Luego, se hace necesaria la verificación de la hipótesis de investigación partiendo de secuencias de genes. En nuestro caso, como se explicó en el capítulo 2, se utilizó la información recopilada en la base de datos de uso de codones.
Los análisis se realizaron utilizando como entrenamiento el 70% de las bases de datos de los taxa construidas. Se realizó validación cruzada con la base de entrenamiento y una validación externa con el 30% restante.
1.8.1. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en organismos vivos.
En el análisis realizado con todos los taxa se obtienen bajos porcientos de clasificación. Sin embargo, al igual que el resultado obtenido con las bases de secuencias de proteínas, se verificó que todos los aminoácidos están asociados de manera altamente significativa con la clasificación biológica. En particular, los resultados obtenidos con CHAID se resumen en la Tabla 3.3.1.1, donde podemos observar que el aminoácido con mayor significación es el que produce mayor porciento de clasificación aunque no sea bueno, mientras con el análisis de Discriminante en las Tablas 3.3.1.2 y 3.3.1.3, por ejemplo la Tirosina, el cual no está incluído en las combinaciones lineales de las funciones discriminantes para el caso en que intervienen todos los aminoácidos si esta presente cuando se aplica el método de Stepwies, además presenta correlaciones altas con la funciones discriminantes.
Aunque, al igual que con la base de aminoácidos, los porcientos de clasificación correcta obtenidos con el análisis de Discriminante son mejores que con el método CHAID, los resultados sugieren que es posible alcanzar una mayor significación estadística en la diferenciación de los taxa si se analizan por separados grupos de taxa atendiendo a criterios de interés biológicos-evolutivos.
Tabla 3.3.1.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Fenilalanina | 1.11011E-19 | 62,9 |
Metionina | 4.56265E-29 | 63,6 |
Arginina | 5.26252E-30 | 64,2 |
Triptófano | 7.63E-36 | 66,9 |
Prolina | 7.93253E-41 | 67,8 |
Tirosina | 1.96584E-42 | 68 |
Leucina | 2.69777E-47 | 69,8 |
Ácido Glutámico | 1.27706E-48 | 66 |
Histidina | 1.83529E-49 | 67,3 |
Ácido Aspártico | 1.11934E-51 | 68,4 |
Glicina | 3.50217E-52 | 66,2 |
Lisina | 2.17215E-54 | 68,7 |
Asparagina | 3.46256E-61 | 67,3 |
Treonina | 2.64E-61 | 66,4 |
Isoleucina | 1.55462E-61 | 64 |
Cisteína | 4.30445E-70 | 66 |
Glutamina | 1.23215E-77 | 65,1 |
Valina | 1.52126E-78 | 70 |
Alanina | 4.39E-93 | 70,2 |
Serina | 3.2243E-101 | 72,4 |
aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.
Tabla 3.3.1.2. Correlaciones de las variables discriminantes con las funciones discriminantes canónicas.
Tabla 3.3.1.3. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método stepwise.
1.8.2. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en archaeabacterias, bacterias y eucariotes.
Usando el método CHAID en el caso de los tres reinos pero para el caso donde sean secuencias de uso de genes en una base de datos que muestra diversidad de organismos y tipos de proteinas presentes, se obtienen resultados excelentes desde el punto de vista de clasificación así como interacción entre aminoácidos lo cual se muestra en la Tabla 3.3.2.1, donde la Serina alcanza un 98,7 % de clasificación, Tabla 3.3.2.1, y siendo el que mayor significación posee, apareciendo en el nodo principal del árbol de la Figura3.3.2.1, donde aparecen en los nodos secundarios aminoácidos como la Lisina y el Triptófano que también presentan una buena significación.
Tabla 3.3.2.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Leucina | 1.03509E-09 | 98 |
Ácido Aspártico | 4.12693E-11 | 98 |
Metionina | 1.77809E-11 | 96,9 |
Fenilalanina | 6.98123E-13 | 97,3 |
Triptófano | 1.86E-14 | 98,2 |
Arginina | 7.5487E-18 | 96,7 |
Tirosina | 4.05541E-20 | 97,1 |
Prolina | 1.48704E-28 | 98,4 |
Asparagina | 7.28407E-29 | 98,4 |
Treonina | 5.98501E-39 | 97,6 |
Ácido Glutámico | 1.77E-40 | 97,3 |
Histidina | 1.61649E-46 | 97,6 |
Glicina | 8.24765E-48 | 96,2 |
Lisina | 2.03555E-51 | 98,2 |
Isoleucina | 3.92231E-57 | 98,9 |
Glutamina | 9.01E-59 | 98,4 |
Valina | 6.9077E-64 | 97,8 |
Cisteína | 5.6843E-64 | 97,1 |
Alanina | 7.97147E-66 | 97,1 |
Serina | 1.9151E-99 | 98,7 |
aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.
Tabla 3.3.2.2. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.
Figura 3.3.2.1 Árbol de aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaeas, bacterias y eucariote.
Tabla 3.3.2.3. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.
1.8.2.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores.
Con el análisis de discriminante realizado en esta taxa se comprueba que todos los aminoácidos están asociados con la clasificación de los vectores NECk en los tres reinos. En la Tabla 3.3.2.1.1 se puede ver que, el aminoácido Tirosina está incluído solo en las combinaciones lineales de las funciones discriminantes cuando se utiliza el método Stepwise. Mientras, en la Tabla 3.3.2.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares. En particular, para todas las funciones los valores de estos parámetros son altos, indicando el buen desempeño de las funciones discriminantes, que también se observa en el gráfico de dispersión que aparece en la Figura 3.3.2.1.1.
En la comparación de los clasificadores no hay diferencias en los indicadores este hecho se ilustra en las curvas ROC obtenidas (Figura 3.3.2.1.2) y en la Tabla 3.3.2.1.3, en la que se muestra que los intervalos de confianza asimtóticos para 95% de confianza de las áreas bajo la curva ROC. Cuando se utilizan los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren que las diferencias entre los clasificadores no son significativas. En la Tabla 3.3.2.1.4 se muestran los valores de los parámetros mencionados.
Tabla 3.3.2.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.
Aminoácido | Todas |
| Stepwise |
|
| Función discriminante | Función discriminante | ||
| 1 | 2 | 1 | 2 |
Alanina | 1.87522537 | 2.71219483 | – | – |
Cisteína | 2.35349121 | 1.18627654 | – | – |
Ácido Aspártico | 1.65542172 | 3.79086839 | 0.01505919 | 2.05921876 |
Ácido Glutámico | 0.87853914 | 1.21141879 | 0.76471639 | 1.39716935 |
Fenilalanina | 1.33390973 | 2.39542641 | – | – |
Glicina | 2.0104053 | 2.14675602 | – | – |
Histidina | 3.00759821 | 4.41305899 | – | – |
Isoleucina | 0.64295095 | 2.41513135 | 1.17796651 | 0.27728312 |
Lisina | 1.32325793 | 1.7472425 | 0.53833916 | 0.71379549 |
Leucina | 1.18522417 | 2.86236885 | 0.64675298 | 0.44148571 |
Metionina | 1.68716796 | 2.00676784 | – | – |
Asparagina | 1.301334 | 3.1603493 | – | – |
Prolina | 0.79049656 | 1.32850812 | 2.25283399 | 1.36749052 |
Glutamina | 2.81106128 | 3.52604836 | 1.10296299 | 1.15205197 |
Arginina | 0.66028745 | 1.79338244 | 0.82580626 | 0.59797662 |
Serina | 4.30810311 | 0.83123861 | 2.53607525 | 1.61273661 |
Treonina | 0.942135 | 3.88635571 | 1.02379164 | 1.61152628 |
Valina | 0.13613422 | 2.18525549 | 1.48574882 | 0.39439735 |
Tirosina | – | – | 2.25373227 | 2.07990895 |
Triptófano | 0.34218149 | 2.18638374 | – | – |
(Constante) | 78.0678216 | 141.079972 | 29.0273106 | 9.24919259 |
Tabla 3.3.2.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 36.883 | 73.164 | 73.164 | 0.987 | 1 a 2 | 0.002 | 634.217 | 24 | 0.000 |
2 | 13.529 | 26.836 | 100.000 | 0.965 | 2 | 0.069 | 268.950 | 11 | 0.000 |
Todas las variables | |||||||||
1 | 39.824 | 71.749 | 71.749 | 0.988 | 1 a 2 | 0.001 | 632.783 | 38 | 0.000 |
2 | 15.681 | 28.251 | 100.000 | 0.970 | 2 | 0.060 | 272.983 | 18 | 0.000 |
Tabla 3.3.2.1.3. Resultado del área bajo la curva en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza asintótico para el 95% | |
Límite inferior | Límite superior | ||||
Probabilidad Archaea (Análisis Disc. Stepwise) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Archaea (Análisis CHAID) | 0.997 | 0.002 | 0.000 | 0.993 | 1.000 |
Probabilidad Archaea (Análisis Disc. Todas) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Bacteria (Análisis Disc. Stepwise) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Bacteria (Análisis CHAID) | 0.997 | 0.002 | 0.000 | 0.993 | 1.000 |
Probabilidad Bacteria (Análisis Disc. Todas) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Eucariotes (Análisis Disc. Stepwise) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Eucariotes (Análisis CHAID) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Eucariotes (Análisis Disc. Todas) | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Figura 3.3.2.1.1 Gráfico de dispersión de la función Discriminante.
Figura 3.3.2.1.2Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.
Tabla 3.3.2.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. Discriminante Stepwise | |||||
70 % base de datos extendida |
|
|
| ||
Org. | Razón de TP | Razón de TN | Precisión | Exactitud | % Clasif. |
Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Eucariotes | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Validación cruzada |
|
|
|
| |
Archaea | 100.0 | 98.6 | 97.5 | 99.1 | 100.0 |
Bacteria | 97.3 | 100.0 | 100.0 | 99.1 | 97.3 |
Eucariotes | 100.0 | 98.7 | 100.0 | 99.1 | 100.0 |
Validación externa |
|
|
|
| |
Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Eucariotes | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Predicciones de los miembros del Grupo con Anl. Discriminante (todas) | |||||
70 % base de datos extendida |
|
|
| ||
Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Eucariotes | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Validación cruzada |
|
|
|
| |
Archaea | 100.0 | 98.6 | 97.5 | 99.1 | 100.0 |
Bacteria | 97.3 | 100.0 | 100.0 | 99.1 | 97.3 |
Eucariotes | 100.0 | 98.7 | 100.0 | 99.1 | 100.0 |
Validación externa |
|
|
|
| |
Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Eucariotes | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Predicciones de los miembros del Grupo con CHAID |
|
| |||
70 % base de datos extendida |
|
|
| ||
Archaea | 97.4 | 98.6 | 97.4 | 98.2 | 97.4 |
Bacteria | 97.3 | 98.6 | 97.3 | 98.2 | 97.3 |
Eucariotes | 100.0 | 97.4 | 100.0 | 98.2 | 100.0 |
Validación externa |
|
|
|
| |
Archaea | 90.9 | 100.0 | 100.0 | 97.6 | 90.9 |
Bacteria | 100.0 | 96.4 | 92.9 | 97.6 | 100.0 |
Eucariotes | 100.0 | 95.8 | 100.0 | 97.6 | 100.0 |
1.8.3. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en archaeabacterias y bacterias.
Con el método CHAID en estos dos reinos, se observa en la Tabla 3.3.3.1, que al igual que en la taxa anterior el aminoácido Serina tiene el mejor porciento de clasificación, mientras la mayor significación la posee la Lisina que también estaba presente en los aminoácidos de mayor significación en la taxa anterior, los porcientos de clasificación se pueden ver en la Tabla 3.3.3.2 y el árbol correspondiente es el que aparece en la Figura 3.3.3.1.
Tabla 3.3.3.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Asparagina | 0.01478413 | 96 |
Cisteína | 4.81751E-05 | 98 |
Leucina | 1.4552E-05 | 96 |
Valina | 1.26618E-06 | 95 |
Ácido Aspártico | 1.36782E-07 | 94 |
Metionina | 1.04092E-07 | 96 |
Arginina | 2.40979E-08 | 97 |
Serina | 1.04247E-08 | 98 |
Triptófano | 9.33E-13 | 94 |
Tirosina | 2.14801E-15 | 96 |
Glicina | 1.86287E-15 | 96 |
Prolina | 7.69908E-21 | 97 |
Histidina | 1.09352E-21 | 94 |
Treonina | 1.33227E-22 | 97 |
Página anterior | Volver al principio del trabajo | Página siguiente |