Descargar

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 5)


Partes: 1, 2, 3, 4, 5, 6, 7, 8

Metionina

2.24192E-15

95,7

Ácido Glutámico

6.51854E-18

96,3

Prolina

3.3356E-18

95

Lisina

1.04851E-26

95,7

Asparagina

6.24155E-27

97

Treonina

2.84273E-29

96,3

Leucina

1.56097E-35

98

Arginina

3.50044E-39

97,3

Triptófano

8.15877E-47

95,3

Ácido Aspártico

5.74625E-53

97

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.2.4.2. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.

Figura 3.2.4.1A. Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de vertebrados e invertebrados.

Figura 3.2.4.1.B Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de vertebrados e invertebrados.

Tabla 3.2.4.3. Clasificación obtenida con método CHAID en la nueva base de datos extendida tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

1.7.4.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

En esta taxa los resultados obtenidos con el CHAID, en la base extendida con una validación del 70% no fueron satisfactorios como fue discutido anteriormene. Con el método de Discriminante en la Tabla 3.2.4.1.1 se puede ver que en el caso del aminoácido Tirosina que no se incluye en el método Stepwise poseen correlación mayor que los demás incluídos, Tabla 3.2.4.1.2, el aminoácido Prolina que no se incluye para el caso donde se incluyen todos es el que presenta mayor valor de correlación.

Mientras, en la Tabla 3.2.4.1.3 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares.

Tabla 3.2.4.1.1. Correlaciones de las variables discriminantes con las funciones discriminantes canónicas.

Aminoácido

Función discriminante

Prolina a

-0.276

Tirosina

-0.197

Ácido Aspártico

0.193

Treonina a

-0.181

Asparagina

0.166

Valina

0.124

Arginina

0.118

Serina

-0.113

Triptófano a

-0.112

Glicina

0.106

Leucina a

-0.095

Fenilalanina

0.061

Glutamina a

-0.051

Cisteína a

-0.049

Lisina a

0.039

Histidina a

0.031

Metionina

-0.008

Isoleucina a

-0.006

Alanina

0.003

Ácido Glutámico

-0.002

Tabla 3.2.4.1.2. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

3.33494748

1.13469444

Cisteína

1.81042056

Ácido Aspártico

5.96872564

4.72640862

Ácido Glutámico

0.29380426

-1.42722167

Fenilalanina

3.34144515

1.54141778

Glicina

0.81918569

0.63452814

Histidina

0.95372764

Isoleucina

2.96069855

Lisina

1.74121503

Leucina

1.04259695

Metionina

5.07536269

3.45884755

Asparagina

3.99586851

2.83456292

Prolina

2.01832702

Glutamina

1.89329619

Arginina

4.79244112

2.67161885

Serina

3.28271896

1.41811029

Treonina

1.25945216

Valina

3.05596037

1.45824349

Tirosina

-2.0230344

Triptófano

2.51040997

(Constant)

148.707461

-44.24496

Los resultados de clasificación global para los métodos de obtención de las funciones discriminantes y para el método CHAID se observan en las curvas ROC obtenidas (Figura 3.2.4.1.1) y en la Tabla 3.2.4.1.4 de área bajo la curva donde la superioridad del Discriminante queda clara en los datos de intervalos de confianza asintóticos para 95%, quedando totalmente incluído el intervalo obtenido del CHAID en el obtenido del Discriminante.

Tabla 3.2.4.1.3. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

6.659

100

100

0.932

1

0.131

286.037

11

0.000

Todas las variables

1

7.146

100

100

0.937

1

0.123

286.316

19

0.000

Tabla 3.2.4.1.4. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Vertebrado (Análisis Disc. Stepwise)

1.000

0.001

0.000

0.998

1.000

Probabilidad Vertebrado (Análisis CHAID)

0.951

0.014

0.000

0.924

0.978

Probabilidad Vertebrado (Análisis Disc. Todas)

1.000

0.000

0.000

1.000

1.000

Figura 3.2.4.1.1Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID para vertebrados.

De los parámetros de la matriz de confusión Tabla 3.2.4.1.5, se muestra también que la diferencia rádica en el hecho que el método de Discriminante muestra valores superiores en todos los parámetros.

Tabla 3.2.4.1.5 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Vert

98.6

98.7

98.6

98.6

98.6

 

 

Invert

98.7

98.6

98.7

98.6

98.7

Validación  cruzada

Vert

98.6

98.7

98.6

98.6

98.6

 

 

Invert

98.7

98.6

98.7

98.6

98.7

Validación externa

Vert

100.0

95.8

96.6

63.8

100.0

 

 

Invert

95.8

100.0

45.1

63.8

95.8

Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).

 

 

70 % base de datos extendida

Vert

98.6

98.7

98.6

98.6

98.6

 

 

Invert

98.7

98.6

98.7

98.6

98.7

Validación  cruzada

Vert

97.2

98.7

98.6

98.0

97.2

 

 

Invert

98.7

97.2

97.4

98.0

98.7

Validación externa

Vert

100.0

100.0

100.0

100.0

100.0

 

 

Invert

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con CHAID

 

 

 

 

70 % base de datos extendida

Vert

88.9

88.2

87.7

88.5

88.9

 

 

Invert

88.2

88.9

89.3

88.5

88.2

Validación externa

Vert

78.6

70.8

75.9

75.0

78.6

 

 

Invert

70.8

78.6

73.9

75.0

70.8

1.7.5.  Aminoácidos asociados con la clasificación taxonómica en vertebrados no mamíferos y mamíferos.

El interés biológico en el estudio de esta taxa esta dado por el hecho que ella representa a dos grupos de organismos que durante el proceso evolutivo ocurre su separación en un determinado momento por lo que sugiere que compartan un número importante de caracteres y que para su diferenciación sea importante contar con otro criterio como el que nos proponemos verificar en esta sección con las pruebas estadísticas realizadas. Cuando se aplica la técnica CHAID, Tabla 3.2.5.1 podemos observar que el aminoácido que tiene mejor porciento de clasificación es aquel que mayor signifcación posee, la Metionina.

Tabla 3.2.5.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Glicina

0.031889439

88

Serina

0.006475131

89,5

Tirosina

0.000723822

90

Lisina

0.000384934

89,5

Triptófano

0.000366596

87

Fenilalanina

0.000173892

87

Alanina

4.58E-05

93

Histidina

2.33556E-05

90,5

Cisteína

1.52071E-05

92

Ácido Aspártico

9.17068E-09

90

Glutamina

3.65863E-11

89

Leucina

1.81915E-12

90,5

Arginina

1.97404E-13

93,5

Prolina

1.28088E-13

93,5

Isoleucina

3.88711E-14

91,5

Ácido Glutámico

2.8872E-15

91

Treonina

5.19733E-16

92,5

Valina

4.30663E-16

94

Asparagina

3.10522E-16

92

Metionina

1.96905E-21

95

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.2.5.2. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.

En la Tabla 3.2.5.2 se muestran los resultados de una validación cruzada en la base de datos curada y en la Figura 3.2.5.1 muestra el árbol que, además de tener en su nodo principal el aminoácido de mayor significación, intervienen otros en los nodos secundarios, Prolina y Asparagina, que presentan alta significación por lo que esta altamente correlacionados.

Figura 3.2.5.1 Sección A del árbol de aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de vertebrados no mamiferos y mamiferos.

Figura 3.2.5.1 Sección B del árbol de aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de vertebrados no mamiferos y mamiferos.

Tabla 3.2.5.3 Clasificación obtenida con método CHAID en la nueva base de datos extendida tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

Los resultados son corroborados con una base extendida donde los porcientos de clasificación son aceptables. En la Tabla 3.2.5.3 se puede apreciar que tanto en la base de entrenamiento (70% de la base) como en la base externa (resto de la base) se alcanza un 94%.

1.7.5.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

Con el análisis de discriminante pudimos comprobar que toods los aminoácidos están asociados con la clasificación de los vectores NECk en estos dos grupos de organismos. En la Tabla 3.2.5.1.1 se puede ver que todos poseen correlaciones altas de las variables con la función Discriminante. En la Tabla 3.2.5.1.2 se presentan las funciones discriminantes obtenidas por el método Stepwise minimizando la Lambda de Wilk y sin aplicar este método, aquí observamos que el aminoácido Tirosina no esta presente en ninguno de los dos métodos y que solo nueve aminoácidos estan presentes en el método Stepwise.

Mientras, en la Tabla 3.2.5.1.3 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares, indicando el buen desempeño de las funciones discriminantes.  

En las curvas ROC obtenidas (Figura 3.2.5.1.1) se muestran con claridad los tres métodos aplicados, sin embargo los resultados de clasificación global no son estadísticamente diferentes para los métodos de obtención de las funciones discriminantes y para el método CHAID, Tabla 3.2.5.1.4, en la que se muestra que los intervalos de confianza asintóticos para 95% de confianza de las áreas bajo la curva ROC se solapan. Cuando se utilizan los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren que las diferencias entre los clasificadores son mínimas en la Tabla 3.2.5.1.5 se muestran los valores de los parámetros mencionados.

Tabla 3.2.5.1.1. Correlaciones de las variables discriminantes con las funciones discriminantes canónicas.

Aminoácido

Función Discriminante

Valina

0.601773568

Asparagina

-0.542521612

Isoleucina

-0.532015422

Ácido Glutámico

0.466758664

Leucina

-0.461167619

Glutamina

0.454836113

Arginina

0.442923251

Treonina

-0.416294569

Metionina

-0.403460246

Ácido Aspártico

0.356307615

Cisteína

0.25158214

Prolina

0.242783766

Fenilalanina

-0.239970835

Lisina

0.204346612

Glicina

0.199265288

Triptófano

-0.162943411

Alanina

-0.136532651

Tirosina

0.108252116

Histidina

0.078358099

Serina

-0.024180644

Tabla 3.2.5.1.2. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

-1.908191

-1.922293

Cisteína

0.1611483

Ácido Aspártico

-1.07872

Ácido Glutámico

0.5832623

Fenilalanina

-1.291696

-0.949225

Glicina

-0.42828

-0.665337

Histidina

-0.052023

Isoleucina

0.9644433

0.8220759

Lisina

0.3764664

Leucina

0.234707

Metionina

-0.770816

Asparagina

-1.404127

-1.590907

Prolina

1.9039964

2.2351536

Glutamina

1.3136492

1.7373429

Arginina

-0.791883

Serina

0.5240509

Treonina

-0.775059

Valina

2.7165784

2.8706175

Triptófano

3.5642005

2.8976621

(Constant)

-6.41049

-9.487415

Tabla 3.2.5.1.3. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

3.481

100

100

0.881

1

0.223

212.232

9

0.000

Todas las variables

1

3.849

100

100

0.891

1

0.206

215.502

19

0.000

Tabla 3.2.5.1.4. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Mamíferos (Análisis CHAID)

0.974

0.010

0.000

0.953

0.994

Probabilidad Mamíferos (Análisis Discriminante)

0.999

0.001

0.000

0.996

1.000

Probabilidad Mamíferos (Análisis Disc. Stepwise)

0.996

0.002

0.000

0.991

1.000

Figura 3.2.5.1.1Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID para mamíferos.

Tabla 3.2.5.1.5 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

 

 

Grupos

Razón de TP

Razón TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Mamiferos

95.8

96.1

95.8

95.9

95.8

 

 

VertNoMamif

96.1

95.8

96.1

95.8

96.1

Validación  cruzada

Mamiferos

94.4

96.1

95.8

95.3

94.4

 

 

VertNoMamif

96.1

94.4

94.8

95.3

96.1

Validación externa

Mamiferos

96.4

91.7

93.1

94.2

96.4

 

 

VertNoMamif

91.7

96.4

95.7

94.2

91.7

Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).

 

 

 

70 % base de datos extendida

Mamiferos

97.2

93.1

97.2

97.3

97.2

 

 

VertNoMamif

93.1

97.2

97.4

97.3

97.4

Validación  cruzada

Mamiferos

93.1

94.7

94.4

93.9

93.1

 

 

VertNoMamif

94.7

93.1

93.5

93.9

94.7

Validación externa

Mamiferos

96.4

95.8

96.4

96.2

96.4

 

 

VertNoMamif

95.8

96.4

95.8

96.2

95.8

Predicciones de los miembros del Grupo con CHAID

 

 

 

 

70 % base de datos extendida

Mamiferos

100.0

89.5

90.0

94.6

100.0

 

 

VertNoMamif

89.5

100.0

100.0

94.6

89.5

Validación externa

Mamiferos

96.4

91.7

93.1

94.2

96.4

 

 

VertNoMamif

91.7

96.4

95.7

94.2

91.7

1.7.6.              Aminoácidos asociados con la clasificación taxonómica en primates y homo sapiens.

Por las especies que involucra esta taxa se hace particularmente interesante el análisis si tenemos en cuenta que, además de todas las peculiaridades de las proteínas vistas en el Capítulo 2, se puede agregar que los Homo Sapiens y los primates pertenecientes ambos al orden primate, clase mamíferos, la similitud entre sus DNA llega a ser en algunas especies de hasta un 98,5 % (ejemplo homo sapiens y chimpancé). Como se puede observar en la Tabla 3.2.6.1, no todos los aminoácidos alcanzan una buena significación, en ese caso están la Glutamina, la Cisteína, la Fenilalanina, la Asparagina, la Arginina y la Serina. Mientras la Metionina, la Tirosina, la Glicina y la L eucina logran un 97 % de clasificación, siendo la Leucina el aminoácido que posee la mayor significación, este resultado se obtiene con la base de datos curada ver Tabla 3.2.6.2 y Figura 3.2.6.1.

Es de esperar desde el punto de vista Biológico que cuando el análisis se realiza en una base de datos extendida con una validación del 70% de la muestra los porcientos de clasificación no sean tan buenos ver Tabla 3.2.6.3, sin embargo nuestro propósito es verificar que el uso de los vectores NECK de las frecuencias de probabilidades de los aminoácidos en cadenas de proteínas para esta taxa logra una diferenciación clara entre las dos especies involucradas, a pesar de su similitud en este orden.    

Tabla 3.2.6.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Metionina

0.043322937

97

Valina

0.006443999

92

Prolina

0.005132947

94

Alanina

1.28E-03

96

Tirosina

0.000115772

97

Histidina

2.05213E-05

93

Isoleucina

6.71297E-09

94

Glicina

2.52018E-09

97

Lisina

3.44484E-10

95

Treonina

8.23E-13

93

Ácido Aspártico

3.62791E-13

93

Triptófano

3.26E-13

92

Ácido Glutámico

7.29929E-14

94

Leucina

1.09352E-21

97

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.2.6.2. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.

Tabla 3.2.6.3 Clasificación obtenida con método CHAID en la nueva base de datos extendida tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

Figura 3.2.6.1 Árbol de aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de primates y homo sapiens.

1.7.6.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

El análisis de discriminante realizado en esta taxa se corroboró el resultado, previamente obtenido con el CHAID, de que todos los aminoácidos están asociados con la clasificación de los vectores NECk en estos dos reinos. En la Tabla 3.2.6.1.1 se puede ver que, incluso, aminoácidos como la Tirosina, el cual no está incluídos en las combinaciones lineales de las funciones discriminantes en los dos métodos aplicados, posee una correlación que no es la mejor, pero si mayor que la que tienen la mayoria de los que están incluídos ver Tabla 3.2.6.1.2. En la Tabla 3.2.6.1.1, se observa como los aminoácidos Lisina, Ácido Aspártico, Triptófano y Ácido Glutámico poseen los mayores coeficientes de correlación absolutos y altamente significativos y además todos se incluyen en las funciones discriminantes aplicadas (Tabla 3.2.6.1.2). Mientras, en la Tabla 3.2.6.1.3 se puede apreciar que los valores de la Lambda de Wilk y la significación del test Chi-cuadrado, indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares. En particular, para todas las funciones los valores de estos parámetros son altos, indicando el buen desempeño de las funciones discriminantes. Además los indicadores de la correlación canónica indican la eficacia de la funciones por los valores próximos obtenidos en ambos métodos.

Cuando se evalua el desempeño de los métodos en la Figura 3.2.6.1.1, con la construcción de las curvas ROC y en la Tabla 3.2.6.1.4, podemos observar que con el método Discriminante en sus dos variantes se obtiene 100% de clasificación no siendo así con el CHAID que se obtiene un 95%, sin embargo no consideramos que estas diferencias sean estadísticamente significativas si tenemos en cuenta las carácterísticas del taxa con que se trabaja.

Cuando se calculan los parámetros a partir de las matrices de confusión se observa en la Tabla 3.2.6.1.5 que las diferencias son más pronunciadas entre los clasificadores pues mientras que para los análisis de Discriminante los parámetros están por encima de un 95% para el CHAID y en particular la clasificación de Homo Sapiens presenta porcientos no aceptables.

Tabla 3.2.6.1.1. Correlaciones de las variables discriminantes con las funciones discriminantes canónicas.

Aminoácido

Función discriminante

Lisina

0.4079589

Ácido Aspártico

0.366458

Triptófano

-0.327464

Ácido Glutámico

0.3153944

Leucina

-0.292727

Tirosina

-0.251821

Glicina

0.2073298

Histidina

0.2034503

Treonina

-0.199123

Prolina

0.1655295

Valina

-0.116912

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente