Descargar

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 7)


Partes: 1, 2, 3, 4, 5, 6, 7, 8

Ácido Glutámico

5.42E-24

96

Fenilalanina

5.41845E-24

95

Isoleucina

5.41845E-24

96

Alanina

1.28041E-24

96

Glutamina

4.21E-25

97

Lisina

1.33286E-26

96

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.3.3.2. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.

Figura 3.3.3.1 Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaeas y bacterias.

Tabla 3.3.3.3. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

1.8.3.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

Con el análisis de discriminante realizado en esta taxa en la Tabla 3.3.3.1.1 se puede ver que, el aminoácido tirosina es el único que no aparece en el método cuando entran todas las variables, que superan el test de tolerancia, mientras que cuando se ejecuta el método con la variante Stepwise solo intervienen seis aminoácidos.    

Mientras, en la Tabla 3.3.3.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares.

Los resultados de clasificación global no son estadísticamente diferentes para los métodos de obtención de las funciones discriminantes y para el método CHAID. Este hecho se ilustra en las curvas ROC obtenidas (Figura 3.3.3.1.1) y en la Tabla 3.3.3.1.3, en la que se muestra los indicadores de las áreas bajo la curva ROC. Al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, observamos que las diferencias no son significativas. En la Tabla 3.3.3.1.4 se muestran los valores de los parámetros mencionados.

Tabla 3.3.3.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

 

Todas

Stepwise

Alanina

4.62486353

Cisteína

3.40866802

Ácido Aspártico

4.35329008

Ácido Glutámico

3.01312637

0.87285347

Fenilalanina

4.69645842

Glicina

4.75110106

Histidina

8.76823771

2.83974481

Isoleucina

4.40842095

Lisina

3.10784031

0.95375833

Leucina

3.62521345

Metionina

3.67463302

Asparagina

6.09094983

2.73620833

Prolina

2.35739495

Glutamina

6.27960072

2.3650078

Arginina

3.79944512

Serina

4.48932266

Treonina

4.5272397

Valina

3.02606723

Tirosina

3.71432475

Triptófano

2.84141122

(Constant)

242.335636

1.59086365

Tabla 3.3.3.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

25.143

100

100

0.981

1

0.038

231.714

6

0.000

Todas las variables

1

32.793

100

100

0.985

1

0.030

227.057

19

0.000

Tabla 3.3.3.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Bacteria (Análisis Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Bacteria (Análisis CHAID)

0.970

0.020

0.000

0.931

1.000

Probabilidad Bacteria (Análisis Discriminante)

1.000

0.000

0.000

1.000

1.000

Figura 3.3.3.1.1 Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.

Tabla 3.3.3.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Validación  cruzada

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Validación externa

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).

70 % base de datos extendida

 

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Validación  cruzada

Archaea

100.0

97.3

97.5

98.7

100.0

 

 

Bacteria

97.3

100.0

100.0

98.7

97.3

Validación externa

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con CHAID

 

 

 

70 % base de datos extendida

 

Archaea

100.0

94.6

95.1

97.4

100.0

 

 

Bacteria

94.6

100.0

100.0

97.4

94.6

Validación externa

Archaea

100.0

92.3

91.7

95.8

100.0

 

 

Bacteria

92.3

100.0

100.0

95.8

92.3

1.8.4.   Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en vertebrados e invertebrados.

El análisis realizado en esta taxa nos proporcionó los datos que aparecen la Tabla 3.3.4.1, donde podemos ver que el aminoácido Asparagina que alcanza mayor porciento de clasificación con validación cruzada. Mientras la Leucina es la de mayor significación aplicando este mismo método.       

Tabla 3.3.4.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Glicina

0.048974524

91,3

Ácido Glutámico

0.00427

92

Valina

0.001548906

89

Metionina

0.00087178

91,7

Fenilalanina

6.84314E-05

92,7

Lisina

6.33727E-05

91,7

Prolina

1.14097E-05

90,7

Arginina

9.60722E-06

90,7

Alanina

6.9889E-06

90,7

Histidina

4.03007E-06

90,7

Isoleucina

2.63794E-06

93

Treonina

9.61E-07

90,7

Cisteína

2.88813E-08

91

Glutamina

1.47E-09

94

Tirosina

9.34572E-10

92,3

Serina

1.80376E-10

93

Triptófano

7.40E-11

90,3

Ácido Aspártico

2.5637E-21

92,7

Asparagina

2.12837E-31

94,7

Leucina

5.6054E-32

92,3

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.3.4.2. Clasificación obtenida con método CHAID en la bases de datos curada con

validación cruzada.

Tabla 3.3.4.3. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

1.8.4.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

Con el análisis de discriminante realizado se obtinen los resultados que aparecen en la Tabla 3.3.4.1.1 donde se presentan las funciones discriminantes obtenidas por el método Stepwise minimizando la Lambda de Wilk y sin aplicar este método considerando que entren todas las que superen el test de tolerancia, en este caso como podemos observar solo una la tirosina no entra, mientra en el método de Stepwise solo participan 7 aminoácidos.

Mientras, en la Tabla 3.3.4.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares.

El hecho de que no haya diferencias estadísticamente detectables en los metodos de Discriminante y CHAID se ilustra en las curvas ROC obtenidas (Figura 3.3.4.1.1) y en la Tabla 3.3.4.1.3, donde aparecen los parámetros que describen las áreas bajo la curva ROC. Sin embargo, al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren que existen algunas diferencias entre los clasificadores. En la Tabla 3.3.4.1.4 se muestran los valores de los parámetros mencionados.

Tabla 3.3.4.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

 

Todas

Stepwise

Alanina

-1.153408

1.3635172

Cisteína

0.6291342

Ácido Aspártico

-1.283027

1.3734601

Ácido Glutámico

1.3230351

-0.501296

Fenilalanina

0.4843401

Glicina

-0.091928

Histidina

0.8533897

Isoleucina

0.1842257

Lisina

0.11743

Leucina

1.0027172

-0.790415

Metionina

-2.053798

2.2627063

Asparagina

-1.582589

1.9864618

Prolina

0.7630663

Glutamina

-0.440902

Arginina

0.1671537

Serina

0.69771

-0.447447

Treonina

-0.036089

Valina

0.6549796

Tirosina

Triptófano

0.1301897

(Constant)

-6.046161

-10.44801

Tabla 3.3.4.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

3.364

100

100

0.878

1

0.229

209.965

7

0.000

Todas las variables

1

3.841

100

100

0.891

1

0.207

215.275

19

0.000

Tabla 3.3.4.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Vertebrados (Análisis Disc. Stepwise)

0.996

0.002

0.000

0.991

1.000

Probabilidad Vertebrados (Análisis CHAID)

0.945

0.017

0.000

0.912

0.978

Probabilidad Vertebrados (Análisis Disc. Todas)

0.990

0.007

0.000

0.977

1.000

Figura 3.3.4.1.1 Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.

Tabla 3.3.4.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Vert

94.4

97.4

97.1

95.9

94.4

 

 

Invert

97.4

94.4

94.9

95.9

97.4

Validación  cruzada

Vert

93.1

96.1

95.7

94.6

93.1

 

 

Invert

96.1

93.1

93.6

94.6

96.1

Validación externa

Vert

96.4

95.8

96.4

96.2

96.4

 

 

Invert

95.8

96.4

95.8

96.2

95.8

Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).

 

70 % base de datos extendida

Vert

95.8

97.4

97.2

96.6

95.8

 

 

Invert

97.4

95.8

96.1

96.6

97.4

Validación  cruzada

Vert

95.8

96.1

95.8

95.9

95.8

 

 

Invert

96.1

95.8

96.1

95.9

96.1

Validación externa

Vert

92.9

95.8

96.3

94.2

92.9

 

 

Invert

95.8

92.9

92.0

94.2

95.8

Predicciones de los miembros del Grupo con CHAID

 

 

 

70 % base de datos extendida

Vert

90.3

93.4

92.9

91.9

90.3

 

 

Invert

93.4

90.3

91.0

91.9

93.4

Validación externa

Vert

75.0

83.3

84.0

78.8

75.0

 

 

Invert

83.3

75.0

74.1

78.8

83.3

1.8.5.  Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en vertebrados no mamíferos y mamíferos.

Cuando se aplica la técnica CHAID a vectores que expresan probabilidad de frecuencia en el uso de codones en estos dos grupos de organismos tan cercanos en los aspectos que los caracterizan desde el punto de vista evolutivo, los resultados obtenidos de la base de datos curada con una validación cruzada, Tabla 3.3.5.1, muestran que al igual que para las secuencias de aminoácidos la Metionina es la que mejor significación tiene, mientras que la Leucina es la de mayor porciento de clasificación. Podemos señalar que en este caso dos aminoácidos no alcanzan valores menores que 0.05 en su significación ellos son la Fenilalanina y el Ácido Glutámico. En la tabla 3.3.5.2, se observan los porcientos que se obtienen al realizar una validación del 70% de la base curada como entrenamiento con una validación externa con el resto de la base.

Tabla 3.3.5.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.a

%clasificación

Glutamina

3.2514E-05

88,5

Valina

6.6791E-06

88,5

Cisteína

0.000192

87

Treonina

6.7907E-06

90

Tirosina

0.002

87,5

Prolina

0.004356

87

Histidina

0.000184

89

Isoleucina

0.031889439

88,5

Arginina

0.003529707

90

Lisina

0.001127208

91,5

Glicina

0.000644454

89

Ácido Aspártico

2.9716E-05

91

Triptófano

3.39E-06

89

Leucina

1.36446E-08

93,5

Asparagina

1.33436E-08

91

Serina

4.77861E-09

90

Alanina

1.76108E-10

90

Metionina

6.9716E-11

90,5

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.3.5.2. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

1.8.5.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

El análisis de discriminante realizado en esta taxa, Tabla 3.3.5.1.1, donde se describen las funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise, para el cual solo intervienen 8 aminoácidos. Se pude señalar en el caso del aminoácido Tirosina no aparece en ninguno de los dos métodos aplicados.

 En la Tabla 3.3.5.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares.

En las curvas ROC obtenidas (Figura 3.3.5.1.1), que el análisis Discriminante realizado es superior en sus dos variantes al CHAID y en la Tabla 3.3.5.1.3, en la que se muestra que los intervalos de confianza asimtóticos para 95% de confianza de las áreas bajo la curva ROC también se observan que los mejores indicadores se refieren a la técnica Discriminante. Al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren los mismos criterios que nos bridan las curvas ROC de los clasificadores. En la Tabla 3.3.5.1.4 se muestran los valores de los parámetros mencionados.

Tabla 3.3.5.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

0.2269488

0.8519413

Cisteína

0.9328881

Ácido Aspártico

1.8950519

-0.852225

Ácido Glutámico

0.7074865

Fenilalanina

1.5171704

Glicina

0.6465456

Histidina

1.2819573

Isoleucina

0.077029

0.5565968

Lisina

0.7912264

Leucina

-0.291125

1.0783397

Metionina

3.6952632

-2.950158

Asparagina

1.6428562

Prolina

-0.516774

1.4921253

Glutamina

0.7912194

Arginina

1.2166805

Serina

1.6386476

-1.005287

Treonina

0.70664

Valina

0.852321

Tirosina

Triptófano

-0.898853

1.6170774

(Constant)

-47.3287

-5.956623

Tabla 3.3.5.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

2.199

100

100

0.829

1

0.313

162.796

8

0.000

Todas las variables

1

2.411

100

100

0.841

1

0.293

165.020

19

0.000

Tabla 3.3.5.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Mamifero (Análisis CHAID)

0.949

0.017

0.000

0.915

0.982

Probabilidad Mamifero (Análisis Disc. Todas)

0.989

0.005

0.000

0.978

0.999

Probabilidad Mamifero (Análisis Disc. Stepwise)

0.985

0.007

0.000

0.970

0.999

Figura 3.3.5.1.1 Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.

Tabla 3.3.5.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Vert No Mamif

91.7

94.6

94.3

93.2

91.7

 

 

Mamiferos

94.6

91.7

92.1

93.2

94.6

Validación  cruzada

Vert No Mamif

90.3

94.6

94.2

92.5

90.3

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente