Descargar

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 4)


Partes: 1, 2, 3, 4, 5, 6, 7, 8

Cisteína

3.310732231

-1.692376434

1.901286543

1.965185789

Ácido Aspártico

1.558358609

0.317792496

Ácido Glutámico

0.792671149

-0.964414539

-0.747640779

1.387547125

Fenilalanina

1.464973618

0.261072156

Glicina

0.905491907

0.298178086

-0.661236016

0.17008811

Histidina

3.650391437

-0.681412275

2.111016944

1.442137596

Isoleucina

1.251241606

0.315105464

Lisina

1.291028255

0.781428574

-0.259736438

-0.365299324

Leucina

1.692656627

0.627164431

Metionina

2.232989862

0.355582763

0.735120813

0.096567728

Asparagina

1.755662058

0.466027904

Prolina

1.680706246

0.694573323

Glutamina

2.661642231

1.967428169

1.217848927

-1.606940573

Arginina

1.453948483

0.854261427

0.061374096

-0.534533261

Serina

2.386767639

-0.472410556

0.987602167

0.817741217

Treonina

1.355212891

0.56985644

0.924887649

-0.466115737

Valina

2.522376259

1.000621086

Tirosina

-1.546234127

0.906075053

Triptófano

1.599846115

-0.626305971

(Constante)

-95.07061812

-21.02880013

-2.504492874

-6.918114573

Tabla 3.2.2.1.3. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

7.052

78.88

78.88

0.936

1 a 2

0.043

1275.937

24

0.000

2

1.888

21.12

100

0.809

2

0.346

430.085

11

0.000

Todas las variables

1

7.248

78.578

78.578

0.937

1 a 2

0.041

1286.631

38

0.000

2

1.976

21.422

100

0.815

2

0.336

438.414

18

0.000

Figura 3.2.2.1.1 Gráfico de dispersión de la función Discriminante.

Este hecho se ilustra en las curvas ROC obtenidas (Figura 3.2.2.1.2) y en la Tabla 3.2.2.1.4, en la que se muestra que los intervalos de confianza asintóticos para 95% de confianza de las áreas bajo la curva ROC se solapan. Sin embargo, al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren que existen algunas diferencias entre los clasificadores. En la Tabla 3.2.2.1.5 se muestran los valores de los parámetros mencionados.

Tabla 3.2.2.1.4. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Archaea (Análisis Disc. Stepwise)

0.991

0.003

0.000

0.985

0.996

Probabilidad Archaea (Análisis CHAID)

0.987

0.004

0.000

0.980

0.995

Probabilidad Archaea (Análisis Disc. Todas)

0.991

0.003

0.000

0.986

0.997

Probabilidad Bacteria (Análisis Disc. Stepwise)

0.982

0.004

0.000

0.974

0.990

Probabilidad Bacteria (Análisis CHAID)

0.967

0.008

0.000

0.952

0.983

Probabilidad Bacteria (Análisis Discriminante)

0.983

0.004

0.000

0.975

0.991

Probabilidad Eucariotes (Análisis Disc. Stepwise)

0.999

0.001

0.000

0.998

1.000

Probabilidad Eucariotes (Análisis CHAID)

0.984

0.005

0.000

0.975

0.994

Probabilidad Eucariotes (Análisis Discriminante)

0.999

0.001

0.000

0.997

1.000

Figura 3.2.2.1.2Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.

Tabla 3.2.2.1.5 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante Stepwise

 

70 % base de datos extendida

Org.

Archaea

Bacteria

Eucariotes

Razón de TP

Razón TN

Precisión

Archaea

93.2

6.8

0.0

93.2

94.0

92.6

Bacteria

8.2

90.3

1.5

90.3

95.4

90.3

Eucariotes

0.0

2.3

97.7

97.7

91.8

98.5

 

Validación  cruzada

Archaea

92.6

7.4

0.0

92.6

92.5

91.3

Bacteria

9.7

88.8

1.5

88.8

94.3

88.1

Eucariotes

0.0

3.8

96.2

96.2

90.8

98.4

 

Validación externa

Archaea

88.5

11.5

0.0

88.5

92.5

93.9

Bacteria

4.5

92.4

3.0

92.4

90.8

84.7

Eucariotes

0.0

7.4

92.6

92.6

90.7

96.9

Predicciones de los miembros del Grupo con Anl. Discriminante (todas)

 

70 % base de datos extendida

Archaea

91.9

8.1

0.0

91.9

94.4

93.2

Bacteria

7.5

91.0

1.5

91.0

94.6

89.1

Eucariotes

0.0

2.3

97.7

97.7

91.5

98.5

 

Validación  cruzada

Archaea

91.9

8.1

0.0

91.9

92.5

92.5

Bacteria

8.2

90.3

1.5

90.3

93.2

86.4

Eucariotes

0.0

5.3

94.7

94.7

91.1

98.4

 

Validación externa

Archaea

90.4

9.6

0.0

90.4

91.8

92.2

Bacteria

6.1

90.9

3.0

90.9

91.7

85.7

Eucariotes

0.0

7.4

92.6

92.6

90.7

96.9

 

Predicciones de los miembros del Grupo con CHAID

 

70 %  base de datos extendida

Archaea

95.3

4.7

0.0

95.3

95.5

99.3

Bacteria

0.7

95.5

3.7

95.5

95.4

90.8

Eucariotes

0.0

4.5

95.5

95.5

95.4

96.2

 

Validación externa

Archaea

47.0

4.0

1.0

90.4

91.8

100.0

Bacteria

0.0

62.0

4.0

93.9

90.0

84.9

Eucariotes

0.0

7.0

61.0

89.7

92.4

92.4

1.7.3.  Aminoácidos asociados con la clasificación taxonómica en archaeabacterias y bacterias.

En un primer análisis se utilizó la técnica del CHAID con validación cruzada en la base de datos curada. El método CHAID construye, por defecto, el árbol de la variable con mayor significación estadística. Para esta base el aminoácido de mayor significación es la Alanina, cuyo árbol se muestra en la Figura 3.2.3.1. En la tabla de clasificación correspondiente se aprecia que para las bacterias se alcanza un 100% de clasificación, mientras que en la clasificación total se logra un 96% (Tabla 3.2.3.1). No obstante, en la Tabla 3.2.3.2 se puede ver que todos los aminoácidos están fuertemente asociados con la clasificación taxonómica biológica y que el aminoácido con mayor significación estadística no es el que causa el mejor porciento de clasificación.

Figura 3.2.3.1 Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaea y bacterias.

Tabla 3.2.3.1. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.

Tabla 3.2.3.2. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Serina

0.043322937

99

Glicina

0.042580131

96

Fenilalanina

0.005793191

100

Valina

0.002078548

97

Cisteína

0.001020605

96

Prolina

0.000393157

98

Treonina

0.000319579

97

Glutamina

0.000292468

97

Tirosina

0.000151604

93

Metionina

2.52667E-08

94

Leucina

9.64362E-10

93

Arginina

4.37685E-10

92

Triptófano

2.64469E-13

96

Ácido Glutámico

1.63794E-14

93

Histidina

1.4771E-14

97

Isoleucina

5.9E-15

95

Ácido Aspártico

7.09697E-19

96

Lisina

6.90823E-20

96

Asparagina

6.90823E-20

97

Alanina

1.28E-24

96

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5

En la Figura.3.2.3.2 se muestra el árbol de decisión obtenido por método CHAID en la base de datos curada forzando la entrada del aminoácido Fenilalanina, mientras que en la Tabla 3.2.3.3 se muestra los porcientos de clasificación. Los resultados muestran que forzando la entrada del aminoácido Fenilalanina produce una separación definitiva de las archaeas y bacterias. Notemos que, para este aminoácido se obtiene el 100 % de clasificación, aunque está lejos de tener una buena significación estadística (si lo comparamos con el resto de los aminoácidos).

Figura 3.2.3.2.A. Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaea y bacterias, forzando la Fenilalanina.

 

Figura 3.2.3.2.B. Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaea y bacterias, forzando la Fenilalanina.

Tabla 3.2.3.3. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada, forzando la Fenilalanina.

Tabla 3.2.3.4. Clasificación obtenida con método CHAID en la nueva base de datos extendida tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

Hasta este punto, se ha verificado que es posible diferenciar los reinos de bacterias y archaeas utilizando bases de secuencias en las que se ha reducido el número de secuencias que comparten características comunes a ambas taxa y expresan, en mayor medidad, la variabilidad propia de cada taxa. Sin embargo, por construcción, la base curada no contiene la variabilidad necesaria, en las secuencias de proteínas que la conforman, para ser útil como base de entrenamiento que permita obtener un clasificador capáz de alcanzar un buen desempeño ante una base externa con alta variabilidad de secuencias. Estos hechos evidencian que si se desea clasificar secuencias de proteínas con mayor variabilidad en las distribuciones de aminoácidos correspondientes, es necesario extender la base curada con secuencias que compartan características estadísticas comunes a ambos taxa. En la Tabla 3.2.3.4 se muestra el resultado del análisis con el CHAID de la base extendida formada por 200 vectores de cada taxa. En la base de entrenamiento (70% de la base) se alcanzó el 98% de clasificación total, mientras que en la validación externa el 99% (30% de la base).

1.7.3.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

El análisis de discriminante realizado en esta taxa muestra que todos los aminoácidos están asociados con la clasificación de los vectores NECk. En la Tabla 3.2.3.1.1 se puede ver que, incluso aquellos que no están presentes en uno de los dos métodos Tabla 3.2.3.1.2, o en ambos, como es el caso de la Tirosina poseen correlaciones mayores que algunos de los incluidos.

En la Tabla 3.2.3.1.3 se puede apreciar que los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares. La eficacia de las funciones discriminantes en la separación de los casos en grupos, se expresa a través de los valores de las correlaciones canónicas.

Para evaluar el desempeño del CHAID y el Discriminante usamos las curvas ROC obtenidas (Figura 3.2.3.1.1) y en la Tabla 3.2.3.1.4, tenemos los valores de las áreas bajo la curva, estos elementos muestran que no hay diferencias significativas entre los dos métodos. Al utilizar los parámetros derivados de la matríz de confusión, nos sugieren que las diferencias entre los clasificadores son mínimas. En la Tabla 3.2.3.1.5 se muestran los valores de los parámetros mencionados.

Tabla 3.2.3.1.1. Correlaciones de las variables discriminantes con las funciones discriminantes canónicas.

Aminoácido

Función Discriminante

Glutamina

0.55

Isoleucina a

-0.45

Arginina

0.428

Lisina

-0.403

Tirosina a

-0.367

Alanina

0.357

Prolina

0.318

Asparagina

-0.311

Serina

-0.246

Fenilalanina a

-0.202

Histidina a

0.138

Cisteína a

-0.118

Leucina

0.104

Ácido Aspártico

0.087

Valina

0.067

Treonina

0.045

Triptófano a

0.039

Ácido Glutámico a

-0.029

Metionina

-0.025

Glicina

0.009

Tabla 3.2.3.1.2. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

0.86593423

0.8051423

Cisteína

0.56531521

Ácido Aspártico

0.82557749

0.71594929

Ácido Glutámico

0.33801189

Fenilalanina

0.10955719

Glicina

0.55514944

0.64425764

Histidina

0.26960293

Isoleucina

0.26424837

Lisina

1.55534119

1.54844199

Leucina

1.85565316

1.99078812

Metionina

2.25971271

2.38887696

Asparagina

2.20713337

2.33146195

Prolina

2.27098881

2.46609259

Glutamina

2.69197518

2.63442816

Arginina

1.15922745

1.12068112

Serina

0.47466926

0.50092619

Treonina

2.20243491

2.44662457

Valina

1.10444373

1.04160686

Triptófano

0.05608013

(Constant)

59.0681373

61.4489587

Tabla 3.2.3.1.3. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

3.789

100

100

0.889

1

0.209

448.777

13

0.000

Todas las variables

1

3.886

100

100

0.892

1

0.205

449.715

19

0.000

Tabla 3.2.3.1.4. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Bacteria (Análisis Disc. Stepwise)

0.995

0.002

0.000

0.991

0.999

Probabilidad Bacteria (Análisis CHAID)

0.996

0.002

0.000

0.992

1.000

Probabilidad Bacteria (Análisis Discriminante)

0.996

0.002

0.000

0.992

1.000

Figura 3.2.3.1.1Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID para bacterias.

Tabla 3.2.3.1.5 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Archaea

99.3

93.2

93.7

96.3

99.3

 

 

Bacteria

93.2

99.3

99.3

96.3

93.2

Validación  cruzada

Archaea

99.3

91.1

91.9

95.3

99.3

 

 

Bacteria

91.1

99.3

99.3

95.3

91.1

Validación externa

Archaea

96.1

98.1

98.0

97.1

96.1

 

 

Bacteria

98.1

96.1

96.4

97.1

98.1

Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).

 

 

 

70 % base de datos extendida

Archaea

100.0

93.8

94.3

96.9

100.0

 

 

Bacteria

93.8

100.0

100.0

96.9

93.8

Validación  cruzada

Archaea

99.3

90.4

91.4

94.9

99.3

 

 

Bacteria

90.4

99.3

99.2

94.9

90.4

Validación externa

Archaea

98.0

98.1

98.0

98.1

98.0

 

 

Bacteria

98.1

98.0

98.1

98.1

98.1

Predicciones de los miembros del Grupo con CHAID

 

 

 

 

70 % base de datos extendida

Archaea

99.3

96.6

96.7

98.0

99.3

 

 

Bacteria

96.6

99.3

99.3

98.0

96.6

Validación externa

Archaea

100.0

98.1

98.1

99.0

100.0

 

 

Bacteria

98.1

100.0

100.0

99.0

98.1

1.7.4.           Aminoácidos asociados con la clasificación taxonómica en vertebrados e invertebrados.

Cuando se aplica la técnica CHAID a la base curada con una validación cruzada se tienen los datos de la  Tabla 3.2.4.1, donde podemos observar la correlación de los aminoácidos exceptuado la Cisteína la que tiene una significación mayor que 0.05, tenemos aquí el mejor porciento de clasificación presente en la  Leucina, Tabla 3.2.4.2 y el que mejor significación presenta  Ácido Aspártico, por lo que aparece en el nodo principal del árbol, Figura 3.2.4.1, donde además aparecen en nodos secundarios la Isolecina, Ácido Glutámico y Triptófano aminoácidos con buena significación y buen porciento de clasificación. En la base de datos extendida con una validación del 70% de la muestra los resultados no son aceptables Tabla 3.2.4.3, pero fueron usados para la comparación con otro clasificador.

Tabla 3.2.4.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Histidina

0.000313443

96,7

Tirosina

4.26129E-05

94

Glutamina

4.56215E-06

96

Fenilalanina

7.25884E-07

97

Serina

1.23944E-07

93,7

Alanina

2.88E-08

94,7

Glicina

2.22134E-09

96

Valina

1.14447E-09

96,3

Isoleucina

9.30623E-10

95

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente