Descargar

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 6)


Partes: 1, 2, 3, 4, 5, 6, 7, 8

Cisteína

-0.112406

Isoleucina

-0.097109

Arginina

0.0765084

Alanina

-0.072726

Serina

-0.07265

Fenilalanina

-0.069234

Metionina

-0.061917

Glutamina

0.0590462

Asparagina

0.0554707

Tabla 3.2.6.1.2. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

 

Todas

Stepwise

Alanina

-0.120741

Cisteína

-0.112789

Ácido Aspártico

1.2602754

1.3495373

Ácido Glutámico

1.6410213

1.3228442

Fenilalanina

1.0233814

1.0276529

Glicina

0.9222785

1.1378398

Histidina

1.8013634

2.0428226

Isoleucina

0.2280033

Lisina

0.8002481

1.1375742

Leucina

-0.844817

-0.747004

Metionina

2.740958

3.3493038

Asparagina

-0.54982

Prolina

2.0142909

3.3493038

Glutamina

-0.023842

Arginina

-0.991585

Serina

0.1109863

Treonina

-0.717032

Valina

0.2848558

Triptófano

-2.760603

-3.129541

(Constant)

-18.40188

-26.26685

Tabla 3.2.6.1.3. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

 

 

 

 

 

 

 

 

 

1

6.352

100

100

0.930

1

0.136

191.516

10

0.00

Todas las variables

 

 

 

 

 

 

 

 

1

6.942

100

100

0.935

1

0.126

189.601

19

0.00

Tabla 3.2.6.1.4. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

 

 

 

 

Límite inferior

Límite superior

Probabilidad Homo Sapiens (Análisis Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Homo Sapiens (Análisis CHAID)

0.949

0.020

0.000

0.911

0.988

Probabilidad Homo Sapiens  (Análisis Discriminante)

1.000

0.000

0.000

1.000

1.000

Figura 3.2.6.1.1Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID para Homo Sapiens.

Tabla 3.2.6.1.5 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

 

 

Grupos

Razón de TP

Razón TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Primates

98.2

100.0

100.0

99.0

98.2

 

 

HomoS

100.0

98.2

97.9

99.0

100.0

Validación  cruzada

Primates

98.2

100.0

100.0

99.0

98.2

 

 

HomoS

100.0

98.2

97.9

99.0

100.0

Validación externa

Primates

100.0

100.0

100.0

100.0

100.0

 

 

HomoS

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).

 

 

70 % base de datos extendida

Primates

98.2

100.0

100.0

99.0

98.2

 

 

HomoS

100.0

98.2

97.9

99.0

100.0

Validación  cruzada

Primates

96.4

97.9

98.2

97.1

96.4

 

 

HomoS

97.9

96.4

95.8

97.1

97.9

Validación externa

Primates

100.0

100.0

100.0

100.0

100.0

 

 

HomoS

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con CHAID

 

 

 

 

70 % base de datos extendida

Primate

96.4

89.4

91.5

93.2

96.4

 

 

HomoS

89.4

95.5

95.5

93.2

89.4

Validación externa

Primate

92.9

65.2

61.9

75.7

92.9

 

 

HomoS

65.2

93.8

93.8

75.7

65.2

1.8.         Construcción de árboles de clasificación mediante el método CHAID atendiendo a las frecuencias del uso de codones de los aminoácidos en los genes.

Al pasar de una secuencia de codones a la correspondiente secuencia de aminoácidos se pierde información debido a la degeneración del código genético (ver sección 1.2). Por tal motivo, pudiera pensarse que ocurra un cambio en los vectores NECk tal que afecte la clasificación de los taxa. Luego, se hace necesaria la verificación de la hipótesis de investigación partiendo de secuencias de genes. En nuestro caso, como se explicó en el capítulo 2, se utilizó la información recopilada en la base de datos de uso de codones.

Los análisis se realizaron utilizando como entrenamiento el 70% de las bases de datos de los taxa construidas. Se realizó validación cruzada con la base de entrenamiento y una validación externa con el 30% restante.

1.8.1.  Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en organismos vivos.

En el análisis realizado con todos los taxa se obtienen bajos porcientos de clasificación. Sin embargo, al igual que el resultado obtenido con las bases de secuencias de proteínas, se verificó que todos los aminoácidos están asociados de manera altamente significativa con la clasificación biológica. En particular, los resultados obtenidos con CHAID se resumen en la Tabla 3.3.1.1, donde podemos observar que el aminoácido con mayor significación es el que produce mayor porciento de clasificación aunque no sea bueno, mientras con el análisis de Discriminante en las Tablas 3.3.1.2 y 3.3.1.3, por ejemplo la Tirosina, el cual  no está incluído en las combinaciones lineales de las funciones discriminantes para el caso en que intervienen todos los aminoácidos si esta presente cuando se aplica el método de Stepwies, además presenta correlaciones altas con la funciones discriminantes.

 Aunque, al igual que con la base de aminoácidos, los porcientos de clasificación correcta obtenidos con el análisis de Discriminante son mejores que con el método CHAID, los resultados sugieren que es posible alcanzar una mayor significación estadística en la diferenciación de los taxa si se analizan por separados grupos de taxa atendiendo a criterios de interés biológicos-evolutivos.   

Tabla 3.3.1.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Fenilalanina

1.11011E-19

62,9

Metionina

4.56265E-29

63,6

Arginina

5.26252E-30

64,2

Triptófano

7.63E-36

66,9

Prolina

7.93253E-41

67,8

Tirosina

1.96584E-42

68

Leucina

2.69777E-47

69,8

Ácido Glutámico

1.27706E-48

66

Histidina

1.83529E-49

67,3

Ácido Aspártico

1.11934E-51

68,4

Glicina

3.50217E-52

66,2

Lisina

2.17215E-54

68,7

Asparagina

3.46256E-61

67,3

Treonina

2.64E-61

66,4

Isoleucina

1.55462E-61

64

Cisteína

4.30445E-70

66

Glutamina

1.23215E-77

65,1

Valina

1.52126E-78

70

Alanina

4.39E-93

70,2

Serina

3.2243E-101

72,4

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.3.1.2. Correlaciones de las variables discriminantes con las funciones discriminantes canónicas.

Tabla 3.3.1.3. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método stepwise.

1.8.2.  Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en archaeabacterias, bacterias y eucariotes.

Usando el método CHAID en el caso de los tres reinos pero para el caso donde sean secuencias de uso de genes  en una base de datos que muestra diversidad de organismos y tipos de proteinas presentes, se obtienen resultados excelentes desde el punto de vista de clasificación así como interacción entre aminoácidos lo cual se muestra en la Tabla 3.3.2.1, donde la Serina alcanza un 98,7 % de clasificación, Tabla 3.3.2.1, y siendo el que mayor significación posee, apareciendo en el nodo principal del árbol de la Figura3.3.2.1, donde aparecen en los nodos secundarios aminoácidos como la Lisina y el Triptófano que también presentan una buena significación.

Tabla 3.3.2.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Leucina

1.03509E-09

98

Ácido Aspártico

4.12693E-11

98

Metionina

1.77809E-11

96,9

Fenilalanina

6.98123E-13

97,3

Triptófano

1.86E-14

98,2

Arginina

7.5487E-18

96,7

Tirosina

4.05541E-20

97,1

Prolina

1.48704E-28

98,4

Asparagina

7.28407E-29

98,4

Treonina

5.98501E-39

97,6

Ácido Glutámico

1.77E-40

97,3

Histidina

1.61649E-46

97,6

Glicina

8.24765E-48

96,2

Lisina

2.03555E-51

98,2

Isoleucina

3.92231E-57

98,9

Glutamina

9.01E-59

98,4

Valina

6.9077E-64

97,8

Cisteína

5.6843E-64

97,1

Alanina

7.97147E-66

97,1

Serina

1.9151E-99

98,7

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.3.2.2. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.

Figura 3.3.2.1 Árbol de aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaeas, bacterias y eucariote.

Tabla 3.3.2.3. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

1.8.2.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

Con el análisis de discriminante realizado en esta taxa se comprueba que todos los aminoácidos están asociados con la clasificación de los vectores NECk en los tres reinos. En la Tabla 3.3.2.1.1 se puede ver que, el aminoácido Tirosina está incluído solo en las combinaciones lineales de las funciones discriminantes cuando se utiliza el método Stepwise. Mientras, en la Tabla 3.3.2.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares. En particular, para todas las funciones los valores de estos parámetros son altos, indicando el buen desempeño de las funciones discriminantes, que también se observa en el gráfico de dispersión que aparece en la Figura 3.3.2.1.1. 

En la comparación de los clasificadores no hay diferencias en los indicadores este hecho se ilustra en las curvas ROC obtenidas (Figura 3.3.2.1.2) y en la Tabla 3.3.2.1.3, en la que se muestra que los intervalos de confianza asimtóticos para 95% de confianza de las áreas bajo la curva ROC. Cuando se utilizan los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren que las diferencias entre los clasificadores no son significativas. En la Tabla 3.3.2.1.4 se muestran los valores de los parámetros mencionados.

Tabla 3.3.2.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácido

Todas

 

Stepwise

 

 

Función discriminante

Función discriminante

 

1

2

1

2

Alanina

1.87522537

2.71219483

Cisteína

2.35349121

1.18627654

Ácido Aspártico

1.65542172

3.79086839

0.01505919

2.05921876

Ácido Glutámico

0.87853914

1.21141879

0.76471639

1.39716935

Fenilalanina

1.33390973

2.39542641

Glicina

2.0104053

2.14675602

Histidina

3.00759821

4.41305899

Isoleucina

0.64295095

2.41513135

1.17796651

0.27728312

Lisina

1.32325793

1.7472425

0.53833916

0.71379549

Leucina

1.18522417

2.86236885

0.64675298

0.44148571

Metionina

1.68716796

2.00676784

Asparagina

1.301334

3.1603493

Prolina

0.79049656

1.32850812

2.25283399

1.36749052

Glutamina

2.81106128

3.52604836

1.10296299

1.15205197

Arginina

0.66028745

1.79338244

0.82580626

0.59797662

Serina

4.30810311

0.83123861

2.53607525

1.61273661

Treonina

0.942135

3.88635571

1.02379164

1.61152628

Valina

0.13613422

2.18525549

1.48574882

0.39439735

Tirosina

2.25373227

2.07990895

Triptófano

0.34218149

2.18638374

(Constante)

78.0678216

141.079972

29.0273106

9.24919259

Tabla 3.3.2.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

36.883

73.164

73.164

0.987

1 a 2

0.002

634.217

24

0.000

2

13.529

26.836

100.000

0.965

2

0.069

268.950

11

0.000

Todas las variables

1

39.824

71.749

71.749

0.988

1 a 2

0.001

632.783

38

0.000

2

15.681

28.251

100.000

0.970

2

0.060

272.983

18

0.000

Tabla 3.3.2.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Archaea (Análisis Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Archaea (Análisis CHAID)

0.997

0.002

0.000

0.993

1.000

Probabilidad Archaea (Análisis Disc. Todas)

1.000

0.000

0.000

1.000

1.000

Probabilidad Bacteria (Análisis Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Bacteria (Análisis CHAID)

0.997

0.002

0.000

0.993

1.000

Probabilidad Bacteria (Análisis Disc. Todas)

1.000

0.000

0.000

1.000

1.000

Probabilidad Eucariotes (Análisis Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Eucariotes (Análisis CHAID)

1.000

0.000

0.000

1.000

1.000

Probabilidad Eucariotes (Análisis Disc. Todas)

1.000

0.000

0.000

1.000

1.000

Figura 3.3.2.1.1 Gráfico de dispersión de la función Discriminante.

Figura 3.3.2.1.2Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.

Tabla 3.3.2.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante Stepwise

70 % base de datos extendida

 

 

 

Org.

Razón de TP

Razón de TN

Precisión

Exactitud

% Clasif.

Archaea

100.0

100.0

100.0

100.0

100.0

Bacteria

100.0

100.0

100.0

100.0

100.0

Eucariotes

100.0

100.0

100.0

100.0

100.0

Validación  cruzada

 

 

 

 

Archaea

100.0

98.6

97.5

99.1

100.0

Bacteria

97.3

100.0

100.0

99.1

97.3

Eucariotes

100.0

98.7

100.0

99.1

100.0

Validación externa

 

 

 

 

Archaea

100.0

100.0

100.0

100.0

100.0

Bacteria

100.0

100.0

100.0

100.0

100.0

Eucariotes

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con Anl. Discriminante (todas)

70 % base de datos extendida

 

 

 

Archaea

100.0

100.0

100.0

100.0

100.0

Bacteria

100.0

100.0

100.0

100.0

100.0

Eucariotes

100.0

100.0

100.0

100.0

100.0

Validación  cruzada

 

 

 

 

Archaea

100.0

98.6

97.5

99.1

100.0

Bacteria

97.3

100.0

100.0

99.1

97.3

Eucariotes

100.0

98.7

100.0

99.1

100.0

Validación externa

 

 

 

 

Archaea

100.0

100.0

100.0

100.0

100.0

Bacteria

100.0

100.0

100.0

100.0

100.0

Eucariotes

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con CHAID

 

 

70 %  base de datos extendida

 

 

 

Archaea

97.4

98.6

97.4

98.2

97.4

Bacteria

97.3

98.6

97.3

98.2

97.3

Eucariotes

100.0

97.4

100.0

98.2

100.0

Validación externa

 

 

 

 

Archaea

90.9

100.0

100.0

97.6

90.9

Bacteria

100.0

96.4

92.9

97.6

100.0

Eucariotes

100.0

95.8

100.0

97.6

100.0

1.8.3.  Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en archaeabacterias y bacterias.

Con el método CHAID en estos dos reinos, se observa en la Tabla 3.3.3.1, que al igual que en la taxa anterior el aminoácido Serina tiene el mejor porciento de clasificación, mientras la mayor significación la posee la Lisina que también estaba presente en los aminoácidos de mayor significación en la taxa anterior, los porcientos de clasificación se pueden ver en la Tabla 3.3.3.2 y el árbol correspondiente es el que aparece en la Figura 3.3.3.1.

Tabla 3.3.3.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Asparagina

0.01478413

96

Cisteína

4.81751E-05

98

Leucina

1.4552E-05

96

Valina

1.26618E-06

95

Ácido Aspártico

1.36782E-07

94

Metionina

1.04092E-07

96

Arginina

2.40979E-08

97

Serina

1.04247E-08

98

Triptófano

9.33E-13

94

Tirosina

2.14801E-15

96

Glicina

1.86287E-15

96

Prolina

7.69908E-21

97

Histidina

1.09352E-21

94

Treonina

1.33227E-22

97

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente