Descargar

Búsqueda de ORFs alternativas en genes anotados de un genoma completo (página 2)


Partes: 1, 2

Figura 10.- Datos que nos ofrece el BLAST sobre el ORF NC_001136.10, YDR418W, ORF-1, Cromosoma IV, al realizarse contra la base de datos "Fungi", encontrando similitud con la proteína C4Y2B5_CLAL4, con un Score de 139 bits y E-Value de 2e-31.

– Consultamos la proteína en UniProt. El ORF encontrado posee un 65% de identidad con la proteína C4Y2B5: 60S ribosomal protein L12.

La existencia de esta proteína es predicha, su anotación en Uniprot no está revisada.

Corresponde al microorganismo:

Clavispora lusitaniae (strain ATCC 42720) (Yeast) (Candida lusitaniae).

– Tiene doble actividad. Por un lado es una proteína ribosomal, de la subunidad 60S, subunidad grande, donde ocurre la translación del mRNA. La subunidad y el mRNA están libres en el citoplasma y unidos a las membranas de las células eucariotas y procariotas. Los ribosomas están también presentes en todos los plastos y mitocondrias, donde se unen el orgánulo y el mARN codificado.

Por otro lado es una proteína conjugada con ácido ribonucleico (ARN). Las ribonucleoproteínas están implicadas en una amplia gama de procesos celulares. Además de los ribosomas, existen en células eucariotas, tanto transcripciones iniciales de ARN en el núcleo (ARNnh) y mRNAs citoplásmicos, como complejos con conjuntos específicos de proteínas. El procesamiento (splicing) de la primera se lleva a cabo por pequeñas RNPs nucleares (snRNPs). Otros ejemplos son la partícula de reconocimiento de señal responsable de proteínas y dirigidos a retículo endoplásmico y un complejo implicado en la terminación de la transcripción.

– Buscamos en Swiss-Model para identificar la estructura de la proteína. Introducimos la secuencia en formato fasta y ejecutamos [25]. La respuesta que nos devuelve es: "No suitable templates found".

– En CPH-Model obtenemos un modelo tridimensional aproximado de la proteína:

El alineamiento con la plantilla (templ) que encuentra el servidor es el siguiente:

Query: 1 LSSTQNFLSNGSQSSTEGFVSHLSGNFNNFIQLDVTAMLDVLILLSVSWWFLQSSNDQRG 60

Templ: 1 RYNP-DRIDHTNASYLPIIKDHLNDLYRQAISSDLSQAELISLIARTHWWAASAMPDQRG 60

Query: 61 SRWNNRSSSLSVLDFQLDSNFDTFEF-LGGLGDIFTNLL 99

Templ: 61 SA—AKAEFAARAIASAHGIELPPFRNGNVSDIEAMLS 99

Con un Z-score de 3.8.

El modelo obtenido se representa en la figura 11.

edu.red

Figura 11.- Modelo tridimensional de la proteína codificada por el ORF, obtenido con el servidor CPH-model.

3.2.2.3.- Query = NC_001144.5, YLR397C, ORF-2, Cromosoma XII.

1- El resultado del BLAST realizado contra la base de datos uniprot_complete.fasta es el mostrado en la figura 2.

edu.red

Figura 12.- Datos que nos ofrece el BLAST sobre el ORF NC_001144.5, YLR397C, ORF-2, Cromosoma XI, al realizarse contra la base de datos uniprot_complete.fasta, encontrando similitud con la proteína C4Y5V2_CLAL4, con un Score de 112 bits y E-Value de 1e-23.

– Consultamos la proteína en UniProt. El ORF encontrado posee un 56% de identidad con la proteína: C4Y5V2 Cell Division Control protein 48.

La existencia de esta proteína es predicha, su anotación en Uniprot no está revisada.

Corresponde al microorganismo:

Clavispora lusitaniae (strain ATCC 42720) (Yeast) (Candida lusitaniae).

– Proteína involucrada en la división celular, separación de una célula en dos células hijas. En las células eucariotas, la división celular incluye la división nuclear (mitosis) y la posterior división citoplasmática (citocinesis). El ciclo celular eucariota se puede dividir en cuatro fases denominadas G1 (período de desfase primero), S (síntesis, fase durante la cual el ADN se replica), G2 (período de desfase segundo) y M (mitosis). El ciclo de la célula procariota normalmente implica un período de crecimiento seguido por la replicación del ADN, la partición de los cromosomas, la formación del tabique y la división en dos células hijas idénticas o similares. [26]

En la "Saccharomyces Genome Database" encontramos que la proteína cdc48 es una ATPasa implicada en la degradación de proteínas mediada por ubiquitina; El complejo Cdc48p-Npl4p-Ufd1p participa en la degradación ER- asociada (ERAD), mientras que el complejo Cdc48p-Npl4p-Vms1p participa en la degradación asociada a la mitocondria (MAD), junto con el complejo Npl4-Ufd1, importante para el mantenimiento de la integridad de la pared celular durante el estrés por calor, para permitir la progresión de G1; controla la degradación del proteosoma mediada por Sec23p; media la degradación UV-inducida de de la cromatina ubiquitinada unida a Rpb1p.

– Realizamos una aproximación de la estructura tridimensional con el servidor CPH-model:

El alineamiento con la plantilla (templ) que encuentra el servidor es el siguiente:

edu.red

Con un Z-score de 4.4. La aproximación tridimensional resultante es la mostrada en la figura 13.

edu.red

Figura 13.- Modelo tridimensional de la proteína codificada por el ORF, obtenido con el servidor CPH-model.

4.- CONCLUSIONES

1ª.- Existen pocos candidatos a ORFs alternativos. De los 6195 CDS analizados por el programa, hemos encontrado 1922 ORFs de una longitud mayor o igual a 100 aminoácidos.

2ª.-. La mayoría de los genes constitutivos no contienen ningún ORF alternativo. Hemos obtenido una proporción aproximada de menos de 1 ORF encontrado por cada 3 genes.

3ª.- Aproximadamente la mitad de los ORFs encontrados (948 de los 1922), ofrecen resultados en BLAST.

4ª.- Los ORFs con mayor similitud en BLAST encuentran el mayor parecido a hongos. La mayoría de los resultados encontrados en el BLAST corresponden a levaduras, probablemente por ser genes solapados o mal anotados. Los nombrados con YEASx (siendo x cualquier número o letra) son de otras cepas, por lo que pueden ser incorrectos o anotados en las otras cepas, pero no en la nuestra.

5ª.- No se encuentran proteínas con función reconocida; Sólo predichas, por lo que estos ejemplos tienen una alta probabilidad de corresponderse con falsos positivos.

Entre los resultados podríamos haber encontrado dos posibilidades:

Que el ORF alternativo encontrado se pareciera a una proteína de la base de datos, o que no se pareciera.

Si se pareciera a una proteína predicha, sin función reconocida, podría ser un falso positivo. Si se pareciera a una proteína con función, la proteína codificada por el ORF podría ser nueva, siendo este último el caso de mayor interés.

6ª.- La proteína A5DLC3, primera de las tres analizadas, contiene un dominio correspondiente a una proteína anotada perteneciente a la familia NMD3.

5.- REFERENCIAS Y BIBLIOGRAFÍA

1.- James Tisdall. "Beginning Perl for Bioinformatics". O"Reilly. First edition. Sebastopol, CA. October 2001. 2. – Larry Wall, Tom Christiansen, and Jon Orwant. "Programming Perl". O"Reilly. Third Edition, Sebastopol, CA. July 2000. 3.- Qian-Ru Li, Anne-Ruxandra Carvunis, Haiyuan Yu, et al. "Revisiting the Saccharomyces cerevisiae predicted ORFeome". Genome Research. 2008 August; 18(8): 1294–1303. 4. – Yanhui Hu, Andreas Rolfs, Bhupinder Bhullar, et al. "Approaching a complete repository of sequence-verified protein-encoding clones for Saccharomyces cerevisiae". Genome Research. 2007 Abril; 17(4): 536–543. 5.- Inti Pedroso, Gustavo Rivera, Felipe Lazo, et al. "AlterORF: a database of alternate open reading frames". Nucleic Acids Research, 2008, Vol. 36, Database issue D517–D518. 6. – Michael Seringhaus, Alberto Paccanaro, Anthony Borneman, et al. "Predicting essential genes in fungal genomes". Genome Research. Cold Spring Harbor Laboratory Press, 2006 june. 16: 1126-1135. 7. – Wu Wei, John H. McCusker, Richard W. Hyman, et al. "Genome sequencing and comparative analysis of Saccharomyces cerevisiae strain YJM789". PNAS, 2007 july. Vol. 104, no. 31, 12825-12830. 8.- Felipe Veloso, Gonzalo Riadi, Daniela Aliaga, et al. "Large Scale, Multi-Genome analysis of Alternate Open Reading Frames in Bacteria and Achaea". OMICS, 2005 Spring ; 9(1): 91-105. 9.- Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. 10.- Altschul, Stephen F., John C. Wootton, E. Michael Gertz, Richa Agarwala, Aleksandr Morgulis, Alejandro A. Schaffer, & Yi-Kuo Yu (2005) "Protein database searches using compositionally adjusted substitution matrices", FEBS J. 272:5101-5109. 11.- Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) "Basic local alignment search tool." J. Mol. Biol. 215:403-410.

12.- Gish, W. & States, D.J. (1993) "Identification of protein coding regions by database similarity search." Nature Genet. 3:266-272.

13.- Johnson M, Zaretskaya I, Raytselis Y, Merezhuk Y, McGinnis S, & Madden T.L. ."NCBI BLAST: a better web interface". Nucleic Acids Res. 2008. 36:W5-W9.

14.- Moshe Havilio, Erez Y. Levanon, Galia Lerman, Martin Kupiec & Eli Eisenberg. "Evidence for abundant transcription of non-coding regions in the Saccharomyces cerevisiae genome". BMC Genomics. 2005, 6:93 doi:10.1186/1471-2164-6-93. 16.

15.- McCullough A, Berget S: "G triplets located throughout a class of small vertebrate introns enforce intron borders and regulate splice site selection". Mol Cell Biol 1997, 17:4562-4571.

16.- Fairbrother W, Yeh R-F, Sharp P, Burge C: "Predictive identification of exonic splicing enhancers in human genes". Science, 2002, 297:1007-1013.

17.- Zhu J., Mayeda A., Krainer A. "Exon identity established through differential antagonism between exonic splicing silencerbound hnRNP A1 and enhancer-bound SR proteins". Mol Cell. 2001, 8:1351-1361.

18.- Si FS., Zhu YM., Dong SJ., Yu SS., Yu RS., Shen SY., Yang Q., Li Z. "Full genomic sequence analysis of swine genotype 3 hepatitis E virus isolated from Shanghai". Virus Res. 2009 Sep;144(1-2):290-3. Epub. 2009, Apr 23.

19.- Staden, R. 1990. "Finding protein coding regions in genome sequences. Methods in Enzymology". 183: 163-180.

20.- Baxevanis, A.D. & B.F. Francis Oullette (Eds.). "Bioinformatics. A practical guide to the analysis of genes and proteins". 2nd Ed. 2002. Wiley-Interscience.

21.- Mount, David W. "Bioinformatics. Sequence and Genome Analysis". Cold Spring Harbor. 2001. Laboratory Press.

22.- Koonin EV, Galperin MY. "Sequence – Evolution – Function: Computational Approaches in Comparative Genomics". 2003. Boston: Kluwer Academic.

23.- Aaron E. Tenney, Randall H. Brown, Charles Vaske, Jennifer K. Lodge, Tamara L. Doering and Michael R. Brent. "Gene prediction and verification in a compact genome with numerous small introns". October,2004. Cold Spring Harbor Laboratory Press. 14:2330–2335

24.- Ho JH., Johnson AW. "NMD3 encodes an essential cytoplasmic protein required for stable 60S ribosomal subunits in Saccharomyces cerevisiae". 1999 Mar. Mol Cell Biol.;19(3):2389-99.

25.- Bordoli, L., Kiefer, F., Arnold, K., Benkert, P., Battey, J. and Schwede, T. (2009). "Protein structure homology modelling using SWISS-MODEL Workspace". Nature Protocols, 4, 1.

26.- Butler G., Rasmussen MD., Lin MF. et al. "Evolution of pathogenicity and sexual reproduction in eight Candida genomes". Nature. 2009 Jun 4; 459(7247):657-62.

27.- Oliver, S.G., Van Der Aart, O.J., Agostoni-Carbone, M.L. Aigle, M. Alberghina, L., Alexandraki, D., Antoine, G., Anwar, R., Ballesta, J.P., Benit, P. et al. (1992). "The complete DNA sequence of yeast chromosome III". Nature, 357: 38-46.

28.- J. Michael Cherry, Catherine Ball1, Shuai Weng, Gail Juvik, Rita Schmidt, Caroline Adler, Barbara Dunn, Selina Dwight, Linda Riles, Robert K. Mortimer, and David Botstein. "Genetic and physical maps of Saccharomyces cerevisiae". Nature. 1997 May 29; 387(6632 Suppl): 67–73.

29.- Moshe Havilio, Erez Y Levanon, Galia Lerman, Martin Kupiec and Eli Eisenberg. "Evidence for abundant transcription of non-coding regions in the Saccharomyces cerevisiae genome". BMC Genomics, 2005, 6:93.

 

 

Autor:

ANTONIO CRUZ PINZÓN.

Ldo. en Farmacia.

antcpu[arroba]infonegocio.com

SEVILLA.

Marzo – 2012.

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente