Búsqueda de ORFs alternativas en genes anotados de un genoma completo

Partes: 1, 2

RESUMEN

Una secuencia de ADN contiene seis marcos abiertos de lectura (ORF) potenciales, tres en una dirección de la cadena y tres en el sentido inverso. Sin embargo, normalmente sólo uno de los seis se expresa en realidad ya que se asocia con las correspondientes señales genéticas que especifican la cadena de ADN y el marco de lectura que se transcribe y traduce.

La forma en que la maquinaria celular es capaz de reconocer la fase abierta de lectura correcta de un gen es aún desconocida en algunos aspectos que se van desvelando [15] [16] [17].

El objetivo de nuestro proyecto es descubrir si, en las otras fases de lectura de las secuencias que codifican genes constitutivos de un genoma completo, podemos encontrar ORF alternativas que representen otros genes no constitutivos que puedan codificar proteínas funcionales.

Para ello escribimos un programa, en lenguaje PERL y en entorno LINUX, que permite buscar en un genoma completo posibles ORFs alternativas a la constitutiva de cada gen en cada una de las restantes fases de lectura de la secuencia que lo contiene. Tras ejecutar el programa y obtener las ORFs alternativas, éstas se analizaron y estudiaron para tratar de validarlas bioinformáticamente. El programa nos mostró, entre sus resultados, cadenas de una longitud superior al número de aminoácidos que se consideró más apropiado, determinado por cálculo estadístico y que en este caso fueron cadenas de 100 aminoácidos o mayores.

El estudio de los resultados se realizó, tras un BLAST para identificación y reconocimiento de las secuencias proteicas de interés, con bases de datos públicas de motivos y dominios de proteínas, tales como Pfam y Prosite.

El trabajo se realizó, como ejemplo, sobre el genoma de la levadura Saccharomyces cerevisiae, aunque puede ser aplicado, permitiendo la modificación de parámetros, a cualquier otro genoma.

1.- INTRODUCCIÓN

Un ORF ("Open Ready Frame", Marco Abierto de Lectura) es un segmento de la secuencia de DNA libre de codones de stop o parada de traducción (UAA, UAG y UGA en el código estándar), es decir, que contiene solamente codones que especifican para algún aminoácido. Una secuencia de ADN contiene seis marcos abiertos de lectura potenciales, tres en un sentido de la cadena y tres en la cadena inversa complementaria. Sin embargo, normalmente sólo uno de los seis se expresa en realidad ya que se asocia con las correspondientes señales genéticas que especifican la cadena de ADN y el marco de lectura que se transcribe y traduce. Ocurren excepciones en la que más de un marco abierto de lectura se traduce en una proteína, como ha sido observado en el caso de los genes virales [18], donde se sugirió que esta propiedad permite una alta densidad de compactación de la información. Sin embargo, el análisis de genomas procariotas, reveló la frecuencia sorprendentemente alta de ORFs alternativos en genes anotados, donde muchas de las anotaciones exhiben ORF alternativos que podrían codifican una proteína de 100 aminoácidos o más.

Sólo unos pocos genes de estos ORFs alternativos han sido validados experimentalmente en Bacterias, Archaea y Eukarya (Behrens et al, 2002, Lejohn et al, 1994, Mcveigh et al, 2000.; Wang et al, 1999). Sin embargo, la mayoría de los ORFs alternativos no se reconocen como genes porque carecen de las señales genéticas apropiadas para la transcripción y traducción.

Los genes de los procariotas se traducen típicamente de un solo marco de lectura abierto (ORF) delimitado por un codón de iniciación, por lo general ATG, que codifica a la metionina, y terminada por uno de los codones estándar de terminación, TAA, TAG o TGA (utilizando los nucleótidos del ADN). Este marco de lectura se identifica generalmente por la maquinaria de traducción de la célula, siendo los ribosomas los que reconocen el sitio de unión y su subunidad pequeña la que reconoce el codón de iniciación.

1.1.- Predicción de genes.

Hablamos de predecir o buscar genes, para una secuencia de ADN no caracterizada, cuando tratamos de identificar la presencia de genes que codifican proteínas. [19]

La predicción de genes en procariotas es más simple que en eucariotas, debido principalmente al pequeño tamaño de su genoma, a la ausencia de intrones en los genes y a la mayor densidad de genes en las cadenas de ADN. Estas propiedades implican que la mayoría de marcos abiertos de lectura con un razonable número de aminoácidos, corresponden a genes. [20]

Para la búsqueda de genes podemos basarnos en diferentes criterios.

En primer lugar podemos buscar las señales que la maquinaria celular reconoce y que son secuencias más o menos conservadas en el ADN genómico. Dependiendo si se trata de eucariotas o procariotas, tendremos que considerar determinadas señales. En el primer caso habría que incluir señales de splicing, señales de exones, etc. Estas señales son alineadas y se generan patrones con las regiones conservadas [21] [22] [23].

En segundo lugar consideramos las propiedades estadísticas que tienen las regiones codificantes de las proteínas respecto a las que no lo son. Cuanto mayor sea una ORF, menor será la probabilidad de que se deba al azar y mayor, por lo tanto, de que se trate de una secuencia codificante. Estas secuencias codificantes reflejan el origen evolutivo y las propiedades funcionales de la proteína que codifican. Se alejan de la aleatoriedad y pueden distinguirse de las secuencias no codificantes. Cada una de estas propiedades estadísticas se pueden definir por una función que, dada una secuencia de ADN, nos devuelva un número relacionado con la probabilidad de que esa secuencia corresponda a una región codificante. Entre estas podemos incluir el uso diferencial de aminoácidos (por ejemplo la presencia relativa LEU/ TRP), el número de codones que existen para cada aminoácido (hay 6 codones que codifican LEU y sólo 1 para el TRP) y el uso diferencial de los codones para codificar los aminoácidos (de los 6 codones existentes para la LEU, unos se usan más que otros).

Otros criterios estadísticos se basan en la frecuencia relativa de cada nucleótido en cada posición del codón y en las preferencias de ciertos nucleótidos para ocupar determinadas posiciones del codón. De esta manera, para describir un segmento de la secuencia que puede actuar como una señal se usa las matrices de pesos por posición, que intentan capturar la variabilidad intrínseca de un determinado patrón en la secuencia, en búsquedas automáticas.

En tercer lugar el uso de homología con secuencias conocidas que se pueden encontrar en proteínas de otras especies, con fragmentos genómicos que sabemos que se transcriben, y por comparación de genomas completos.

Las estrategias que se usan en predicción de genes son:

– Secuencias consenso. Se usan matrices de puntuación.

– Modelos ocultos de Markov (HMM).

– Redes neuronales.

– Estrategias integradoras, combinando métodos.

1.1.1.- Programas de búsqueda de ORFs.

Existen numerosos portales que ofrecen programas para la detección de ORFs en secuencias de ADN, con diferentes características y propiedades. Entre estos están:

EMBOSS: (http://emboss.sourceforge.net/). Paquete de programas que permiten visualizar y extraer las ORFs de una secuencia de ADN. El paquete contiene programas como:

Plotorf: Nos permite obtener una representación gráfica de las ORFs en las 6 fases de lectura.
Getorf: Permite extraer las ORFs con cierto umbral de longitud y traducirlas a proteínas.
MZEF: Permite predecir exones internos individuales.

1.1.2.- Predicción de genes en procariotas.

La predicción de genes es más fácil en procariotas, además de por la falta de intrones, por el alto grado de conservación evolutiva de los promotores y de los sitios de inicio de transcripción y traducción.

Cada día aparecen nuevos programas y servidores para la predicción de genes. Para los procariotas se creó, como ejemplo, el programa "GeneMark.HMM", basado en Modelos Ocultos de Markov (HMM). El servidor permite elegir entre numerosas especies de bacterias y arqueas conocidas, para las que se ha entrenado el programa, y luego aplicarse para predecir genes en secuencias anónimas de la misma especie.

1.1.3.- Predicción de genes en eucariotas.

Igualmente, para microorganismos eucariotas, existen numerosos portales y programas para la búsqueda de motivos genéticos. Estos programas están:

-GRAIL ("Gene Recognition and Análisis Internet Link"). (http://grail.lsd.ornl.gov/grailexp/).

Se desarrolló para reconocer genes a principios de la década de los 90. Utilizaba una red neuronal para reconocer el potencial codificador en ventanas de longitud fija (100 bp) a lo largo de una secuencia. No se tenían en cuenta señales como los codones de inicio o de stop, los sitios de splicing, etc. Posteriormente, otras versiones si incluyen esta información y otros avances, lo que lo hizo muy útil para la predicción de estructuras génicas completas.

–FGENEH (www.softberry.com) Ha sido desarrollado para predecir exones internos considerando señales de splicing, potencial codificador e intrones a uno y otro lado del exón en cuestión. El método se basa en el análisis discriminante, combinando datos de múltiples experimentos. Una vez combinados los datos, se deriva una función discriminante que permite distinguir entre segmentos codificadores y no-codificadores. Posteriormente, se aplican técnicas de programación dinámica para obtener la mejor combinación de segmentos (exones) que conduce a un modelo génico completo.

-FGENES (www.softberry.com). Es una extensión de FGENEH que permite trabajar con secuencias genómicas más largas, en las que se espera más de un gen.

-MZEF.(http://rulai.cshl.edu/). Son las siglas de "Michael Zhang's Exón Finder". Este programa utiliza una técnica llamada "análisis discriminante cuadrático" para discriminar entre predicciones correctas e incorrectas. El método tiene en cuenta las longitudes de exones e intrones, las transiciones exón-intrón e intrón-exón, los sitios de splicing y diferentes puntuaciones para los exones, la hebra de DNA y la fase de lectura. MZEF es uno de los mejores programas para predecir exones individuales pero solo predice exones internos y no da ninguna información sobre estructuras génicas completas.

-GenScan (http://genes.mit.edu/GENSCAN.html). Este programa permite predecir estructuras génicas completas. Puede identificar exones, intrones, promotores y sitios polyA. Al igual que FGENES acepta secuencias que pueden contener más de un gen, lo que lo hace especialmente útil. Se basa en un "modelo probabilístico" de la composición de la secuencia y de la estructura génica. Asigna una probabilidad a cada segmento de la secuencia según se trate de un exón, un promotor, etc. Los "exones óptimos" son aquellos con la probabilidad más alta. Pero el programa predice también "exones subóptimos" que sobrepasan un determinado umbral de probabilidad.

-GenomeScan (http://genes.mit.edu/genomescan.html). Es un programa de predicción computacional de genes. El algoritmo combina dos fuentes principales de información: 1) modelos composicionales de exones, intrones y sitios de splicing; y 2) similitud (homología) de los segmentos candidatos (a través de BLASTX) con otras secuencias en la base de datos. El programa determina la probabilidad condicional de cada modelo génico teniendo en cuenta la información composicional y la información sobre similitud. La salida gráfica incluye la localización de cada exón predicho y la homología detectada por BLASTX. El modelo probabilístico de GenomeScan se basa en el de GenScan y tiene en cuenta muchas características esenciales de la estructura de los genes, tales como la densidad génica, el número típico de exones por gen, la distribución de tamaños de los exones, etc. También toma en consideración las características composicionales típicas de las regiones codificadoras, tales como las frecuencias de hexanucleótidos, la composición posición-específica de los sitios de inicio y final de la traducción, la caja TATA, el sitio CAP y las señales de poliadenilación. Los modelos de los sitios de splicing (aceptor y donante) capturan importantes dependencias posicionales en estas señales. Se utilizan conjuntos diferentes de parámetros para humanos y otros vertebrados, que tratan de tener en cuenta las importantes diferencias en la densidad y en la estructura génica que se observan en distintas regiones genómicas (isocoras) entre el genoma humano y el de otros vertebrados.

–GeneID (http://genome.crg.es/software/geneid/). Es un programa con una estructura jerárquica para la predicción de genes en secuencias genómicas anónimas. En una primera etapa, se predicen mediante Perfiles o Matrices de Pesos por Posición los sitios de splicing y los codones de stop y de inicio. En una segunda fase, se evalúan los exones que resultan. La puntuación asignada a cada exón es la suma de las puntuaciones obtenidas por los sitios que definen el exón, más el logaritmo de la razón de verosimilitud (log-likelihood ratio) de un Modelo de Markov para el DNA codificador. Finalmente, se ensambla la estructura génica completa maximizando la suma de las puntuaciones de los exones ensamblados. La precisión de GeneID es comparable a la de otros programas de predicción de genes, con la ventaja de una mayor eficiencia en términos de velocidad y uso de memoria. La salida del programa se puede ajustar a diferentes niveles de detalle, incluyendo listados exhaustivos de las distintas señales y exones. GeneID se caracteriza por su rapidez, además de una gran precisión.

-TwinScan (http://mblab.wustl.edu/software.html). Es un programa para la predicción de estructuras génicas completas diseñado específicamente para el análisis de secuencias genómicas largas que contengan muchos genes extendiendo el modelo probabilística de GenScan y explotando la homología entre dos genomas relacionados (como por ejemplo humanos y ratón). Se utilizan modelos probabilísticos diferentes para la conservación en exones e intrones, sitios de splicing y flancos que se transcriben pero que no se traducen (UTRs).

-HMMgene (http://www.cbs.dtu.dk/services/HMMgene/). Este programa usa Modelos Ocultos de Markov (HMMs) para predecir genes completos en secuencias genómicas anónimas. Además de la predicción óptima, el programa proporciona también otras predicciones menos probables, que pueden servir en aquellos casos en que se sospeche que pueda haber splicing alternativos. Si se conociesen algunas propiedades de la secuencia, tales como homologías parciales con otras secuencias, ESTs, proteínas, elementos repetidos, etc., el programa puede tomarlas en cuenta para hacer la mejor predicción bajo estas condiciones. Junto con GenScan, HMMgene es uno de los programas más precisos para predecir genes completos.

1.2.- Bases de datos.

Las bases de datos de secuencias biológicas, tanto de nucleótidos como de proteínas, almacenan información de interés, incluida la anotación de genes. Entre estas bases de datos tenemos RefSeq, del NCBI, la cual es accesible desde su servidor FTP del NCBI.

GenBank es la base de datos de secuencias nucleotídicas del NIH (National Institute of Healt ), una colección anotada de todas las secuencias de ADN disponibles al público que contiene aproximadamente 126,551,501,141 bases en 135,440,924 registros de secuencias en las divisiones tradicionales de GenBank y 191,401,393,188 bases en 62,715,288 registros de secuencias en la división de WGS, hasta abril de 2011.

Las notas completas de la versión actual de GenBank están disponibles en el sitio FTP del NCBI. Este sitio se revisa cada dos meses con una nueva actualización. GenBank es parte de la Colaboración Internacional de bases de datos de secuencias de nucleótidos, que comprende el Banco de Datos de ADN de Japón (DDBJ), la European Molecular Biology Laboratory (EMBL), y en el NCBI GenBank. Estas tres organizaciones intercambian datos diariamente.

Se puede ver un ejemplo de un registro de GenBank con el genoma de la levadura Saccharomyces cerevisiae.

1.3.- Saccharomyces cerevisiae.

Es uno de los modelos más adecuados para el estudio de problemas biológicos. Es un sistema eucariota, con una complejidad sólo ligeramente superior a la bacteriana, pero que comparte con ella muchas de sus ventajas técnicas. Además de su rápido crecimiento, la dispersión de las células y la facilidad con que se replican cultivos y aíslan mutantes, destaca por un sencillo y versátil sistema de transformación de ADN. Por otro lado, al no ser patógena permite su manipulación con las mínimas precauciones.

Conocida desde la antigüedad, la levadura del pan, del vino y de la cerveza, Saccharomyces cerevisiae, se ha convertido en un organismo de estudio común en el laboratorio. La investigación biotecnológica ha mantenido el uso tradicional que se ha hecho de esta levadura, mejorando e innovando los procesos de panificación y de producción de bebidas alcohólicas

La secuenciación completa del genoma de Saccharomyces cerevisiae (concretamente de la cepa de laboratorio S288C) se finalizó en 1996, tras cuatro años de un proyecto liderado por la Unión Europea y la participación de más de cien laboratorios de todo el mundo. Fue el primer organismo eucariota en ser secuenciado y actualmente es el genoma eucariota mejor conocido.

Saccharomyces cerevisiae es una levadura, un hongo unicelular del grupo de los ascomicetos. Este grupo incluye a más de 60000 especies, entre ellas las trufas, las colmenillas o el Penicillium, el hongo que produce la penicilina, pero también a hongos patogénicos tanto de plantas como de animales, el más conocido de los cuales es Candida. En la naturaleza se encuentra sobre sustratos ricos en azúcares o en los exudados y savias dulces de algunas plantas.

Una ventaja adicional de este microorganismo consiste en que se conoce la secuencia completa de su genoma y se mantiene en constante revisión. Ello ha permitido la manipulación genética de los casi 6600 genes que codifica el genoma de levadura, el uso extensivo de micromatrices de ADN para investigar el transcriptoma y estudios a escala genómica de, entre otros muchos aspectos, la expresión génica, localización de proteínas y la organización funcional del genoma y el proteoma. Hay que destacar la escasa presencia de intrones en sus genes, solo el 3,8% de los ORFs contienen intrones.

La maquinaria molecular de muchos procesos celulares se encuentra conservada tanto en levaduras como en plantas y en mamíferos. Esto se ilustra con el hecho de que rutinariamente se han introducido genes de eucariotas superiores en levaduras para el análisis sistemático de su función. S. cerevisiae es un sistema genético que, a diferencia de la mayoría de los otros microorganismos, presenta dos fases biológicas estables: haploide y diploide. La fase haploide permite generar, aislar y caracterizar mutantes con mucha facilidad, mientras que en la diploide se pueden realizar estudios de complementación. Una levadura haploide contiene 16 cromosomas que varían en tamaño de 200 a 2200 kilobases (kb).

Por estas razones, S. cerevisiae se ha convertido en una importante herramienta a gran escala de análisis de genómica funcional, proporcionando un punto de partida para el análisis de organismos eucariotas más complejos. Al ser un organismo unicelular con una tasa de crecimiento rápida, la levadura se puede utilizar para los estudios de células que resultarían muy complicados o costosos en organismos multicelulares.

1.4.- BLAST.

La "Basic Local Alignment Search Tool " (BLAST) es un programa de búsqueda de similitud de secuencias que se puede utilizar a través deuna interfaz web o como una herramienta independiente de consulta para comparar una secuencia del usuario con secuencias de una base de datos.

Existen diversas variantes de BLAST, que comparan todas las combinaciones de nucleótidos o proteínas con sus respectivas bases de datos. BLAST, con procedimientos heurísticos, encuentra resultados cortos de similitud entre dos secuencias, iniciando alineaciones a partir de estos 'puntos calientes'. Además de realizar alineaciones, BLAST proporciona información estadística sobre la alineación, mostrando el valor esperado o indicando si son falsos positivos. BLAST es uno de los programas más ampliamente utilizados en bioinformática como herramienta de investigación.

1.5.- Objetivos.

El principal objetivo de nuestro proyecto consiste en la realización de un método automático de búsqueda de ORFs, para las cinco fases de lectura alternativas, en los genes anotados de un genoma completo, a través de un programa informático.

Comprobaremos el funcionamiento del método realizado, con la ejecución y prueba del programa y el estudio biológico de algunos de los resultados obtenidos.

Así, pues, definimos las tres etapas o fases que constituirán nuestro proyecto:

1ª.- Fase INFORMÁTICA. Programación: Realización del programa escrito, en lenguaje Perl y en entorno LINUX.

2ª.- Fase de EJECUCIÓN: Descarga de los datos necesarios, ejecución, prueba del programa, con un genoma completo, y obtención de resultados. Elegimos el genoma de la levadura Saccharomyces cerevisiae.

3ª.- Fase BIOLÓGICA: Realización de un BLAST para buscar similitudes de las ORFs alternativas encontradas con proteínas anotadas y estudio de algunos de los casos particulares entre los resultados obtenidos más representativos, en bases de datos de motivos proteicos.

2.- MATERIAL Y MÉTODOS.

2.1.- Fase informática.

Como lenguaje usaremos Perl, en entorno LINUX.

Perl es un lenguaje creado por Larry Wall con el objetivo principal de simplificar las tareas de administración de un sistema UNIX. Hoy en día se ha convertido en un lenguaje de propósito general, y una de las principales herramientas para internet y el trabajo de un administrador de sistemas.

Éste es un lenguaje que hereda ciertas estructuras de los intérpretes de comandos de UNIX, especialmente el csh, y de otras utilidades estándar, como awk y sed. Aparte de esto, está diseñado para hacer todo lo que hacen cualquiera de ellos y todos ellos juntos, y la mayoría de las veces de forma más simple, comprensible y fácil de depurar

Perl es un lenguaje interpretado, aunque en realidad, el intérprete de Perl, como todos los intérpretes modernos, compila los programas antes de ejecutarlos. Por eso se habla de scripts, y no de programas, concepto referido principalmente a programas compilados al lenguaje máquina nativo del ordenador y sistema operativo en el que se ejecuta.

El programa escrito lo denominamos: inORF.pl (Anexo 1).

Su estructura está conformada con los procesos que se detallarán en el apartado de ejecución

2.2.- Fase de ejecución

2.2.1.- Obtención de los datos.

El genoma completo sobre el que se realizará la búsqueda, como ejemplo, pertenece a la levadura Saccharomyces cerevisiae, de las cepas con el taxón identificador 559292.

Como base de datos del genoma que vamos a estudiar, usamos la extraída de GenBank, en el FTP del NCBI.

La dirección completa sería:

ftp://ftp.ncbi.nlm.nih.gov/genomes/Fungi/Saccharomyces_cerevisiae_uid128/

Los ficheros bajados a nuestro directorio de trabajo son los que tienen las extensiones .gff y .fna, de cada uno de los cromosomas.

De los ficheros con la extensión .fna extraemos directamente la secuencia completa de cada cromosoma en formato FASTA.

De los ficheros .gff extraeremos los nombres de los genes constitutivos y las coordenadas de las secuencias que codifican a estos genes, que consideramos en la fase +1, dentro de las cuales y delimitados por las coordenadas obtenidas, buscaremos los ORFs alternativos en las otras 5 fases de lectura.

Los ficheros con este formato, que tienen extensión .gff, se utilizan para proporcionar una manera estándar de registrar las anotaciones generadas a partir de las secuencias genómicas. Su contenido está organizado, tras la cabecera, en columnas según se muestra en la figura 1.

edu.red

Figura 1.- Organización de los ficheros .gff en columnas mostrando el contenido de una de las líneas: .Identificación del cromosoma. Tipo de exón predicho: iniciales, internos, terminales, single genes. Posición de la secuencia donde empieza el exón. Posición de la secuencia donde acaba el exón. Cadena que se ha utilizado para identificar los exones. Será con símbolo + si la anotación se ha hecho con la secuencia de 5' a 3' o el símbolo – si se ha hecho con la secuencia de 3' a 5'. Continúa la línea con información sobre el gen y la proteína codificada.

Los datos que usaremos de estos ficheros en nuestro programa son la secuencia completa de cada cromosoma, las coordenadas de cada gen en los cromosomas, y el nombre de los genes en los que buscaremos las ORFs alternativas.

Hemos de tener presente la versión y la fecha de actualización de los ficheros en el servidor, para que nos coincidan la secuencia obtenida de los ficheros .fna, con las coordenadas de los genes obtenidas de los .gff. En nuestro caso, los ficheros que usamos fueron revisados por última vez el 26 de abril del 2011.

2.2.2.- Ejecución del programa.

El programa obtendrá, de los ficheros con la extensión .fna, la secuencia completa de cada uno de los cromosomas. Y leerá automáticamente cada fichero de extensión .gff correspondiente con el fichero .fna de cada cromosoma, extrayendo las coordenadas de los ORF que codifican a cada gen constitutivo. Para ello deberá detectar las líneas en las que se encuentran y que consideraremos definidas por contener las letras "CDS". En estas líneas también obtendremos el nombre del gen ("locus tag=") al que corresponden esas coordenadas.

Una vez delimitada la secuencia de cada gen constitutivo dentro del cromosoma, obtendrá las tres fases de la secuencia en una dirección y posteriormente las otras tres en el sentido inverso de la cadena complementaria obtenida entre las coordenadas del gen.

Realizamos la búsqueda de, ORFs alternativos que estén dentro de otros ORFs correspondientes a los genes del genoma constitutivo.

La búsqueda de los ORFs alternativos se realiza en cada una de las 5 fases alternativas a la fase +1, que la asignamos a la fase que codifica los genes constitutivos, delimitadas por las coordenadas de dichos genes, por esto la cadena +1 será omitida en la búsqueda.

El programa traducirá a aminoácidos, en cada marco de lectura buscado, los tripletes de nucleótidos usando la tabla del código genético, obteniendo así la secuencia proteica correspondiente a cada ORF encontrado.

2.3.- Fase biológica. Estudio biológico de las proteínas encontradas.

2.3.1.- BLAST.

Una vez ejecutado el programa y obtenidos los ORFs, procedemos a realizar los Blast . Uno contra la base de datos de S. cerevisiae. Otro contra la base de datos de hongos en general, Fungi, y un tercero contra la base de datos de UniProt.

Se realizan con el procedimiento de Blast local, descargado del servidor del NCBI, contra las bases de datos 1 y 2 del NCBI.

2.3.2.- Consulta de resultados en bases de datos.

Los ORFs encontrados con mayor "Score" y " E Value", según los Blast realizados, los consultamos en las bases de datos de los servidores de UniProt, Pfam y PROSITE, buscando las características y propiedades de las proteínas que serían codificadas, introduciendo el nombre de la proteína en el recuadro de búsqueda (query). Con los resultados obtenidos nos dirigiremos, en cada caso, a la sección del portal que nos vaya mostrando información útil.

Consultamos también la Saccharomyces Genome Database (SGD).

2.3.2.1.- UniProt (http://www.uniprot.org/).

Es un portal de servicios de base de datos integral cuya misión es proporcionar a la comunidad científica, con una alta calidad, acceso libre a los recursos de las secuencia de la proteínas y la información funcional. UniProt se compone de cuatro componentes, cada uno optimizado para diferentes usos. La UniProt Knowledgebase (UniProtKB) es el punto de acceso central para la información extensa de proteínas, incluyendo la función, la clasificación y referencias cruzadas. Se compone de dos secciones: UniProtKB / Swiss-Prot, que es anotada manualmente y es revisada, y UniProtKB / TrEMBL que es automáticamente anotada y no se revisa. Los clusters de referencia (UniProt UniRef) proporcionan conjuntos agrupados de secuencias de la UniProtKB y una selección de registros del archivo UniProt para obtener una cobertura completa de la secuencia en varias resoluciones, al tiempo que oculta las secuencias redundantes. El archivo UniProt UniParc es un repositorio global, que se utiliza para realizar un seguimiento de las secuencias y sus identificadores. La UniProt Metagenomic and Environmental Sequences (UniMES) es una base de datos desarrollada específicamente para los datos de metagenómica y ambientales.

2.3.2.2.- Pfam (http://pfam.sanger.ac.uk/).

Es una base de datos con una de las colecciones más importantes de información en el mundo para la clasificación de proteínas. Clasifica el 75 por ciento de las proteínas conocidas formando una biblioteca de familias de proteínas que se puede considerar como una "tabla periódica" de la biología. El acceso abierto al recurso se estableció en el Instituto Wellcome Trust Sanger en 1998. Su objetivo es proporcionar una herramienta que permite a los biólogos en experimentación y computación, clasificar las secuencias de proteínas y responder preguntas sobre lo que hacen y cómo han evolucionado.

2.3.2.3.- PROSITE (http://prosite.expasy.org/).

Es una base de datos de dominios, familias y sitios funcionales de proteínas, así como de los patrones y perfiles asociados a su identificación. PROSITE se complementa con ProRule, un conjunto de reglas basadas en perfiles y patrones, lo que aumenta el poder discriminatorio de los perfiles y patrones, proporcionando información adicional acerca de los aminoácidos funcionales y / o críticos estructuralmente. Prosite, junto con UniProtKB, SWISS-MODEL y STRING, es uno de los recursos del ExPASy que es un portal de recursos bioinformáticos, SIB, que proporciona acceso a bases de datos científicas y herramientas de software en diferentes áreas de ciencias de la vida, incluida la proteómica, la genómica, filogenia, biología de sistemas, genética de poblaciones, transcriptómica, etc. En este portal encontramos recursos de los diversos grupos de la SIB, así como de instituciones externas.

2.3.2.4.-Saccharomyces Genome Database (SGD).

. (www.yeastgenome.org/) Recoge la información y mantiene una base de datos de la biología molecular de la levadura Saccharomyces cerevisiae. Esta base de datos incluye una variedad de información genómica y biológica, siendo mantenida y actualizada constantemente. La SGD también mantiene el registro de los nombres de los genes de S. cerevisiae, una lista completa de todos los nombres de los genes utilizados. Esta tarea fue transferida a la DGS por el Dr. Robert Mortimer a principios de 1994. También han recopilado una serie de directrices generales para nombrar genes que puede ser de ayuda a los investigadores que han puesto el nombre a nuevos genes.

3.- RESULTADOS Y DISCUSIÓN.

Realizado el programa en Perl, analizamos los resultados obtenidos a partir de la fase de ejecución del programa.

3.1.- Ejecución del Programa.

Para evitar el análisis de ORFs fortuitos (sin capacidad codificadora real), los autores de la secuenciación del primer cromosoma de levadura adoptaron un umbral de 100 codones por debajo del cual se rechazaban todas las secuencias de DNA con la estructura de un ORF [27]. Estimaron que un ORF mayor de 100 codones tenía menos del 0,2% de probabilidad de ser fortuito.

Igualmente, realizamos la búsqueda de ORFs con un número mayor o igual a 100 aminoácidos. Esta elección se hizo por criterios estadísticos [8]. El 95% de las proteínas encontradas tienen 95 aminoácidos o más, correspondiente al percentil 5. Si cambiamos a percentil 6 pasamos a una longitud de 105 aminoácidos. Redondeando, lo dejamos en 100 aminoácidos como los necesarios para considerar un ORF alternativo encontrado como representativo (Figura 2).

edu.red

Figura 2.- Histograma que representa la distribución del número de ORFs constitutivos de S.cerevisiae, frente a la longitud en aminoácidos que contiene cada uno.

Inicialmente se buscaron los ORFs alternativos, una vez descargados los archivos de la base de datos del FTP del NCBI correspondientes a S. cerevisiae.

Ejecutado el programa con estos datos, nos ofrece como resultados una lista de secuencias correspondientes a los ORFs encontrados, indicándonos el número del cromosoma y su fichero, el gen donde se ha buscado, la fase de lectura donde se ha encontrado y la secuencia de la proteína codificada por el ORF. (figura 3).

>I, NC_001133.9 YAL051W ORF-2

MPCHNSPFLILCTMTSNKANILKTGKYVNLKCSEAEQYIPSKADSRSLCRVLNFSTLVFNSFIL GSVVPDNFCTSEDNIWMAKPILSIIPNRLKIVLDSAN

Figura 3.- Ejemplo de la forma en que el programa nos presenta cada uno de los resultados de los ORFs obtenidos tras ejecutarlo. Número del cromosoma al que pertenece, referencia del cromosoma en la base de datos del que se extrajo, nombre del gen constitutivo al que pertenece la secuencia donde se encontró el ORF y la fase de lectura donde se localiza el ORF hallado. Seguidamente la secuencia de la proteína codificada por el ORF.

Encontramos 1922 secuencias con las características buscadas.

(Se adjunta el fichero resultadosORF.txt , con los resultados de los ORFs obtenidos al ejecutar el programa).

Estas secuencias se distribuyen, en las 5 fases alternativas, según vemos en la figura 4.

En la fase+2: 210 ORFs

En la fase+3: 142 ORFs

En la fase-1: 292 ORFs

En la fase-2: 952 ORFs

En la fase-3: 326 ORFs

Figura 4.- Tabla resumen de la disposición los ORFs en las fases de lectura alternativas a la constitutiva (fase+1), encontrados al ejecutar el script en perl.

3.2.- Estudio biológico de resultados.

3.2.1.- BLAST

Se realizó el BLAST del archivo de secuencias, obtenido con el programa, para tratar de encontrar homología frente a los ORFs alternativos encontrados. El resultado, contra la base de datos correspondiente a hongos (uniprot_fungi.fasta), fue el mostrado en la figura 5.

edu.red

Figura 5.- Tabla resumen de los resultados mostrados al ejecutar el BLAST contra la base de datos uniprot_fungi.fasta. De los 1922 analizados, 974 ORFs no obtuvieron resultados en BLAST. 948 ORFs con resultado en BLAST, siendo 900 correspondientes a levaduras (YEAS). De estas, 238 son de la cepa de S.cerevisiae original (YEAST) y 622 de otras cepas de S cerevisiae distintas a la original.

Los 48 restantes son de otros hongos (No YEAS Fungi), entre los que encontramos 39 únicos y 9 que se repiten.

(Los resultados de los BLAST realizados se adjuntan como ficheros).

El resultado de salida de cada BLAST es un fichero de texto que nos muestra una serie de datos de los ORFs que han tenido homología con una proteína anotada (figura 6).

edu.red

Figura 6.- Ejemplo de resultado del BLAST, con uno de los ORFs del que se ha encontrado homología con una proteína, Nos muestra cuatro apartados: 1.Los datos del gen; 2. La base de datos contra la que se ha hecho el BLAST; 3. La proteína con la que ha encontrado homología, con el Score, el E-Value, la longitud y las identidades; 4. Alineamiento de la secuencia problema y la secuencia encontrada.

La mayoría de los resultados encontrados en el BLAST corresponden a levaduras, probablemente por ser genes solapados o mal anotados.

Los nombrados con YEASx (siendo x cualquier número o letra) son de otras cepas, por lo que pueden ser incorrectos o anotados en las otras cepas, pero no en la nuestra. Nos interesa buscar entre los resultados "No YEASx".

3.2.2.- Análisis de las proteínas

El análisis de los tres ejemplos de los resultados encontrados en BLAST, con posible representatividad y con similitud a proteínas, es el siguiente:

3.2.2.1.- Query = NC_001139.9, YGR252W, ORF-2, Cromosoma VII.

– El resultado del BLAST de este ORF contra la base de datos uniprot_fungi.fasta es el representado en la figura 7:

edu.red

Figura 7.- Datos que nos ofrece el BLAST sobre el ORF NC_001139.9, YGR252W, ORF-2, Cromosoma VII, al realizarse contra la base de datos "Fungi", encontrando similitud con la proteína A5DLC3_PICGU, con un Score de 64 bits y E-Value de 6e-10.

– Consultamos la proteína en UniProt. El ORF encontrado posee un 70% de identidad con la proteína A5DLC3: Histone acetyltransferase GCN5.

La existencia de esta proteína es predicha, su anotación en Uniprot no está revisada.

– Corresponde al microorganismo:

Meyerozyma guilliermondii (strain ATCC 6260 / CBS 566 / DSM 6381 / JCM 1539 / NBRC 10279 / NRRL Y-324) (Yeast) (Candida guilliermondii)

– Esta proteína tiene actividad transferasa. Vamos a "Gene Ontology", a través del enlace, y nos indica que esta actividad transferasa consiste en:

"Catálisis de la transferencia de un grupo, por ejemplo un grupo metilo, grupo glicosilo, grupo acilo, que contienen fósforo, u otros grupos, a partir de un compuesto (generalmente considerado como el donante) a otro compuesto (generalmente considerado como el aceptor). Transferasa es el nombre sistemático para cualquier enzima de CE clase 2".

– En el portal Pfam encontramos más información sobre nuestra proteína:

Contiene un dominio NMD3. (Figura 8).

edu.red

Figura 8.- Dominios encontrados para la proteína en el portal Pfam. El dominio principal es una secuencia proteica que está clasificada en la familia NMD3. Se muestra la posición dentro de la proteína.

– La proteína NMD3 está implicada en la degradación del ARNm. En la región amino terminal contiene cuatro motivos conservados CXXC que podrían ser lugares de unión a metales. NMD3 está involucrado en la exportación de la subunidad 60S ribosomal, mediada por la proteína Nmd3p adaptadora en una vía Crm1p-dependiente. [24]

– Para buscar la estructura aproximada podemos introducirla en el servidor CPHmodels 3.2 (http://www.cbs.dtu.dk/services/CPHmodels/).

CPHmodels 3.2 es un servidor de modelado de homología de proteínas. El reconocimiento del modelo se basa en la alineación de la secuencia con una plantilla (templ) guiado por la estructura secundaria y la exposición de la predicción.

Obtenemos un resultado con un Z-score de 4.2. Un Z-score por encima de 10 indicaría un modelo de alta fiabilidad.

El alineamiento con la plantilla (templ) que encuentra el servidor es el siguiente:

Query: 1 VRTIMFSLVLSLFTTLNSILPSF 23

Templ: 1 LAAIWMTITAGILIEFNRFYPDL 23

El modelo tridimensional que nos muestra se representa en la figura 9.

edu.red

Figura 9.- Modelo tridimensional de la proteína codificada por el ORF, obtenido con el servidor CPH-model.

3.2.2.2.- Query = NC_001136.10, YDR418W, ORF-1, Cromosoma IV.

– El resultado del BLAST realizado contra la base de datos edu.red uniprot_complete.fasta es el mostrado en la figura 10.

Partes: 1, 2

Página siguiente