Subscribe RSS

Anotación de genomas, descifrando los libros de la vida

Por: Leonardo Galindo

“For thousands of years, rabbis have laboured over the text of the Torah, seeking to make this cryptic, uneven and internally contradictory text into a coherent system of law, and storing this commentary into an annotated version of the text, known as the Talmud. Over time, the amount of annotation in the Talmud has greatly exceeded the original text — each line of the Torah is now surrounded by layers of commentary in an onion-skin fashion”

“Por miles de años, los rabinos han trabajado en el libro del Torah, tratando de transformar este texto críptico, desigual e internamente contradictorio, en un sistema de leyes coherentes, consignando estos comentarios en una versión anotada del texto conocida como el Talmud. A través del tiempo, la cantidad de anotaciones del Talmud ha excedido ampliamente el texto original – cada línea del Torah está ahora rodeada por capas de comentarios al estilo de la piel de una cebolla”

                                                                                                                                  [1]


Anotar un genoma es muy similar a tratar de descifrar el Torah (libros de la biblia judía). Es necesario tener un equipo de criptografía que entienda el lenguaje del ADN (biólogos moleculares y bioinformáticos), y que pueda localizar en espacios específicos del genoma sus diferentes componentes (genes, secciones repetitivas, ADN no codificante), para luego asignar un significado a cada una de dichas secciones, que finalmente nos permita interpretar su significado. El resultado de la anotación de un genoma es una descripción de la ubicación de sus componentes a los cuales se les ha asignado una función potencial.

Algo de historia

La historia de la anotación de los genomas ha ido a la par con el proceso de secuenciación de los genomas. Los primeros genomas secuenciados fueron los de los virus [2–4], posiblemente porque en los años 70’s y 80’s la tecnología solo permitía secuenciar regiones pequeñas y existía además un interés en empezar a descifrar la relación patogénica de los virus con la especie humana. En los años 90’s la secuencia del primer organismo independiente o no vírico, Haemophilus influenzae [5], fue descifrada y a éste le siguieron otros organismos unicelulares de importancia médica y comercial incluyendo  Escherichia coli [6] y Saccharomyces cerevisiae [7]. Aunque hubo un gran salto en el tamaño de las secuencias obtenidas pasando de aproximadamente 5000 nucleótidos secuenciados en el caso del virus bacteriófago φX174 [3] a más de 12 millones de nucleótidos y 6000 genes en el caso de S. cerevisiae [7], posiblemente el punto de inflexión para empezar a pensar en anotaciones más detalladas, automatizadas y de alta eficiencia, se dio con el proyecto de secuenciación del genoma humano. En los años 90’s la asignación de funciones para los genes de los primeros microorganismos se hizo con ayuda de herramientas como BLAST (por su acrónimo en inglés: Basic Local Alignment Search Tool), que permite encontrar regiones de alta similitud entre la secuencia que se investiga y una base de datos de secuencias caracterizadas. Sin embargo, pasar de algunos millones de bases en organismos unicelulares a 3000 millones de bases y más de 20000 genes en los humanos, requirió tanto de grupos de investigación multidisciplinarios trabajando en conjunto alrededor del mundo, como de la automatización de los procesos. De esta manera la evolución tecnológica y la consecución de genomas cada vez más grandes, provocaron que en menos de dos décadas surgiera una necesidad inherente de buscar herramientas que hicieran más eficiente y exacto el proceso de anotación de genomas.

Como anotar un genoma

Existen dos niveles de anotación, uno a nivel del gen y otro a nivel del genoma. Si usted ha trabajado en biología molecular o en ramas afines es bastante probable que se haya enfrentado con el problema de anotar un gen o una familia de genes. Su supervisor llego un día a su puesto de trabajo y le dijo: un colaborador encontró un gen que se expresa altamente en respuesta al estrés hídrico en el arroz, realmente no sabemos que es pero tenemos una secuencia parcial (incompleta) y nos gustaría investigar a fondo que hace. Encontrar el gen completo y detallar su ubicación, asignarle una posible función y entender su relación con otros genes nos permite estudiar el gen a fondo y es un punto de partida para estudios que permitan comprobar su función. El fundamento básico de la anotación de un gen es muy similar a anotar un genoma: buscar donde está el gen en el genoma, predecir sus límites y estructura y asignar una posible función. Sin embargo, en muchas ocasiones cuando se estudia un gen o familia génica existe un contexto y todo un estudio diseñado alrededor de la consecución de los genes. Consecuentemente se están estudiando secciones de ADN tan puntuales que el problema de anotación es mínimo [8]. Es allí donde la anotación de genomas completos difiere, pues la anotación de un genoma no tiene como objetivo estudiar genes específicos, y no existen conclusiones biológicas a priori de las funciones de cada gen. La anotación de genes y genomas es en sí un trabajo puramente bioinformático que sirve para generar hipótesis que pueden ser comprobadas con trabajo de laboratorio.

Podríamos decir que la anotación de un genoma tiene dos componentes básicos: uno estructural y otro funcional [8]. Estructuralmente los genes tienen que ser asignados a regiones específicas del genoma y/o de los cromosomas. Adicionalmente es necesario encontrar la estructura de cada gen incluyendo sus intrones, exones, sitios de inicio y de parada de la transcripción y las regiones no traducidas que se encuentran al principio y al final. Sumado a esto es deseable encontrar las regiones promotoras que pueden proporcionar información sobre la regulación de dichos genes. Una vez la estructura y los límites del gen están estipulados, es entonces posible tomar dicha sección de ADN y compararla con bases de datos de genes o dominios que permitan asignar posibles funciones. Cuando la estructura y la función están establecidas para todos los genes de un genoma, podemos decir que el genoma esta anotado, aunque como veremos más adelante existen secciones no codificantes, reguladoras y repetitivas que también deben ser caracterizadas.

Herramientas bioinformáticas disponibles

Entendiendo el fundamento de como anotar un genoma podemos ahora pasar a describir las herramientas para hacerlo. En los años 90’s cuando el reto de la anotación genómica estaba en su infancia, los biólogos computacionales recurrían a las herramientas usadas para anotar genes individuales. Algunos de los primeros predictores de genes como GRAIL y GENESCAN fueron implementados y mejorados para hacer predicciones de la estructura génica a nivel de regiones genómicas extensas [9,10]. Los predictores de estructura génica tienen como base la idea de encontrar regiones con la más alta probabilidad de describir los límites reales entre intrones y exones, predecir los sitios de inicio de la transcripción y delinear las señales de inicio y de parada de un marco de lectura (la región del gen que contiene la información a ser traducida en proteínas). Para lograr dicho objetivo los predictores utilizan sets de secuencias de entrenamiento que pueden se fragmentos expresados de ADN complementario (ADNc o transcritos), o modelos probabilísticos que incluyen descripciones de las señales que se quieren buscar en la estructura del gen, su distribución, su longitud y la composición de bases en cada región. Posiblemente uno de los programas más usados en la actualidad que utiliza modelos ocultos de markov (un modelo matemático probabilístico) es Augustus [11], que logra determinar los modelos génicos basado en los patrones derivados de especies predeterminadas. Augustus además permite ingresar secuencias de entrenamiento específicas para la especie que se quiere evaluar. Los predictores de estructura génica permiten entonces cumplir con el primer paso de delimitar al gen y localizarlo, pero más recientemente, como veremos a continuación, nuevas estrategias se han diseñado para mejorar aún más dicha predicción.

Si bien es cierto que los modelos matemáticos implementados por programas como GENESCAN pueden ser muy útiles para casos específicos, cada especie tiene particularidades en la estructura e incluso con un modelo bien diseñado, predecir características como los límites entre exones e intrones es una labor complicada y de baja precisión [1]. Es por eso que utilizar dicha predicción en complemento con la comparación del gen a una región  transcrita es una de las herramientas más eficaces. Por esta razón, la comparación no solo con secuencias transcritas del mismo genoma (conocida como alineamiento en cis), sino con transcritos de especies cercanas (conocida como alineamiento en trans), son recursos útiles para la definición de la estructura génica  [12]. Entre los programas para alineamiento de secuencias de ADN complementario (transcritos) a ADN genómico se encuentran GMAP [13] y BLAT [14], este último es una modificación de BLAST con un algoritmo mucho más rápido y que permite partir la secuencia del transcrito en pedazos que se alinean a un genoma evidenciando los exones e intrones. En esta misma línea de ideas, los anotadores vieron que si dos especies eran cercanas y una de ellas disponía ya de anotación genómica, esta se podía utilizar como modelo para encontrar la estructura de los genes homólogos, pues los patrones de los genes suelen estar relativamente conservados. Programas como TWINSCAN, N-SCAN y CONTRAST (revisados en Brent 2008), permiten hacer comparaciones con uno o más genomas para guiar la anotación estructural de los genes. La predicción génica usando múltiples genomas es una mejora notable sobre los predictores con modelos matemáticos, pues además del modelo probabilístico se adiciona un nivel comparativo global.

Una vez los genes se han delimitado es hora de asignarles una posible función. En un principio la predicción funcional se hacía casi completamente usando los distintos algoritmos de BLAST [15]. Esta herramienta permitía comparar el gen en cuestión contra cualquier otra secuencia anotada previamente en la base de datos del banco de genes –Genbank- (http://www.ncbi.nlm.nih.gov/genbank/). Sin embargo, el nivel de curaduría de los genes en el Genbank no es muy alto y las funciones asignadas por similitud pueden no siempre ser apropiadas, por lo cual es recomendable anotar los genes basándose en secuencias traducidas que hayan sido filtradas y confirmadas como las consignadas en Swiss-Prot/UniProtKB (http://www.ebi.ac.uk/uniprot). En ocasiones no es posible asignar una función usando comparación con las secuencias de las bases de datos. En este caso encontrar características dentro del gen, como dominios o señales, se constituye en una herramienta útil para aportar pistas sobre la función génica. PFAM (http://pfam.sanger.ac.uk/) es una base de datos de familias proteicas que permite identificar dominios funcionales en regiones génicas utilizando alineamientos múltiples y modelos ocultos de markov. Aunque un dominio funcional no permite asignar un nombre directamente al gen, si puede dar una idea de la familia génica a la que pertenece el gen, o indicar el grupo de procesos en los que pueda estar involucrado. Muchos otros algoritmos han sido creados para encontrar dominios o señales génicas específicas (e.g. PRINTS, PROSITE), pero ahora es posible buscar en todas estas bases de datos usando un servidor centralizado llamado Interpro (http://www.ebi.ac.uk/interpro/) y su herramienta de búsqueda (InterproScan- http://www.ebi.ac.uk/Tools/pfa/iprscan/) que permite utilizar 15 algoritmos distintos. La mayoría de las herramientas mencionadas poseen interfaces amigables para analizar unas cuantas secuencias, pero si usted tiene la tarea de anotar un genoma será necesario instalar la herramienta localmente y analizar el genoma utilizando algunos comandos básicos de Linux. Una vez usted ha asignado estructura y función putativa a sus genes podríamos decir que tiene una anotación básica del genoma. Sin embargo, aquí no termina su tarea.

Actualmente es casi que un estándar cuando se publica un genoma nuevo describir la distribución de los genes encontrados en categorías funcionales. Para tal propósito existe Gene Ontology (GO) (http://www.geneontology.org/). GO ha sido posiblemente el intento más exitoso para generar un vocabulario controlado y estandarizado de las funciones de los genes a partir de tres categorías: función molecular, proceso biológico y componente celular. La estructura jerárquica de GO permite clasificar casi cualquier gen, y de esta manera los genes anotados de un genoma pueden ser agrupados en categorías específicas, dando una idea de las distribuciones funcionales.

Finalmente hay que resaltar que en la última década todas aquellos fragmentos de ADN no codificantes, considerados previamente como basura, han sido estudiados en más detalle y nuevas funciones están emergiendo para regiones antes no estudiadas. Regiones que codifican para ARN estructural y regulatorio y elementos transponibles (ETs) [16] han demostrado tener funciones de importancia en la regulación y evolución del genoma. Nuevas bases de datos son creadas con frecuencia para lograr anotar dichas regiones, aunque su alta variabilidad hace esta labor más difícil que la anotación génica. De hecho, encontrar y anotar las secuencias repetitivas correspondientes a los elementos transponibles es posiblemente el primer paso de la anotación de genomas, incluso antes de encontrar los genes, pues es necesario descartar los ETs para no hacer predicciones equivocas de genes en estas regiones. Cuando adicionamos todo este ADN que previamente no era caracterizado podemos decir que la anotación de un genoma es en sí la anotación de casi toda su secuencia.

Presente, retos y futuro de la anotación genómica

La automatización de los procesos de anotación y el uso de nuevas tecnologías permiten tener cada vez más información. Actualmente existen herramientas como ENSEMBL (http://uswest.ensembl.org/index.html) que automatizan el proceso de anotación genómica con un nivel de curaduría básico, ENSEMBL mantiene, por ejemplo, una anotación detallada del genoma humano. Existen así mismo bases de datos, de genomas completamente anotados, y con un nivel de filtros y revisiones más detalladas, como es el caso de TAIR (http://www.arabidopsis.org/) diseñada a partir de la planta modelo  Arabidopsis thaliana. Las nuevas tecnologías de secuenciación hacen cada vez más fácil conseguir genomas completos en un tiempo menor, y así mismo permiten la secuenciación directa de ARN que puede ser utilizado para encontrar la estructura génica como se hacía con el ADN complementario [17]. Estas herramientas están generando actualmente un crecimiento exponencial en la información anotada disponible y en la que aún está por procesar.

Todavía sin embargo existen detalles a mejorar en la anotación de genomas. Por ejemplo un porcentaje del 20-40% del ADN complementario (ADNc) siempre estará ausente en las librerías de transcritos [12]. Esto es debido a varias razones: i) hay genes muy grandes y la síntesis de ADNc no es un proceso perfecto, ii) hay secuencias que se expresan con baja abundancia y no son detectadas, iii) es imposible tener todos los transcritos que corresponden a todos los genes pues los organismos expresan sus genes en diferentes estados de desarrollo, en diferentes partes o ante distintos estímulos externos. El problema del ADNc puede ser aliviado en parte con la secuenciación de ARN, sin embargo las nuevas tecnologías de secuenciación tienen así mismo un cuello de botella, pues los fragmentos que resultan de la secuenciación son muy pequeños lo que hace difícil ensamblar ciertas regiones del genoma. Otro problema surge también cuando se utilizan alineamientos en trans con ADNc o proteínas de especies afines; muchas veces los genes que se comparan son parálogos (generados por duplicación génica) y no ortólogos (genes que corresponden exactamente al mismo gen en dos especies), lo cual genera un problema en el momento de asignar una función por similitud ya que los genes parálogos pueden parecerse a nivel de secuencia pero tener funciones divergentes [1]. Finalmente un problema técnico muy común es la propagación de anotaciones erradas. Muchas veces los genes que se consignan en las bases de datos han sido incorrectamente caracterizados y muchos investigadores realizan sus anotaciones a partir de la similitud con esos genes; los nuevos genes estarán anotados incorrectamente y el error puede seguirse propagando. Estos son solo algunos de los problemas técnicos que se dan con la anotación genómica, pero otros factores inherentes al genoma como las secuencias repetidas, el splicing diferencial (diferentes transcritos creados a partir de un solo gen), los límites de los promotores y las regiones hacen más complejo el proceso.

Y que esperamos para el futuro?.... Pues debido a que las nuevas tecnologías de secuenciación parecen estar avanzando más rápido de lo que podemos procesar los datos, serán necesarias nuevas plataformas ‘pipelines’ que permitan automatizar el proceso de ensamblaje del genoma, el descarte de secuencias repetidas, la búsqueda de estructuras utilizando algoritmos predictivos y el mapeo de ARN, para finalmente generar un resultado visual detallado de todo el genoma. Así mismo son necesarias técnicas de laboratorio que permitan evaluar y comprobar las funciones potenciales asignadas mediante la anotación. Análisis de alta eficiencia de transcriptómica, metabolómica, proteómica y localización temporal y celular deben ser integrados en programas que permitan analizar al organismo en un contexto sistémico. La labor de anotar un genoma parece hacerse más compleja cada día debido a las nuevas funciones que se han encontrado para regiones que se creían no funcionales en el pasado, y debido a que la cantidad de información que se produce va en aumento exponencial. Sin embargo, los que se enfrentan al reto de anotar correctamente un genoma completo podrán al final tener una recompensa de tamaño similar a dicha labor titánica.


Referencias

1. Stein L (2001) Genome annotation: from sequence to biology. Nature Reviews Genetics 2: 494–503.
2. Fiers W, Contreras R, Duerinck F, Haegman G, Iserentant D, et al. (1976) Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondaty structure of the replicase gene. Nature 260: 500–507.
3. Sanger F, Air G, Barrell B, Brown N, Coulson A, et al. (1977) Nucleotide sequence of bacteriophage X174 DNA. Nature 265: 687–695.
4. Wain-Hobson S, Sonigo P, Danos O, Cole S, Alizon M (1985) Nucleotide sequence of the AIDS virus, LAV. Cell 40: 9–17. Available: http://www.ncbi.nlm.nih.gov/pubmed/2424612.
5. Fleischmann RD, Adams MD, White O, Clayton R a, Kirkness EF, et al. (1995) Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science (New York, NY) 269: 496–512. Available: http://www.ncbi.nlm.nih.gov/pubmed/7542800.
6. Blattner FR (1997) The Complete Genome Sequence of Escherichia coli K-12. Science 277: 1453–1462. Available: http://www.sciencemag.org/cgi/doi/10.1126/science.277.5331.1453. Accessed 24 May 2013.
7. Goffeau AA, Barrell BG, Bussey H, Davis RW, Dujon B, et al. (1996) Life with 6000 Genes Life with. Science 274.
8. Rouze P, Pavy N, Rombauts S (1999) Genome annotation : which tools do we have for it ? Current Opinion in Plant Biology 2: 90–95.
9. Xu Y, Uberbacher EC (1997) Automated gene identification in large-scale genomic sequences. Journal of computational biology 4: 325–338.
10. Burge C, Karlin S (1997) Prediction of complete gene structures in human genomic DNA. Journal of molecular biology 268: 78–94. Available: http://www.ncbi.nlm.nih.gov/pubmed/9149143.
11. Stanke M, Waack S (2003) Gene prediction with a hidden Markov model and a new intron submodel. Bioinformatics 19: ii215–ii225. Available: http://bioinformatics.oxfordjournals.org/cgi/doi/10.1093/bioinformatics/btg1080. Accessed 24 May 2013.
12. Brent MR (2008) Steady progress and recent breakthroughs in the accuracy of automated genome annotation. Nature reviews Genetics 9: 62–73. Available: http://www.ncbi.nlm.nih.gov/pubmed/18087260. Accessed 27 May 2013.
13. Wu TD, Watanabe CK (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics 21: 1859–1875. Available: http://www.ncbi.nlm.nih.gov/pubmed/15728110. Accessed 3 June 2013.
14. Kent WJ (2002) BLAT −− The BLAST-Like Alignment Tool BLAT — The BLAST-Like Alignment Tool: 656–664. doi:10.1101/gr.229202.
15. Altschul S, Gish W, Miller W, Myers E, Lipman D (1990) Basic local alignment search tool. Journal of molecular biology 215: 403–410.
16. Galindo L (2012) Los intrincados movimientos del ADN. blog biogenic. Available: http://biogenic-colombia.blogspot.ca/2012/08/los-intrincados-movimientos-del-adn-por.html.
17. Yandell M, Ence D (2012) A beginner’s guide to eukaryotic genome annotation. Nature reviews Genetics 13: 329–342. Available: http://www.ncbi.nlm.nih.gov/pubmed/22510764. Accessed 22 May 2013.