Bioinformática – Interpretando el genoma humano

El 26 de junio del 2000, dos biólogos (Francis Collin del International Human Genome Project y Craig Venter de Celera Genomics), estaban lado a lado con el Presidente Clinton en el ala este de la Casa Blanca y anunciaron que finalmente habían secuenciado el primer borrador del genoma humano. De súbito, el código molecular que nos hace humanos sería como tener un libro abierto. El genoma fue publicado subsecuentemente en la revista Science.

A pesar de que se anunció como un gran avance en la biología (Y con mucha razón), la exposición del código genético humano también debe mucho a las ciencias matemáticas. El Human Genome Project (Proyecto del Genoma Humano) inició en 1990 y la expectativa original era que tardarían al menos 15 años. Sin embargo, los avances en 1998 en la nueva disciplina de bioinformática (La cual incorpora biología con las ciencias computacionales, estadística, álgebra lineal, combinaciones y geometría) aceleró dramáticamente el proyecto, convirtiéndolo en un maratón de un sprint de dos años hasta la meta.

A partir del 2000, la secuenciación genética ha sido más dependiente de las técnicas matemáticas. La siguiente generación de secuenciadores ha reducido el costo de lectura de un genoma humano completo de US$300 millones a US$30,000.00, y el tiempo de obtención ha pasado de años a semanas. Las mejoras adicionales, incluyendo la obtención del “genoma de US$1,000.00” se espera estén en un futuro cercano. El bajo costo y las rápidas tendencias de cambio son continuas. La velocidad de procesar información se ha convertido en el nuevo factor limitante.

¿Cómo ensamblaron los científicos el genoma humano? El proceso es frecuentemente comparado con el de colocar piezas de un rompecabezas. La analogía es buena, pero incompleta. En genética, muchas de las piezas no coinciden, y algunas son duplicadas. También, muchas de las piezas vienen en parejas, con una cadena adherida a cada pieza, así que más o menos sabes cuan lejos se supone que deben estar en el rompecabezas. Estas complicaciones presentan oportunidades y retos para el análisis matemático.

El ADN humano es una gran molécula que tiene forma de escalera en espiral, en el cual cada escalón contiene un par de aminoácidos que embonan perfectamente, Adenina (A) con Tiamina (T), Citosina (C) con Guanina). Cada componente solo embona con uno de los otros, así que la secuencia de letras de un lado (GATTCC…) únicamente determina la secuencia correspondiente del otro lado (CTAAGG…) la cual lee por convención en sentido inverso (GGAATC). Tal como un negativo fotográfico, un filamento es una plantilla para el duplicado del otro (Como se muestra en las Imágenes 1 y 2).

Imagen 1.-El ADN humano puede extraerse de cualquier tejido biológico tal como piel y sangre, y puede determinarse una secuencia de aminoácidos única. Crédito: National Institutes of Health.

Imagen 2.- La estructura del ADN: una doble hélice con pares base coincidiendo de CG y AT. Crédito: US Department of Energy Genomic Science Program.

En total, el ADN humano contiene cerca de tres mil millones de ‘pares base’ o ‘peldaños en la escalera’. El objetivo del Human Genome Project era enlistarlos todos, en orden. Desafortunadamente, los químicos solo podían enlistar unos cuantos cientos de pares a la vez. Para secuenciar el genoma completo, los científicos debieron de cortar en millones de pequeñas partes, secuenciar esas piezas y re-ensamblarlos.

Human Genome Project y Celera Genomics adoptaron dos diferentes estrategias, las cuales eventualmente llegaron al mismo problema matemático. Tienes millones de pequeñas (500 pares) piezas del rompecabezas que se han revuelto por completo durante el proceso de seccionado. Hay suficientes piezas para cubrir la longitud del genoma siete u ocho veces, así que hay muchas piezas sobrepuestas, por lo que quieres utilizar esas piezas sobrepuestas como una guía para ensamblar las piezas en la secuencia más larga posible de regiones continuas.

Si la secuencia completa de lectura fuera perfectamente precisa, el ensamblado de las piezas sobrepuestas sería de rutina, sin embargo, cerca del 1% de los pares era ininteligible y esto significó que las piezas sobrepuestas podrían no coincidir. El enfoque entonces se convirtió en encontrar una buena manera de hacer que correspondieran (Ver Imagen 3).

Imagen 3.- La imagen superior ilustra la secuencia de C's, G's, T's y A's en un segmento de ADN sin torsión. La imagen inferior muestra los errores típicos en la secuenciación de ADN: Inserciones, no concordancia y tachaduras. Crédito: American Mathematical Society. — Imagen 3.- La imagen superior ilustra la secuencia de C’s, G’s, T’s y A’s en un segmento de ADN sin torsión. La imagen inferior muestra los errores típicos en la secuenciación de ADN: Inserciones, no concordancia y tachaduras. Crédito: American Mathematical Society.

Otra cuestión, algo más sutil, fue el problema de las repeticiones. El genoma humano incluye muchas secuencias que se repiten idénticamente en muchos lugares. Estas repeticiones fueron un gran dolor de cabeza para los secuenciadores del genoma debido a que cuando una región contigua finalizaba con un patrón que se presentaba en muchos lugares, no tenían idea de cual pieza del rompecabezas sería la siguiente.

La forma de evitar el problema que resultó, fue la de tomar un fragmento más largo de ADN (Es decir, de varios miles de pares de largo) y secuenciar ambos extremos. A pesar de no poder secuenciar la parte de en medio, se pueden secuenciar al menos unos pocos cientos de pares en cada extremo y estimar cuantos pares hay entre ellos. Esto proporciona cadenas que puedes ligar como dos piezas de rompecabezas, incluyendo algunos que son lados opuestos de un hueco o una repetición. Estas ataduras crean un andamio para sostener el “contiguo” (Conjunto de segmentos de ADN sobrepuestos) encima. Finalmente, el andamio puede girarse en la posición adecuada utilizando el mapa de alto nivel del Human Genome Project.

A más de una década desde que se completo el genoma humano, la genética ha cambiado en al menos dos importantes aspectos. Primero, porque ya tenemos un genoma humano ‘de referencia’ (De hecho, ya se tienen muchos disponibles). Si se tiene un paciente con cáncer o con una enfermedad genética se puede ubicar en el 0.1% del genoma que es diferente a la versión de referencia, ignorando el restante 99.99%, el cuál es idéntico. Así, el problema radica no en ensamblar el genoma sino en buscar las secuencias en el genoma de referencia que son similares (Pero ligeramente diferentes) a las del paciente.

Una vez más, la solución viene del exterior de la biología. En 1994, se ideó una “transformada” que aceleró la búsqueda de cadenas de texto en un gran archivo. Los investigadores crearon una tabla en la cual cada fila era una copia de la cadena, desplazada hacia la derecha o a la izquierda. Las filas estaban en orden alfabético. Para la búsqueda de una cadena como ATCTTG, se buscaba en todas las líneas que comenzaran con A, luego por las que iniciaban con AT, y así sucesivamente, en lugar de buscar a través de una cadena linear de tres mil millones de caracteres, solo se utilizaría una árbol de descenso de solo seis ramas (En este caso). Una vez que se llega al fondo, la transformada identifica todos los lugares donde aparece ATCTTG en la cadena original. Gracias a esa técnica de indexación, el genoma de referencia puede ser examinado en una fracción de segundo.

El segundo cambio fue la introducción de los secuenciadores comerciales de genes de siguiente generación, alrededor de 2004. Gracias a los nuevos avances en química, los biólogos pueden ahora leer cientos de miles de fragmentos de ADN simultáneamente. Pero la tecnología tiene un costo, dichos fragmentos tienen que ser más cortos. Un secuenciador comercial común puede leer fragmentos de solo 50-75 pares y otros pueden hacerlo con 100-150. Las lecturas cortas son un doble golpe para los biólogos. Primero, necesitan recolectar mucha más información (Típicamente las nuevas máquinas secuenciarán suficientes fragmentos para cubrir el genoma 30 veces). Segundo, una pequeña base de 50 pares tiene más probabilidades de caer en la mitad de una repetición que una de 500 pares. Los métodos utilizados por la primera generación no pueden tratar con este incremento en ambigüedad.

Otra vez, las matemáticas adecuadas ya existían y estaban listas para utilizarse, pero eran desconocidas para los biólogos. La idea es crear una red en la cual los nodos representen subcadenas del genoma y los bordes representen subcadenas sobrepuestas. La cantidad de métodos de primera generación para encontrar un camino a través de una red que pasa por cada nodo una vez, es un problema que se sabe tomará un periodo de tiempo largo para resolver. Sin embargo, un mejor enfoque es encontrar un camino que pase a través de cada vínculo de la red exactamente una vez (Notar que podría visitar algunos nodos repetidamente, esos corresponden a cadenas repetidas en el genoma). Este problema, llamado el “Problema del camino Euleriano”, tiene una solución computacional eficiente, la cual hace a los secuenciadores de la siguiente generación prácticos (Especialmente para otras especies animales, las cuales no tienen genoma de referencia para consultar).

La aplicación de las ciencias matemáticas en el genoma ha tenido un gran impacto en la sociedad. Un estudio del Battelle Memorial Institute en 2011 concluyó que el impacto económico del Human Genome Project casi había alcanzado los US$800 mil millones de dólares. Y eso que no contó el impacto en los humanos, el cual apenas ha comenzado.

Esta entrada participa en el Carnaval de Matemáticas Edición 3.14159265 que se hospeda en esta ocasión en el Blog Pimedios, que gestiona Jesús Soto. También participa en la XVIII Edición del Carnaval de Biología, que se hospeda esta vez en el Blog Ameba Curiosa, gestionado por José María (Pepe) Urbano.

Referencias

Molecular Computation By DNA Hairpin Formation
Kensaku Sakamoto et al.

DNA-based Cryptography
Ashish Gehani, Thomas H. LaBean, John H. Reif

Advancing Scientific Discovery through Genomics and Systems Biology
US Department of Energy Office of Science

NIH Guidelines for Research Involving Recombinant DNA Molecules
NIH Guidelines

Bioinformatics
Martin Saturka

Some Applications of Eulerian Graphs
Abdul Samad Ismail, Roslan Hasni, K. G. Subramanian

Graph Algoritms in Bioinformatics

Economic Impact of the Human Project
Battelle Technology Partnership Practice

National HUman Genome Research Institute

Celera Genomics