{"id":802,"date":"2012-11-13T14:13:14","date_gmt":"2012-11-13T20:13:14","guid":{"rendered":"http:\/\/laenciclopediagalactica.info\/?p=802"},"modified":"2012-11-13T14:13:14","modified_gmt":"2012-11-13T20:13:14","slug":"bioinformatica-interpretando-el-genoma-humano","status":"publish","type":"post","link":"http:\/\/laenciclopediagalactica.info\/2012\/11\/13\/bioinformatica-interpretando-el-genoma-humano\/","title":{"rendered":"Bioinform\u00e1tica \u2013 Interpretando el genoma humano"},"content":{"rendered":"<\/p>\n

El 26 de junio del 2000, dos bi\u00f3logos (Francis Collin del International Human Genome Project y Craig Venter de Celera Genomics), estaban lado a lado con el Presidente Clinton en el ala este de la Casa Blanca y anunciaron que finalmente hab\u00edan secuenciado el primer borrador del genoma humano. De s\u00fabito, el c\u00f3digo molecular que nos hace humanos ser\u00eda como tener un libro abierto. El genoma fue publicado subsecuentemente en la revista Science. <\/p>\n<\/p>\n

A pesar de que se anunci\u00f3 como un gran avance en la biolog\u00eda (Y con mucha raz\u00f3n), la exposici\u00f3n del c\u00f3digo gen\u00e9tico humano tambi\u00e9n debe mucho a las ciencias matem\u00e1ticas. El Human Genome Project (Proyecto del Genoma Humano) inici\u00f3 en 1990 y la expectativa original era que tardar\u00edan al menos 15 a\u00f1os. Sin embargo, los avances en 1998 en la nueva disciplina de bioinform\u00e1tica (La cual incorpora biolog\u00eda con las ciencias computacionales, estad\u00edstica, \u00e1lgebra lineal, combinaciones y geometr\u00eda) aceler\u00f3 dram\u00e1ticamente el proyecto, convirti\u00e9ndolo en un marat\u00f3n de un sprint de dos a\u00f1os hasta la meta.<\/p>\n<\/p>\n

A partir del 2000, la secuenciaci\u00f3n gen\u00e9tica ha sido m\u00e1s dependiente de las t\u00e9cnicas matem\u00e1ticas. La siguiente generaci\u00f3n de secuenciadores ha reducido el costo de lectura de un genoma humano completo de US$300 millones a US$30,000.00, y el tiempo de obtenci\u00f3n ha pasado de a\u00f1os a semanas. Las mejoras adicionales, incluyendo la obtenci\u00f3n del \u201cgenoma de US$1,000.00\u201d se espera est\u00e9n en un futuro cercano. El bajo costo y las r\u00e1pidas tendencias de cambio son continuas. La velocidad de procesar informaci\u00f3n se ha convertido en el nuevo factor limitante.<\/p>\n<\/p>\n

\u00bfC\u00f3mo ensamblaron los cient\u00edficos el genoma humano? El proceso es frecuentemente comparado con el de colocar piezas de un rompecabezas. La analog\u00eda es buena, pero incompleta. En gen\u00e9tica, muchas de las piezas no coinciden, y algunas son duplicadas. Tambi\u00e9n, muchas de las piezas vienen en parejas, con una cadena adherida a cada pieza, as\u00ed que m\u00e1s o menos sabes cuan lejos se supone que deben estar en el rompecabezas. Estas complicaciones presentan oportunidades y retos para el an\u00e1lisis matem\u00e1tico.<\/p>\n<\/p>\n

El ADN humano es una gran mol\u00e9cula que tiene forma de escalera en espiral, en el cual cada escal\u00f3n contiene un par de amino\u00e1cidos que embonan perfectamente, Adenina (A) con Tiamina (T), Citosina (C) con Guanina). Cada componente solo embona con uno de los otros, as\u00ed que la secuencia de letras de un lado (GATTCC\u2026) \u00fanicamente determina la secuencia correspondiente del otro lado (CTAAGG\u2026) la cual lee por convenci\u00f3n en sentido inverso (GGAATC). Tal como un negativo fotogr\u00e1fico, un filamento es una plantilla para el duplicado del otro (Como se muestra en las Im\u00e1genes 1 y 2).<\/p>\n

\"\"<\/a>
Imagen 1.-El ADN humano puede extraerse de cualquier tejido biol\u00f3gico tal como piel y sangre, y puede determinarse una secuencia de amino\u00e1cidos \u00fanica. Cr\u00e9dito: National Institutes of Health.<\/figcaption><\/figure>\n
\"\"<\/a>
Imagen 2.- La estructura del ADN: una doble h\u00e9lice con pares base coincidiendo de CG y AT. Cr\u00e9dito: US Department of Energy Genomic Science Program.<\/figcaption><\/figure>\n

En total, el ADN humano contiene cerca de tres mil millones de \u2018pares base\u2019 o \u2018pelda\u00f1os en la escalera\u2019. El objetivo del Human Genome Project era enlistarlos todos, en orden. Desafortunadamente, los qu\u00edmicos solo pod\u00edan enlistar unos cuantos cientos de pares a la vez. Para secuenciar el genoma completo, los cient\u00edficos debieron de cortar en millones de peque\u00f1as partes, secuenciar esas piezas y re-ensamblarlos.<\/p>\n<\/p>\n

Human Genome Project y Celera Genomics adoptaron dos diferentes estrategias, las cuales eventualmente llegaron al mismo problema matem\u00e1tico. Tienes millones de peque\u00f1as (500 pares) piezas del rompecabezas que se han revuelto por completo durante el proceso de seccionado. Hay suficientes piezas para cubrir la longitud del genoma siete u ocho veces, as\u00ed que hay muchas piezas sobrepuestas, por lo que quieres utilizar esas piezas sobrepuestas como una gu\u00eda para ensamblar las piezas en la secuencia m\u00e1s larga posible de regiones continuas.<\/p>\n<\/p>\n

Si la secuencia completa de lectura fuera perfectamente precisa, el ensamblado de las piezas sobrepuestas ser\u00eda de rutina, sin embargo, cerca del 1% de los pares era ininteligible y esto signific\u00f3 que las piezas sobrepuestas podr\u00edan no coincidir. El enfoque entonces se convirti\u00f3 en encontrar una buena manera de hacer que correspondieran (Ver Imagen 3).<\/p>\n

\"\"<\/a>
Imagen 3.- La imagen superior ilustra la secuencia de C’s, G’s, T’s y A’s en un segmento de ADN sin torsi\u00f3n. La imagen inferior muestra los errores t\u00edpicos en la secuenciaci\u00f3n de ADN: Inserciones, no concordancia y tachaduras. Cr\u00e9dito: American Mathematical Society.<\/figcaption><\/figure>\n

Otra cuesti\u00f3n, algo m\u00e1s sutil, fue el problema de las repeticiones. El genoma humano incluye muchas secuencias que se repiten id\u00e9nticamente en muchos lugares. Estas repeticiones fueron un gran dolor de cabeza para los secuenciadores del genoma debido a que cuando una regi\u00f3n contigua finalizaba con un patr\u00f3n que se presentaba en muchos lugares, no ten\u00edan idea de cual pieza del rompecabezas ser\u00eda la siguiente.<\/p>\n<\/p>\n

La forma de evitar el problema que result\u00f3, fue la de tomar un fragmento m\u00e1s largo de ADN (Es decir, de varios miles de pares de largo) y secuenciar ambos extremos. A pesar de no poder secuenciar la parte de en medio, se pueden secuenciar al menos unos pocos cientos de pares en cada extremo y estimar cuantos pares hay entre ellos. Esto proporciona cadenas que puedes ligar como dos piezas de rompecabezas, incluyendo algunos que son lados opuestos de un hueco o una repetici\u00f3n. Estas ataduras crean un andamio para sostener el \u201ccontiguo\u201d (Conjunto de segmentos de ADN sobrepuestos) encima. Finalmente, el andamio puede girarse en la posici\u00f3n adecuada utilizando el mapa de alto nivel del Human Genome Project.<\/p>\n<\/p>\n

A m\u00e1s de una d\u00e9cada desde que se completo el genoma humano, la gen\u00e9tica ha cambiado en al menos dos importantes aspectos. Primero, porque ya tenemos un genoma humano \u2018de referencia\u2019 (De hecho, ya se tienen muchos disponibles). Si se tiene un paciente con c\u00e1ncer o con una enfermedad gen\u00e9tica se puede ubicar en el 0.1% del genoma que es diferente a la versi\u00f3n de referencia, ignorando el restante 99.99%, el cu\u00e1l es id\u00e9ntico. As\u00ed, el problema radica no en ensamblar el genoma sino en buscar las secuencias en el genoma de referencia que son similares (Pero ligeramente diferentes) a las del paciente.<\/p>\n<\/p>\n

Una vez m\u00e1s, la soluci\u00f3n viene del exterior de la biolog\u00eda. En 1994, se ide\u00f3 una \u201ctransformada\u201d que aceler\u00f3 la b\u00fasqueda de cadenas de texto en un gran archivo. Los investigadores crearon una tabla en la cual cada fila era una copia de la cadena, desplazada hacia la derecha o a la izquierda. Las filas estaban en orden alfab\u00e9tico. Para la b\u00fasqueda de una cadena como ATCTTG, se buscaba en todas las l\u00edneas que comenzaran con A, luego por las que iniciaban con AT, y as\u00ed sucesivamente, en lugar de buscar a trav\u00e9s de una cadena linear de tres mil millones de caracteres, solo se utilizar\u00eda una \u00e1rbol de descenso de solo seis ramas (En este caso). Una vez que se llega al fondo, la transformada identifica todos los lugares donde aparece ATCTTG en la cadena original. Gracias a esa t\u00e9cnica de indexaci\u00f3n, el genoma de referencia puede ser examinado en una fracci\u00f3n de segundo.<\/p>\n<\/p>\n

El segundo cambio fue la introducci\u00f3n de los secuenciadores comerciales de genes de siguiente generaci\u00f3n, alrededor de 2004. Gracias a los nuevos avances en qu\u00edmica, los bi\u00f3logos pueden ahora leer cientos de miles de fragmentos de ADN simult\u00e1neamente. Pero la tecnolog\u00eda tiene un costo, dichos fragmentos tienen que ser m\u00e1s cortos. Un secuenciador comercial com\u00fan puede leer fragmentos de solo 50-75 pares y otros pueden hacerlo con 100-150. Las lecturas cortas son un doble golpe para los bi\u00f3logos. Primero, necesitan recolectar mucha m\u00e1s informaci\u00f3n (T\u00edpicamente las nuevas m\u00e1quinas secuenciar\u00e1n suficientes fragmentos para cubrir el genoma 30 veces). Segundo, una peque\u00f1a base de 50 pares tiene m\u00e1s probabilidades de caer en la mitad de una repetici\u00f3n que una de 500 pares. Los m\u00e9todos utilizados por la primera generaci\u00f3n no pueden tratar con este incremento en ambig\u00fcedad.<\/p>\n<\/p>\n

Otra vez, las matem\u00e1ticas adecuadas ya exist\u00edan y estaban listas para utilizarse, pero eran desconocidas para los bi\u00f3logos. La idea es crear una red en la cual los nodos representen subcadenas del genoma y los bordes representen subcadenas sobrepuestas. La cantidad de m\u00e9todos de primera generaci\u00f3n para encontrar un camino a trav\u00e9s de una red que pasa por cada nodo una vez, es un problema que se sabe tomar\u00e1 un periodo de tiempo largo para resolver. Sin embargo, un mejor enfoque es encontrar un camino que pase a trav\u00e9s de cada v\u00ednculo de la red exactamente una vez (Notar que podr\u00eda visitar algunos nodos repetidamente, esos corresponden a cadenas repetidas en el genoma). Este problema, llamado el \u201cProblema del camino Euleriano\u201d, tiene una soluci\u00f3n computacional eficiente, la cual hace a los secuenciadores de la siguiente generaci\u00f3n pr\u00e1cticos (Especialmente para otras especies animales, las cuales no tienen genoma de referencia para consultar).<\/p>\n<\/p>\n

La aplicaci\u00f3n de las ciencias matem\u00e1ticas en el genoma ha tenido un gran impacto en la sociedad. Un estudio del Battelle Memorial Institute en 2011 concluy\u00f3 que el impacto econ\u00f3mico del Human Genome Project casi hab\u00eda alcanzado los US$800 mil millones de d\u00f3lares. Y eso que no cont\u00f3 el impacto en los humanos, el cual apenas ha comenzado.<\/p>\n

Esta entrada participa en el Carnaval de Matem\u00e1ticas Edici\u00f3n 3.14159265<\/a> que se hospeda en esta ocasi\u00f3n en el Blog Pimedios<\/a>, que gestiona Jes\u00fas Soto<\/a>. Tambi\u00e9n participa en la XVIII Edici\u00f3n del Carnaval de Biolog\u00eda<\/a>, que se hospeda esta vez en el Blog Ameba Curiosa<\/a>, gestionado por Jos\u00e9 Mar\u00eda (Pepe) Urbano<\/a>.<\/p>\n

Referencias<\/p>\n

Molecular Computation By DNA Hairpin Formation<\/a>
\nKensaku Sakamoto et al.<\/p>\n

DNA-based Cryptography<\/a>
\nAshish Gehani, Thomas H. LaBean, John H. Reif<\/p>\n

Advancing Scientific Discovery through Genomics and Systems Biology<\/a>
\nUS Department of Energy Office of Science<\/p>\n

NIH Guidelines for Research Involving Recombinant DNA Molecules<\/a>
\nNIH Guidelines<\/p>\n

Bioinformatics<\/a>
\nMartin Saturka<\/p>\n

Some Applications of Eulerian Graphs<\/a>
\nAbdul Samad Ismail, Roslan Hasni, K. G. Subramanian<\/p>\n

Graph Algoritms in Bioinformatics<\/a><\/p>\n

Economic Impact of the Human Project<\/a>
\nBattelle Technology Partnership Practice<\/p>\n

National HUman Genome Research Institute<\/a><\/p>\n

Celera Genomics<\/a><\/p>\n

American Mathematical Society.<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

El 26 de junio del 2000, dos bi\u00f3logos (Francis Collin del International Human Genome Project…<\/p>\n","protected":false},"author":2,"featured_media":806,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"spay_email":"","jetpack_publicize_message":"","jetpack_is_tweetstorm":false},"categories":[151,158],"tags":[331,130,139,329,83],"jetpack_featured_media_url":"https:\/\/i1.wp.com\/laenciclopediagalactica.info\/wp-content\/uploads\/2012\/11\/Genoma-Humano.jpg?fit=309%2C350","jetpack_publicize_connections":[],"jetpack_shortlink":"https:\/\/wp.me\/p3Hxo1-cW","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/posts\/802"}],"collection":[{"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/comments?post=802"}],"version-history":[{"count":2,"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/posts\/802\/revisions"}],"predecessor-version":[{"id":808,"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/posts\/802\/revisions\/808"}],"wp:featuredmedia":[{"embeddable":true,"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/media\/806"}],"wp:attachment":[{"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/media?parent=802"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/categories?post=802"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/laenciclopediagalactica.info\/wp-json\/wp\/v2\/tags?post=802"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}