El ADN y la secuenciación

Desde que James Watson y Francis Crick publicaron su trabajo sobre la estructura del ADN en 1953 comenzó un interés por conocer la secuencia de bases nitrogenadas del ácido desoxirribonucleico, ya que la estructura propuesta por ellos sugería la manera en que la información genética de los seres vivos podía codificarse en una molécula. Sin embargo, tuvieron que pasar casi veinte años más para que la molécula de ADN pudiera ser manipulada. Esto se logró gracias al descubrimiento de las enzimas de restricción por los microbiólogos Werner Arber, Daniel Nathans y Hamilton Smith en la década de los 70's y condujo al desarrollo de la tecnología del ADN recombinante. En la segunda mitad de los 70's se diseñaron dos técnicas que permitían la secuenciación del ADN diseñadas por los grupos de Frederick Sanger y Allan Maxam. Antes de eso era muy difícil la secuenciación de cadenas de tan sólo 10 bases. Esto abrió las puertas a la investigación del ADN y a la secuenciación de genes.


La técnica de Maxam, conocida también como secuenciación química, involucraba el marcaje radioactivo de uno de los extremos de la cadena, la ruptura del ADN usando agentes químicos y la separación de los fragmentos mediante electroforesis en gel. Para visualizar los fragmentos se hacía una autoradiografía del gel y se infería la secuencia a partir de las bandas obtenidas. El uso de estos agentes químicos era efectivo para secuenciar fragmentos de alrededor de 100 pares de bases y la única limitante era la resolución que se podía obtener en el gel. Combinando el uso de enzimas de restricción y esta técnica de secuenciación era viable secuenciar fagos, virus o plásmidos. Sin embargo, no resulta viable para la automatización y su uso a gran escala.

Por otro lado, el grupo de Sanger desarrolló un método de secuenciación, conocido también como método de terminación de cadena, que involucraba el uso de la DNA polimerasa y dideoxinucleótidos, que son análogos de los nucleótidos que carecen del grupo -OH en el extremo 3' de la cadena y por lo tanto no permiten la incorporación de más nucleótidos. Este método permitía secuenciar segmentos de hasta 300 nucleótidos de largo y fue utilizado para determinar, por primera vez, la secuencia completa de un genoma de apenas 5.4 Kbases; el del bacteriofago φX174. La versatilidad de este método se incrementó rápidamente con el desarrollo de dideoxinucleótidos marcados con fluorescencia y la automatización del procedimiento de lectura de la secuencia, llegando a un promedio de lectura confiable de 450 a 850 pares de bases.




La secuenciación de ADN tuvo un crecimiento acelerado, en Junio de 1982 se funda la base de datos pública GenBank para almacenar bajo un mismo formato todas las secuencias de ADN conocidas. En 1984 se publicó la secuencia del genoma del virus Epstein-Barr de 172 Kbases usando una variante del método de Sanger. A finales de los años 80's ya se encontraban disponibles comercialmente máquinas de secuenciación automatizada distribuidas por Applied Biosystems y en 1995 se obtuvo la primera secuencia genómica de un organismo bacteriano, Haemophilus influenzae, de 1.8 Mbases. y tres años más tarde el genoma completo de un organismo eucariota, la levadura Saccharomyces cerevisiae, de 12 Mbases y el genoma de un organismo pluricelular, el gusano Caenorhabditis elegans, de 97 Mbases, secuenciado por un consorcio de Institutos dedicado al estudio de este organismo.

En 1990 inició oficialmente el proyecto de secuenciación más ambicioso de todos, el Proyecto Genoma Humano (HGP, por sus siglas en inglés Human Genome Project), que fue un esfuerzo internacional de 13 años de trabajo para determinar la secuencia de 3 Billones de bases. En 2001 fue anunciado el borrador y en 2003 se publicó la secuencia final.

Actualmente se han secuenciado más de 14000 genomas completos tanto de virus, arqueas, bacterias, como de eucariontes y más de 100 000 en calidad de borrador. Sin embargo, la secuencia completa de los genomas no es suficiente para saber cómo funcionan realmente los genes, es necesario hacer un análisis de estas secuencias para ir del contexto físico al contexto funcional de los genomas, esto es; la Genómica Funcional.

La genómica funcional busca convertir todos los datos obtenidos a partir de experimentos y secuencias de ADN en información acerca de cómo funcionan los seres vivos. Para esto es necesario realizar experimentos a gran escala combinado con un análisis computacional y estadístico, de tal manera que no se estudia un solo gen o una sola proteína sino todos los genes o todas las proteínas simultáneamente, revolucionando así la forma de comprender a los seres vivos.


BIBLIOGRAFIA
Watson, J. D., Crick, F. H. C. (1953). Molecular structure of nucleic acids. Nature Vol. 171:737–738.
Aber, W., Linn, S. (1969). DNA Modification and Restriction. Annual Review of Biochemistry. Vol. 38: 467-500.
Maxam, A. M., Gilbert, W. (1977). A new method for sequencing DNA. Proc. Natl. Acad. Sci. Vol. 72, No. 2:560-564.
Sanger, F., Coulson, A. R., Friedmann, T., Air, G. M., Barrell, B. G., Brown, N. L., Fiddes, J. C., Hutchison, C. A., Slocombe, P M., Smith, M. (1978. The nucleotide sequence of bacteriophage φX174. J. Mol. Biol. Vol. 125, Issue 2:225-246.
Medini, D., Serruto, D., Parkhill, J., Relman, D.A., Donati, C., Moxon, R., Falkow, S., Rappuoli, R. (2008). Microbiology in the post-genomic era. Microbiology. Vol. 6:419-430.
Fleischmann, R. D., Adams, M. D., White, O., Clayton, R. A., Kirkness, E. F., Kerlavage, A. R., Bult, C. J., Tomb, J. F., Dougherty, B. A., Merrick, J. M. (1995). Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science Vol. 269 No. 5223:496-512.
Genomes online Database (GOLD). Es un base de datos que agrupa los proyectos de secuenciación genómica y el estado de avance de los mismos.