El ADN, o ácido desoxirribonucleico, es la base molecular que contiene las instrucciones para el desarrollo, funcionamiento y reproducción de los seres vivos. A primera vista, el ADN parece un código bastante directo y sencillo, compuesto por cuatro bases: adenina (A), timina (T), citosina (C) y guanina (G). Pero la pregunta sobre cuánta información almacena realmente el ADN humano resulta mucho más compleja y fascinante de lo que parece en un principio. Este interrogante abre un camino interdisciplinario que navega entre la biología molecular y la teoría de la información, mostrando cómo ambas disciplinas se complementan para ayudarnos a entender la esencia de lo que somos desde un punto de vista científico y computacional. Para comenzar a explorar cuánto información cabe en nuestro ADN, es útil recordar que el genoma humano está formado por aproximadamente 3.
1 mil millones de pares de bases. Debido a que cada base puede ser una de cuatro opciones (“A”, “T”, “C” o “G”), en términos estrictamente binarios se puede codificar cada base usando dos bits. Así, multiplicando los 3.1 mil millones de pares por 2 bits, obtenemos alrededor de 6.2 mil millones de bits, es decir, poco más de 770 megabytes.
No obstante, el ADN humano es diploide, lo que significa que tenemos dos copias de cada cromosoma, una heredada de cada progenitor. Esto eleva la cantidad total a más del doble, llegando aproximadamente a entre 11.9 y 12.1 mil millones de bits de información, dependiendo del sexo, ya que los hombres tienen un cromosoma Y y una X, mientras que las mujeres tienen dos cromosomas X. En términos de capacidad de almacenamiento, equivale a poco menos de dos gigabytes, comparable a una pequeña película digital o a una breve transmisión de video en definición estándar.
Sin embargo, este cálculo inicial es solo el comienzo de una discusión mucho más rica y matizada. El ADN no es solo un montón de datos almacenados aleatoriamente; la mayoría de los humanos comparten un 99.6% de su código genético. Estas similitudes hacen que la información pura teórica no sea sinónimo directo de la información útil o funcional. Además, ciertas secuencias se repiten constantemente alrededor del genoma, por lo que contar literalmente cada base pareada resulta en una sobreestimación del contenido real de información relevante.
Desde la teoría de la información, uno de los conceptos más importantes para entender la complejidad del ADN es la compresión. La información verdadera puede ser pensada como la representación más corta posible que conserva la esencia del mensaje o secuencia original. Un ejemplo clásico es una cadena de ceros muy larga: aunque físicamente ocupa espacio, desde un punto de vista informacional, carece de contenido, pues resulta altamente redundante y fácilmente representable de una manera compacta. Este enfoque tiene implicaciones directas sobre cómo cuantificamos la información en el ADN. El ADN humano puede llegar a ser comprimido de distintas maneras dependiendo del método escogido.
Las compresiones que utilizan un genoma de referencia aprovechan la similitud entre humanos, almacenando solo las diferencias individuales. Esto puede reducir el tamaño de más del 99%, dejando un contenido informativo alrededor de los 120 millones de bits, equivalente a unos 15 megabytes aproximadamente. Este número es sorprendentemente pequeño en comparación con la cantidad bruta de datos que contiene el genoma completo. Pero esa definición de "información" es muy particular y depende de un contexto externo: el genoma de referencia que otros también poseen. Por otro lado, si se trata de comprimir el genoma sin utilizar ninguna referencia externa, el nivel de compresión baja significativamente, alrededor del 25% al 40%, que se traduce en una cantidad mucho mayor de información codificada.
Este dilema también se refleja en las definiciones matemáticas clásicas: la información de Shannon y la complejidad de Kolmogórov. Mientras la primera mide la incertidumbre o sorpresa de un mensaje dada una distribución de probabilidad, y está relacionada con la entropía del sistema, la segunda busca el programa o descripción más corta que genere una secuencia particular. En el caso del ADN, los algoritmos basados en la complejidad de Kolmogórov reflejan la compresión sin referencia externa, y suelen acercarse más a la realidad funcional del genoma, ya que reflejan la cantidad mínima de información necesaria para construir la secuencia completa. La comprensión basada en la información de Shannon, en cambio, toma en cuenta la dependencia de un contexto o referencia para estimar cuánto «nuevo» se necesita transmitir. Pero la información física en el ADN no cuenta toda la historia.
Biológicamente, solo aproximadamente el 1% del ADN codifica proteínas directamente, las moléculas que realizan la gran mayoría de funciones celulares. Sin embargo, otro porcentaje significativo se utiliza para regular la expresión genética, como los promotores, los potenciadores y otros cientos de elementos que modulan cuándo, dónde y cómo se expresan los genes. Además, el llamado ADN basura, que representa más de la mitad del genoma, no es inútil, ya que muchos de estos segmentos están compuestos por elementos repetitivos, transposones, pseudogenes y secuencias que pueden actuar en la regulación o en la estructura física del cromosoma. La visión tradicional que separaba el genoma funcional del no funcional se ha desdibujado con los avances modernos, mostrando una organización mucho más rica y compleja. A nivel celular, el ADN sirve como templado para la producción de ARN, que posteriormente se traduce en proteínas.
Pero incluso esta maquinaria no es lineal y simple, sino que involucra mecanismos de corte y empalme, edición, regulación y comunicaciones moleculares sofisticadas. La correlación entre la cantidad de información en el ADN y el fenotipo observable, es decir, las características físicas y funcionales del organismo, todavía no se comprende completamente. A esta complejidad se suma la realidad de que las células y organismos son sistemas resistentes a cambios y ruidos, capaces de tolerar mutaciones y variaciones gracias a sistemas redundantes y selectivos. Esto implica que la información importante para mantener la identidad y el funcionamiento de un organismo está codificada y protegida, mientras que segmentos enteros de secuencias pueden mutar sin una consecuencia aparente. Desde el punto de vista evolutivo, esta arquitectura confiere una robustez esencial, pero también torna aún más difícil definir de forma precisa cuál es la verdadera cantidad de «información útil» contenida en el ADN.
Para abordar esto, se ha propuesto una definición innovadora: la complejidad fenotípica de Kolmogórov. Ésta busca determinar el tamaño mínimo del ADN necesario para que un organismo, o al menos un embrión, conserve todas las características observables y funciones vitales. En otras palabras, sería la medida del ADN que verdaderamente importa desde una perspectiva biológica funcional y evolutiva. Sin embargo, esta medida es prácticamente imposible de calcular con precisión hoy en día, dada la complejidad de la interacción de genes, el efecto de la regulación, epigenética y otros factores ambientales y moleculares. Se estima que la cantidad podría estar entre el 2 y el 25% del ADN total, lo que significaría un rango de 60 megabytes a 750 megabytes de información útil para mantener un ser humano completo y funcional.
A pesar de estas incertidumbres y la complejidad del tema, la unión entre biología e información abre puertas a avances tecnológicos y científicos increíblemente prometedores. Desde la compresión avanzada mediante inteligencia artificial y aprendizaje profundo para almacenar genomas, pasando por la genética personalizada en medicina, hasta la comprensión de cómo el código genético evoluciona y se adapta. Finalmente, no podemos olvidar que la información en el ADN no sólo reside en sus símbolos, sino en cómo estos se traducen, interactúan y regulan la vida en todos sus niveles. Esta simbiosis entre datos y función hace que el ADN sea mucho más que almacenamiento; es un proceso dinámico, intrincado y revolucionario que continúa sorprendiéndonos mientras profundizamos en sus secretos.