El ADN, la molécula que constituye el código de la vida, ha sido objeto de fascinación durante décadas. Más allá de su importancia biológica, el ADN representa una inmensa cantidad de información codificada en una estructura molecular que estudian tanto biólogos como teóricos de la información. Pero, ¿cuánto espacio ocupa realmente el código genético que define a cada ser humano? ¿Es posible medir su información en términos de datos, como los que manejamos con computadoras y dispositivos digitales? Para entender la cantidad de información que almacena el ADN humano, primero debemos recordar sus características básicas. El ADN está formado por una secuencia lineal de nucleótidos, compuestos por cuatro bases químicas distintas: adenina (A), timina (T), citosina (C) y guanina (G). Cada una de estas bases puede ser representada digitalmente por dos bits ya que existen cuatro opciones posibles, y 2 bits permiten representar cuatro valores distintos (2²=4).
El genoma humano está compuesto por cerca de 3.1 mil millones de pares de bases, esto se traduce en aproximadamente 6.2 mil millones de bits o alrededor de 750 megabytes de datos sin comprimir. Sin embargo, esta estimación es una mera aproximación basada en la capacidad bruta de almacenamiento, sin considerar que el ADN es diploide, es decir, cada célula contiene dos copias de cada cromosoma, una heredada de cada padre. Para las 22 primeras parejas de cromosomas, sumadas a los cromosomas sexuales X e Y, el total se ajusta dependiendo de si el individuo es masculino o femenino, resultando en una capacidad máxima aproximada entre 1.
49 y 1.51 gigabytes si consideramos ambos conjuntos completos sin compresión. Sin embargo, el número de bits en bruto no captura la esencia completa del concepto de información dentro del ADN. Muchos humanos comparten un 99.6% de similitud genética, y dentro de cada genoma existen regiones que se repiten numerosas veces.
Esto plantea la cuestión de si es correcto o útil contar literalmente toda la secuencia base por base como información única. Desde la perspectiva de la teoría de la información, la cantidad real de información se mide en términos de la compresibilidad de los datos. Si un mensaje o secuencia puede representarse mediante una versión más compacta sin perder información, se dice que la información esencial es igual a la longitud de esta versión comprimida optimizada. En el caso del ADN, técnicas avanzadas de compresión, incluso aquellas basadas en inteligencia artificial y aprendizaje profundo, pueden reducir el tamaño necesario para almacenar un genoma humano significativamente. Esta capacidad de compresión se relaciona con la redundancia y repetición presente en el material genético.
Cuando se usa como referencia un genoma humano «estándar», las secuencias individuales pueden representarse en términos de sus diferencias respecto a este modelo. Este enfoque puede permitir reducir el tamaño necesario para guardar la información a menos del 1% del total bruto original, es decir, a aproximadamente 120 millones de bits o unos 15 megabytes. No obstante, esta estimación toma en cuenta que el modelo de referencia ya ha sido almacenado previamente y no se incluye en el cálculo. Si no se dispone de un modelo de referencia, los mejores algoritmos alcanzan una compresión aproximada del 25% en el mejor de los casos. Combinando la diploidía del ser humano y este factor, se estima que la cantidad de información accesible sin referencia puede estar en torno al 62% del tamaño bruto, alrededor de 4.
6 mil millones de bits o 575 megabytes. Estas cifras muestran la distancia entre la cantidad total de bytes de ADN y el volumen de información codificada relevante y única que define a cada individuo. Sin embargo, estas aproximaciones no cuentan la historia completa, pues el ADN no es un sistema de almacenamiento estático ni completamente definido. Los genes que codifican proteínas representan solo cerca del 1% del genoma, mientras que el resto cumple funciones diversas y complejas que aún no comprendemos del todo. Entre estos se incluyen regiones reguladoras que controlan la expresión génica, elementos estructurales de los cromosomas y secuencias que se transcriben en diversos tipos de ARN con roles distintos a la simple síntesis de proteínas.
La biología molecular revela que el ADN puede contener información funcional en múltiples niveles y formatos. Por ejemplo, ciertas porciones que anteriormente se consideraban “ADN basura” o sin función, hoy en día han sido asociadas a tareas reguladoras o a la producción de ARN no codificante con funciones esenciales en la regulación genética. Asimismo, regiones repetitivas y transposones, fragmentos móviles del genoma que pueden replicarse e insertarse en nuevos sitios, contribuyen a la estructura y evolución del ADN y podrían tener implicaciones aún poco estudiadas en la información genética. Además, el proceso biológico de cómo se traduce la información genética en características experimenta una enorme complejidad y redundancia. Desde la replicación del ADN, su transcripción en ARN hasta la traducción en proteínas, existen mecanismos que toleran errores, corrigen mutaciones y regulan la expresión génica de manera dinámica.
Esto da cuenta de que la información contenida no solo debe considerarse en términos de cantidad de datos digitales, sino también en cómo esos datos se interpretan y manifiestan en organismos vivos. En términos filosóficos y computacionales, la noción de “complejidad de Kolmogorov” representa cuánto puede comprimirse un conjunto de datos sin perder su esencia. Aplicando este concepto al ADN, surge la idea del “complejidad fenotípica”, que busca entender cuánta información es indispensable para generar un organismo viable y funcional, en contraposición a la secuencia exacta que refleja un genoma específico. Esta perspectiva reconoce que mucho del ADN podría considerarse redundante o sustituible siempre que el resultado final, el fenotipo, permanezca constante. Bajo esta hipótesis, el contenido informacional efectivo del ADN podría oscilar entre 60 y 750 megabytes, asumiendo que al menos un 75% y hasta un 98% de la secuencia genética podrían ser prescindibles o sustituibles sin afectar la identidad y funcionalidad del organismo.
Conocer esta cifra real tiene implicaciones no solo para la biología y la genética, sino también para campos como la informática, la bioinformática, la medicina personalizada y la conservación biológica. Por ejemplo, entender hasta qué punto el ADN se puede comprimir o modificar sin pérdida funcional podría abrir caminos para diseñar terapias génicas más precisas o sistemas de almacenamiento biológico optimizados. No obstante, nuestra comprensión sigue siendo limitada. La ciencia actual apenas comienza a comprender la totalidad de las funciones y relaciones dentro del genoma humano, y muchas regiones aún permanecen como un misterio funcional. La interacción entre información genética, epigenética, ambiente y desarrollo complica cualquier intento de cuantificar la información en términos absolutos.
En definitiva, si bien en términos de escala digital el ADN humano podría compararse con archivos que ocupan centenas de megabytes, el verdadero valor de esta información reside en su capacidad para codificar sistemas vivos, adaptativos y en constante evolución. La síntesis de biología molecular, teoría de la información y computación genética promete revelar en las próximas décadas respuestas más profundas acerca de cuánta información contiene realmente la vida y qué significa este dato para nuestra comprensión del ser humano y sus orígenes.