Información

¿Cuál es el origen del ADN basura?

¿Cuál es el origen del ADN basura?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

La mayoría de los eucariotas poseen una cierta cantidad de ADN basura en sus núcleos celulares. ¿Cuál es (son) el (los) origen (s) de este ADN basura, y es realmente basura (superfluo)?


El "ADN basura" se denomina más acertadamente ADN no codificante. Esto se define como cualquier región de ADN que no codifica un gen o, más precisamente, no está dentro de un marco de lectura abierto. En el genoma humano, más del 98% se compone de ADN no codificante. Sin embargo, cuanto más aprendemos sobre biología molecular, más entendemos la función biológica y la importancia del ADN no codificante. Ejemplos de funciones importantes son:

  1. Regiones reguladoras que controlan la expresión de un gen.
  2. Regiones que codifican el ARN regulador
  3. Regiones donde tiene lugar la regulación epigenética

Sin embargo, también hay regiones que probablemente no tengan una función biológica beneficiosa, que con razón se pueden llamar basura:

  1. Los transposones son regiones genéticas que pueden copiarse a sí mismas (ya sea mediante un ARN enzimáticamente activo o mediante la codificación de la proteína transposasa). Se cree que han evolucionado como "genes egoístas" y existen varios mecanismos de defensa conocidos contra transposones rebeldes (siRNA, RNAi). Los transposones y los mecanismos de defensa se han convertido ahora en herramientas poderosas en la investigación de biología molecular.
  2. Secuencias de retrovirus endógenas que son restos de retrovirus que se han insertado en la línea germinal y se vuelven inactivos por mutación.

Sin embargo, se cree que incluso estas regiones "basura" tienen funciones evolutivas importantes, como la protección contra la mutación a través de los retrovirus: debido a que hay grandes regiones de ADN donde el orden y la función precisos no son importantes, un retrovirus que se inserta en posiciones aleatorias del genoma es menos probable que cause daños permanentes.


En resumen, conocemos muchos mecanismos mediante los cuales los genomas pueden agrandarse. Los tetrápodos tuvieron al menos dos duplicaciones completas del genoma en su historia; los transposones se expanden; inserto de retrovirus; las duplicaciones parciales conducen a pseudogenes. Y estos mecanismos de expansión pueden ser rápidos: las duplicaciones del genoma completo duplican el tamaño en una sola generación.

Pero conocemos muy pocos mecanismos por los cuales los genomas pueden hacerse más pequeños, y la mayoría de ellos son muy lentos y muy pocos son el objetivo.

Desde un punto de vista mecanicista, es muy difícil imaginar una forma específica de eliminar ADN inútil pero inofensivo de forma rápida y con una precisión del 100%. Si la precisión no es del 100%, entonces la vía sería más dañina que el ADN que busca eliminar.

La clave es que si el ADN adicional es inofensivo o casi inofensivo, no hay razón para eliminarlo y existen razones (errores en la eliminación) para no intentar eliminarlo.

Entonces, la respuesta corta y simple es que los genomas pueden acumular ADN inútil mucho más fácilmente de lo que pueden deshacerse de él. Es solo sentido común, que coincide con 30 años de experimentación.


El 'ADN basura' descubre la naturaleza de nuestros ancestros

La clave para resolver uno de los grandes acertijos de la biología evolutiva, el origen de los vertebrados, animales con un esqueleto interno hecho de hueso, ha sido revelada en una nueva investigación del Dartmouth College y la Universidad de Bristol.

Los vertebrados son los más complejos anatómica y genéticamente de todos los organismos, pero explicar cómo lograron esta complejidad ha molestado a los científicos. El estudio, publicado hoy [20 de octubre] en procedimientos de la Academia Nacional de Ciencias afirma haber resuelto este acertijo científico mediante el análisis de la genómica de los peces vivos primitivos, como los tiburones y las lampreas, y sus parientes sin espinas, como las ascidias marinas. & # 160

Alysha Heimberg del Dartmouth College y sus colegas estudiaron las relaciones familiares de los vertebrados primitivos. El equipo utilizó microARN, una clase de moléculas diminutas recién descubiertas que residen dentro de lo que generalmente se ha considerado 'ADN basura', para mostrar que las lampreas y las anguilas mucosas son parientes lejanos de los vertebrados con mandíbulas.

Alysha dijo: `` Aprendemos de nuestros resultados que la lamprea y el mixino están igualmente relacionados con los vertebrados con mandíbulas y que el hagfish no es representativo de un vertebrado más primitivo, lo que sugiere que el vertebrado ancestral era más complejo de lo que nadie había pensado anteriormente.

& # 147 Los vertebrados han evolucionado durante cientos de millones de años, pero aún expresan los mismos genes de microARN en los mismos órganos que cuando ambos aparecieron por primera vez. & # 148

El equipo pasó a probar la idea de que eran estos mismos genes de & # 145junk DNA & # 146, microARN, los responsables del origen evolutivo de las características anatómicas de los vertebrados. Descubrieron que el mismo conjunto de microARN se expresaba en los mismos órganos y tejidos, en lampreas y ratones.

El coautor, el profesor Philip Donoghue de la Facultad de Ciencias de la Tierra de la Universidad de Bristol, dijo: & # 147 El origen de los vertebrados y el origen de estos genes no es una coincidencia & # 148.

El profesor Kevin Peterson del Dartmouth College dijo: & # 147 Este estudio no solo señala el camino para comprender el origen evolutivo de nuestro propio linaje, sino que también nos ayuda a comprender cómo se ensambló nuestro propio genoma en el tiempo profundo & # 148.


Contenido

  1. ^ Pennisi E (septiembre de 2012). "Genómica. Proyecto ENCODE escribe elogio para el ADN basura". Ciencias. 337 (6099): 1159-1161. doi: 10.1126 / science.337.6099.1159. PMID22955811.
  2. ^
  3. Consorcio del Proyecto ENCODE (septiembre de 2012). "Una enciclopedia integrada de elementos del ADN en el genoma humano". Naturaleza. 489 (7414): 57–74. Código Bibliográfico: 2012Natur.489. 57T. doi: 10.1038 / nature11247. PMC3439153. PMID22955616. .
  4. ^ Error de cita: se invocó la no codificación de Costa de referencia nombrada, pero nunca se definió (consulte la página de ayuda).
  5. ^ aB
  6. Carey M. (2015). ADN basura: un viaje a través de la materia oscura del genoma. Prensa de la Universidad de Columbia. ISBN9780231170840.
  7. ^
  8. McKie R (24 de febrero de 2013). "Los científicos atacados por afirmar que el 'ADN basura' es vital para la vida". El observador.
  9. ^
  10. Eddy SR (noviembre de 2012). "La paradoja del valor C, ADN basura y ENCODE". Biología actual. 22 (21): R898–9. doi: 10.1016 / j.cub.2012.10.002. PMID23137679. S2CID28289437.
  11. ^
  12. Doolittle WF (abril de 2013). "¿Es el ADN basura una tontería? Una crítica de ENCODE". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. 110 (14): 5294–300. Código bibliográfico: 2013PNAS..110.5294D. doi: 10.1073 / pnas.1221376110. PMC3619371. PMID23479647.
  13. ^
  14. Palazzo AF, Gregory TR (mayo de 2014). "El caso del ADN basura". PLOS Genetics. 10 (5): e1004351. doi: 10.1371 / journal.pgen.1004351. PMC4014423. PMID24809441.
  15. ^
  16. Graur D, Zheng Y, Price N, Azevedo RB, Zufall RA, Elhaik E (2013). "Sobre la inmortalidad de los televisores:" función "en el genoma humano según el evangelio libre de evolución de ENCODE". Biología y evolución del genoma. 5 (3): 578–90. doi: 10.1093 / gbe / evt028. PMC3622293. PMID23431001.
  17. ^
  18. Ponting CP, Hardison RC (noviembre de 2011). "¿Qué fracción del genoma humano es funcional?". Investigación del genoma. 21 (11): 1769–76. doi: 10.1101 / gr.116814.110. PMC3205562. PMID21875934.
  19. ^ aB
  20. Kellis M, Wold B, Snyder MP, Bernstein BE, Kundaje A, Marinov GK, et al. (Abril de 2014). "Definición de elementos funcionales del ADN en el genoma humano". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. 111 (17): 6131–8. Código Bibliográfico: 2014PNAS..111.6131K. doi: 10.1073 / pnas.1318948111. PMC4035993. PMID24753594.
  21. ^
  22. Rands CM, Meader S, Ponting CP, Lunter G (julio de 2014). "El 8,2% del genoma humano está restringido: variación en las tasas de rotación entre las clases de elementos funcionales en el linaje humano". PLOS Genetics. 10 (7): e1004525. doi: 10.1371 / journal.pgen.1004525. PMC4109858. PMID25057982.
  23. ^
  24. Mattick JS (2013). "El alcance de la funcionalidad en el genoma humano". El diario HUGO. 7 (1): 2. doi: 10.1186 / 1877-6566-7-2. PMC4685169.
  25. ^
  26. Morris K, ed. (2012). ARN no codificantes y regulación epigenética de la expresión génica: impulsores de la selección natural. Norfolk, Reino Unido: Caister Academic Press. ISBN978-1904455943.

La cantidad de ADN genómico total varía ampliamente entre organismos, y la proporción de ADN codificante y no codificante dentro de estos genomas también varía mucho. Por ejemplo, originalmente se sugirió que más del 98% del genoma humano no codifica secuencias de proteínas, incluidas la mayoría de las secuencias dentro de los intrones y la mayoría del ADN intergénico, [2] mientras que el 20% de un genoma procariota típico no codifica. [3]

En eucariotas, el tamaño del genoma y, por extensión, la cantidad de ADN no codificante, no se correlaciona con la complejidad del organismo, una observación conocida como el enigma del valor C. [4] Por ejemplo, el genoma del unicelular Policaos dubio (anteriormente conocido como Amoeba dubia) se ha informado que contiene más de 200 veces la cantidad de ADN en humanos. [5] El pez globo Takifugu rubripes El genoma tiene solo una octava parte del tamaño del genoma humano, pero parece tener un número comparable de genes aproximadamente el 90% de los Takifugu el genoma es ADN no codificante. [2] Por lo tanto, la mayor parte de la diferencia en el tamaño del genoma no se debe a la variación en la cantidad de ADN codificante, sino a una diferencia en la cantidad de ADN no codificante. [6]

En 2013, se descubrió un nuevo "récord" para el genoma eucariota más eficiente con Utricularia gibba, una planta de bladderwort que tiene solo un 3% de ADN no codificante y un 97% de ADN codificante. La planta estaba eliminando partes del ADN no codificante y esto sugería que el ADN no codificante puede no ser tan crítico para las plantas, aunque el ADN no codificante es útil para los seres humanos. [1] Otros estudios sobre plantas han descubierto funciones cruciales en porciones de ADN no codificante que antes se pensaba que eran insignificantes y han agregado una nueva capa a la comprensión de la regulación genética. [7]

Elementos cis y transreguladores Editar

Los elementos reguladores cis son secuencias que controlan la transcripción de un gen cercano. Muchos de estos elementos intervienen en la evolución y el control del desarrollo. [8] Los elementos cis pueden estar ubicados en regiones no traducidas 5 'o 3' o dentro de intrones. Los elementos transreguladores controlan la transcripción de un gen distante.

Los promotores facilitan la transcripción de un gen particular y típicamente están aguas arriba de la región codificante. Las secuencias potenciadoras también pueden ejercer efectos muy distantes sobre los niveles de transcripción de genes. [9]

Intrones Editar

Los intrones son secciones no codificantes de un gen, transcritas en la secuencia de ARNm precursora, pero finalmente eliminadas por empalme de ARN durante el procesamiento para obtener ARN mensajero maduro. Muchos intrones parecen ser elementos genéticos móviles. [10]

Estudios de intrones del grupo I de Tetrahymena Los protozoos indican que algunos intrones parecen ser elementos genéticos egoístas, neutrales para el huésped porque se eliminan de los exones flanqueantes durante el procesamiento del ARN y no producen un sesgo de expresión entre los alelos con y sin el intrón. [10] Algunos intrones parecen tener una función biológica significativa, posiblemente a través de la funcionalidad de las ribozimas que pueden regular la actividad del ARNt y el ARNr, así como la expresión de genes que codifican proteínas, evidente en los huéspedes que se han vuelto dependientes de dichos intrones durante largos períodos de tiempo, por ejemplo, los intrón trnL se encuentra en todas las plantas verdes y parece haber sido heredado verticalmente durante varios miles de millones de años, incluidos más de mil millones de años dentro de los cloroplastos y entre dos y tres mil millones de años antes en los antepasados ​​cianobacterianos de los cloroplastos. [10]

Pseudogenes editar

Los pseudogenes son secuencias de ADN, relacionadas con genes conocidos, que han perdido su capacidad de codificación de proteínas o ya no se expresan en la célula. Los pseudogenes surgen de la retrotransposición o la duplicación genómica de genes funcionales y se convierten en "fósiles genómicos" que no son funcionales debido a mutaciones que impiden la transcripción del gen, como dentro de la región promotora del gen, o alteran fatalmente la traducción del gen, como codones de parada prematuros o cambios de marco. [11] Los pseudogenes resultantes de la retrotransposición de un intermedio de ARN se conocen como pseudogenes pseudogenes procesados ​​que surgen de los restos genómicos de genes duplicados o residuos de genes inactivados que son pseudogenes no procesados. [11] Las transposiciones de genes mitocondriales que alguna vez fueron funcionales desde el citoplasma al núcleo, también conocidos como NUMT, también califican como un tipo de pseudogén común. [12] Los números se encuentran en muchos taxones eucariotas.

Si bien la ley de Dollo sugiere que la pérdida de función en los pseudogenes es probablemente permanente, los genes silenciados pueden conservar la función durante varios millones de años y pueden "reactivarse" en secuencias codificantes de proteínas [13] y un número sustancial de pseudogenes se transcriben activamente. [11] [14] Debido a que se presume que los pseudogenes cambian sin restricciones evolutivas, pueden servir como un modelo útil del tipo y frecuencias de varias mutaciones genéticas espontáneas. [15]

Repetir secuencias, transposones y elementos virales Editar

Los transposones y retrotransposones son elementos genéticos móviles. Las secuencias repetidas de retrotransposón, que incluyen elementos nucleares intercalados largos (LINE) y elementos nucleares intercalados cortos (SINE), representan una gran proporción de las secuencias genómicas en muchas especies. Las secuencias Alu, clasificadas como un elemento nuclear corto intercalado, son los elementos móviles más abundantes en el genoma humano. Se han encontrado algunos ejemplos de SINE que ejercen un control transcripcional de algunos genes que codifican proteínas. [16] [17] [18]

Las secuencias de retrovirus endógenas son el producto de la transcripción inversa de genomas de retrovirus en los genomas de células germinales. La mutación dentro de estas secuencias retro-transcritas puede inactivar el genoma viral. [19]

Más del 8% del genoma humano está formado por secuencias de retrovirus endógenas (en su mayoría decaídas), como parte de la fracción de más del 42% que se deriva de forma reconocible de retrotransposones, mientras que otro 3% puede identificarse como restos de transposones de ADN. Se espera que gran parte de la mitad restante del genoma que actualmente no tiene un origen explicado haya encontrado su origen en elementos transponibles que estuvieron activos hace tanto tiempo (& gt 200 millones de años) que mutaciones aleatorias los han vuelto irreconocibles. [20] La variación del tamaño del genoma en al menos dos tipos de plantas es principalmente el resultado de secuencias de retrotransposones. [21] [22]

Telómeros Editar

Los telómeros son regiones de ADN repetitivo al final de un cromosoma, que brindan protección contra el deterioro cromosómico durante la replicación del ADN. Estudios recientes han demostrado que los telómeros funcionan para ayudar en su propia estabilidad. El ARN que contiene repeticiones teloméricas (TERRA) son transcripciones derivadas de los telómeros. Se ha demostrado que TERRA mantiene la actividad de la telomerasa y alarga los extremos de los cromosomas. [23]

El término "ADN basura" se hizo popular en la década de 1960. [24] [25] Según T. Ryan Gregory, la naturaleza del ADN basura fue discutida explícitamente por primera vez en 1972 por un biólogo genómico, David Comings, quien aplicó el término a todo el ADN no codificante. [26] El término fue formalizado ese mismo año por Susumu Ohno, [6] quien señaló que la carga mutacional de mutaciones deletéreas colocaba un límite superior en el número de loci funcionales que se podrían esperar dada una tasa de mutación típica. Ohno planteó la hipótesis de que los genomas de los mamíferos no podrían tener más de 30.000 loci bajo selección antes de que el "coste" de la carga mutacional provocara una disminución ineludible de la aptitud y, finalmente, la extinción. Esta predicción sigue siendo sólida, con el genoma humano que contiene aproximadamente 20.000 genes (que codifican proteínas). Otra fuente de la teoría de Ohno fue la observación de que incluso las especies estrechamente relacionadas pueden tener tamaños genómicos muy diferentes (órdenes de magnitud), lo que se denominó la paradoja del valor C en 1971 [27].

El término "ADN basura" ha sido cuestionado con el argumento de que provoca una fuerte a priori suposición de no funcionalidad total y algunos han recomendado utilizar en su lugar terminología más neutra, como "ADN no codificante". [26] Sin embargo, el "ADN basura" sigue siendo una etiqueta para las porciones de una secuencia del genoma para las que no se ha identificado una función discernible y que a través del análisis de genómica comparativa no aparece ninguna restricción funcional, lo que sugiere que la secuencia en sí no ha proporcionado ninguna ventaja adaptativa.

Desde finales de los 70 se ha hecho evidente que la mayoría del ADN no codificante en genomas grandes tiene su origen en la amplificación egoísta de elementos transponibles, de los que W. Ford Doolittle y Carmen Sapienza escribieron en 1980 en la revista. Naturaleza: "Cuando se puede demostrar que un ADN determinado, o una clase de ADN, de función fenotípica no probada, ha desarrollado una estrategia (como la transposición) que asegura su supervivencia genómica, no es necesaria otra explicación de su existencia". [28] Se puede esperar que la cantidad de ADN basura dependa de la velocidad de amplificación de estos elementos y la velocidad a la que se pierde el ADN no funcional. [29] En el mismo número de Naturaleza, Leslie Orgel y Francis Crick escribieron que el ADN basura tiene "poca especificidad y transmite poca o ninguna ventaja selectiva al organismo". [30] El término aparece principalmente en la ciencia popular y de manera coloquial en las publicaciones científicas, y se ha sugerido que sus connotaciones pueden haber retrasado el interés por las funciones biológicas del ADN no codificante. [31]

Alguna evidencia indica que algunas secuencias de "ADN basura" son fuentes de actividad funcional (futura) en la evolución a través de la exaptación de ADN originalmente egoísta o no funcional. [32]

Proyecto ENCODE Editar

En 2012, el proyecto ENCODE, un programa de investigación apoyado por el Instituto Nacional de Investigación del Genoma Humano, informó que el 76% de las secuencias de ADN no codificantes del genoma humano se transcribieron y que casi la mitad del genoma era de alguna manera accesible para las proteínas reguladoras genéticas. como los factores de transcripción. [33] Sin embargo, la sugerencia de ENCODE de que más del 80% del genoma humano es bioquímicamente funcional ha sido criticada por otros científicos, [34] quienes argumentan que ni la accesibilidad de los segmentos del genoma a los factores de transcripción ni su transcripción garantiza que esos segmentos tienen función bioquímica y que su transcripción es selectivamente ventajosa. Después de todo, las secciones no funcionales del genoma se pueden transcribir, dado que los factores de transcripción generalmente se unen a secuencias cortas que se encuentran (al azar) en todo el genoma. [35]

Además, las estimaciones mucho más bajas de funcionalidad antes de ENCODE se basaron en conservación genómica estimaciones a través de linajes de mamíferos. [27] [36] [37] [38] La transcripción generalizada y el empalme en el genoma humano se han discutido como otro indicador de la función genética además de la conservación genómica que puede pasar por alto secuencias funcionales mal conservadas. [39] Además, gran parte del aparente ADN basura está involucrado en la regulación epigenética y parece ser necesario para el desarrollo de organismos complejos. [40] [41] [42] Enfoques genéticos puede perder elementos funcionales que no se manifiestan físicamente en el organismo, enfoques evolutivos tienen dificultades para utilizar alineamientos precisos de secuencias de múltiples especies, ya que los genomas de especies incluso estrechamente relacionadas varían considerablemente, y con enfoques bioquímicos, aunque tienen una alta reproducibilidad, las firmas bioquímicas no siempre significan automáticamente una función. [39] Kellis y col. señaló que el 70% de la cobertura de la transcripción era menos de 1 transcripción por célula (y por lo tanto puede basarse en una transcripción de fondo falsa). Por otro lado, argumentaron que la fracción del 12-15% del ADN humano puede estar bajo restricción funcional y aún puede ser una subestimación cuando se incluyen restricciones específicas de linaje. En última instancia, los enfoques genéticos, evolutivos y bioquímicos pueden utilizarse de forma complementaria para identificar regiones que pueden ser funcionales en la biología y la enfermedad humanas. [39] Algunos críticos han argumentado que la funcionalidad solo puede evaluarse en referencia a una hipótesis nula apropiada. En este caso, la hipótesis nula sería que estas partes del genoma no son funcionales y tienen propiedades, ya sea sobre la base de la conservación o la actividad bioquímica, que se esperarían de tales regiones según nuestro conocimiento general de la evolución molecular y bioquímica. Según estos críticos, hasta que se demuestre que una región en cuestión tiene características adicionales, más allá de lo que se espera de la hipótesis nula, debería etiquetarse provisionalmente como no funcional. [43]

Algunas secuencias de ADN no codificantes deben tener alguna función biológica importante. Esto está indicado por estudios de genómica comparativa que informan sobre regiones altamente conservadas de ADN no codificante, a veces en escalas de tiempo de cientos de millones de años. Esto implica que estas regiones no codificantes están bajo una fuerte presión evolutiva y una selección positiva. [44] Por ejemplo, en los genomas de humanos y ratones, que divergieron de un ancestro común hace 65 a 75 millones de años, las secuencias de ADN que codifican proteínas representan solo alrededor del 20% del ADN conservado, y el 80% restante del ADN conservado. representado en regiones no codificantes. [45] El mapeo de ligamiento a menudo identifica regiones cromosómicas asociadas con una enfermedad sin evidencia de variantes codificantes funcionales de genes dentro de la región, lo que sugiere que las variantes genéticas que causan enfermedades se encuentran en el ADN no codificante. [45] En abril de 2013 se exploró la importancia de las mutaciones no codificantes del ADN en el cáncer. [46]

Los polimorfismos genéticos no codificantes juegan un papel en la susceptibilidad a enfermedades infecciosas, como la hepatitis C. [47] Además, los polimorfismos genéticos no codificantes contribuyen a la susceptibilidad al sarcoma de Ewing, un cáncer de hueso pediátrico agresivo. [48]

Algunas secuencias específicas de ADN no codificante pueden ser características esenciales para la estructura cromosómica, la función del centrómero y el reconocimiento de cromosomas homólogos durante la meiosis. [49]

Según un estudio comparativo de más de 300 genomas procariotas y más de 30 eucariotas, [50] los eucariotas parecen requerir una cantidad mínima de ADN no codificante. La cantidad se puede predecir utilizando un modelo de crecimiento para redes genéticas reguladoras, lo que implica que es necesario para fines regulatorios. En los seres humanos, el mínimo previsto es aproximadamente el 5% del genoma total.

Más del 10% de los 32 genomas de mamíferos pueden funcionar mediante la formación de estructuras secundarias específicas de ARN. [51] El estudio utilizó genómica comparativa para identificar mutaciones compensatorias del ADN que mantienen los pares de bases del ARN, una característica distintiva de las moléculas de ARN. Más del 80% de las regiones genómicas que presentan evidencia evolutiva de la conservación de la estructura del ARN no presentan una fuerte conservación de la secuencia del ADN.

El ADN no codificante quizás sirva para disminuir la probabilidad de alteración genética durante el cruce cromosómico. [52]

Evidencia de puntajes poligénicos y GWAS Editar

Los estudios de asociación de todo el genoma (GWAS) y el análisis de aprendizaje automático de grandes conjuntos de datos genómicos han llevado a la construcción de predictores poligénicos para rasgos humanos como la altura, la densidad ósea y muchos riesgos de enfermedades. Existen predictores similares para especies de plantas y animales y se utilizan en la cría agrícola. [54] Se ha analizado la arquitectura genética detallada de los predictores humanos y los efectos significativos utilizados en la predicción están asociados con regiones de ADN muy alejadas de las regiones de codificación. La fracción de varianza representada (es decir, la fracción del poder predictivo capturado por el predictor) en las regiones codificantes frente a las no codificantes varía ampliamente para diferentes rasgos complejos. Por ejemplo, la fibrilación auricular y el riesgo de enfermedad de las arterias coronarias se controlan principalmente mediante variantes en regiones no codificantes (fracción de varianza no codificante superior al 70%), mientras que la diabetes y el colesterol alto muestran el patrón opuesto (varianza no codificante de aproximadamente 20-30%). ). [53] Las diferencias individuales entre humanos se ven claramente afectadas de manera significativa por loci genéticos no codificantes, lo que constituye una fuerte evidencia de efectos funcionales. Los genotipos del exoma completo (es decir, que contienen información restringida a las regiones codificantes únicamente) no contienen suficiente información para construir o incluso evaluar predictores poligénicos para muchos rasgos complejos y riesgos de enfermedades bien estudiados.

En 2013, se estimó que, en general, hasta el 85% de los loci GWAS tienen variantes no codificantes como probable asociación causal. Las variantes son a menudo comunes en las poblaciones y se predijo que afectarían los riesgos de enfermedad a través de pequeños efectos fenotípicos, en contraposición a los grandes efectos de las variantes mendelianas. [55]

Algunas secuencias de ADN no codificantes determinan los niveles de expresión de varios genes, tanto los que se transcriben a proteínas como los que ellos mismos están involucrados en la regulación de genes. [56] [57] [58]

Factores de transcripción Editar

Algunas secuencias de ADN no codificantes determinan dónde se unen los factores de transcripción. [56] Un factor de transcripción es una proteína que se une a secuencias específicas de ADN no codificantes, controlando así el flujo (o transcripción) de información genética desde el ADN al ARNm. [59] [60]

Operadores Editar

Un operador es un segmento de ADN al que se une un represor. Un represor es una proteína de unión al ADN que regula la expresión de uno o más genes uniéndose al operador y bloqueando la unión de la ARN polimerasa al promotor, evitando así la transcripción de los genes. Este bloqueo de la expresión se llama represión. [61]

Mejoradores Editar

Un potenciador es una región corta de ADN que se puede unir a proteínas (factores que actúan en trans), al igual que un conjunto de factores de transcripción, para mejorar los niveles de transcripción de genes en un grupo de genes. [62]

Silenciadores Editar

Un silenciador es una región del ADN que inactiva la expresión génica cuando se une a una proteína reguladora. Funciona de una manera muy similar a los potenciadores, solo difiriendo en la inactivación de genes. [63]

Promotores Editar

Un promotor es una región de ADN que facilita la transcripción de un gen en particular cuando un factor de transcripción se une a él. Los promotores suelen estar ubicados cerca de los genes que regulan y corriente arriba de ellos. [64]

Aisladores Editar

Un aislante genético es un elemento límite que desempeña dos funciones distintas en la expresión génica, ya sea como un código de bloqueo del potenciador o, raramente, como una barrera contra la cromatina condensada. Un aislante en una secuencia de ADN es comparable a un divisor de palabras lingüísticas como una coma en una oración, porque el aislante indica dónde termina una secuencia mejorada o reprimida. [sesenta y cinco]

Evolución Editar

Las secuencias compartidas de ADN aparentemente no funcional son una línea importante de evidencia de ascendencia común. [66]

Las secuencias de pseudogenes parecen acumular mutaciones más rápidamente que las secuencias codificantes debido a una pérdida de presión selectiva. [15] Esto permite la creación de alelos mutantes que incorporan nuevas funciones que pueden ser favorecidas por la selección natural, por lo que los pseudogenes pueden servir como materia prima para la evolución y pueden considerarse "protogenes". [67]

Un estudio publicado en 2019 muestra que los nuevos genes (denominados de novo nacimiento de genes) se puede modelar a partir de regiones no codificantes. [68] Algunos estudios sugieren que al menos una décima parte de los genes podrían producirse de esta manera. [68]

Correlaciones de largo alcance Editar

Se ha encontrado una distinción estadística entre secuencias de ADN codificantes y no codificantes. Se ha observado que los nucleótidos en las secuencias de ADN no codificantes muestran correlaciones de la ley de potencia de largo alcance, mientras que las secuencias codificantes no lo hacen. [69] [70] [71]

Antropología forense Editar

La policía a veces recopila ADN como prueba para fines de identificación forense. Como se describe en Maryland contra King, una decisión de 2013 de la Corte Suprema de Estados Unidos: [72]

El estándar actual para las pruebas forenses de ADN se basa en un análisis de los cromosomas ubicados dentro del núcleo de todas las células humanas. 'El material de ADN en los cromosomas se compone de regiones "codificantes" y "no codificantes". Las regiones codificantes se conocen como genes y contienen la información necesaria para que una célula produzca proteínas. . . . Regiones no codificantes de proteínas. . . no están relacionados directamente con la producción de proteínas, [y] se les ha denominado ADN "basura". El adjetivo "basura" puede engañar al profano, porque de hecho esta es la región del ADN que se usa con casi certeza para identificar a una persona. [72]


El caso del ADN basura

Los genomas son como libros de vida. Pero hasta hace poco, sus mantas estaban cerradas. Finalmente, ahora podemos abrir los libros y hojearlos. Pero solo tenemos una comprensión modesta de lo que realmente estamos viendo. Todavía no estamos seguros de cuánto codifica nuestro genoma la información que es importante para nuestra supervivencia y cuánto es simplemente un relleno confuso.

Hoy es un buen día para sumergirnos en el debate sobre de qué está hecho el genoma, gracias a la publicación de un interesante comentario de Alex Palazzo y Ryan Gregory en PLOS Genetics. Se llama "El caso del ADN basura".

El debate sobre el genoma puede volverse vertiginoso. Encuentro que el mejor antídoto para el vértigo es un poco de historia. Esta historia comienza a principios del siglo XX.

En ese momento, los genetistas sabían que llevamos genes, factores que se transmiten de padres a hijos y que influyen en nuestros cuerpos, pero no sabían de qué estaban hechos los genes.

Eso cambió a partir de la década de 1950. Los científicos reconocieron que los genes estaban hechos de ADN y luego descubrieron cómo los genes dan forma a nuestra biología.

Nuestro ADN es una cadena de unidades llamadas bases. Nuestras células leen las bases en un tramo de ADN, un gen, y construyen una molécula llamada ARN con una secuencia correspondiente. Luego, las células usan el ARN como guía para construir una proteína. Nuestros cuerpos contienen muchas proteínas diferentes, que les dan estructura y realizan tareas como digerir alimentos.

Pero en la década de 1950, los científicos también comenzaron a descubrir fragmentos de ADN fuera de las regiones codificantes de proteínas que también eran importantes. Estos denominados elementos reguladores actuaron como interruptores para genes codificadores de proteínas. Una proteína que se adhiere a uno de esos interruptores podría hacer que una célula produzca muchas proteínas a partir de un gen determinado. O podría apagar el gen por completo.

Mientras tanto, los científicos también estaban encontrando fragmentos de ADN en el genoma que no parecían ser genes codificadores de proteínas ni elementos reguladores. En la década de 1960, por ejemplo, Roy Britten y David Kohne encontraron cientos de miles de segmentos repetidos de ADN, cada uno de los cuales resultó tener solo unos pocos cientos de bases de largo. Muchas de estas secuencias repetidas fueron el producto de tramos de ADN similares a virus. Estos fragmentos de "ADN egoísta" hicieron copias de sí mismos que se insertaron de nuevo en el genoma. Luego, las mutaciones los redujeron a fragmentos inertes.

Otros científicos encontraron copias adicionales de genes que tenían mutaciones que les impedían producir proteínas, lo que se conoció como pseudogenes.

El genoma humano, ahora lo sabemos, contiene alrededor de 20.000 genes que codifican proteínas. Eso puede parecer mucho material genético. Pero solo constituye alrededor del 2 por ciento del genoma. Algunas plantas son incluso más extremas. Si bien tenemos alrededor de 3.2 mil millones de bases en nuestros genomas, las cebollas tienen 16 mil millones, en su mayoría consistentes en secuencias repetidas y ADN similar a un virus.

El resto del genoma se convirtió en un misterioso desierto para los genetistas. Iban a expediciones para mapear las regiones no codificadas y tratar de averiguar de qué estaban hechas.

Algunos segmentos de ADN resultaron tener funciones, incluso si no codificaban proteínas ni servían como interruptores. Por ejemplo, a veces nuestras células producen moléculas de ARN que no sirven simplemente como plantillas para proteínas. En cambio, tienen sus propios trabajos, como detectar sustancias químicas en la célula. Así que esos tramos de ADN también se consideran genes, pero no genes que codifican proteínas.

Con la exploración del genoma surgieron una gran cantidad de etiquetas, algunas de las cuales llegaron a usarse de manera confusa, ya veces descuidada. El "ADN no codificante" llegó a ser una abreviatura del ADN que no codifica proteínas. Pero el ADN no codificante aún podría tener una función, como apagar genes o producir moléculas de ARN útiles.

Los científicos también comenzaron a referirse al "ADN basura". Diferentes científicos usaron el término para referirse a diferentes cosas. El genetista japonés Susumu Ohno usó el término cuando desarrolló una teoría sobre cómo muta el ADN. Ohno imaginó que los genes codificadores de proteínas se duplicarían accidentalmente. Más tarde, las mutaciones afectarían a las nuevas copias de esos genes. In a few cases, the mutations would give the new gene copies a new function. In most, however, they just killed the gene. He referred to the extra useless copies of genes as junk DNA. Other people used the term to refer broadly to any piece of DNA that didn’t have a function.

And then–like crossing the streams in Ghostbusters–junk DNA and non-coding DNA got mixed up. Sometimes scientists discovered a stretch of non-coding DNA that had a function. They might clip out the segment from the DNA in an egg and find it couldn’t develop properly. BAM!–there was a press release declaring that non-coding DNA had long been dismissed as junk, but lo and behold, non-coding DNA can do something after all.

Given that regulatory elements were discovered in the 1950s (the discovery was recognized with Nobel Prizes), this is just illogical.

Nevertheless, a worthwhile questioned remained: how of the genome had a function? How much was junk?

To Britten and Kohne, the idea that repeating DNA was useless was “repugnant.” Seemingly on aesthetic grounds, they preferred the idea that it had a function that hadn’t been discovered yet.

Others, however, argued that repeating DNA (and pseudogenes and so on) were just junk–vast vestiges of disabled genetic material that we carry down through the generations. If the genome was mostly functional, then it was hard to see why it takes five times more functional DNA to make an onion than a human–or to explain the huge range of genome sizes:

In recent years, a consortium of scientists carried out a project called the Encyclopedia of DNA Elements (ENCODE for short) to classify all the parts of the genome. To see if non-coding DNA was functional, they checked for proteins that were attached to them–possibly switching on regulatory elements. They found a lot of them.

“These data enabled us to assign biochemical functions for 80% of the genome, in particular outside of the well-studied protein-coding regions,” they reported.

Ciencias translated that conclusion into a headline, “ENCODE Project writes eulogy for junk DNA.”

A lot of defenders of junk have attacked this conclusion–or, to be more specific, how the research got translated into press releases and then into news articles. In their new review, Palazzo and Gregory present some of the main objections.

Just because proteins grab onto a piece of DNA, for example, doesn’t actually mean that there’s a gene nearby that is going to make something useful. It could just happen to have the right sequence to make the proteins stick to it.

And even if a segment of DNA does give rise to RNA, that RNA may not have a function. The cell may accidentally make RNA molecules, which they then chop up.

If I had to guess why Britten and Kohne found junk DNA repugnant, it probably had to do with evolution. Darwin, after all, had shown how natural selection can transform a population, and how, over millions of years, it could produce adaptations. In the 1900s, geneticists turned his idea into a modern theory. Genes that boosted reproduction could become more common, while ones that didn’t could be eliminated from a population. You’d expect that natural selection would have left the genome mostly full of functional stuff.

Palazzo and Gregory, on the other hand, argue that evolution deberían produce junk. The reason has to do with the fact that natural selection can be quite weak in some situations. The smaller a population gets, the less effective natural selection is at favoring beneficial mutations. In small populations, a mutation can spread even if it’s not beneficial. And compared to bacteria, the population of humans is very small. (Technically speaking, it’s the “effective population size” that’s small–follow the link for an explanation of the difference.) When non-functional DNA builds up in our genome, it’s harder for natural selection to strip it out than if we were bacteria.

While junk is expected, a junk-free genome is not. Palazzo and Gregory based this claim on a concept with an awesome name: mutational meltdown.

Here’s how it works. A population of, say, frogs is reproducing. Every time they produce a new tadpole, that tadpole gains a certain number of mutations. A few of those mutations may be beneficial. The rest will be neutral or harmful. If harmful mutations emerge at a rate that’s too fast for natural selection to weed them out, they’ll start to pile up in the genome. Overall, the population will get sicker, producing fewer offspring. Eventually the mutations will drive the whole population to extinction.

Mutational meltdown puts an upper limit on how many genes an organism can have. If a frog has 10,000 genes, those are 10,000 potential targets for a harmful mutation. If the frog has 100,000 genes, it has ten times more targets.

Estimates of the human mutation rate suggest that somewhere between 70 to 150 new mutations strike the genome of every baby. Based on the risk of mutational meltdown, Palazzo and Gregory estimate that only ten percent of the human genome can be functional.* The other ninety percent must be junk DNA. If a mutation alters junk DNA, it doesn’t do any harm because the junk isn’t doing us any good to begin with. If our genome was 80 percent functional–the figure batted around when the ENCODE project results first came out–then we should be extinct.

It may sound wishy-washy for me to say this, but the junk DNA debates will probably settle somewhere in between the two extremes. Is the entire genome functional? No. Is everything aside from protein-coding genes junk? No–we’ve already known that non-coding DNA can be functional for over 50 years. Even if “only” ten percent of the genome turns out to be functional, that’s a huge collection of DNA. It’s six times bigger than the DNA found in all our protein-coding genes. There could be thousands of RNA molecules scientists have yet to understand.

Even if ninety percent of the genome does prove to be junk, that doesn’t mean the junk hasn’t played a role in our evolution. As I wrote last week in the New York Times, it’s from these non-coding regions that many new protein-coding genes evolve. What’s more, much of our genome is made up of viruses, and every now and then evolution has, in effect, harnessed those viral genes to carry out a job for our own bodies. The junk is a part of us, and it, too, helps to make us what we are.

*I mean functional in terms of its sequence. The DNA might still do something important structurally–helping the molecule bend in a particular way, for example.

[Update: Fixed caption. Tweaked the last paragraph to clarify that it’s not a case of teleology.]


Glosario

DNA: Deoxyribonucleic acid is the chemical that stores genetic information in our cells. Shaped like a double helix, DNA passes down from one generation to the next.

RNA: Ribonucleic acid is a type of molecule used in making proteins in the body.

Genome: The complete genetic makeup of an organism, which contains all the biological information to build and keep it alive.

Gene: A stretch of DNA that tells a cell how to make specific proteins or RNA molecules.

Enzyme: A molecule that promotes a chemical reaction inside a living organism.

Stem cell: A biological master cell that can multiply and become many different types of tissue. They can also replicate to make more stem cells.


Functions for the Useless

Nearly a decade after the completion of the Human Genome Project, which gave us the first full read of our genetic script at the start of the century, a team of over 400 scientists released what they called the Encyclopedia of DNA Elements , or ENCODE for short. The international collaboration explored the function of every letter in the genome. The results of the massive undertaking called for a reassessment of junk DNA. Though less than two percent of the genome makes proteins, around 80 percent carries out some sort of function.

What fell into ENCODE’s definition of functionality was pretty broad, however. Any “biochemical activity” was fair game — getting transcribed into RNA, even if chopped later in the process, qualified sequences as functional. But many of the “junk” sections do have important roles, including regulating how DNA is transcribed and translated from there into proteins. If protein-coding sequences are the notes of a symphony, then some of the non-coding sequences act like the conductor, influencing the pace and repetitions of the masterpiece.

But not every bit of junk DNA might have a functional use. In a study published in Molecular Biology of the Cell in 2008, scientists cleaned junk DNA from yeast’s genome. For particular genes, they got rid of introns — the sections that get chopped away after DNA transcription. They reported the intron removal had no significant consequences for the cells under laboratory conditions, supporting the notion that they don’t have any function.

But studies published in Nature this year argued otherwise. When food is scarce, researchers found these sequences are essential for yeast survival. The usefulness of these introns might depend on the context, these studies argue — still a far cry from being junk.


Research team finds important role for junk DNA

Scientists have called it "junk DNA." They have long been perplexed by these extensive strands of genetic material that dominate the genome but seem to lack specific functions. Why would nature force the genome to carry so much excess baggage?

Now researchers from Princeton University and Indiana University who have been studying the genome of a pond organism have found that junk DNA may not be so junky after all. They have discovered that DNA sequences from regions of what had been viewed as the "dispensable genome" are actually performing functions that are central for the organism. They have concluded that the genes spur an almost acrobatic rearrangement of the entire genome that is necessary for the organism to grow.

It all happens very quickly. Genes called transposons in the single-celled pond-dwelling organism Oxytricha produce cell proteins known as transposases. During development, the transposons appear to first influence hundreds of thousands of DNA pieces to regroup. Then, when no longer needed, the organism cleverly erases the transposases from its genetic material, paring its genome to a slim 5 percent of its original load.

Laura Landweber (Photo: Denise Applewhite)

"The transposons actually perform a central role for the cell," said Laura Landweber, a professor of ecology and evolutionary biology at Princeton and an author of the study. "They stitch together the genes in working form." The work appeared in the May 15 edition of Science.

In order to prove that the transposons have this reassembly function, the scientists disabled several thousand of these genes in some Oxytricha. The organisms with the altered DNA, they found, failed to develop properly.

Other authors from Princeton's Department of Ecology and Evolutionary Biology include: postdoctoral fellows Mariusz Nowacki and Brian Higgins 2006 alumna Genevieve Maquilan and graduate student Estienne Swart. Former Princeton postdoctoral fellow Thomas Doak, now of Indiana University, also contributed to the study.

Landweber and other members of her team are researching the origin and evolution of genes and genome rearrangement, with particular focus on Oxytricha because it undergoes massive genome reorganization during development.

In her lab, Landweber studies the evolutionary origin of novel genetic systems such as Oxytricha's. By combining molecular, evolutionary, theoretical and synthetic biology, Landweber and colleagues last year discovered an RNA (ribonucleic acid)-guided mechanism underlying its complex genome rearrangements.

"Last year, we found the instruction book for how to put this genome back together again -- the instruction set comes in the form of RNA that is passed briefly from parent to offspring and these maternal RNAs provide templates for the rearrangement process," Landweber said. "Now we've been studying the actual machinery involved in the process of cutting and splicing tremendous amounts of DNA. Transposons are very good at that."

The term "junk DNA" was originally coined to refer to a region of DNA that contained no genetic information. Scientists are beginning to find, however, that much of this so-called junk plays important roles in the regulation of gene activity. No one yet knows how extensive that role may be.

Instead, scientists sometimes refer to these regions as "selfish DNA" if they make no specific contribution to the reproductive success of the host organism. Like a computer virus that copies itself ad nauseum, selfish DNA replicates and passes from parent to offspring for the sole benefit of the DNA itself. The present study suggests that some selfish DNA transposons can instead confer an important role to their hosts, thereby establishing themselves as long-term residents of the genome.


Is 75% of the Human Genome Junk DNA?

By the rude bridge that arched the flood,
Their flag to April’s breeze unfurled,
Here once the embattled farmers stood,
And fired the shot heard round the world.

–Ralph Waldo Emerson, Concord Hymn

Emerson referred to the Battles of Lexington and Concord, the first skirmishes of the Revolutionary War, as the “shot heard round the world.”

While not as loud as the gunfire that triggered the Revolutionary War, a recent article published in Genome Biology and Evolution by evolutionary biologist Dan Graur has garnered a lot of attention, 1 serving as the latest salvo in the junk DNA wars—a conflict between genomics scientists and evolutionary biologists about the amount of functional DNA sequences in the human genome.

Clearly, this conflict has important scientific ramifications, as researchers strive to understand the human genome and seek to identify the genetic basis for diseases. The functional content of the human genome also has significant implications for creation-evolution skirmishes. If most of the human genome turns out to be junk after all, then the case for a Creator potentially suffers collateral damage.

According to Graur, no more than 25% of the human genome is functional—a much lower percentage than reported by the ENCODE Consortium. Released in September 2012, phase II results of the ENCODE project indicated that 80% of the human genome is functional, with the expectation that the percentage of functional DNA in the genome would rise toward 100% when phase III of the project reached completion.

If true, Graur’s claim would represent a serious blow to the validity of the ENCODE project conclusions and devastate the RTB human origins creation model. Intelligent design proponents and creationists (like me) have heralded the results of the ENCODE project as critical in our response to the junk DNA challenge.

Junk DNA and the Creation vs. Evolution Battle

Evolutionary biologists have long considered the presence of junk DNA in genomes as one of the most potent pieces of evidence for biological evolution. Skeptics ask, “Why would a Creator purposely introduce identical nonfunctional DNA sequences at the same locations in the genomes of different, though seemingly related, organisms?”

When the draft sequence was first published in 2000, researchers thought only around 2–5% of the human genome consisted of functional sequences, with the rest being junk. Numerous skeptics and evolutionary biologists claim that such a vast amount of junk DNA in the human genome is compelling evidence for evolution and the most potent challenge against intelligent design/creationism.

But these arguments evaporate in the wake of the ENCODE project. If valid, the ENCODE results would radically alter our view of the human genome. No longer could the human genome be regarded as a wasteland of junk rather, the human genome would have to be recognized as an elegantly designed system that displays sophistication far beyond what most evolutionary biologists ever imagined.

ENCODE Skeptics

The findings of the ENCODE project have been criticized by some evolutionary biologists who have cited several technical problems with the study design and the interpretation of the results. (See articles listed under “Resources to Go Deeper” for a detailed description of these complaints and my responses.) But ultimately, their criticisms appear to be motivated by an overarching concern: if the ENCODE results stand, then it means key features of the evolutionary paradigm can’t be correct.

Calculating the Percentage of Functional DNA in the Human Genome

Graur (perhaps the foremost critic of the ENCODE project) has tried to discredit the ENCODE findings by demonstrating that they are incompatible with evolutionary theory. Toward this end, he has developed a mathematical model to calculate the percentage of functional DNA in the human genome based on mutational load—the amount of deleterious mutations harbored by the human genome.

Graur argues that junk DNA functions as a “ sponge ” absorbing deleterious mutations, thereby protecting functional regions of the genome. Considering this buffering effect, Graur wanted to know how much junk DNA must exist in the human genome to buffer against the loss of fitness—which would result from deleterious mutations in functional DNA—so that a constant population size can be maintained.

Historically, the replacement level fertility rates for human beings have been two to three children per couple. Based on Graur’s modeling, this fertility rate requires 85–90% of the human genome to be composed of junk DNA in order to absorb deleterious mutations—ensuring a constant population size, with the upper limit of functional DNA capped at 25%.

Graur also calculated a fertility rate of 15 children per couple, at minimum, to maintain a constant population size, assuming 80% of the human genome is functional. According to Graur’s calculations, if 100% of the human genome displayed function, the minimum replacement level fertility rate would have to be 24 children per couple.

He argues that both conclusions are unreasonable. On this basis, therefore, he concludes that the ENCODE results cannot be correct.

Response to Graur

So, has Graur’s work invalidated the ENCODE project results? Difícilmente. Here are four reasons why I’m skeptical.

1. Graur’s estimate of the functional content of the human genome is based on mathematical modeling, not experimental results.

An adage I heard repeatedly in graduate school applies: “Theories guide, experiments decide.” Though the ENCODE project results teóricamente don’t make sense in light of the evolutionary paradigm, that is not a reason to consider them invalid. A growing number of studies provide independent experimental validation of the ENCODE conclusions. (Go here and here for two recent examples.)

To question experimental results because they don’t align with a theory’s predictions is a “ Bizarro World ” approach to science. Experimental results and observations determine a theory’s validity, not the other way around. Yet when it comes to the ENCODE project, its conclusions seem to be weighed based on their conformity to evolutionary theory. Simply put, ENCODE skeptics are doing science backwards.

While Graur and other evolutionary biologists argue that the ENCODE results don’t make sense from an evolutionary standpoint, I would argue as a biochemist that the high percentage of functional regions in the human genome makes perfect sense. The ENCODE project determined that a significant fraction of the human genome is transcribed. They also measured high levels of protein binding.

ENCODE skeptics argue that this biochemical activity is merely biochemical noise. But this assertion does not make sense because (1) biochemical noise costs energy and (2) random interactions between proteins and the genome would be harmful to the organism.

Transcription is an energy- and resource-intensive process. To believe that most transcripts are merely biochemical noise would be untenable. Such a view ignores cellular energetics. Transcribing a large percentage of the genome when most of the transcripts serve no useful function would routinely waste a significant amount of the organism’s energy and material stores. If such an inefficient practice existed, surely natural selection would eliminate it and streamline transcription to produce transcripts that contribute to the organism’s fitness.

Apart from energetics considerations, this argument ignores the fact that random protein binding would make a dire mess of genome operations. Without minimizing these disruptive interactions, biochemical processes in the cell would grind to a halt. It is reasonable to think that the same considerations would apply to transcription factor binding with DNA.

2. Graur’s model employs some questionable assumptions.

Graur uses an unrealistically high rate for deleterious mutations in his calculations.

Graur determined the deleterious mutation rate using protein-coding genes. These DNA sequences are highly sensitive to mutations. In contrast, other regions of the genome that display function—such as those that (1) dictate the three-dimensional structure of chromosomes, (2) serve as transcription factors, and (3) aid as histone binding sites—are much more tolerant to mutations. Ignoring these sequences in the modeling work artificially increases the amount of required junk DNA to maintain a constant population size.

3. The way Graur determines if DNA sequence elements are functional is questionable.

Graur uses the selected-effect definition of function. According to this definition, a DNA sequence is only functional if it is undergoing negative selection. In other words, sequences in genomes can be deemed functional solamente if they evolved under evolutionary processes to perform a particular function. Once evolved, these sequences, if they are functional, will resist evolutionary change (due to natural selection) because any alteration would compromise the function of the sequence and endanger the organism. If deleterious, the sequence variations would be eliminated from the population due to the reduced survivability and reproductive success of organisms possessing those variants. Hence, functional sequences are those under the effects of selection.

In contrast, the ENCODE project employed a causal definition of function. Accordingly, function is ascribed to sequences that play some observationally or experimentally determined role in genome structure and/or function.

The ENCODE project focused on experimentally determining which sequences in the human genome displayed biochemical activity using assays that measured

  • transcription,
  • binding of transcription factors to DNA,
  • histone binding to DNA,
  • DNA binding by modified histones,
  • DNA methylation, and
  • three-dimensional interactions between enhancer sequences and genes.

In other words, if a sequence is involved in any of these processes—all of which play well-established roles in gene regulation—then the sequences must have functional utility. That is, if sequence Q performs function GRAMO, then sequence Q is functional.

So why does Graur insist on a selected-effect definition of function? For no other reason than a causal definition ignores the evolutionary framework when determining function. He insists that function be defined exclusively within the context of the evolutionary paradigm. In other words, his preference for defining function has more to do with philosophical concerns than scientific ones—and with a deep-seated commitment to the evolutionary paradigm.

As a biochemist, I am troubled by the selected-effect definition of function because it is theory-dependent. In science, cause-and-effect relationships (which include biological and biochemical function) need to be established experimentally and observationally, independent of any particular theory. Once these relationships are determined, they can then be used to evaluate the theories at hand. Do the theories predict (or at least accommodate) the established cause-and-effect relationships, or not?

Using a theory-dependent approach poses the very real danger that experimentally determined cause-and-effect relationships (or, in this case, biological functions) will be discarded if they don’t fit the theory. And, again, it should be the other way around. A theory should be discarded, or at least reevaluated, if its predictions don’t match these relationships.

What difference does it make which definition of function Graur uses in his model? A big difference. The selected-effect definition is more restrictive than the causal-role definition. This restrictiveness translates into overlooked function and increases the replacement level fertility rate.

4. Buffering against deleterious mutations is a function.

As part of his model, Graur argues that junk DNA is necessary in the human genome to buffer against deleterious mutations. By adopting this view, Graur has inadvertently identified function for junk DNA. In fact, he is not the first to argue along these lines. Biologist Claudiu Bandea has posited that high levels of junk DNA can make genomes resistant to the deleterious effects of transposon insertion events in the genome. If insertion events are random, then the offending DNA is much more likely to insert itself into “junk DNA” regions instead of coding and regulatory sequences, thus protecting information-harboring regions of the genome.

If the last decade of work in genomics has taught us anything, it is this: we are in our infancy when it comes to understanding the human genome. The more we learn about this amazingly complex biochemical system, the more elegant and sophisticated it becomes. Through this process of discovery, we continue to identify functional regions of the genome—DNA sequences long thought to be “ junk. ”

In short, the criticisms of the ENCODE project reflect a deep-seated commitment to the evolutionary paradigm and, bluntly, are at war with the experimental facts.

Bottom line: if the ENCODE results stand, it means that key aspects of the evolutionary paradigm can’t be correct.


Perennial Problem of C-Value

Information and Structure.

The junk idea long predates genomics and since its early decades has been grounded in the “C-value paradox,” the observation that DNA amounts (C-value denotes haploid nuclear DNA content) and complexities correlate very poorly with organismal complexity or evolutionary “advancement” (10 ⇓ ⇓ ⇓ –14). Humans do have a thousand times as much DNA as simple bacteria, but lungfish have at least 30 times more than humans, as do many flowering plants and some unicellular protists (14). Moreover, as is often noted, the disconnection between C-value and organismal complexity is also found within more restricted groups comprising organisms of seemingly similar lifestyle and comparable organismal or behavioral complexity. The most heavily burdened lungfish (Protopterus aethiopicus) lumbers around with 130,000 Mb, but the pufferfish Takifugu (antes Fugu) rubripes gets by on less than 400 Mb (15, 16). A less familiar but better (because monophyletic) animal example might be amphibians, showing a 120-fold range from frogs to salamanders (17). Among angiosperms, there is a thousandfold variation (14). Additionally, even within a single genus, there can be substantial differences. Salamander species belonging to Plethodon boast a fourfold range, to cite a comparative study popular from the 1970s (18). Sometimes, such within-genus genome size differences reflect large-scale or whole-genome duplications and sometimes rampant selfish DNA or transposable element (TE) multiplication. Schnable et al. (19) figure that the maize genome has more than doubled in size in the last 3 million y, overwhelmingly through the replication and accumulation of TEs for example. If we do not think of this additional or “excess” DNA, so manifest through comparisons between and within biological groups, as junk (irrelevant if not frankly detrimental to the survival and reproduction of the organism bearing it), how then are we to think of it?

Of course, DNA inevitably does have a basic structural role to play, unlinked to specific biochemical activities or the encoding of information relevant to genes and their expression. Centromeres and telomeres exemplify noncoding chromosomal components with specific functions. More generally, DNA as a macromolecule bulks up and gives shape to chromosomes and thus, as many studies show, determines important nuclear and cellular parameters such as division time and size, themselves coupled to organismal development (11 ⇓ –13, 17). The “selfish DNA” scenarios of 1980 (20 ⇓ –22), in which C-value represents only the outcome of conflicts between upward pressure from reproductively competing TEs and downward-directed energetic restraints, have thus, in subsequent decades, yielded to more nuanced understandings. Cavalier-Smith (13, 20) called DNA’s structural and cell biological roles “nucleoskeletal,” considering C-value to be optimized by organism-level natural selection (13, 20). Gregory, now the principal C-value theorist, embraces a more “pluralistic, hierarchical approach” to what he calls “nucleotypic” function (11, 12, 17). A balance between organism-level selection on nuclear structure and cell size, cell division times and developmental rate, selfish genome-level selection favoring replicative expansion, and (as discussed below) supraorganismal (clade-level) selective processes—as well as drift—must all be taken into account.

These forces will play out differently in different taxa. González and Petrov (23) point out, for instance, that Drosophila and humans are at opposite extremes in terms of the balance of processes, with the minimalist genomes of the former containing few (but mostly young and quite active) TEs, whereas at least one-half of our own much larger genome comprises the moribund remains of older TEs, principally SINEs and LINEs (short and long interspersed nuclear elements). Such difference may in part reflect population size. As Lynch notes, small population size (characteristic of our species) will have limited the effectiveness of natural selection in preventing a deleterious accumulation of TEs (24, 25).

Zuckerkandl (26) once mused that all genomic DNA must be to some degree “polite,” in that it must not lethally interfere with gene expression. Indeed, some might suggest, as I will below, that true junk might better be defined as DNA not currently held to account by selection for any sort of role operating at any level of the biological hierarchy (27). However, junk advocates have to date generally considered that even DNA fulfilling bulk structural roles remains, in terms of encoded information, just junk. Cell biology may require a certain C-value, but most of the stretches of noncoding DNA that go to satisfying that requirement are junk (or worse, selfish).

In any case, structural roles or multilevel selection theorizing are not what ENCODE commentators are endorsing when they proclaim the end of junk, touting the existence of 4 million gene switches or myriad elements that determine gene expression and assigning biochemical functions for 80% of the genome. Indeed, there would be no excitement in either the press or the scientific literature if all the ENCODE team had done was acknowledge an established theory concerning DNA’s structural importance. Rather, the excitement comes from interpreting ENCODE’s data to mean that a much larger fraction of our DNA than until very recently thought contributes to our survival and reproduction as organisms, because it encodes information transcribed or expressed phenotypically in one tissue or another, or specifically regulates such expression.

A Thought Experiment.

ENCODE (5) defines a functional element (FE) as “a discrete genome segment that encodes a defined product (for example, protein or non-coding RNA) or displays a reproducible biochemical signature (for example, protein binding, or a specific chromatin structure).” A simple thought experiment involving FEs so-defined is at the heart of my argument.

Suppose that there had been (and probably, some day, there will be) ENCODE projects aimed at enumerating, by transcriptional and chromatin mapping, factor footprinting, and so forth, all of the FEs in the genomes of Takifugu and a lungfish, some small and large genomed amphibians (including several species of Plethodon), plants, and various protists. There are, I think, two possible general outcomes of this thought experiment, neither of which would give us clear license to abandon junk.

The first outcome would be that FEs (estimated to be in the millions in our genome) turn out to be more or less constant in number, regardless of C-value—at least among similarly complex organisms. If larger C-value by itself does not imply more FEs, then there will, of course, be great differences in what we might call functional density (FEs per kilobase) (26) among species. FEs spaced by kilobases in Arabidopsis would be megabases apart in maize on average. Averages obscure details: the extra DNA in the larger genomes might be sequestered in a few giant silent regions rather than uniformly stretching out the space between FEs or lengthening intragenic introns. However, in either case, this DNA could be seen as a sort of polite functionless filler or diluent. At best, such DNA might have functions only of the structural or nucleoskeletal/nucleotypic sort. Indeed, even this sort of functional attribution is not necessary. There is room within an expanded, pluralistic and hierarchical theory of C-value (see below) (12, 27) for much DNA that makes no contribution whatever to survival and reproduction at the organismal level and thus is junk at that level, although it may be under selection at the sub- or supraorganismal levels (TEs and clade selection).

If the human genome is junk-free, then it must be very luckily poised at some sort of minimal size for organisms of human complexity. We may no longer think that mankind is at the center of the universe, but we still consider our species’ genome to be unique, first among many in having made such full and efficient use of all of its millions of SINES and LINES (retrotransposable elements) and introns to encode the multitudes of lncRNAs and house the millions of enhancers necessary to make us the uniquely complex creatures that we believe ourselves to be. However, were this extraordinary coincidence the case, a corollary would be that junk would not be defunct for many other larger genomes: the term would not need to be expunged from the genomicist’s lexicon more generally. As well, if, as is commonly believed, much of the functional complexity of the human genome is to be explained by evolution of our extraordinary cognitive capacities, then many other mammals of lesser acumen but similar C-value must truly have junk in their DNA.

The second likely general outcome of my thought experiment would be that FEs as defined by ENCODE increase in number with C-value, regardless of apparent organismal complexity. If they increase roughly proportionately, FE numbers will vary over a many-hundredfold range among organisms normally thought to be similarly complex. Defining or measuring complexity is, of course, problematic if not impossible. Still, it would be hard to convince ourselves that lungfish are 300 times more complex than Takifugu or 40 times more complex than us, whatever complexity might be. More likely, if indeed FE numbers turn out to increase with C-value, we will decide that we need to think again about what function is, how it becomes embedded in macromolecular structures, and what FEs as defined by ENCODE have to tell us about it.


What's the origin of junk DNA? - biología

NIST-led Research De-Mystifies Origins Of 'Junk' DNA

One man's junk, is another's treasure
Washington - Mar 26, 2004
A debate over the origins of what is sometimes called "junk" DNA has been settled by research involving scientists at the Center for Advanced Research in Biotechnology (CARB) and a collaborator, who developed rigorous proof that these mysterious sections were added to DNA "late" in the evolution of life on earth--after the formation of modern-sized genes, which contain instructions for making proteins.

A biologist with the Commerce Department's National Institute of Standards and Technology (NIST) led the research team, which reported its findings in the March 10 online edition of Molecular Biology and Evolution.

The results are based on a systematic, statistically rigorous analysis of publicly available genetic data carried out with bioinformatics software developed at CARB.

In humans, there is so much apparent "junk" DNA (sections of the genome with no known function) that it takes up more space than the functional parts. Much of this junk consists of "introns," which appear as interruptions plopped down in the middle of genes.

Discovered in the 1970s, introns mystify scientists but are readily accounted for by cells: when the cellular machinery transcribes a gene in preparation for making a protein, introns are simply spliced out of the transcript.

Research from the CARB group appears to resolve a debate over the "early versus late" timing of the appearance of introns. Since introns were discovered in 1978, scientists have debated whether genes were born split (the "introns-early" view), or whether they became split after eukaryotic cells (the ones that gave rise to animals and their relatives) diverged from bacteria roughly 2 billion years ago (the "introns-late" view).

Bacterial genomes lack introns. Although the study did not attempt to propose a function for introns, or determine whether they are beneficial or harmful, the results appear to rule out the "introns-early" view.

The CARB analysis shows that the probability of a modern intron's presence in an ancestral gene common to the genes studied is roughly 1 percent, indicating that the vast majority of today's introns appeared subsequent to the origin of the genes.

This conclusion is supported by the findings regarding placement patterns for introns within genes. It long has been observed that, in the sequences of nitrogen-containing compounds that make up our DNA genomes, introns prefer some sites more than others. The CARB study indicates that these preferences are side effects of late-stage intron gain, rather than side effects of intron-mediated gene formation.

The CARB results are based on an analysis of carefully processed data for 10 families of protein-coding genes in animals, plants, fungi and their relatives (see sidebar for details of the method used). A variety of statistical modeling, theoretical, and automated analytical approaches were used while most were conventional, their combined application to the study of introns was novel.

The CARB study also is unique in using an evolutionary model as the basis for inferring the presence of ancestral introns. The research was made possible in part by the increasing availability, over the past decade, of massive amounts of genetic sequence data.

The lead researcher is Arlin B. Stoltzfus of NIST collaborators include Wei-Gang Qiu, formerly of CARB and the University of Mayland and now at Hunter College in New York City, and Nick Schisler, currently at Furman University, Greenville, S.C.

CARB is a cooperative venture of NIST and the University of Maryland Biotechnology Institute.

CARB's Approach to Understanding the Origins of 'Junk' DNA

Scientists long have compared the sequences of chemical compounds in different proteins, genes and entire genomes to derive clues about structure and function.

The most sophisticated comparative methods are evolutionary and rely on matching similar sequences from different organisms, inferring family trees to determine relationships, and reconstructing changes that must have occurred to create biologically relevant differences.

This type of analysis is usually done with one sequence family at a time. The Center for Advanced Research in Biotechnology (CARB), a cooperative venture of the Commerce Department's National Institute of Standards and Technology (NIST) and the University of Maryland Biotechnology Institute, developed software to automate the analysis of dozens--and perhaps hundreds, eventually--of sequence families at a time.

The automated methods also assess the reliability of all the information, so that conclusions are based on the most reliable parts of the analysis.

The CARB method has two parts. The first part consists of a combination of manual and automated processing of gene data from public databases. The data are clustered into families through matching of similar sequences, first in pairs and then in groups.

Then family trees are developed indicating how the genes are related to each other. A file is developed for each family that includes data on sequence matches, intron locations, family trees and reliability measures.

These datasets then are loaded into the second part of the system, which is fully automated. It consist of a relational database combined with software that computes probabilities for introns being present in ancestral genes using a method developed at CARB.

Each gene is assigned to a kingdom (plants, animals, fungi and others), and a matrix of intron presence/absence data is determined for each family based on the sequence alignments. This matrix, along with the family tree, is used to estimate ancestral states of introns, as well as rates of intron loss and gain. Additional software is used for analysis and visualization of results.

The CARB study analyzed data for 10 families of protein-coding genes in multi-celled organisms, encompassing 1,868 introns at 488 different positions.

Life-Seeking Chip Will Join Space Probes
Pasadena (UPI) Mar 23, 2004
U.S. scientists said Tuesday they have developed a miniature laboratory that can spot a tell-tale chemical signature of life.

With the rise of Ad Blockers, and Facebook - our traditional revenue sources via quality network advertising continues to decline. And unlike so many other news sites, we don't have a paywall - with those annoying usernames and passwords.


Ver el vídeo: Historia del ADN (Febrero 2023).