Información

G> T transversión VS. ¿Transversión T> G?

G> T transversión VS. ¿Transversión T> G?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Entonces estoy leyendo sobre cómo las mutaciones en el ADN pueden ser causadas por daño oxidativo. Se da un ejemplo de un producto de daño oxidativo: 8-oxo-7-hidrodesoxiguanosina

Mi libro de texto dice que este producto con frecuencia se empareja incorrectamente con A, lo que resulta en un alto nivel de Transversiones G -> T.

Lo que no entiendo es por qué es una transversión G -> T. Si el 8-oxo-G se empareja con A, lo que resulta en un par A-G, ¿no es esto una transversión T -> G? ¿O no importa el orden?


Originalmente, la posición tenía un par G: C. Después de la mutación, hay un par oxoG: C. Tras la replicación, la hebra con C se emparejará con G y el par original se creará como se esperaba. Sin embargo, dado que oxoG también puede emparejarse con A, la hebra con oxoG puede formar un par oxoG: A. Otra ronda de replicación da los productos T: A y oxoG: A. Por lo tanto, la G en la cadena original se reemplaza por T (es decir, es una transversión de G $ ce {->} $ T).


Mutaciones del ADN de todo el genoma en plantas de Arabidopsis después de la exposición multigeneracional a altas temperaturas

Las temperaturas elevadas pueden causar respuestas fisiológicas, bioquímicas y moleculares en las plantas que pueden afectar en gran medida su crecimiento y desarrollo. Las mutaciones son la fuerza más fundamental que impulsa la evolución biológica. Sin embargo, se desconoce cómo influyen las elevaciones de temperatura a largo plazo en la acumulación de mutaciones en las plantas.

Resultados

Exposición multigeneracional de Arabidopsis Las líneas MA (acumulación de mutaciones) y las poblaciones MA a calor extremo y calentamiento moderado dan como resultado tasas de mutación significativamente mayores en variantes de un solo nucleótido (SNV) y pequeños indeles. Observamos espectros mutacionales distintivos bajo temperaturas extremas y moderadamente elevadas, con aumentos significativos en las frecuencias de transición y transversión. La mutación ocurre con mayor frecuencia en regiones intergénicas, regiones codificantes y elementos transponibles en plantas cultivadas a temperaturas elevadas. A temperaturas elevadas, se acumulan más mutaciones en genes asociados con respuestas de defensa, reparación del ADN y señalización. En particular, los patrones de distribución de mutaciones entre toda la progenie difieren entre las poblaciones MA y las líneas MA, lo que sugiere que se produjeron efectos de selección más fuertes en las poblaciones. La metilación se observa con mayor frecuencia en los sitios de mutación, lo que indica su contribución al proceso de mutación a temperaturas elevadas. Las mutaciones que ocurren dentro del mismo genoma a temperaturas elevadas están significativamente sesgadas hacia regiones de baja densidad génica, trinucleótidos especiales, repeticiones en tándem y repeticiones simples adyacentes. Además, las mutaciones encontradas en toda la progenie se superponen significativamente con las variaciones genéticas informadas en 1001 genomas, lo que sugiere una distribución no uniforme de mutaciones de novo a través del genoma.

Conclusión

En conjunto, nuestros resultados sugieren que las temperaturas elevadas pueden acelerar la acumulación y alterar los perfiles moleculares de las mutaciones del ADN en las plantas, lo que proporciona información significativa sobre cómo las temperaturas ambientales alimentan la evolución de las plantas.


Introducción

Aunque el carcinoma de tiroides representa sólo el 1% de todas las enfermedades malignas, es la neoplasia más común del sistema endocrino y representa la mayoría de las muertes por cánceres endocrinos (Mazzaferri, 1993 Farid et al., 1995). Los carcinomas de tiroides se clasifican histológicamente como carcinoma papilar de tiroides (PTC), carcinoma folicular de tiroides (FTC), carcinoma anaplásico de tiroides (ATC) y carcinoma medular de tiroides (MTC), que representan aproximadamente el 80, 15, 2 y 4% de todos los casos de tiroides. malignidades, respectivamente (Hundahl et al., 1998). PTC, FTC y ATC se derivan de células epiteliales tiroideas foliculares, mientras que MTC se deriva de células C parafoliculares C secretoras de calcitonina. El CMT se presenta de forma esporádica o familiar (75 a 80 y 20 a 25% de los casos, respectivamente) (Girelli et al., 1998 Massoll y Mazzaferri, 2004) y es una característica constante de la neoplasia endocrina múltiple MEN2A, MEN2B y MTC familiar no MEN (FMTC). La mutación de la línea germinal del protooncogén RET se encuentra en la mayoría de los pacientes con MEN2 y FMTC, y se considera la principal causa genética de la enfermedad (Marsh et al., 1997). También se han informado mutaciones puntuales somáticas de RET en el 40-50% de los MTC esporádicos (Hansford y Mulligan, 2000 Elisei et al., 2004). El éxito del tratamiento del MTC depende en gran medida del diagnóstico y el tratamiento tempranos. Las estrategias clínicas actuales en el diagnóstico y el tratamiento del MTC hereditario se basan en el análisis de calcitonina plasmática de rutina y las pruebas genéticas para las mutaciones del protooncogén RET (Massoll y Mazzaferri, 2004). El ensayo de calcitonina plasmática es un marcador sensible y específico de la presencia de MTC y proporciona una estimación precisa de la carga tumoral. Las pruebas genéticas para las mutaciones del protooncogén RET proporcionan un diagnóstico preciso de los portadores de genes en miembros de la familia de riesgo y ofrecen la mejor posibilidad de cura para el MTC mediante tiroidectomía total profiláctica y linfadenectomía (Massoll y Mazzaferri, 2004). Se estima que la probabilidad es del 0,18% para un pariente de primer grado de heredar el gen RET mutante de un individuo que tiene MTC esporádico sin mutación RET de la línea germinal (Massoll y Mazzaferri, 2004).

Las mutaciones de la línea germinal en genes nucleares que codifican enzimas mitocondriales se han implicado en neoplasias hereditarias (Eng et al., 2003). Por ejemplo, las mutaciones heterocigóticas de la línea germinal en la enzima fumarato hidratasa mitocondrial codificada de manera autosómica se asocian con una predisposición hereditaria al carcinoma papilar de células renales y leiomiomatosis (Tomlinson et al., 2002 Kiuru y Launonen, 2004), mientras que las mutaciones de fumarato hidratasa homocigóticas causan neurodegeneración (Bourgeron et al. al., 1994). Las mutaciones de la línea germinal en las subunidades SDHD, SDHC y SDHB (complejo II de la cadena respiratoria mitocondrial) de la enzima succinato deshidrogenasa (SDH) codificada autosómicamente se asocian con una predisposición hereditaria al feocromocitoma y el paraganglioma, ambos derivados de células cromafines derivadas de precursores de la cresta neural ( Astuti et al., 2001 Benn et al., 2003). Aunque las células C tiroideas se derivan de las células de la cresta neural y tanto el MTC como el feocromocitoma son parte de MEN2A, la mutación del mtDNA no se ha informado en la literatura. En el presente estudio, investigamos 26 muestras de MTC y una línea celular de MTC para la mutación del mtDNA mediante el análisis de secuencia de toda la región codificante del mtDNA.


Discusión

Basándonos en una colección de ocho estudios que informan la idoneidad de las mutaciones de reemplazo, hemos evaluado las perspectivas de la hipótesis de que el carácter conservador de los reemplazos a través de la transición explica su mayor frecuencia en la evolución. Incluso los estudios pequeños revelan patrones predecibles de intercambiabilidad de aminoácidos, y la mayoría tiene el poder suficiente para distinguir una distinción binaria entre conservadores y radicales. Sin embargo, los mismos estudios no suelen mostrar un carácter conservador significativo de las transiciones. En general, la probabilidad de que una mutación de transición sea más adecuada que una transversión es del 53% (IC del 95%: 50 a 56). Este tamaño del efecto no es grande en comparación con el de la mayoría de los predictores bioquímicos, y no es lo suficientemente grande como para explicar el sesgo múltiple hacia los reemplazos de transición observado en los estudios evolutivos.

El hallazgo de que el carácter conservador de las transiciones es un efecto bastante débil aumenta las perspectivas de la explicación mutacional alternativa, en la que la velocidad a la que se introducen nuevos alelos por mutaciones de transición es varias veces mayor que para las transversiones, y este sesgo predispone al cambio evolutivo a suceden a través de transiciones (para una explicación general, ver Stoltzfus y Yampolsky 2009).

Aunque esta idea puede resultar familiar, se relaciona con un tema bastante sustancial y no resuelto de la genética evolutiva, que es el grado en que la evolución en la naturaleza ocurre en el régimen de "acervo genético" supuesto por los arquitectos de la Síntesis Moderna, en el tipo de régimen impulsado por mutaciones supuesto por mutacionistas tempranos y evolucionistas moleculares posteriores, o algo intermedio (McCandlish y Stoltzfus 2014). La idea de mutación y selección como fuerzas opuestas sugiere que el sesgo de mutación será influyente solo cuando la selección esté ausente, por lo que las hipótesis que invocan el sesgo de mutación a menudo se interpretan como modelos neutrales (como señalan Yampolsky y Stoltzfus 2001). Presumiblemente, esta es la razón por la que los investigadores han buscado explicaciones selectivas para la transición: sesgo de transversión entre los cambios de aminoácidos, incluso aceptando una explicación mutacional para cambios no codificantes en los mismos genes: se supone que las proteínas están "bajo selección" y, por lo tanto, no son susceptibles a la mutación. parcialidad. Sin embargo, esta forma de describir la mutación y la selección como fuerzas opuestas solo se justifica en las condiciones especiales del régimen del acervo genético. Fuera de este régimen, la mutación y la selección pueden contribuir a la orientación o dirección de la evolución (Yampolsky y Stoltzfus 2001 McCandlish y Stoltzfus 2014).

Los resultados presentados aquí también plantean la pregunta de cómo llegó a suponerse tan ampliamente que las transiciones son conservadoras. En una revisión de la literatura, encontramos que, cuando el presunto conservadurismo de las transiciones se atribuye a una fuente, la fuente suele ser Zhang (2000), o trabajos tempranos como Fitch (1967), Grantham (1974) o Vogel y Kopun (1977). Grantham (1974) no aborda este tema explícitamente, pero un cálculo basado en el código genético muestra que la distancia media de Grantham para reemplazos mediados por transición es menor que para las transversiones, por ejemplo, como se indica en la tabla 2 de Xia et al (1998). ). El estudio de Vogel y Kopun se cita a menudo como evidencia de la hipótesis de las transiciones conservadoras, porque presentan un cálculo que, para tres medidas bioquímicas diferentes, sugiere que las transiciones son más conservadoras.

Estos estudios previos no son concluyentes por dos razones generales. La primera es que ninguno informa un tamaño del efecto suficiente para explicar el sesgo evolutivo. De hecho, los mismos Vogel y Kopun favorecieron una explicación mutacional para el sesgo evolutivo sobre la base de que el tamaño del efecto para el conservadurismo de las transiciones parecía ser demasiado pequeño (ver hipótesis 3 en la p. 179). El análisis de Zhang (2000) de tres posibles distinciones conservadoras: radicales encuentra que la distinción basada en Miyata et al (1979) produce el tamaño de efecto evolutivo más grande, que es un efecto doble, es decir, los reemplazos radicales tienen aproximadamente la mitad de probabilidades de acumular, en relación con las expectativas nulas. Sin embargo, aunque el efecto del conservadurismo es doble, el vínculo informado entre las transiciones y el conservadurismo es débil. Según Zhang (2000), la probabilidad de que una transición sea conservadora según la medida de Miyata es del 35%, en comparación con el 33% de las transversiones, una diferencia proporcional de solo el 6% (es decir, 2/33 = 0,06). El conservadurismo de Miyata puede ser un efecto evolutivo doble, pero si las transiciones son solo un 6% más conservadoras de Miyata que las transversiones, el sesgo general será mucho menos del doble.

En segundo lugar, ninguno de estos trabajos escapa al tipo de circularidad lógica señalada por Di Giulio (2001), véase también Yampolsky y Stoltzfus (2005), en el que se invoca una medida de tendencias evolutivas para defender los efectos de la selección en lugar de la mutación, ignorando la posibilidad de que el patrón de evolución esté influido en sí mismo por efectos mutacionales. Esta es una forma indirecta (y por lo tanto presumiblemente no intencionada) de la falacia panglossiana, es decir, es formalmente una falacia de argumentar que las transiciones son mejores simplemente porque ocurren con más frecuencia, sin investigar por qué ocurren con más frecuencia.

La circularidad no se evita invocando factores bioquímicos. Los índices compuestos populares de distancia "bioquímica" construidos por Grantham (1974) y Miyata et al (1979) se basan en la elección de factores bioquímicos que encajan bien con los patrones evolutivos observados de comparaciones de proteínas anteriores. Asimismo, las tres medidas bioquímicas utilizadas por Vogel y Kopun (1977) se basan en el ajuste a las comparaciones de proteínas. El problema con este enfoque se sugiere en la figura 4, que muestra el carácter conservador de las transiciones de los índices bioquímicos en la base de datos AAindex (Kawashima y Kanehisa 2000). Aproximadamente 3/5 hacen que las transiciones parezcan conservadoras y los otros 2/5 hacen que parezcan radicales.

La ventaja de las transiciones que implican diversos factores bioquímicos. Los 245 factores bioquímicos de AAindex se utilizaron para calcular una medida de similitud por pares para los aminoácidos que indica su similitud bioquímica, luego estas medidas se utilizaron para evaluar si las transiciones son más conservadoras que las transversiones. AUC es la posibilidad de que un reemplazo debido a una transición tenga una puntuación de similitud más alta que una transversión elegida al azar (donde el muestreo aleatorio de transiciones y transversiones se basa en el grupo de mutantes reales de los ocho estudios). La distribución resultante indica que las transiciones son más conservadoras según aproximadamente 3/5 de los factores bioquímicos (AUC & gt 0,5) y menos conservadoras según los otros 2/5 de los factores (AUC & lt 0,5).

La ventaja de las transiciones que implican diversos factores bioquímicos. Los 245 factores bioquímicos de AAindex se utilizaron para calcular una medida de similitud por pares para los aminoácidos que indica su similitud bioquímica, luego estas medidas se utilizaron para evaluar si las transiciones son más conservadoras que las transversiones. AUC es la posibilidad de que un reemplazo debido a una transición tenga una puntuación de similitud más alta que una transversión elegida al azar (donde el muestreo aleatorio de transiciones y transversiones se basa en el grupo de mutantes reales de los ocho estudios). La distribución resultante indica que las transiciones son más conservadoras según aproximadamente 3/5 de los factores bioquímicos (AUC & gt 0,5) y menos conservadoras según los otros 2/5 de los factores (AUC & lt 0,5).

Como indica la figura 2, esto no se debe a que los índices bioquímicos sean generalmente malos predictores de intercambiabilidad. En cambio, entre muchos predictores moderadamente poderosos, hay algunos que hacen que las transiciones parezcan favorables y otros que hacen que las transversiones parezcan favorables. Así, convertir patrones evolutivos en descriptores bioquímicos antes de volver a aplicarlos al análisis de patrones evolutivos no permite escapar de una circularidad lógica: algunos factores bioquímicos pueden invocarse para racionalizar el carácter conservador de las transiciones, mientras que otros pueden invocarse para racionalizar el carácter conservador de las transiciones. Transversiones.


Resultados

Cox1 base de datos de referencia

Creamos una base de datos de referencia de 624 alineados, parciales, de 351 pb de longitud cox1 secuencias. La base de datos incluía una mezcla de secuencias de nuestra especie objetivo (378 secuencias de 149 especies), especies acompañantes (226 secuencias de 139 especies) y especies modelo (20 secuencias de 20 especies). Las especies objetivo estaban destinadas a rastrear la contaminación cruzada entre muestras. Se introdujeron especies acompañantes como controles negativos. Se introdujeron especies modelo para buscar contaminación por organismos estándar de laboratorio. En nuestras bases de datos de referencia, 31 de nuestras especies objetivo no estaban representadas en absoluto, 98 estaban representadas por una sola cox1 secuencia, y seis fueron representados por más de diez cox1 secuencias, lo que implica que nuestra capacidad para detectar la presencia de una especie determinada en una muestra determinada variaba entre especies.

Patrones de contaminación entre especies

Lecturas de secuencia corta de cada una de las 446 muestras (individuos) de 116 especies se alinearon con nuestra referencia cox1 base de datos utilizando BWA. Se registró el número de aciertos de cada secuencia de referencia y se dividió por el número de millones de lecturas de la muestra considerada. Para cada muestra, calculamos la prevalencia de cox1 aciertos a una secuencia de referencia de la especie esperada, y la prevalencia de cox1 aciertos a una secuencia de referencia de una especie inesperada, es decir, una especie que difiere de la esperada en & gt5% de cox1 divergencia. No se contaron las visitas a una especie diferente pero & lt5% divergente de la esperada.

La Figura 2 muestra una descripción general del patrón de contaminación en este conjunto de datos a gran escala. La Figura 2a muestra la distribución entre muestras de la prevalencia de lo esperado (gris) frente a lo inesperado (rojo). cox1 lee, mientras que la Fig. 2b traza estas dos variables. La mediana de la prevalencia esperada entre muestras cox1 lee fue 674 cox1 lee por millón. La prevalencia de los esperados cox1 lecturas era a veces baja: era & lt10 por millón en 86 muestras, y cero en 52 muestras, de las cuales 13 eran de una especie que estaba representada en nuestra referencia cox1 base de datos. Esto es bastante sorprendente, dado que cox1 se considera un gen generalmente de alta expresión. Este resultado podría explicarse por una representación de especies insuficiente / inapropiada en la base de datos de referencia para estas muestras en particular. También podría ser que en algunos taxones las transcripciones mitocondriales carezcan de una cola de poliA (o la utilicen como una señal de degradación, como en las plantas [39]) y, por lo tanto, fueron excluidas en la etapa de retrotranscripción en nuestro protocolo.

Patrón general de contaminación entre especies. a Distribución entre muestras de la prevalencia de lecturas mapeadas a un cox1 referencia de lo esperado (gris) o un inesperado (rojo) especies. La prevalencia se define como el número de cox1 lecturas por millón de lecturas. B Relación entre la prevalencia de cox1 lee mapeo a lo esperado (X-eje) frente a un inesperado (y-axis) especie, nuevamente por millón de lecturas. Cada punto representa una muestra. Línea llana: relación de inesperado a esperado cox1 lee es uno. Líneas punteadas: relación de inesperado a esperado cox1 lee es 0.1 (respectivamente, 0.01). Muestras de especies no representadas en nuestro cox1 la base de datos de referencia no se muestra

Encontramos al menos un impacto en una especie inesperada en 353 de las 446 muestras. La prevalencia de inesperados cox1 hits fue & gt50 por millón en 22 muestras y & gt500 por millón en siete muestras. Una especie, cochinilla Armadillidium vulgare, se vio particularmente afectado por visitas inesperadas: seis personas de cada diez mostraron & gt50 por millón de visitas inesperadas. Doce muestras para las que la prevalencia de aciertos esperados era & gt100 por millón tenían una proporción de aciertos inesperados y esperados & gt0.1, y dos muestras, GA24O (lombriz de tierra Allolobophora chlorotica L1) y GA17L (camarones en salmuera Artemia tibetiana), tenía una relación & gt1.0. En resumen, esperado cox1 las lecturas dominaron claramente, pero las lecturas de contaminantes fueron comunes y alcanzaron una alta prevalencia en un número sustancial de muestras.

La gran mayoría (99,54%) de los 385.597 inesperados cox1 lecturas originadas a partir de especies objetivo. Solo el 0,11% de los impactos inesperados se asignaron a una especie acompañante y el 0,35% a una especie modelo. Se esperaba la baja prevalencia de especies acompañantes y se confirmó que inesperado cox1 los golpes resultan casi exclusivamente de la contaminación. En cuanto a las especies modelo, detectamos humanos cox1 lecturas en diez muestras de nueve especies distintas, pero siempre con una prevalencia muy baja: el número total de lecturas que golpean a un ser humano cox1 secuencia fue 92. Mus musculus y Bos tauro fueron más frecuentes en términos de lecturas totales (507 y 447, respectivamente), pero se referían a un número menor de muestras (cinco y tres) y especies (tres y tres, respectivamente).

Entre las 446 muestras analizadas, 353 incluyeron al menos un mapeo de lectura para una especie inesperada, es decir, mostraron evidencia de contaminación entre especies. De estos, 205 estaban contaminados por al menos dos especies, y detectamos hasta ocho especies contaminantes en las muestras GA08R (fritillary de Glanville Melitaea cinxia) y GA34L (mosquito Culex hortensis). Al sumar las especies contaminantes en las muestras, encontramos que el conjunto de datos se había visto afectado por al menos 782 eventos distintos de contaminación entre especies. Esto es una subestimación, debido a lo incompleto de nuestra base de datos de referencia, nuestra incapacidad para detectar la contaminación entre especies estrechamente relacionadas y la posibilidad de múltiples eventos de contaminación de una muestra dada por una especie determinada. El número de esperados cox1 lee, inesperado cox1 lee, y las especies contaminantes por muestra están disponibles en Archivo adicional 2: Tabla S2. A la inversa, 94 de las 180 especies que procesamos en este proyecto contaminaron al menos una muestra de otra especie. Entre estas, cuatro especies contaminaron más de 15 muestras distintas, y una, pingüino rey Aptenodytes patagonicus, muestras contaminadas de hasta 11 especies distintas (archivo adicional 4: Figura S1). Encontramos que la prevalencia media de la esperada cox1 lecturas de una especie se correlacionó significativamente con el número de individuos que contaminó (r = 0.35, pag & lt 10 −3) y con el número total de lecturas de contaminantes que contribuyó (r = 0.45, pag & lt 10 −4, número transformado logarítmicamente de lecturas de contaminantes).

Muestras dudosas

Dos muestras dieron como resultado patrones inesperados. Muestra GA36K, asignada a especies Mytilus trossulus (mejillón de la bahía), produjo un solo cox1 leer eso mapeado a un M. trossulus referencia, pero & gt18,000 cox1 lee eso mapeado a una secuencia de cualquiera M. edulis o M. galloprovincialis, dos especies cruzadas de mejillones europeos (Fig. 2b, punto superior izquierdo). Por el contrario, el 99% de cox1 lee del otro M. trossulus muestra que analizamos, GA36L, asignada a una M. trossulus referencia. La muestra GA36K se recogió en Seattle, WA, EE.UU., un estado en el que están documentadas las poblaciones invasoras de mejillones europeos [40, 41]. Por lo tanto, la muestra GA36K probablemente sea el resultado de un error de identificación o refleje M. galloprovincialis / edulis introgresión del ADNmt en M. trossulus.

Del mismo modo, muestra GA08F, asignada al fritillary de Glanville Melitaea cinxia (Lepidoptera), no produjo ni un solo cox1 leer eso mapeado a un M. cinxia referencia, pero & gt26.000 lecturas de cox1 que se asignaron a una referencia del fritillary español Euphydryas desfontainii. Esta especie es bastante divergente de M. cinxia, tanto morfológica como molecularmente (cox1 divergencia & gt25%), por lo que la introgresión del mtDNA y la identificación errónea parecen poco probables en este caso. Según nuestros registros, la muestra GA08F provino de Aland, Finlandia, un lugar donde E. desfontainii no se produce. Sin embargo, hicimos una muestra E. desfontainii, Juntos con M. cinxia, en Marruecos. El problema, por lo tanto, probablemente se debió a un etiquetado incorrecto de la muestra. Es muy probable que la muestra GA08F pertenezca a E. desfontainii y fue confundido con un M. cinxia individuo en nuestros análisis publicados. Sin embargo, verificamos que nuestros principales resultados son robustos a estos problemas (ver párrafo final de la sección “Resultados”).

Análisis de metadatos de laboratorio

Creamos una matriz de contaminación entre especies METRO en que celda metro ij contenía cero en ausencia de evidencia de contaminación de especies j por especie I, uno en caso de que se detecte contaminación de especies j por especie I, y faltan datos si las especies I y j eran & lt5% divergentes cox1-de manera que se asumió que la detección de contaminación no era confiable. Aquí, una sola lectura de cualquier individuo de especie. I golpear una secuencia de referencia de especies j se consideró suficiente para dar fe de un evento de contaminación de I por j. Requerir al menos diez lecturas inesperadas, en lugar de solo una, arrojó resultados cualitativamente similares. Las 39 muestras de especies no representadas en nuestra referencia cox1 La base de datos se descartó aquí, por lo que el tamaño de la muestra fue 407 en este análisis. El número total de unos en METRO fue de 362, y el número total de pares de especies suficientemente divergentes para que la detección de contaminación fuera posible fue de 27251, por lo que la proporción de pares de especies para los que se detectó un evento de contaminación fue pag = 0.0133.

Nos centramos en cinco predictores de la probabilidad de que dos especies estén conectadas por contaminación, a saber, lab_overlap, same_technician, same_shipment, same_flowcell y same_lane. Para calcular la variable lab_overlap, primero definimos el período de procesamiento de cualquier especie dada como el período desde la fecha de entrada a nuestro laboratorio hasta la fecha del último envío a un centro de secuenciación. Para cualquier par de especies, lab_overlap se definió como la longitud, en días, de la intersección entre los períodos de procesamiento de las dos especies. La variable same_technician era una variable booleana establecida en uno si al menos una muestra de cada una de las dos especies consideradas fue tratada por la misma persona en nuestro laboratorio, y en cero en caso contrario. De manera similar, las variables same_shipment, same_flowcell y same_lane indicaron si al menos una muestra de cada una de las dos especies consideradas se había enviado el mismo día al mismo centro de secuenciación o secuenciado en la misma celda de flujo / mismo carril, respectivamente.

Calculamos el valor promedio de estas variables en todos los pares de especies para las que se atestiguó un evento de contaminación (Fig.3, barras verticales rojas) y las comparamos con distribuciones nulas obtenidas al mezclar ceros y unos en la matriz de contaminación (Fig. 3, histogramas blancos, 1000 repeticiones). Más precisamente, a cada celda de una matriz aleatoria se le asignó una con probabilidad pag, o cero con probabilidad (1 - pag), con los datos faltantes que no se modifican, donde pag = 0.0133 fue la probabilidad general de contaminación (ver arriba). Detectamos un efecto fuerte y significativo de cada una de las cinco variables: en comparación con el par de especies promedio, las especies que se contaminan entre sí tienden a tener un período más largo de superposición en nuestro laboratorio, a ser manejadas por el mismo técnico, y a ser enviadas al mismo día y secuenciado en la misma celda de flujo. El efecto de secuenciar las variables asociadas al centro fue particularmente fuerte. Por ejemplo, la probabilidad de que dos especies que se enviaron juntas estén conectadas por un evento de contaminación fue de 0,13, es decir, más de diez veces la probabilidad incondicional. El patrón same_lane era muy similar a same_flowcell y no se muestra en la Fig.3.

Efecto de los metadatos de laboratorio sobre la probabilidad de contaminación entre especies. Se muestran cuatro estadísticas: lab_overlap (arriba a la izquierda), mismo_técnico (parte superior derecha), mismo_envío (abajo a la izquierda), same_flowcell (abajo a la derecha). X-eje: valor medio de cada estadística. Línea roja vertical: conjunto de datos real. y-eje: número de conjuntos de datos aleatorizados (de 1000). Histogramas blancos: distribución esperada asumiendo una probabilidad aleatoria de contaminación. Histogramas azules: distribución esperada asumiendo que la contaminación depende del mismo envío. Histogramas verdes: distribución esperada asumiendo que la contaminación depende de lab_overlap y same_technician

Las cinco variables analizadas se correlacionaron significativamente entre sí. Intentamos desentrañar sus efectos y, en particular, distinguir la influencia de nuestro laboratorio de la de los centros de secuenciación. Con este objetivo, comparamos el valor observado de lab_overlap y same_technician con distribuciones nulas obtenidas al reorganizar METRO de una manera que controle los efectos de same_shipment (Fig. 3, arriba, histogramas azules). En este análisis, cada (I, j) a la celda de una matriz aleatoria se le asignó una con probabilidad pag ij, o cero con probabilidad (1 - pag ij), dejando nuevamente los datos faltantes sin cambios, donde pag ij era la probabilidad de contaminación sabiendo same_shipment (I, j). Estos se obtuvieron calculando la proporción de unidades en METRO condicional a los valores 0 o 1 para same_shipment. De manera similar, se generaron las distribuciones nulas de same_shipment y same_flowcell condicional en lab_overlap y same_technician (Fig. 3, abajo, histogramas verdes). Los efectos de las cinco variables aún fueron significativos en estos análisis de control: se detectó un efecto de laboratorio al controlar las variables asociadas al centro de secuenciación y se detectó un efecto del centro de secuenciación al controlar las variables asociadas al laboratorio.

Para analizar este efecto más profundamente, creamos dos variables sintéticas que resumen el efecto de laboratorio (LAB) y centro de secuenciación (CENTER), respectivamente. La variable LAB fue positiva cuando same_technician fue verdadera y lab_overlap fue & gt200 días, pero negativa en caso contrario. La variable CENTER fue negativa para las parejas de especies enviadas en distintas fechas, pero positiva en los demás casos. Con respecto a los pares de especies que se enviaron juntos, distinguimos pares secuenciados en distintas celdas de flujo (CENTRO +), la misma celda de flujo pero distintos carriles (CENTER ++) y el mismo carril (CENTER +++). En este análisis nos enfocamos en las 97 especies para las cuales la información sobre fechas de envío, celdas de flujo y números de carriles estaba disponible para todos los individuos. En lo que respecta a las especies enviadas en fechas distintas (CENTRO-), la probabilidad de contaminación fue muy baja independientemente del LAB (Tabla 1, primera línea). Esto parece incompatible con la hipótesis de un nivel sustancial de contaminación en nuestro laboratorio. En contraste, la probabilidad de que dos especies enviadas el mismo día estuvieran conectadas por un evento de contaminación fue tan alta como 0.2, y aumentó aún más en el caso de celda de flujo compartida y carril compartido (Tabla 1, líneas 2 a 4), alcanzando valores & gt0 .5.

Sorprendentemente, detectamos una interacción fuerte y significativa entre las variables LAB y CENTER (Tabla 1). Dos especies enviadas el mismo día (CENTRO +), superpuestas en nuestro laboratorio y manipuladas por el mismo técnico (LAB +) aumentaron sustancialmente la probabilidad de contaminación. Sugerimos que este es un efecto inducido resultante del hecho de que los tubos en las cajas enviadas fueron ordenados por un técnico, por lo que las muestras procesadas por el mismo técnico en nuestro laboratorio probablemente tenían más probabilidades de ser procesadas juntas por los centros de secuenciación y, por lo tanto, contaminan cada una de ellas. otro. Para probar esta hipótesis, submuestreamos especies de tal manera que se mantuvo una sola especie por técnico por envío, de modo que no fue posible ningún efecto inducido del mismo_envío en el mismo_ técnico. Encontramos ocho eventos de contaminación entre las 24 especies de la submuestra. Todavía hubo un efecto significativo de same_shipment sobre la probabilidad de contaminación en esta submuestra, pero no se detectó ningún efecto de lab_overlap o same_technician (archivo adicional 5: Figura S2), lo que sugiere que el efecto LAB condicional en CENTER + informado en la Tabla 1 fue un efecto inducido. Por lo tanto, estos análisis indican que la gran mayoría de los eventos de contaminación entre especies que detectamos ocurrieron en centros de secuenciación. Los resultados no cambiaron cualitativamente cuando se utilizó un umbral del 10%, en lugar del 5%, para el mínimo. cox1 divergencia entre contaminantes y especies contaminadas (Archivo adicional 6: Tabla S3).

Contaminación de laboratorio: análisis detallado

Se detectaron ocho eventos de contaminación entre especies que no fueron embarcadas en la misma fecha. De estos, cuatro involucraron el fritillary de Glanville M. cinxia. Esta es la única especie de nuestro conjunto de datos que incluyó muestras para las que faltan datos sobre la fecha de envío (GA08B a GA08F, archivo adicional 2: Tabla S2). Las tres especies que contaminaron o fueron contaminadas por M. cinxia pero carecía de una fecha de envío compartida certificada con M. cinxia - Liebre ibérica Lepus granatensis, liebre de montaña L. timidus y ascidiana Ciona intestinalis A - se enviaron el mismo día, 26 de mayo de 2010. Por lo tanto, parece posible, por no decir probable, que las muestras GA08B a GA08F se hayan enviado realmente para secuenciar el 26 de mayo de 2010 y que se haya producido contaminación en el centro de secuenciación de este caso también.

Además de estos cuatro casos, un evento detectado de contaminación entre especies no enviadas en la misma fecha involucró a gorgonias. Eunicella cavolini y mejillón azul europeo M. galloprovincialis. E. cavolini, sin embargo, comparte una fecha de envío (23 de enero de 2013) con M. edulis, la otra especie de mejillón europeo, que se hibrida con M. galloprovincialis - las dos especies tienen haplotipos muy similares en nuestra referencia cox1 base de datos. Una inspección más cercana de los datos reveló que el sencillo E. cavolini muestra, GA31L, afectada por la contaminación de M. galloprovincialis es el soltero E. cavolini muestra que se envió el 23 de enero de 2013. Ocho cox1 lecturas de esta muestra asignadas a un M. edulis referencia y dos mapeados a un M. galloprovincialis referencia. En conclusión, solo tres eventos de contaminación entre especies de un total de 782 pueden asignarse sin ambigüedades a nuestro laboratorio: contaminación de la tortuga de estanque europea Emys orbicularis por ascidian Ciona intestinalis A y de caballitos de mar Hipocampo hipocampo y H. guttulatus el uno por el otro.

Contaminación intraespecífica

Los análisis anteriores sugieren que hubo una contaminación sustancial en este proyecto y se trata principalmente de muestras que se enviaron juntas. Esto es preocupante porque las muestras de distintos individuos de la misma especie, entre las cuales la contaminación es más problemática y difícil de detectar, generalmente se envían juntas. Para cuantificar la cantidad de contaminación intraespecífica, examinamos la prevalencia como estado menor ("errores") en genotipos homocigotos de alelos que se segregan en la muestra. Primero, centrándonos en homo-cuartetos (es decir, posiciones en las que el recuento de lectura para el estado mayor era & gt40 y el recuento de lectura para el estado menor era igual a 1) que se producían en posiciones monoalélicas, determinamos PAG, la matriz de error en ausencia de contaminación. Esto se hizo por separado para cada una de las 39 especies de la muestra en la que se secuenciaron al menos cuatro individuos. Tenga en cuenta que en este estudio no usamos información de cadena, por lo que no pudimos distinguir entre errores X → Y y X * → Y *, donde X * es el complementario de la base X.

Las matrices de error revelaron dos características principales. Primero, los errores A → C o T → G fueron a menudo más frecuentes que los otros tres errores de tipo transversión, a saber, A → T o T → A, C → G o G → C, y C → A o G → T. La relación de A → C o T → G con respecto a otros errores de tipo transversión varió entre 0,29 y 0,79 entre las especies (corrigiendo la composición de la base), cuando se esperaría una relación de 0,67 bajo error aleatorio. Esto es coherente con los sesgos de error documentados de la tecnología Illumina [42, 43]. En segundo lugar, los errores de tipo de transición, C → T o G → A y T → C o A → G, fueron típicamente más numerosos de lo esperado. La relación de errores de tipo transición a tipo transversión varió de 0,47 a 1,14 entre especies (corrigiendo la composición de base, mediana = 0,79), cuando la relación esperada sería 0,5 bajo error aleatorio y & lt0,5 según [43]. Sabiendo que las ADN polimerasas suelen generar más errores de tipo de transición que de tipo transversión, este resultado sugiere que una fracción de los errores de secuenciación que afectan a nuestros datos se introdujo antes de la secuenciación, presumiblemente en el paso de PCR durante la construcción de la biblioteca.

Luego consideramos homo-cuartetos que ocurren en posiciones bialélicas, donde dos alelos se segregan con una frecuencia sustancial. Aquí, solo consideramos las 33 especies en las que se encontraron al menos 50 de tales homo-cuartetos. Preguntamos si el estado menor en tales homo-cuartetos tendía a corresponder con el otro alelo segregante más a menudo de lo esperado basado en PAG. Encontramos que la prevalencia relativa del otro alelo segregante estaba por encima de su valor esperado en las 33 especies. El índice de fuga de alelos, λ, varió de 0,19 a 8,5, cuando λ = 0 se esperaría en ausencia de contaminación. Por lo tanto, este análisis indica que la contaminación dentro de las especies está muy extendida en nuestro conjunto de datos y probablemente afecta a todas las especies secuenciadas.

Investigamos la influencia de los metadatos de laboratorio, y en particular la fecha de envío a los centros de secuenciación, sobre la prevalencia de la contaminación dentro de las especies. Con este fin, nos centramos en las 12 especies de nuestro conjunto de datos en las que no todas las muestras se enviaron el mismo día, es decir, con mayor frecuencia en dos fechas distintas y hasta cuatro fechas en el herrerillo común. Parus caeruleus. En estas especies, medimos λ ', el índice de fuga de alelos entre muestras enviadas en diferentes fechas. Esto se logró considerando solo los homo-cuartetos que ocurren en posiciones que eran bialélicas en toda la muestra de individuos, pero monoalélicas en la submuestra de individuos enviados el mismo día que el individuo focal (archivo adicional 7: Figura S3). Este análisis no se pudo realizar especie por especie debido al pequeño número de homo-cuartetos relevantes por especie. Por lo tanto, agrupamos homo-cuartetos de las 12 especies, aún teniendo en cuenta las matrices de error específicas de cada especie. PAG, y obtuvo un índice de fuga de alelos entre muestras enviadas en diferentes fechas de λ '= 0.59. Esta cifra era dos veces más pequeña que el índice calculado anteriormente, es decir, independientemente de la fecha de envío, que para estas 12 especies agrupadas era λ = 1,21, lo que demuestra un efecto del mismo envío sobre la prevalencia de la contaminación dentro de la especie.

Llamadas SNP conscientes de la contaminación

Para evaluar la solidez de nuestros resultados publicados al problema de la contaminación dentro de las especies, volvimos a llamar SNP y genotipos utilizando un método modificado que tiene en cuenta la fuga de alelos entre individuos. En comparación con nuestro método original de llamada de SNP, se agregó un parámetro γ, que representa la probabilidad de que una lectura se origine en otro individuo de la muestra. Se utilizaron tres valores arbitrarios de γ: 0,05, 0,1 y 0,2. La llamada SNP consciente de la contaminación se aplicó a las 39 especies de nuestra muestra en las que al menos cuatro individuos estaban disponibles. Las estadísticas genómicas de poblaciones clásicas se calcularon a partir de este conjunto de datos utilizando la misma canalización que en [18]. Para ahorrar tiempo de cálculo, la llamada SNP se aplicó a conjuntos de datos reducidos que constan exactamente de un millón de posiciones por especie, en lugar de los 1,8 a 27 millones de posiciones en conjuntos de datos completos.

Encontramos que el número de SNP llamados y la estimación de πS, la diversidad genética en posiciones sinónimos, disminuyó con el aumento de γ (Fig. 4a). Esto era de esperar: la contaminación aumenta falsamente la heterocigosidad al mover los alelos. El sesgo relativo fue sustancial: la relación mediana de π corregida a no corregidaS era 0,90 cuando γ era 0,1 y 0,81 cuando γ era 0,2. El sesgo relativo, sin embargo, fue bastante constante entre especies, y mucho menor que las diferencias entre especies en πS, lo que sugiere que nuestros análisis comparativos publicados de πS en todas las especies [17, 19, 21, 22] son ​​resistentes a la contaminación dentro de las especies. Comprobamos que la correlación reportada por Romiguier et al. [21] entre πS y los rasgos del ciclo de vida de las especies seguían siendo válidos después del control de la contaminación.Encontramos que el coeficiente de correlación entre π transformado logarítmicamenteS y la longevidad con transformación logarítmica fue muy similar en los cuatro análisis, es decir, entre −0,517 y −0,524, obteniéndose el coeficiente más negativo cuando γ = 0,1. De manera similar, la relación entre π transformada logarítmicamenteS y el tamaño del propágulo transformado logarítmicamente [21] fue muy robusto a los cambios en γ (coeficiente de correlación entre y −0,772 y −0,758, valor mínimo cuando γ = 0).

Robustez de las estimaciones genómicas de la población a la llamada de polimorfismo de un solo nucleótido (SNP) consciente de la contaminación. a Diversidad sinónima πS B relación entre diversidad no sinónima y sinónima, πnorte/ πS C FESO D Tajima's D, también SNPs. Cada punto representa una especie. X-eje: estimaciones obtenidas asumiendo que no hay contaminación. y-eje: estimaciones obtenidas de llamadas SNP conscientes de la contaminación. Puntos negros: γ = 0,05 puntos azules: γ = 0,1 puntos rojos: γ = 0,2 diversidad sinónima πS parte superior derecha: πnorte/ πS relación inferior izquierda: FESO abajo a la derecha: Tajima's D, sinónimo SNP's only

La relación entre diversidad no sinónima y sinónima, πnorte/ πS, se modificó sólo ligeramente cuando controlamos la contaminación (Fig. 4b), siendo el sesgo relativo mediano cercano a 0,96 para los tres valores positivos de γ. El sinónimo (Fig. 4d) y el no sinónimo D de Tajima, una estadística que mide la desviación de la distribución de la frecuencia de alelos menores del coalescente estándar, también se vieron afectados sólo moderadamente. Estos dos resultados sugieren que las inferencias publicadas basadas en πnorte/ πS y los espectros de frecuencia de sitio [18, 27] son ​​presumiblemente lo suficientemente robustos como para la contaminación intraespecífica.

La FESO las estadísticas miden el exceso de homocigosidad individual en comparación con las expectativas de Hardy-Weinberg. Una F positivaESO se espera en casos de endogamia y / o subestructura poblacional. La figura 4c muestra que nuestra FESO La estimación es particularmente sensible a los problemas de contaminación. El control de la contaminación resultó en un aumento sustancial de FESO en todas las especies analizadas, lo que refleja el hecho de que la contaminación intraespecífica tiende a incrementar la heterocigosidad individual. En nuestro análisis no corregido (γ = 0), una estimación negativa del promedio del genoma FESO se obtuvo en nueve especies [21]. Este es un resultado inesperado, dado que los procesos que conducen a un exceso de heterocigotos, como la selección de equilibrio, están presumiblemente limitados a una pequeña fracción del genoma [44]. En nuestros análisis conscientes de la contaminación, una F negativaESO se obtuvo en solo cuatro, dos y una especie cuando γ se estableció en 0.05, 0.1 y 0.2, respectivamente, lo que sugiere que la contaminación dentro de las especies podría explicar, al menos en parte, nuestro informe previamente inesperado de estimaciones negativas de FESO [21]. Hormiga cosechadora Messor barbarus no se incluyó en este análisis porque el promedio del genoma FESO es muy negativo en esta especie como consecuencia de su peculiar sistema de apareamiento, por lo que los individuos trabajadores son muy heterocigotos [45].

No hemos comentado sobre FESO estimaciones en nuestros análisis publicados, con la excepción de [19], en el que la falta de subestructura de población detectable (es decir, baja FESO) en la tortuga gigante de Galápagos Chelonoidis nigra proporcionó pruebas en contra de la definición de hasta 12 especies en este taxón [46]. Este resultado fue corroborado aquí: C. nigra es una de las dos especies que todavía muestra una F ligeramente negativaESO estimación después de la corrección por contaminación. Sin embargo, hemos publicado un par de análisis que evalúan la prevalencia de la hibridación y el flujo de genes entre especies o poblaciones divergentes [20, 28, 30]. Estos resultados deben confirmarse reproduciendo los análisis utilizando datos corregidos por contaminación.

Comparamos para cada especie las probabilidades de los cuatro valores considerados de γ. La γ máximamente probable, que llamamos γ *, fue 0 en diez especies, 0.05 en 15 especies, 0.1 en cinco especies y 0.2 en nueve especies. Detectamos un fuerte efecto de la diversidad de especies en γ *: la mediana πS fue 0,034 entre las especies para las que γ * fue 0, pero 0,003 entre las especies para las que γ * fue 0,2. Esto fue inesperado y probablemente refleja la existencia de factores que confunden la detección de contaminación (ver la sección 3 de la Discusión "Modelado de la contaminación").

Finalmente, reproducimos los análisis de Romiguier et al. (2014) [21], teniendo en cuenta las dudosas muestras GA36K y GA08F. Las relaciones publicadas entre la diversidad genética y los rasgos del ciclo de vida de las especies fueron sólidas con la exclusión de M. trossulus y M. cinxia: el coeficiente de correlación entre πS y el tamaño del propágulo se mantuvo casi sin cambios en comparación con el análisis sin corregir (0,766 frente a 0,771), mientras que el coeficiente de correlación entre πS y la longevidad se incrementó ligeramente (0.594 vs 0.569), como fue el caso de las correlaciones entre el πnorte/ πS relación y rasgos de la historia de vida. Recalculamos las estadísticas de genómica poblacional en M. cinxia después de excluir al individuo GA08F, es decir, basado en solo nueve individuos en lugar de diez. Excluir GA08F resultó en una disminución sustancial en el promedio del genoma πS (0,025 frente a 0,034), πnorte (0,0027 frente a 0,0032) y FESO (0,38 frente a 0,52). Sin embargo, los coeficientes de correlación con los rasgos de la historia de vida apenas se vieron afectados por esta corrección.


Información del autor

Afiliaciones

Merkin Institute of Transformative Technologies in Healthcare, Broad Institute of Harvard and MIT, Cambridge, MA, EE. UU.

Andrew V.Anzalone, Peyton B. Randolph, Jessie R. Davis, Alexander A. Sousa, Luke W. Koblan, Jonathan M. Levy, Peter J. Chen, Christopher Wilson, Gregory A. Newby, Aditya Raguram y David R. Liu

Departamento de Química y Biología Química, Universidad de Harvard, Cambridge, MA, EE. UU.

Andrew V.Anzalone, Peyton B. Randolph, Jessie R. Davis, Alexander A. Sousa, Luke W. Koblan, Jonathan M. Levy, Peter J. Chen, Christopher Wilson, Gregory A. Newby, Aditya Raguram y David R. Liu

Instituto Médico Howard Hughes, Universidad de Harvard, Cambridge, MA, EE. UU.

Andrew V.Anzalone, Peyton B. Randolph, Jessie R. Davis, Alexander A. Sousa, Luke W. Koblan, Jonathan M. Levy, Peter J. Chen, Christopher Wilson, Gregory A. Newby, Aditya Raguram y David R. Liu

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Contribuciones

A.V.A. diseñó la investigación, realizó experimentos, analizó datos y redactó el manuscrito. P.B.R., J.R.D., A.A.S. y G.A.N. realizó experimentos con células humanas y analizó datos. L.W.K. y J.M.L. realizó experimentos con neuronas. P.J.C. y C.W. realizaron y analizaron experimentos de secuencia de ARN. ARKANSAS. analizó los datos de ClinVar. D.R.L diseñó y supervisó la investigación y redactó el manuscrito.

Autor correspondiente


G> T transversión VS. ¿Transversión T> G? - biología

Continuamos nuestro estudio de las propiedades de los códigos circulares de trinucleótidos [1 & # x2013 5], los códigos libres de comas de trinucleótidos [1, 6], los códigos circulares de trinucleótidos fuertes [7] y el código circular de trinucleótidos común X 0 identificado en los genes [8 ] (véase también el análisis estadístico reciente de [9]) que podría ser un código de traducción [10]. Un trinucleótido es una palabra de tres letras (triletter) en el alfabeto genético . El conjunto de 64 trinucleótidos es un código (llamado código genético), más precisamente un código uniforme pero no un código circular (ver Observación 2). En los últimos 50 años, los códigos, los códigos libres de comas y los códigos circulares han sido objetos matemáticos estudiados en biología teórica, principalmente para comprender la estructura y el origen del código genético, así como el marco de lectura (construcción) de los genes, para ejemplo, [11 & # x2013 13]. Para tener un significado intuitivo de estas nociones, los códigos se escriben en línea recta mientras que los códigos sin comas y los códigos circulares se escriben en un círculo, pero en ambos casos, se requiere una capacidad de desciframiento única. Los códigos circulares sólo pertenecen a algunos subconjuntos del conjunto de 64 trinucleótidos, mientras que los códigos sin comas son subconjuntos aún más restringidos de códigos circulares [1].

Antes del descubrimiento del código genético, Crick et al. [11] propuso un código máximo sin comas de 20 trinucleótidos para codificar los 20 aminoácidos. Este código sin comas resultó no ser válido (ver, por ejemplo, [14]). En 1996, se identificó estadísticamente un código circular máximo X 0 de 20 trinucleótidos en una gran población de genes de eucariotas y también en una gran población de genes de procariotas [8] (1) X 0 = . Este código X 0 tiene propiedades matemáticas notables ya que es un código circular máximo autocomplementario en C 3 (ver lo siguiente). Desde 1996, sus propiedades han sido estudiadas en detalle por diferentes autores, por ejemplo, [9, 15 & # x2013 21]. La transición y las transversiones I y II son procesos clásicos de evolución molecular, por ejemplo, [22]. Mediante el uso de un algoritmo basado en el collar, realizamos aquí un análisis informático completo de estos tres procesos de evolución en el código X 0. Algunos resultados nuevos se identifican con el código X 0 mediante análisis informático, en particular (i) la transversión I en la segunda posición de cualquier subconjunto de trinucleótidos de X 0 genera códigos circulares de trinucleótidos que siempre son C 3 y (ii) transversión II en los tres posiciones de cualquier subconjunto de trinucleótidos de X 0 no produce códigos circulares de trinucleótidos.

Las nociones clásicas de la teoría y los códigos del lenguaje se pueden encontrar en [23, 24]. Sea & # x1D49C 4 = el alfabeto genético, ordenado lexicográficamente por A & # x3c C & # x3c G & # x3c T. El conjunto de palabras (palabras no vacías, resp.) En & # x1D49C 4 se indica con & # x1D49C 4 & # x2a (& # x1D49C 4 +, resp.). El conjunto de las 16 palabras de longitud 2 (dinucleótidos o dileteros) en & # x1D49C 4 se denota por & # x1D49C 4 2 = . El conjunto de 64 palabras de longitud 3 (trinucleótidos o triletes) en & # x1D49C 4 se denota por & # x1D49C 4 3 = .

Un subconjunto X & # x2282 & # x1D49C 4 + es un código en & # x1D49C 4 si para cada x 1, & # x2026, xn, x 1 & # x2032, & # x2026, xm & # x2032 & # x2208 X, & # x2009 n, m & # x2265 1, la condición x 1 & # x22ef xn = x 1 & # x2032 & # x22ef xm & # x2032 implica n = my xi = xi & # x2032 para i = 1, & # x2026, n.

Cualquier subconjunto no vacío de & # x1D49C 4 3 es un código llamado aquí código de trinucleótidos.

Un código de trinucleótidos X & # x2282 & # x1D49C 4 3 es circular si, para cada x 1, & # x2026, xn, x 1 & # x2032, & # x2026, xm & # x2032 & # x2208 X, & # x2009 n , m & # x2265 1, & # x2009 & # x2009 p & # x2208 & # x1D49C 4 & # x2a, & # x2009 s & # x2208 & # x1D49C 4 +, las condiciones sx 2 & # x22ef xnp = x 1 & # x2032 & # x22ef xm & # x2032 y x 1 = ps implican n = m, p = & # x3b5 (palabra vacía) y xi = xi & # x2032 para i = 1, & # x2026, n.

Se indica un código circular de trinucleótidos C.

& # x1D49C 4 3 no es un código circular de trinucleótidos.

Sean l 1, l 2, & # x2026, ln - 1, ln letras en & # x1D49C 4, d 1, d 2, & # x2026, dn - 1, dn dileters en & # x1D49C 4 2, y n an entero que satisface n & # x2265 2.

Decimos que la secuencia ordenada l 1, d 1, l 2, d 2, & # x2026, dn - 1, ln, dn, ln + 1 es un (n + 1) LDCN (Collar continuo de dileteador de letras) para un subconjunto X & # x2282 & # x1D49C 4 3 si (2) l 1 d 1, l 2 d 2, & # x2026, lndn & # x2208 X, d 1 l 2, d 2 l 3, & # x2026, dn - 1 ln, dnln + 1 & # x2208 X.

Solo unos pocos códigos de trinucleótidos son circulares. Dos proposiciones basadas en el concepto de collar permiten determinar si un código de trinucleótidos es circular o no [2, 18].

X & # x2009 & # x2009 es un código circular de trinucleótidos

Decimos que la secuencia ordenada l 1, d 1, l 2, d 2, & # x2026, dn - 1, ln, dn, ln + 1 es un (n + 1) LDCCN (Collar cerrado con continuación de letra Diletter) para un subconjunto X & # x2282 & # x1D49C 4 3 si (3) l 1 d 1, l 2 d 2, & # x2026, lndn & # x2208 X, d 1 l 2, d 2 l 3, & # x2026, dn - 1 ln, dnl 1 & # x2208 X.

X & # x2009 & # x2009 es un código circular de trinucleótidos

Un código circular de trinucleótidos X & # x2282 & # x1D49C 4 3 es máximo si, para cada x & # x2208 & # x1D49C 4 3, x & # x2209 X, X & # x222a no es un código circular de trinucleótidos.

Un código circular de trinucleótidos que contiene exactamente k elementos se denomina código circular de k -trinucleótidos.

Un código circular de 20 trinucleótidos es máximo, ya que ningún código circular de trinucleótidos puede contener más de 20 palabras.

Un código circular de trinucleótidos máximo se indica como MC.

Un código circular de 20 trinucleótidos es tanto máximo como máximo.

Recordamos dos mapas genéticos clásicos: permutación complementaria y circular.

El mapa genético complementario & # x1D49E: & # x1D49C 4 + & # x2192 & # x1D49C 4 + está definido por (4) & # x1D49E (A) = T, & # x2003 & # x2003 & # x1D49E (C) = G , & # x1D49E (G) = C, & # x2003 & # x2003 & # x1D49E (T) = A y para todo u, v & # x2208 & # x1D49C 4 + por (5) & # x1D49E (uv) = & # x1D49E (v) y # x1D49E (u).

& # x1D49E (UNA C G) = C G T. Este mapa & # x1D49E está asociado con la propiedad de la doble hélice complementaria y antiparalela (una hebra de ADN químicamente orientada en una dirección 5 & # x2032 - 3 & # x2032 y la otra hebra de ADN en la 3 & # x2032 - 5 & opuesta # x2032 dirección).

El mapa complementario & # x1D49E en un trinucleótido x se extiende naturalmente a un código de trinucleótido X como sigue: (6) & # x1D49E (X) = .

El mapa genético de permutación circular & # x1D4AB: & # x2009 & # x1D49C 4 3 & # x2192 & # x1D49C 4 3 permuta circularmente un trinucleótido l 1 l 2 l 3, l 1, l 2, l 3 & # x2208 & # x1D49C 4, como sigue: (7) & # x1D4AB (l 1 l 2 l 3) = l 2 l 3 l 1.

El mapa de permutación circular & # x1D4AB en un trinucleótido x se extiende naturalmente a un código de trinucleótido X como sigue: (8) & # x1D4AB (X) = .

La k-ésima iteración de & # x1D4AB se denota por & # x1D4AB k.

Los códigos de trinucleótidos & # x1D4AB (X) y & # x1D4AB 2 (X) son las clases conjugadas del código de trinucleótidos X.

Un código circular de trinucleótidos X es autocomplementario si, para cada x & # x2208 X, & # x1D49E (x) & # x2208 X.

Un código circular de trinucleótidos autocomplementario se denomina SC.

Un código circular de k-trinucleótidos para k impares no puede ser autocomplementario.

Un código circular de trinucleótidos X es C 3 si X, & # x1D4AB (X) y & # x1D4AB 2 (X) son códigos circulares de trinucleótidos.

Un código circular de trinucleótido C 3 X se indica como C 3.

Un código circular de trinucleótidos X es C 3 máximo autocomplementario si X es máximo, X = & # x1D49E (X) (autocomplementario), y & # x1D4AB (X) y & # x1D4AB 2 (X) son códigos circulares de trinucleótidos satisfaciendo & # x1D49E (& # x1D4AB (X)) = & # x1D4AB 2 (X).

Un código circular máximo autocomplementario C 3 se indica como MS C 3.

El conjunto X 0 de 20 trinucleótidos identificados en las poblaciones de genes de eucariotas y procariotas es un código circular máximo autocomplementario C 3 MS C 3 [8], es decir, X 0 es máximo, X 0 = & # x1D49E (X 0 ), & # x1D4AB (X 0) = X 1, y & # x1D4AB 2 (X 0) = X 2 son códigos circulares de trinucleótidos, y & # x1D49E (X 1) = X 2.

Recordamos tres mapas genéticos de la evolución clásica: transición y transversiones I y II, por ejemplo, [22] y ampliamos sus definiciones a las posiciones de un trinucleótido.

El mapa genético de la evolución de la transición & # x1D4AF: & # x1D49C 4 + & # x2192 & # x1D49C 4 + está definido por (9) & # x1D4AF (A) = G, & # x2003 & # x2003 & # x1D4AF (C) = T, & # x1D4AF (G) = A, & # x2003 & # x2003 & # x1D4AF (T) = C.

El mapa de transición & # x1D4AF en una letra l se puede aplicar en diferentes posiciones de un trinucleótido x = l 1 l 2 l 3: & # x1D4AF i, i & # x2208 <1,2, 3>, es la transición en el la posición i de x, & # x1D4AF i, j, i, j & # x2208 <1,2, 3> con i & # x3c j, es la transición en las dos posiciones i y j de x, y & # x1D4AF 1 , 2, 3 es la transición en las tres posiciones de x.

& # x1D4AF 1 (ACG) = GCG, & # x1D4AF 2 (ACG) = ATG, & # x1D4AF 3 (ACG) = ACA, & # x1D4AF 1,2 (ACG) = GTG, & # x1D4AF 1,3 (ACG ) = GCA, & # x1D4AF 2,3 (ACG) = ATA y & # x1D4AF 1,2, 3 (ACG) = GTA.

Los mapas de transición & # x1D4AF i, & # x2009 & # x2009 & # x1D4AF i, j, & # x2009 & # x2009 & # x1D4AF 1,2, 3 en un trinucleótido x también se extienden a un código de trinucleótido X, en un de forma similar a los mapas genéticos & # x1D49E y & # x1D4AB.

El mapa genético de la evolución de la transversión I & # x1D4B1 I: & # x1D49C 4 + & # x2192 & # x1D49C 4 + está definido por (10) & # x1D4B1 I (A) = T, & # x2003 & # x2003 & # x1D4B1 I (C) = G, & # x1D4B1 I (G) = C, & # x2003 & # x2003 & # x1D4B1 I (T) = A.

La transversión I map & # x1D4B1 I en una letra l también se puede aplicar en diferentes posiciones de un trinucleótido x = l 1 l 2 l 3: & # x1D4B1 I i, i & # x2208 <1,2, 3>, es la transversión I en la posición i de x, & # x1D4B1 I i, j, i, j & # x2208 <1,2, 3> con i & # x3c j, es la transversión I en las dos posiciones i y j de x, y & # x1D4B1 I 1,2, 3 es la transversión I en las tres posiciones de x.

& # x1D4B1 I 1 (ACG) = TCG, & # x1D4B1 I 2 (ACG) = AGG, & # x1D4B1 I 3 (ACG) = ACC, & # x1D4B1 I 1,2 (ACG) = TGG, & # x1D4B1 I 1,3 (ACG) = TCC, & # x1D4B1 I 2,3 (ACG) = AGC y & # x1D4B1 I 1,2, 3 (ACG) = TGC.

Los mapas de transversión I & # x1D4B1 I i, & # x2009 & # x2009 & # x1D4B1 I i, j, & # x2009 & # x2009 & # x1D4B1 I 1,2, 3 en un trinucleótido x también se extienden a un código de trinucleótido X, de forma similar a los mapas genéticos & # x1D49E y & # x1D4AB.

El mapa genético de la evolución de la transversión II & # x1D4B1 II: & # x1D49C 4 + & # x2192 & # x1D49C 4 + está definido por (11) & # x1D4B1 II (A) = C, & # x2003 & # x2003 & # x1D4B1 II (C) = A, & # x1D4B1 II (G) = T, & # x2003 & # x2003 & # x1D4B1 II (T) = G.

El mapa de transversión II & # x1D4B1 II en una letra l también se puede aplicar en diferentes posiciones de un trinucleótido x = l 1 l 2 l 3: & # x1D4B1 II i, i & # x2208 <1,2, 3>, es la transversión II en la posición i de x, & # x1D4B1 II i, j, i, j & # x2208 <1,2, 3> con i & # x3c j, es la transversión II en las dos posiciones i y j de x, y & # x1D4B1 II 1,2, 3 es la transversión II en las tres posiciones de x.

& # x1D4B1 II 1 (ACG) = CCG, & # x1D4B1 II 2 (ACG) = AAG, & # x1D4B1 II 3 (ACG) = ACT, & # x1D4B1 II 1,2 (ACG) = CAG, & # x1D4B1 II 1,3 (ACG) = CCT, & # x1D4B1 II 2,3 (ACG) = AAT y & # x1D4B1 II 1,2, 3 (ACG) = CAT.

Los mapas de transversión II & # x1D4B1 II i, & # x2009 & # x2009 & # x1D4B1 II i, j, & # x2009 & # x2009 & # x1D4B1 II 1,2, 3 en un trinucleótido x también se extienden a un código de trinucleótido X, de forma similar a los mapas genéticos & # x1D49E y & # x1D4AB.

Los mapas genéticos de evolución en l trinucleótidos de un código circular de trinucleótidos están definidos por & # x1D4AF (l) para transición, & # x1D4B1 I (l) para transversión I y & # x1D4B1 II (l) para transversión II.

Un mapa genético evolutivo, es decir, & # x1D4AF (l), & # x1D4B1 I (l) y & # x1D4B1 II (l), en l trinucleótidos del código circular de trinucleótidos común X 0 conduce a S (l) = (20 l) códigos de trinucleótidos que son potencialmente circulares. La Tabla 1 da estos números S (l).

Número S (l) = (20 l) de códigos de trinucleótidos después de un mapa genético evolutivo (transición & # x1D4AF (l), transversión I & # x1D4B1 I (l) y transversión II & # x1D4B1 II (l)) en l trinucleótidos del código circular de trinucleótidos común X 0.

Basado en la Proposición 6 que permite probar si un código de trinucleótidos es circular o no (algoritmo no detallado, ver, por ejemplo, [2]), los análisis por computadora de un gran número de códigos de trinucleótidos permiten identificar aquí nuevas propiedades con el código circular de trinucleótidos común X 0 observado en genes en evolución por transición y transversión.

3.1. Mapa de transición 3.1.1. Mapa de transición & # x1D4AF i Resultado 1 (Tabla 2).

Para l = 1, & # x2026, 20 (12) c (& # x1D4AF 1 (l)) = c (& # x1D4AF 3 (l)), mc (& # x1D4AF 1 (l)) = mc (& # x1D4AF 3 (l)), sc (& # x1D4AF 1 (l)) = sc (& # x1D4AF 3 (l)), c 3 (& # x1D4AF 1 (l)) = c 3 (& # x1D4AF 3 (l) )), ms do 3 (& # x1D4AF 1 (l)) = ms do 3 (& # x1D4AF 3 (l)). Como era de esperar, las listas de códigos circulares de trinucleótidos C asociados con c (& # x1D4AF 1 (l)) yc (& # x1D4AF 3 (l)) son diferentes para l = 1, & # x2026, 13 (no se muestra). Ningún código de trinucleótidos es circular después de un cierto número de transiciones & # x1D4AF i en los trinucleótidos del código circular de trinucleótidos común X 0. Precisamente, para l = 14, & # x2026, 20 (13) c (& # x1D4AF 1 (l)) = c (& # x1D4AF 3 (l)) = 0 y para l = 10, & # x2026, 20 ( 14) c (& # x1D4AF 2 (l)) = 0. La transición & # x1D4AF i genera un número máximo de códigos circulares de trinucleótidos C para (15) max & # x2003 & # x2003 & # x2009 & # x2009 = c (& # x1D4AF 1 (7)) = c (& # x1D4AF 3 (7)) = 1436 y un número máximo de C 3 Códigos circulares máximos complementarios MS C 3 para (16) & # x2009 & # x2009 max & # x2003 & # x2003 = ms c 3 (& # x1D4AF 1 (6)) = ms c 3 (& # x1D4AF 3 (6)) = 20.

Mapa de transición & # x1D4AF i (l) en l trinucleótidos del código circular de trinucleótidos común X 0. Número c (& # x1D4AF i (l)) de códigos circulares C, número mc (& # x1D4AF i (l)) de códigos circulares máximos MC, número sc (& # x1D4AF i (l)) de códigos circulares autocomplementarios SC, número c 3 (& # x1D4AF i (l)) de los códigos circulares C 3, y número ms c 3 (& # x1D4AF i (l)) de C 3 códigos circulares máximos autocomplementarios MS C 3.

Para l = 1, & # x2026, 20 (17) c (& # x1D4AF 1,2 (l)) = c (& # x1D4AF 2,3 (l)), mc (& # x1D4AF 1,2 (l) ) = mc (& # x1D4AF 2,3 (l)), sc (& # x1D4AF 1,2 (l)) = sc (& # x1D4AF 2,3 (l)), c 3 (& # x1D4AF 1,2 (l)) = do 3 (& # x1D4AF 2,3 (l)), ms do 3 (& # x1D4AF 1,2 (l)) = ms do 3 (& # x1D4AF 2,3 (l)). Las listas de códigos circulares de trinucleótidos C asociados con c (& # x1D4AF 1,2 (l)) yc (& # x1D4AF 2,3 (l)) son diferentes para l = 1, & # x2026, 14 (no se muestra) . Ningún código de trinucleótidos es circular después de un cierto número de transiciones & # x1D4AF i, j en los trinucleótidos del código circular de trinucleótidos común X 0. Precisamente, para l = 15, & # x2026, 20 (18) c (& # x1D4AF 1,2 (l)) = c (& # x1D4AF 2,3 (l)) = 0 y para l = 12, & # x2026, 20 (19) c (& # x1D4AF 1,3 (l)) = 0. La transición & # x1D4AF i, j genera un número máximo de códigos circulares de trinucleótidos C para (20) max & # x2003 & # x2003 = c (& # x1D4AF 1,3 (6)) = 598 y un número máximo de C 3 códigos circulares máximos autocomplementarios MS C 3 para (21) max & # x2003 & # x2003 = ms c 3 (& # x1D4AF 1,3 (4)) = ms c 3 (& # x1D4AF 1,3 (6)) = 10. Los números c 3 (& # x1D4AF 1,2 (l)) = c 3 (& # x1D4AF 2,3 (l)) de los códigos circulares C 3 tienen una función de crecimiento particular (22) c 3 (& # x1D4AF 1, 2 (14)) = c 3 (& # x1D4AF 2,3 (14)) = 1, c 3 (& # x1D4AF 1,2 (l)) = c 3 (& # x1D4AF 2,3 (l)) = 0 & # x2003 para & # x2009 & # x2009 l = 10, & # x2026, 13.

Mapa de transición & # x1D4AF i, j (l) en l trinucleótidos del código circular de trinucleótidos común X 0. Número c (& # x1D4AF i, j (l)) de códigos circulares C, número mc (& # x1D4AF i, j (l)) de códigos circulares máximos MC, número sc (& # x1D4AF i, j (l)) de códigos circulares autocomplementarios SC, número c 3 (& # x1D4AF i, j (l)) de códigos circulares C 3, y número ms c 3 (& # x1D4AF i, j (l)) de C 3 autocomplementario códigos circulares máximos MS C 3.

La transición & # x1D4AF 1,2, 3 siempre genera códigos circulares de trinucleótidos. De hecho, para l = 1, & # x2026, 20 (23) c (& # x1D4AF 1,2, 3 (l)) & # x3e 0. Las listas de códigos circulares de trinucleótidos C asociados con c (& # x1D4AF 1,2, 3 (l)) yc (& # x1D4AF 1,2, 3 (20 - l)) son diferentes para l = 1, & # x2026 , 9 (no mostrado). La transición & # x1D4AF 1,2, 3 genera un número máximo de códigos circulares de trinucleótidos C para (24) max & # x2003 & # x2003 = c (& # x1D4AF 1,2, 3 (8)) = c (& # x1D4AF 1,2, 3 (12)) = 72 y un número máximo de C 3 auto- códigos circulares máximos complementarios MS C 3 para (25) & # x2009 & # x2009 max & # x2003 & # x2003 = ms c 3 (& # x1D4AF 1,2, 3 (4)) = ms c 3 (& # x1D4AF 1,2, 3 (16)) = 6.

Mapa de transición & # x1D4AF 1,2, 3 (l) en l trinucleótidos del código circular de trinucleótidos común X 0. Número c (& # x1D4AF 1,2, 3 (l)) de códigos circulares C, número mc (& # x1D4AF 1,2, 3 (l)) de códigos circulares máximos MC, número sc (& # x1D4AF 1,2 , 3 (l)) de los códigos circulares autocomplementarios SC, el número c 3 (& # x1D4AF 1,2, 3 (l)) de los códigos circulares C 3, y el número ms c 3 (& # x1D4AF 1,2, 3 (l)) de C 3 códigos circulares máximos autocomplementarios MS C 3.

Para l = 1, & # x2026, 20 (26) c (& # x1D4B1 I 1 (l)) = c (& # x1D4B1 I 3 (l)), mc (& # x1D4B1 I 1 (l)) = mc (& # x1D4B1 I 3 (l)), sc (& # x1D4B1 I 1 (l)) = sc (& # x1D4B1 I 3 (l)), c 3 (& # x1D4B1 I 1 (l)) = c 3 (& # x1D4B1 I 3 (l)), ms do 3 (& # x1D4B1 I 1 (l)) = ms do 3 (& # x1D4B1 I 3 (l)). Las listas de códigos circulares de trinucleótidos C asociados con c (& # x1D4B1 I 1 (l)) yc (& # x1D4B1 I 3 (l)) son diferentes para l = 1, & # x2026, 9 (no se muestra). Ningún código de trinucleótidos es circular después de un cierto número de transversiones I & # x1D4B1 I i en los trinucleótidos del código circular de trinucleótidos común X 0. Precisamente, para l = 10, & # x2026, 20 (27) c (& # x1D4B1 I 1 (l)) = c (& # x1D4B1 I 3 (l)) = 0 y para l = 18,19,20 ( 28) c (& # x1D4B1 I 2 (l)) = 0. La transversión I & # x1D4B1 I i genera un número máximo de códigos circulares de trinucleótidos C para (29) max & # x2003 & # x2003 = c (& # x1D4B1 I 2 (9)) = 24310 y un número máximo de C 3 códigos circulares máximos autocomplementarios MS C 3 para (30) máx. & # x2003 & # x2003 = ms c 3 ( & # x1D4B1 I 2 (8)) = 70. Una propiedad de código notable que solo se encuentra con la transversión I & # x1D4B1 I 2 es, para l = 1, & # x2026, 20, (31) c (& # x1D4B1 I 2 (l)) = c 3 (& # x1D4B1 I 2 (l)), y además, después de un análisis informático detallado, las listas de códigos circulares de trinucleótidos C y C 3 asociados con c (& # x1D4B1 I 2 (l)) y c 3 (& # x1D4B1 I 2 (l)) , respectivamente, son idénticos para l = 1, & # x2026, 17.

Transversion I map & # x1D4B1 I i (l) en l trinucleótidos del código circular de trinucleótidos común X 0. Número c (& # x1D4B1 I i (l)) de códigos circulares C, número mc (& # x1D4B1 I i (l)) de códigos circulares máximos MC, número sc (& # x1D4B1 I i (l)) de auto- códigos circulares complementarios SC, número c 3 (& # x1D4B1 I i (l)) de códigos circulares C 3, y número ms c 3 (& # x1D4B1 I i (l)) de C 3 códigos circulares máximos autocomplementarios MS C 3.

Para l = 1, & # x2026, 20 (32) c (& # x1D4B1 I 1,2 (l)) = c (& # x1D4B1 I 2,3 (l)), mc (& # x1D4B1 I 1,2 (l)) = mc (& # x1D4B1 I 2,3 (l)), sc (& # x1D4B1 I 1,2 (l)) = sc (& # x1D4B1 I 2,3 (l)), c 3 ( & # x1D4B1 I 1,2 (l)) = c 3 (& # x1D4B1 I 2,3 (l)), ms c 3 (& # x1D4B1 I 1,2 (l)) = ms c 3 (& # x1D4B1 I 2,3 (l)). Las listas de códigos circulares de trinucleótidos C asociados con c (& # x1D4B1 I 1,2 (l)) yc (& # x1D4B1 I 2,3 (l)) son diferentes para l = 1, & # x2026, 12 (no mostrado). Ningún código de trinucleótidos es circular después de un cierto número de transversiones I & # x1D4B1 I i, j en los trinucleótidos del código circular de trinucleótidos común X 0. Precisamente, para l = 13, & # x2026, 20 (33) c (& # x1D4B1 I 1,2 (l)) = c (& # x1D4B1 I 2,3 (l)) = 0 y para l = 19, 20 (34) c (& # x1D4B1 I 1,3 (l)) = 0. La transversión I & # x1D4B1 I i, j genera un número máximo de códigos circulares de trinucleótidos C para (35) max & # x2003 & # x2003 = c (& # x1D4B1 I 1,2 (6)) = c (& # x1D4B1 I 2,3 (6)) = 630 y un número máximo de C 3 códigos circulares máximos autocomplementarios MS C 3 para (36) max & # x2003 & # x2003 = ms c 3 (& # x1D4B1 I 1, 2 (4)) = ms c 3 (& # x1D4B1 I 2,3 (4)) = 6. Los números sc (& # x1D4B1 I 1,3 (l)) de los códigos circulares autocomplementarios SC tienen una función de crecimiento particular (37) sc (& # x1D4B1 I 1,3 (l)) = 1 & # x2003 para & # x2009 & # x2009 l = 12,14,16,18, sc (& # x1D4B1 I 1,3 (l)) = 0 & # x2003 para & # x2009 & # x2009 l = 8,10. Los números c 3 (& # x1D4B1 I 1,3 (l)) de los códigos circulares C 3 tienen una función de crecimiento particular (38) c 3 (& # x1D4B1 I 1,3 (l)) = 1 & # x2003 para & # x2009 & # x2009 l = 16,18, c 3 (& # x1D4B1 I 1,3 (17)) = 2, c 3 (& # x1D4B1 I 1,3 (l)) = 0 & # x2003 para & # x2009 & # x2009 l = 7, & # x2026, 15.

Transversion I map & # x1D4B1 I i, j (l) en l trinucleótidos del código circular de trinucleótidos común X 0. Número c (& # x1D4B1 I i, j (l)) de códigos circulares C, número mc (& # x1D4B1 I i, j (l)) de códigos circulares máximos MC, número sc (& # x1D4B1 I i, j ( l)) de códigos circulares autocomplementarios SC, número c 3 (& # x1D4B1 I i, j (l)) de códigos circulares C 3, y número ms c 3 (& # x1D4B1 I i, j (l)) de C 3 códigos circulares máximos autocomplementarios MS C 3.

La transversión I & # x1D4B1 I 1,2, 3 siempre genera códigos circulares de trinucleótidos. De hecho, para l = 1, & # x2026, 20 (39) c (& # x1D4B1 I 1,2, 3 (l)) & # x3e 0. Las listas de códigos circulares de trinucleótidos C asociados con c (& # x1D4B1 I 1,2, 3 (l)) yc (& # x1D4B1 I 1,2, 3 (20 - l)) son diferentes para l = 1, & # x2026, 9 (no se muestra). La transversión I & # x1D4B1 I 1,2, 3 genera un número máximo de códigos circulares de trinucleótidos C para (40) max = c (& # x1D4B1 I 1,2, 3 (10)) = 66 y un número máximo de C 3 códigos circulares máximos autocomplementarios MS C 3 para (41) max & # x2003 & # x2003 = ms c 3 (& # x1D4B1 I 1,2, 3 (4) ) = ms do 3 (& # x1D4B1 I 1,2, 3 (16)) = 9.

Transversion I map & # x1D4B1 I 1,2, 3 (l) en l trinucleótidos del código circular de trinucleótidos común X 0. Número c (& # x1D4B1 I 1,2, 3 (l)) de códigos circulares C, número mc (& # x1D4B1 I 1,2, 3 (l)) de códigos circulares máximos MC, número sc (& # x1D4B1 I 1,2, 3 (l)) de códigos circulares autocomplementarios SC, número c 3 (& # x1D4B1 I 1,2, 3 (l)) de códigos circulares C 3, y número ms c 3 (& # x1D4B1 I 1,2, 3 (l)) de C 3 códigos circulares máximos autocomplementarios MS C 3.

Para l = 1, & # x2026, 20 (42) c (& # x1D4B1 II 1 (l)) = c (& # x1D4B1 II 3 (l)), mc (& # x1D4B1 II 1 (l)) = mc (& # x1D4B1 II 3 (l)), sc (& # x1D4B1 II 1 (l)) = sc (& # x1D4B1 II 3 (l)), c 3 (& # x1D4B1 II 1 (l)) = c 3 (& # x1D4B1 II 3 (l)), ms do 3 (& # x1D4B1 II 1 (l)) = ms do 3 (& # x1D4B1 II 3 (l)). Las listas de códigos circulares de trinucleótidos C asociados con c (& # x1D4B1 II 1 (l)) yc (& # x1D4B1 II 3 (l)) son diferentes para l = 1, & # x2026, 8 (no mostrado). Ningún código de trinucleótidos es circular después de un cierto número de transversiones II & # x1D4B1 II i en los trinucleótidos del código circular de trinucleótidos común X 0. Precisamente, para l = 9, & # x2026, 20 (43) c (& # x1D4B1 II 1 (l)) = c (& # x1D4B1 II 3 (l)) = 0 y para l = 12, & # x2026, 20 (44) c (& # x1D4B1 II 2 (l)) = 0. La transversión II & # x1D4B1 II i genera un número máximo de códigos circulares de trinucleótidos C para (45) max & # x2003 & # x2003 = c (& # x1D4B1 II 2 (5)) = 176 y un número máximo de C 3 códigos circulares máximos autocomplementarios MS C 3 para (46) máx. & # x2003 & # x2003 = ms c 3 ( & # x1D4B1 II 2 (4)) = 6.

Mapa de transversión II & # x1D4B1 II i (l) en l trinucleótidos del código circular de trinucleótidos común X 0. Número c (& # x1D4B1 II i (l)) de códigos circulares C, número mc (& # x1D4B1 II i (l)) de códigos circulares máximos MC, número sc (& # x1D4B1 II i (l)) de auto- códigos circulares complementarios SC, número c 3 (& # x1D4B1 II i (l)) de los códigos circulares C 3, y número ms c 3 (& # x1D4B1 II i (l)) de C 3 códigos circulares máximos autocomplementarios MS C 3.

Para l = 1, & # x2026, 20 (47) c (& # x1D4B1 II 1,2 (l)) = c (& # x1D4B1 II 2,3 (l)), mc (& # x1D4B1 II 1,2 (l)) = mc (& # x1D4B1 II 2,3 (l)), sc (& # x1D4B1 II 1,2 (l)) = sc (& # x1D4B1 II 2,3 (l)), c 3 ( & # x1D4B1 II 1,2 (l)) = c 3 (& # x1D4B1 II 2,3 (l)), ms c 3 (& # x1D4B1 II 1,2 (l)) = ms c 3 (& # x1D4B1 II 2,3 (l)). Las listas de códigos circulares de trinucleótidos C asociados con c (& # x1D4B1 II 1,2 (l)) yc (& # x1D4B1 II 2,3 (l)) son diferentes para l = 1, & # x2026, 5,13 , 14 (no mostrado). La distribución de códigos de trinucleótidos que no son circulares bajo las transversiones II y # x1D4B1 II i, j en los trinucleótidos del código circular de trinucleótidos común X 0 es muy inusual.De hecho, para l = 6, & # x2026, 12,15, & # x2026, 20 (48) c (& # x1D4B1 II 1,2 (l)) = c (& # x1D4B1 II 2,3 (l)) = 0 y para l = 15, & # x2026, 20 (49) c (& # x1D4B1 II 1,3 (l)) = 0. La transversión II & # x1D4B1 II i, j genera un número máximo de códigos circulares de trinucleótidos C para (50) max & # x2003 & # x2003 = c (& # x1D4B1 II 1,3 (6)) = 662 y un número máximo de C 3 códigos circulares máximos autocomplementarios MS C 3 para (51) max & # x2003 & # x2003 = ms c 3 (& # x1D4B1 II 1,3 (4)) = 6. Los números c (& # x1D4B1 II 1,2 (l)) = c (& # x1D4B1 II 2,3 (l)) de los códigos circulares C tienen una función de crecimiento particular (52) c (& # x1D4B1 II 1,2 (l)) = c (& # x1D4B1 II 2,3 (l)) = 1 & # x2003 para & # x2009 & # x2009 l = 13,14, c (& # x1D4B1 II 1,2 (l)) = c (& # x1D4B1 II 2,3 (l)) = 0 & # x2003 para & # x2009 & # x2009 l = 6, & # x2026, 12.

Mapa de transversión II & # x1D4B1 II i, j (l) en l trinucleótido del código circular del trinucleótido común X 0. Número c (& # x1D4B1 II i, j (l)) de códigos circulares C, número mc (& # x1D4B1 II i, j (l)) de códigos circulares máximos MC, número sc (& # x1D4B1 II i, j ( l)) de códigos circulares autocomplementarios SC, número c 3 (& # x1D4B1 II i, j (l)) de códigos circulares C 3, y número ms c 3 (& # x1D4B1 II i, j (l)) de C 3 códigos circulares máximos autocomplementarios MS C 3.

Para l = 1, & # x2026, 19 (53) c (& # x1D4B1 II 1,2, 3 (l)) = 0 y obviamente, por invariancia de letras, c (& # x1D4B1 II 1,2, 3 (20 )) = 1 como en las Tablas 4 y 7.

El código circular de trinucleótidos común X 0 se puede dividir de acuerdo con los mapas & # x1D4B1 II 1,2, 3, & # x1D4AB y & # x1D4AB 2 como se muestra en la Tabla 10.

Sea una partición P i = , i & # x2208 <1, & # x2026, 10>, compuesta de dos trinucleótidos x, x & # x2032 & # x2208 X 0. Para l = 1, cualquier transversión II de un trinucleótido x & # x2208 Pi genera un trinucleótido y que es un trinucleótido permutado del otro trinucleótido x & # x2032 & # x2208 Pi. Entonces, cualquier transversión II de un trinucleótido x & # x2208 X 0 conduce a un código de trinucleótido que no es circular. Para 2 & # x2264 l & # x2264 19, la prueba necesita un análisis por computadora del collar para los casos no triviales cuando ocurren dos transversiones II con dos trinucleótidos en las mismas particiones.

Muy sorprendentemente, para los tres mapas de transición, transversiones I y II, & # x1D4AF i (l), & # x1D4B1 I i (l) y & # x1D4B1 II i (l), i & # x2208 <1,2 , 3>, & # x1D4AF i, j (l), & # x1D4B1 I i, j (l) y & # x1D4B1 II i, j (l), i, j & # x2208 <1,2, 3> con i & # x3c j y & # x1D4AF 1,2, 3 (l) (no para & # x1D4B1 I 1,2, 3 (l) y & # x1D4B1 II 1,2, 3 (l)), los números ms c 3 de códigos circulares máximos autocomplementarios MS C 3 para los primeros valores pares de l siguen una serie de coeficientes binomiales. Para & # x1D4AF i (l), & # x1D4B1 I i (l) y & # x1D4B1 II i (l), i & # x2208 <1,2, 3>, & # x1D4AF 1,2 (l), & # x1D4AF 2,3 (l), y & # x1D4B1 II i, j (l), i, j & # x2208 <1,2, 3> con i & # x3c j, los números mc de los códigos circulares máximos MC para los primeros valores pares de l siguen una serie de coeficientes binomiales. Para & # x1D4AF 1,2, 3 (l), los números c 3 de los códigos circulares C 3 para los valores ly (20 - l) con l = 1, & # x2026, 8 siguen una serie de coeficientes binomiales. Estas propiedades binomiales con algunos números de códigos circulares para los tres mapas de transición, transversiones I y II, no tienen explicación combinatoria hasta ahora.

Un análisis informático completo de la transición y las transversiones I y II en el código circular máximo autocomplementario de C 3 X 0 muestra algunos resultados nuevos en particular (i) la transversión I & # x1D4B1 I 2 (l) en la segunda posición de cualquier subconjunto de Los trinucleótidos de X 0 generan códigos circulares de trinucleótidos que son siempre C 3 y (ii) la transversión II & # x1D4B1 II 1, 2, 3 en las tres posiciones de cualquier subconjunto de trinucleótidos de X 0 no produce códigos circulares de trinucleótidos. Además de la partición clásica autocomplementaria (Definición 20) de X 0 conocida desde 1996, una nueva partición de X 0 basada en el mapa de transversión II & # x1D4B1 II 1,2, 3 (Definición 33) y los mapas de permutación circular & # x1D4AB y & # x1D4AB 2 (Definición 18) también se identifican aquí. Estos resultados aquí amplían nuestra teoría del código circular en los genes a su evolución bajo transición y transversión.


Información de soporte

Números de acceso

Las secuencias de la base de datos EMBL (http://www.ebi.ac.uk/embl) utilizadas en este artículo con los siguientes números de acceso son: para P. pedestris e Italopodisma sp. ADN mitocondrial (AF085501 – AF085505) y números (AF085508 – AF085524, AF085526 – AF085538, AF085575 – AF085578, AF085539 – AF085545, AF085547 – AF085550, AF085552 – AF08294, EF88 pseudogenes de ADNr (AM183587, AM183588, AM183591 – AM183594, AM183596 – AM183608, AM183610 – AM183613, AM183616 – AM183624 y AM238436 – AM238438) para Parapodisma mikado (AF085506) por Locusta migratoria (X80245) y para Drosophila sp. (AF012030 – AF012035, AF012037 – AF012052, U62715 – U62731, U65653).


Referencias

Stamatoyannopoulos G, Grosveld F (2001) Cambio de hemoglobina. En: Stamatoyannopoulos G, Majerus P, Perlmutter R, Varmus H (eds) Base molecular de las enfermedades de la sangre, 3ª ed. Saunders, Filadelfia, págs. 135–182

Wijgerde M, Grosveld F, Fraser P (1995) Estabilidad del complejo de transcripción y dinámica de la cromatina in vivo. Nature 377: 209–213, doi: 10.1038 / 377209a0

Bollekens JA, Forget BG (1991) Talasemia deltabeta y persistencia hereditaria de la hemoglobina fetal. Hematol Oncol Clin North Am 5: 399–422

Swank RA, Stamatoyannopoulos G (1998) Reactivación de genes fetales. Curr Opin Genet Dev 8: 366–370, doi: 10.1016 / S0959-437X (98) 80095-6

Hardison RC, Chui DH, Giardine B, Reimer C, Patrinos GP, Anagnou N, Miller W, Wajcman H (2002) HbVar: una base de datos relacional de variantes de hemoglobina humana y mutaciones de talasemia en el servidor de genes de globina. Hum Mutat 19: 225–233, doi: 10.1002 / humu.10044

Gelinas R, Endlich B, Pfeiffer C, Yagi M, Stamatoyannopoulos G (1985) Sustitución de G a A en la caja CCAAT distal del gen de la gamma-globina A en la persistencia hereditaria griega de hemoglobina fetal. Nature 313: 323–325, doi: 10.1038 / 313323a0

Berry M, Grosveld F, Dillon N (1992) Una mutación puntual única es la causa de la forma griega de persistencia hereditaria de la hemoglobina fetal. Nature 358: 499–502, doi: 10.1038 / 358499a0

Patrinos GP, Loutradi-Anagnostou A, Papadakis MN (1995) Un nuevo polimorfismo de ADN del gen de la globina Agamma (Agamma-588 A & gtG) está vinculado con el polimorfismo XmnI (Ggamma-158 C & gtT). Hemoglobina 19: 419–423, doi: 10.3109 / 03630269509005835

Patrinos GP, Kollia P, Loutradi-Anagnostou A, Loukopoulos D, Papadakis MN (1998) El tipo cretense de persistencia hereditaria no delecional de la hemoglobina fetal [Agamma-158 C & gtT] resulta de dos eventos de conversión de genes independientes. Hum Genet 102: 629–634, doi: 10.1007 / s004390050753

Losekoot M, Fodde R, Hartveld CL, van Heeren H, Giordano PC, Bernini LF (1990) Electroforesis en gel de gradiente desnaturalizante y secuenciación directa de ADN genómico amplificado por PCR: un enfoque de diagnóstico rápido y confiable para la talasemia beta. Br J Haematol 76: 269–274, doi: 10.1111 / j.1365-2141.1990.tb07883.x

Papadakis MN, Papapanagiotou E, Loutradi-Anagnostou A (1997) Método de escaneo para identificar la heterogeneidad molecular del gen delta-globina, especialmente en delta-talasemias: detección de tres mutaciones novedosas en la región promotora del gen. Hum Mutat 9: 465–472, doi: 10.1002 / (SICI) 1098-1004 (1997) 9: 5 & lt465 :: AID-HUMU14 & gt3.0.CO2-0

Tan AS, Quah TC, Low PS, Chong SS (2001) Un ensayo rápido y confiable de reacción en cadena de la polimerasa multiplex de 7 deleciones para la alfa-talasemia. Blood 98: 250–251, doi: 10.1182 / blood.V98.1.250

Patrinos GP, van Baal S, Petersen MB, Papadakis MN (2005) Base de datos de mutaciones nacionales helénicas: una base de datos prototipo de mutaciones que conducen a trastornos hereditarios en la población helénica. Hum Mutat 25: 327–333, doi: 10.1002 / humu.20157

Papachatzopoulou A, Kaimakis P, Pourfarzad F, Menounos PG, Evangelakou P, Kollia P, Grosveld FG, Patrinos GP (2007) El aumento de la expresión del gen de gamma-globina en pacientes con beta-talasemia intermedia se correlaciona con una mutación en 3′HS1. Am J Hematol 82: 1005–1009, doi: 10.1002 / ajh.20979

Luo HY, Mang D, Patrinos GP, Pourfarzad F, Wuc CJY, Eung SH, Rosenfield CG, Daoust PR, Braun A, Grosveld FG, Steinberg MH, Chui DHK (2004) Un nuevo polimorfismo de un solo nucleótido (SNP), T & gtG, en el sitio GATA en el nucleótido (nt) −567 5 ′ del gen Ggamma-globina puede estar asociado con Hb F elevada. Sangre 104: 145a – 146a

Chen Z, Luo HY, Basran RK, Hsu TH, Mang DW, Nuntakarn L, Rosenfield CG, Patrinos GP, Hardison RC, Steinberg MH, Chui DH (2008) Una transversión de T a G en el nucleótido -567 corriente arriba de HBG2 en un motivo de unión a GATA-1 se asocia con hemoglobina F elevada. Mol Cell Biol 28: 4386–4393, doi: 10.1128 / MCB.00071-08

Huisman TH, Harris H, Gravely M, Schroeder WA, Shelton JR, Shelton JB, Evans L (1977) La heterogeneidad química de la hemoglobina fetal en recién nacidos normales y en adultos. Mol Cell Biochem 17: 45–55, doi: 10.1007 / BF01732554

Ronchi AE, Bottardi S, Mazzucchelli C, Ottolenghi S, Santoro C (1995) Unión diferencial de los factores de transcripción NFE3 y CP1 / NFY a las cajas CCAAT de globina gamma y épsilon humana humana. J Biol Chem 270: 21934–21941, doi: 10.1074 / jbc.270.37.21934

Tasiopoulou M, Boussiou M, Sinopoulou K, Moraitis G, Loutradi-Anagnostou A, Karababa P (2008) (G) gamma-196 C- & gtT, (A) gamma-201 C- & gtT: dos mutaciones novedosas en la región promotora de los genes de la gamma-globina asociados con la persistencia hereditaria no delecional de la hemoglobina fetal en Grecia. Blood Cells Mol Dis 40: 320–322, doi: 10.1016 / j.bcmd.2007.10.007

Patrinos GP, Giardine B, Riemer C, Miller W, Chui DH, Anagnou NP, Wajcman H, Hardison RC (2004) Mejoras en el HbVar variantes de hemoglobina humana y mutaciones de talasemia para estudios de variación de secuencia y población. Ácidos nucleicos Res 32: D537 – D541, doi: 10.1093 / nar / gkh006

van Baal S, Kaimakis P, Phommarinh M, Koumbi D, Cuppens H, Riccardino F, Macek M Jr, Scriver CR, Patrinos GP (2007) FINDbase: una base de datos relacional que registra frecuencias de defectos genéticos que conducen a trastornos hereditarios en todo el mundo. Ácidos nucleicos Res 35: D690 – D695, doi: 10.1093 / nar / gkl934

Papadakis MN, Patrinos GP, Tsaftaridis P, Loutradi-Anagnostou A (2002) Un estudio comparativo de la persistencia hereditaria no delecional griega de hemoglobina fetal y heterocigotos compuestos de beta-talasemia. J Mol Med 80: 243–247, doi: 10.1007 / s00109-001-0312-4

Kollia P, Kalamaras A, Chassanidis C, Samara M, Vamvakopoulos NK, Radmilovic M, Pavlovic S, Papadakis MN, Patrinos GP (2008) Heterocigosidad compuesta para el tipo cretense de persistencia hereditaria no delecional de hemoglobina fetal y beta-talasemia o Hb Sabine confirma el papel funcional de la mutación Agamma-158 C & gtT en la transcripción del gen de la gamma-globina. Blood Cells Mol Dis 41: 263–264

Ronchi A, Berry M, Raguz S, Imam A, Yannoutsos N, Ottolenghi S, Grosveld F, Dillon N (1996) Papel de la región de la caja CCAAT duplicada en la regulación del gen de la gamma-globina y la persistencia hereditaria de la hemoglobina fetal. EMBO J 15: 143-149

Indrak K, Indrakova J, Kutlar F, Pospisilova D, Sulovska I, Baysal E, Huisman THJ (1991) Heterocigosidad compuesta para una talasemia beta0 (codones de desplazamiento de marco 38/39 -C) y un tipo suizo no delecional de HPFH (A & gtC) en NT −110, Ggamma) en una familia checoslovaca. Ann Hematol 63: 111-115, doi: 10.1007 / BF01707283

Patrinos GP, de Krom M, de Boer E, Langeveld A, Imam AM, Strouboulis J, de Laat W, Grosveld FG (2004) Se requieren múltiples interacciones entre regiones reguladoras para estabilizar un centro de cromatina activo. Genes Dev 18: 1495–1509, doi: 10.1101 / gad.289704


Métodos

Arabidopsis líneas transgénicas

Las frecuencias de mutaciones puntuales se ensayaron utilizando el transgénico A. thaliana (Columbia de adhesión) líneas 693, 699, 747 y M4. En las líneas 693, 699 y 747, se introdujeron codones de terminación en el GUS ORF en tres posiciones diferentes 112G → T, 166G → T y 118A → T, respectivamente (Fig. 1a) estas líneas transgénicas fueron proporcionadas por Igor Kovalchuk (Universidad de Lethbridge, Canadá) [32]. La línea M4 fue proporcionada por Anna Depicker (Universidad de Gante, Bélgica) [33]. En la línea M4, un mutante sin sentido del GUS El gen se inserta donde la base T se muta a C en la posición 1390ª (Fig. 1a). Las recombinaciones homólogas somáticas se puntuaron utilizando las líneas 651 y R2L1, donde los sustratos de recombinación son repeticiones invertidas de un truncado. GUS gen (Fig. 1b). La línea 651 (ecotipo C24) fue regalada por Barbara Hohn (Instituto Friedrich Miescher, Suiza) [34]. Obtuvimos la línea R2L1 (ecotipo Columbia) [35], así como la línea G10 (ecotipo Columbia) [36] de Francois Belzile (Universidad de Laval, Canadá). La línea G10 tiene un microsatélite (tramo de 10 G) dentro del GUS ORF (figura 1c). los Etiqueta1 La línea fue proporcionada por Nigel Crawford (Universidad de California, California) [37]. Todos los experimentos se realizaron en plántulas homocigóticas.

Cepas bacterianas

Las infecciones se llevaron a cabo utilizando el tipo salvaje A. tumefaciens cepa Ach5 (referida como VOT en el cuerpo principal del artículo), y sus derivados (Tabla 1), así como con E. coli. los Agrobacterium Las cepas Ach5 y LBA4404 (denominadas VXX en el cuerpo principal del artículo) fueron proporcionadas por K. Veluthambi (Universidad Madurai Kamaraj, India) [51]. LBA4404 es un derivado de Ach5 con el plásmido Ti desarmado pAL4404 y, por lo tanto, solo tiene el vir y o yo regiones del plásmido Ti, pero no los oncogenes y el ADN-T [52]. Generamos LBA4404 (pCAMBIA2300) (referido como VXT) por electroporación de LBA4404 con el vector binario pCAMBIA2300. Obtuvimos la cepa LBA4002 (denominada XXX) de Paul J. Hooykaas (Universidad de Leiden, Países Bajos). LBA4002 es un derivado de Ach5 sin el plásmido Ti [53]. Todos Agrobacterium las cepas se cultivaron en medio Luria-Bertani (LB) a 28 ° C. La cepa LBA4404 (pCAMBIA2300) se cultivó en un medio que contenía 100 mg / l de kanamicina. E. coli (cepa, DH5α) se cultivó en medio LB a 37 ° C. Las bacterias muertas por calor se obtuvieron calentando el cultivo a 70 ° C durante 30 min [39] y las formas muertas por calor se verificaron colocándolas de nuevo en medio apropiado. Antes de la infección, las bacterias se cultivaron en medio líquido LB con los antibióticos apropiados y la suspensión (densidad óptica de 0,6 a 0,9 a 600 nm) se centrifugó a 1.100 X g durante 10 min y se lavó con el mismo volumen de medio de germinación líquido tres veces para eliminar las trazas. de LB.

Condiciones de crecimiento de las plantas y método de infección.

Arabidopsis las semillas se esterilizaron en la superficie con 500 µl de etanol al 70%, se aclararon con agua esterilizada y se trataron con lejía al 0,5% durante dos minutos. Posteriormente, las semillas se lavaron cuatro veces con agua esterilizada. Infección de Arabidopsis Las plántulas se realizaron de acuerdo con el protocolo de Li et al.. [54] con modificaciones mínimas. Las semillas se sembraron en medio de germinación (medio estéril de Murashige y Skoog (MS) con sacarosa al 3%, pH 5,7). La germinación de la semilla se sincronizó manteniendo las placas MS con semillas en la oscuridad, a 4 ° C durante 48 h. Luego, las placas se trasladaron a una cámara de crecimiento (Percival, EE. UU.), Que tenía una intensidad de luz uniforme de 8000 unidades lux en un ciclo de 16 h de luz / 8 h de oscuridad. La temperatura se mantuvo a 22 ° C durante todos los experimentos y la humedad se ajustó al 80%. Después de dos días, las plántulas se enjuagaron en un medio de germinación líquido que contenía las bacterias y se cultivaron conjuntamente en un medio de germinación durante el período de tiempo apropiado (0,5 ha 48 h). Las plántulas de control se trataron de manera similar a las infectadas, excepto que el medio líquido estaba desprovisto de bacterias. Las plántulas infectadas así como las de control se esterilizaron luego en la superficie con medio MS líquido que contenía 250 mg / l de cefotaxima y una mezcla de conservante de plantas al 0,05% (Biogenuix Medsystem Pvt. Ltd., Nueva Delhi, India). Estas plántulas se dejaron caer suavemente sobre un medio de germinación que contenía 250 mg / l de cefotaxima y una mezcla de conservante de plantas al 0,05% usando una pipeta de boca ancha. Se mantuvo un espaciado uniforme entre las plántulas para todos los experimentos. Estas placas se mantuvieron en la cámara de crecimiento de plantas en las mismas condiciones mencionadas anteriormente durante dos semanas y luego se usaron para la tinción histoquímica de GUS.

Tinción histoquímica de β-glucuronidasa (GUS)

La tinción histoquímica de GUS se realizó de acuerdo con el protocolo de Jefferson [55]. El tampón de tinción (tampón de fosfato de sodio 100 mM [pH 7,0]) contenía glucurónido de 5-bromo-4-cloro-3-indolilo (X-Gluc) 1 mM (Biosynth, Suiza), Triton X-100 al 0,1% y 50 μg / ml de kanamicina. Se añadió solución de tinción GUS (10 ml) a placas de seis pocillos que contenían aproximadamente 50 plantas por pocillo. Estas placas se infiltraron al vacío durante 10 min y se incubaron a 37 ° C durante 48 h. Posteriormente, estas plantas se blanquearon con etanol al 70%. Las manchas azules (Fig. 1e) que reflejan las reversiones de mutaciones se contaron utilizando un microscopio óptico (Leica KL300).

Estimación de frecuencias de mutación

Cada experimento se realizó por triplicado y en total se tomaron alrededor de 400 a 500 plantas para cada tratamiento. Para los estudios que involucran FSM, se tomaron alrededor de 200 a 250 plantas. Las frecuencias de mutación se expresaron como el número medio de manchas observadas por planta [33]. Se compararon las frecuencias de mutación de las plantas infectadas y las frecuencias de mutación espontánea de las plantas de control.Los conjuntos de datos de frecuencia de mutación se probaron para determinar la normalidad [56] y la igualdad de varianzas [57, 58], y luego se sometieron a un análisis de varianza de una vía (ANOVA, α = 0.05) para determinar efectos significativos (PAG & lt 0.05), si corresponde. La prueba de rango múltiple de Duncan [58-60] se utilizó cuando ANOVA reveló diferencias significativas (PAG & lt 0,05). Todos los análisis estadísticos se realizaron utilizando el software STATISTICA versión 8 (Stat Soft Inc.). Los conjuntos de datos se trazaron en el software MS Office - Excel (Microsoft Inc.).