Información

¿Se puede dividir un gen entre diferentes localizaciones genómicas de varios kb además?

¿Se puede dividir un gen entre diferentes localizaciones genómicas de varios kb además?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Puede haber exones e intrones del mismo gen separados por cientos de kb en un genoma? Si es así, ¿cómo se ensambla el ARNm completo a tal distancia?

Estoy trabajando en mitocondrias de plantas y he visto un gen anotado que se corta entre partes muy distintas del genoma.


Sí, puede tener exones e intrones del mismo gen separados por cientos (¡incluso miles!) De kilobases.

Aquí hay un ejemplo para el genoma humano: "En promedio, hay 8.8 exones y 7.8 intrones por gen. Aproximadamente el 80% de los exones en cada cromosoma tienen <200 pb de longitud. <0.01% de los intrones son <20 pb en longitud y <10% de los intrones tienen más de 11.000 pb de longitud."

Fuente: https://www.ncbi.nlm.nih.gov/pubmed/15217358

Para el proceso de empalme, no es realmente un problema por la distancia. Permítanme reformular las preguntas desafiando la suposición que está haciendo: las distancias largas en una secuencia corresponden a la distancia larga en el espacio.

En realidad, las moléculas de ADN / ARN pueden tener mucha estructura terciaria, por ejemplo, cuartetos G para ADN, estructura de horquilla para ARN.

Fuente: https://upload.wikimedia.org/wikipedia/commons/5/5d/ATPC_secondary_structure.jpg ">Mejora esta respuestaeditado 22/03/20 a las 10:50contestado 22/03/20 a las 9:48Dr. H. LecterDr. H. Lecter6102 insignias de plata14 medallas de bronce

Virus adenoasociado

Virus adenoasociados (AAV) son pequeños virus que infectan a los humanos y algunas otras especies de primates. Pertenecen al género Dependoparvovirus, que a su vez pertenece a la familia Parvoviridae. Son virus pequeños (20 nm) con replicación defectuosa, sin envoltura y tienen un genoma de ADN monocatenario lineal (ssDNA) de aproximadamente 4,8 kilobases (kb). [1] [2]

Actualmente, no se sabe que los AAV causen enfermedades. Los virus provocan una respuesta inmunitaria muy leve. Varias características adicionales hacen de AAV un candidato atractivo para crear vectores virales para terapia génica y para la creación de modelos de enfermedades humanas isogénicas. [3] Los vectores de terapia génica que utilizan AAV pueden infectar células en división y en reposo y persistir en un estado extracromosómico sin integrarse en el genoma de la célula huésped, aunque en el virus nativo se produce la integración de genes portados por virus en el genoma del huésped. [4] La integración puede ser importante para determinadas aplicaciones, pero también puede tener consecuencias no deseadas. Los ensayos clínicos recientes en humanos que utilizan AAV para la terapia génica en la retina han demostrado ser prometedores. [5]


Opciones de acceso

Obtenga acceso completo a la revista durante 1 año

Todos los precios son precios NETOS.
El IVA se agregará más adelante en el proceso de pago.
El cálculo de impuestos se finalizará durante el pago.

Obtenga acceso completo o por tiempo limitado al artículo en ReadCube.

Todos los precios son precios NETOS.


Resultados

Análisis de cromosomas simulados

La ponderación de topología proporciona un resumen informativo de los datos genealógicos y destaca las diferencias entre los escenarios simulados (Figura 2). Como se describió anteriormente, hay tres posibles topologías sin raíz para los cuatro taxones. En el escenario Neutral, la topología más prevalente, <[(A, B), C], D>, que refleja los tiempos fraccionados de la población, tiene una ponderación promedio del 71% en todo el cromosoma. Las otras dos topologías son bastante raras, pero <[(B, C), A], D> es más común en promedio (17%) que <[(A, C), B], D> (12%) . Esto se debe a que el primero puede resultar tanto del flujo de genes como de la clasificación de linaje incompleto (ILS), mientras que el segundo solo puede resultar de ILS, ya que no hubo migración simulada entre A y C o entre B y D. En el escenario de introgresión adaptativa, las ponderaciones son muy similares al escenario Neutral en promedio, pero en el centro del cromosoma hay un fuerte exceso de topología <[(B, C), A], D>, creado por la propagación de un alelo beneficioso de población C en B. Finalmente, en el escenario del lugar de la barrera, la alta migración de C a B provoca un empantanamiento por la topología <[(B, C), A], D>, que tiene una ponderación promedio del 65%. Sin embargo, hay un pico amplio en el centro del cromosoma donde la topología de ramificación de la población <[(A, B), C], D> no se ha erosionado, debido a la introgresión que limita la selección.

En las simulaciones correspondientes con cinco taxones, hay 15 topologías de taxón posibles (Figura S7 en el Archivo S2). Existe una mayor variación topológica en general, ya que hay más formas en las que puede ocurrir una clasificación incompleta. No obstante, los pesos de topología detectan claramente las diferencias entre los escenarios, destacando las topologías más abundantes así como la ubicación del locus seleccionado (Figura S7 en Archivo S2).

Inferir ponderaciones a partir de datos de secuencia simulada

Arriba, calculamos las ponderaciones directamente a partir de las genealogías simuladas, pero también podemos demostrar que las ponderaciones de topología se pueden estimar de forma fiable cuando las genealogías se infieren a partir de datos de secuencia simulada (Figura 2D y Figura S7D en el archivo S2). Debido a que no se conocen ni las genealogías ni los puntos de corte de recombinación en los que cambian las genealogías, probamos varios enfoques para inferir genealogías para intervalos estrechos en el cromosoma. Primero, realizamos extensos análisis de potencia, que cubren una variedad de escenarios demográficos y diseños de muestreo, para explorar la relación entre el número de SNP utilizados para la inferencia de árboles y la precisión de la ponderación de topología. En toda la gama de escenarios investigados, encontramos un límite inferior consistente de 50 SNP para lograr una precisión de & gt90% (Figura S4, Figura S5 y Figura S6 en el archivo S2). Centrarse específicamente en los TIS (ver arriba) no hace ninguna diferencia discernible, probablemente porque la mayoría de los SNP en nuestras simulaciones son informativos sobre taxones. Estas pruebas también indican que los árboles de unión de vecinos proporcionan ponderaciones más precisas que los árboles de máxima verosimilitud, además de un cálculo mucho más rápido (Figura S4, Figura S5 y Figura S6 en el archivo S2).

Luego, analizamos los árboles inferidos para las ventanas que no se superponen en nuestros cromosomas recombinantes simulados. Un tamaño de ventana fijo de 50 SNP da resultados que se aproximan más a las ponderaciones reales (Figura 2D y Figura S7D en el Archivo S2). De acuerdo con nuestros análisis de potencia, con & lt50 SNP las estimaciones son menos precisas y tienden a subestimar la ponderación de la topología más prevalente (Figura S8 y Figura S9 en el Archivo S2). Se esperan ponderaciones que tiendan hacia valores intermedios a medida que los árboles subyacentes se resuelvan menos. Curiosamente, las ventanas de ≥100 SNP también dan como resultado una precisión reducida, pero con una tendencia a sobreestimar el soporte para la topología más prevalente y subestimar el soporte para otros (Figura S8 y Figura S9 en el Archivo S2). Esto puede explicarse por el hecho de que las ventanas grandes se ven obligadas a promediar regiones de ascendencia distinta, lo que favorece la señal más extendida. Para confirmar esta hipótesis, repetimos nuestra simulación neutral usando una tasa de recombinación de población 10 veces menor. En este nuevo conjunto de datos, las ventanas de 100 SNP dan las ponderaciones más precisas, e incluso las ventanas de 200 SNP tienen una alta precisión, mientras que las ventanas de 50 SNP funcionan solo marginalmente menos bien (Figura S10 y Figura S11 en el Archivo S2).

Probamos si el bootstrapping sobre los SNP en cada ventana se puede utilizar para validar la precisión de las ponderaciones observadas. Los pesos de Bootstrap tienden a ser similares pero ligeramente más conservadores, subestimando el peso de la topología más prevalente (Figura 2D). Esto se debe a que los árboles de arranque tienden a resolverse un poco menos, lo que lleva a ponderaciones más intermedias. Bootstrapping es, por lo tanto, un medio útil para probar la fuerza del soporte para un pico observado en la ponderación de una topología particular. Sin embargo, al ser inherentemente conservador, el bootstrapping no podría determinar si una ponderación intermedia observada fue precisa o simplemente el resultado de un árbol mal resuelto.

Debido a que los puntos de corte de recombinación reales no están espaciados uniformemente, también probamos dos enfoques en los que los límites de la ventana se infieren de los datos mismos. En nuestro primer enfoque, usamos el paquete R GenWin (Beissinger et al. 2015) para ajustar un spline suave a las ponderaciones de 10 ventanas SNP e identificar los límites de ventana probables como puntos de inflexión, y luego árboles inferidos para las regiones de ventana recién definidas. Las ponderaciones de topología resultantes coinciden bastante bien con las ponderaciones reales, pero no tan bien como para las ventanas fijas de 50 SNP (Figura S12 y Figura S13 en el Archivo S2). Como se indicó anteriormente, esto parece deberse a una mala inferencia de árboles en las ventanas más pequeñas. El segundo enfoque utilizó el método Saguaro (Zamani et al. 2013), que combina un modelo de Markov oculto y un mapa autoorganizado para inferir tanto los árboles como los límites de las ventanas. Este enfoque recapitula mal las ponderaciones reales, sobrestimando en gran medida el soporte para la topología más prevalente (Figura S12 y Figura S13 en el archivo S2). Por lo tanto, utilizamos ventanas fijas de 50 SNP para todos los análisis posteriores.

Las longitudes de las ramas difieren entre los tipos de topología

La ponderación de topología es principalmente un método descriptivo, pero las ponderaciones contienen información que puede ayudar a hacer inferencias sobre el historial de la población. El escenario del lugar de la barrera simulado (Figura 2) proporciona un caso de prueba interesante. Debido a la abrumadora señal de introgresión, sería difícil saber qué topología corresponde al verdadero orden de ramificación de la población (es decir., el árbol de la especie) si no se conocía. La topología <[(B, C), A], D> prevalece en gran parte del cromosoma, pero <[(A, B), C], D> prevalece alrededor del centro del cromosoma. Se ha propuesto que el orden de ramificación de la población original se puede identificar considerando las longitudes de las ramas (Fontaine et al. 2015 Gante et al. 2016). Los taxones que se agrupan debido a la introgresión reciente tienden a estar separados por ramas cortas, mientras que los que se agrupan según el orden de ramificación de la población deberían tener divisiones más profundas. De hecho, en árboles inferidos a partir de 50 ventanas SNP, las distancias de ramas por pares entre los taxones sugieren que los subárboles que coinciden con <[(B, C), A], D> tienden a ser el resultado de una introgresión reciente entre B y C (Figura S14 en el Archivo S2) , lo que implica que <[(A, B), C], D> es el orden de ramificación de la población más probable.

Análisis de datos genómicos reales

los Neurospora El conjunto de datos consta de cuatro taxones (tres topologías posibles) y es el más simple de los dos conjuntos de datos reales analizados (Figura 3, A y B). Fue seleccionado para probar qué tan bien Twisst es capaz de detectar la señal de un evento de introgresión adaptativa previamente descrito de N. hispaniola dentro N. tetrasperma individuos del A tipo de apareamiento (Corcoran et al. 2016). Esta introgresión cubre toda la región de no recombinación (~ 7 Mb) del grupo de ligamiento I (LGI). De hecho, encontramos un cambio dramático en el patrón de ponderaciones de topología en la parte central de LGI (Figura 3C). La topología especie-árbol (topo1), que agrupa las dos N. tetrasperma tipos de apareamiento como parientes más cercanos, prevalece en la mayor parte del genoma, pero tiene muy poca ponderación en la parte central de LGI. En cambio, se reemplaza por topo3, que agrupa el tipo de apareamiento A individuos de N. tetrasperma con N. hispaniola. En otros lugares, topo3 tiene una ponderación limitada, casi idéntica a la de topo2, y coherente con un nivel bajo de ILS en todo el genoma. Sin embargo, una región del grupo de ligamiento IV también muestra un cambio débil en el apoyo hacia topo3, reflejando potencialmente una señal de introgresión separada que involucra un pequeño número de secuencias.

Neurospora análisis. (A) El árbol de especies putativas. Tenga en cuenta que el tipo de apareamiento a y A individuos de N. tetrasperma se muestran como ramas separadas, mientras que en realidad, aparte de la región no recombinante de LGI, estas muestras representan una única población recombinante. La supuesta introgresión de N. hispaniola dentro N. tetrasperma esterilla A individuos (Corcoran et al. 2016) se indica con una flecha. (B) Las tres topologías de taxón posibles para estos cuatro taxones. (C) Las ponderaciones de topología para 50 ventanas SNP representadas en los siete grupos de enlace, con suavizado de loess (intervalo = 500 kb). Los gráficos superior e inferior muestran los mismos datos, graficados como apilados o como líneas separadas, respectivamente.

los Heliconius El conjunto de datos representa un caso de prueba de cinco taxones más complejo. Los cinco taxones incluyen un grupo externo y dos pares de taxones simpátricos, no hermanas, entre los cuales se sabe que ocurre el flujo de genes (Figura 4A). De las 15 topologías posibles (Figura 4B), las dos más comunes en estos cromosomas son topo3 y topo6. topo3 es consistente con el orden de ramificación de especies aceptado, en el que el alopátrico H. c. chioneus y H. t. thelxinoe son taxones hermanos, mientras que topo6 agrupa las poblaciones por geografía, de acuerdo con el flujo de genes interespecíficos tanto en Panamá como en Perú. El primero es, con mucho, el más frecuente en todo el cromosoma Z (Figura 4C). Por el contrario, la topología de las especies tiene una ponderación variable en el cromosoma 18, y en algunos lugares las topologías compatibles con el flujo de genes (topo4, topo5, topo6, topo11 y topo14) la superan. En particular, hay un fuerte pico en la región de optix para topo11, que agrupa los taxones por patrón de ala, y es consistente con la introgresión adaptativa descrita anteriormente del alelo de banda roja entre H. m. amarilis y H. t. thelxinoe en Perú (Pardo-Diaz et al. 2012 El Consorcio Heliconius Genome 2012). Al acercarnos a este pico, se muestra un bloque claro de ∼150 kb sobre el cual la topología de introgresión está muy ponderada (Figura S15 en el Archivo S2). Este bloque incluye la región reguladora aguas abajo de optix que se sabe que controla la variación del patrón de las alas en estas especies (Baxter et al. 2010 Wallbank et al. 2016). Otras cuatro topologías que coinciden parcialmente con el orden de ramificación de especies (topo1, topo2, topo10 y topo15) tienen ponderaciones moderadas en todas partes, mientras que las topologías consistentes ni con el árbol de especies ni con el flujo de genes (topo7, topo8, topo9, topo12 y topo13) tienen bajas ponderaciones, especialmente en el cromosoma Z, lo que implica menos ILS que en el cromosoma 18.

Heliconius análisis. (A) El árbol de especies putativas. Las flechas sombreadas indican el flujo de genes en curso entre taxones simpátricos y no hermanos en Panamá y Perú, respectivamente (Martin et al. 2013). La flecha roja continua indica la supuesta introgresión adaptativa del alelo rojo del patrón del ala cerca del gen. optix (Pardo-Díaz et al. 2012 El Consorcio Heliconius Genome 2012). (B) Las 15 topologías de taxón posibles para estos cinco taxones. (C) Ponderaciones de topología para 50 ventanas SNP representadas en los cromosomas 18 y 21 (Z), con suavizado de loess (intervalo = 500 kb). Los gráficos superior e inferior muestran los mismos datos, graficados como apilados o como líneas separadas, respectivamente. La ubicación de optix en el cromosoma 18 se indica mediante una línea vertical discontinua.


Expresiones y firmas mutacionales

Las variaciones globales en los patrones mutacionales se pueden cuantificar mediante firmas mutacionales, que etiquetan procesos mutacionales específicos de su tejido de origen y exposiciones ambientales [19]. Sin embargo, la extracción de firmas mutacionales es un proceso intrínsecamente estadístico que requiere una anotación funcional posteriori. Realizamos un análisis de asociación pan-cáncer entre las firmas mutacionales de todo el genoma y los niveles de expresión génica para descifrar los procesos moleculares que acompañan a la presencia de firmas mutacionales.

Se consideraron 28 firmas mutacionales derivadas mediante la factorización matricial no negativa de frecuencias de mutación específicas del contexto 9. Probamos la asociación entre la prevalencia de firmas en los donantes y la expresión génica total, lo que representa la carga mutacional total, el tipo de cáncer y otros factores de confusión técnicos y biológicos. Esto identificó 1176 genes asociados con al menos una firma (FDR ≤ 10%) (Datos extendidos Fig. 10, Tabla complementaria 19).

Consideramos 18 firmas con 20 o más genes asociados para una mayor anotación (Datos extendidos, Fig. 11) y evaluamos el enriquecimiento utilizando las categorías GO 20 y las vías Reactome 21. Encontramos que 11 firmas se enriquecieron para al menos una categoría (FDR ≤ 10%) (Tabla complementaria 19), revelando asociaciones consistentes con etiologías conocidas y desconocidas (Fig. 1d). Por ejemplo, la firma 38, que se correlaciona con la firma UV canónica 7 (r 2 = 0.375, PAG = 5 × 10 −40) (Datos extendidos Fig. 11c), se relacionó con los procesos de melanina (Fig. 1d). La síntesis de melanina causa estrés oxidativo en los melanocitos 22, y encontramos la firma 38 asociada con el gen promotor del estrés oxidativo TYR 23 (PAG = 1,0 × 10 −4). Un sello distintivo de los 38 genes característicos son las mutaciones C & gtA, un producto típico de las especies reactivas de oxígeno 24. Esto sugiere que la firma 38 puede capturar el daño del ADN que es causado indirectamente por el daño oxidativo inducido por los rayos UV después de la exposición directa al sol 25, con TYR como posible mediador del efecto.


Contenido

La secuencia completa del genoma del VIH-1, extraída de viriones infecciosos, se ha resuelto con resolución de un solo nucleótido. [6] El genoma del VIH codifica una pequeña cantidad de proteínas virales, estableciendo invariablemente asociaciones cooperativas entre las proteínas del VIH y entre el VIH y las proteínas del huésped, para invadir las células del huésped y secuestrar sus mecanismos internos. [7] El VIH tiene una estructura diferente a la de otros retrovirus. El virión del VIH es

100 nm de diámetro. Su región más interna consiste en un núcleo en forma de cono que incluye dos copias del genoma del ssRNA (sentido positivo), las enzimas transcriptasa inversa, integrasa y proteasa, algunas proteínas menores y la proteína del núcleo principal. [8] El genoma del virus de la inmunodeficiencia humana (VIH) codifica 8 proteínas virales que desempeñan funciones esenciales durante el ciclo de vida del VIH. [7]

El VIH-1 está compuesto por dos copias de ARN monocatenario de sentido positivo, sin empalmar y no unido covalentemente encerrado por una cápside cónica compuesta por la proteína viral p24, típica de los lentivirus. [9] [10] Las dos copias de las cadenas de ARN son vitales para contribuir a la recombinación del VIH-1, que ocurre durante la transcripción inversa de la replicación viral. La contención de dos copias de ARN monocatenario dentro de un virión pero la producción de un solo provirus de ADN se denomina pseudodiploidía. [11] El componente de ARN tiene 9749 nucleótidos de longitud [12] [13] y tiene una tapa de 5 '(Gppp), una cola de poli (A) de 3' y muchos marcos de lectura abiertos (ORF). [14] Las proteínas estructurales virales están codificadas por ORF largos, mientras que los ORF más pequeños codifican reguladores del ciclo de vida viral: unión, fusión de membranas, replicación y ensamblaje. [14]

El ARN monocatenario está fuertemente unido a las proteínas de la nucleocápside p7, la proteína de ensamblaje tardío p6 y las enzimas esenciales para el desarrollo del virión, como la transcriptasa inversa y la integrasa. El ARNt de lisina es el cebador de la transcriptasa inversa dependiente de magnesio. [9] La nucleocápside se asocia con el ARN genómico (una molécula por hexámero) y protege al ARN de la digestión por las nucleasas.También encerrados dentro de la partícula de virión están Vif, Vpr, Nef y proteasa viral. [ cita necesaria ] La envoltura del virión está formada por una membrana plasmática de origen de la célula huésped, que está sostenida por una matriz compuesta por la proteína viral p17, lo que garantiza la integridad de la partícula del virión. En la superficie del virión se puede encontrar un número limitado de la glicoproteína de la envoltura (Env) del VIH, un trímero formado por heterodímeros de gp120 y gp41. Env es responsable de unirse a su receptor principal del huésped, CD4, y su correceptor (principalmente CCR5 o CXCR4), lo que lleva a la entrada viral en su célula diana. [15]

Como las únicas proteínas en la superficie del virus, las glicoproteínas de la envoltura (gp120 y gp41) son los principales objetivos de los esfuerzos de la vacuna contra el VIH. [16] Más de la mitad de la masa del pico de la envoltura trimérica son glucanos ligados a N. La densidad es alta ya que los glucanos protegen la proteína viral subyacente de la neutralización por anticuerpos. Esta es una de las moléculas más densamente glicosiladas conocidas y la densidad es suficientemente alta para evitar el proceso de maduración normal de los glicanos durante la biogénesis en el aparato endoplásmico y de Golgi. [17] [18] Por lo tanto, la mayoría de los glicanos se estancan como glicanos inmaduros con alto contenido de manosa que normalmente no están presentes en las glicoproteínas humanas secretadas o de la superficie celular. [19] El procesamiento inusual y la alta densidad significa que casi todos los anticuerpos ampliamente neutralizantes que se han identificado hasta ahora (de un subconjunto de pacientes que han estado infectados durante muchos meses o años) se unen o están adaptados para hacer frente a estos envoltorios. glucanos. [20]

La estructura molecular del pico viral se ha determinado ahora mediante cristalografía de rayos X [21] y microscopía crioelectrónica. [22] Estos avances en biología estructural fueron posibles gracias al desarrollo de formas recombinantes estables del pico viral mediante la introducción de un enlace disulfuro entre subunidades y una mutación de isoleucina a prolina en gp41. [23] Los denominados trímeros SOSIP no solo reproducen las propiedades antigénicas del pico viral nativo, sino que también muestran el mismo grado de glucanos inmaduros que se presentan en el virus nativo. [24] Los picos virales triméricos recombinantes son candidatos de vacuna prometedores, ya que muestran menos epítopos no neutralizantes que la gp120 monomérica recombinante, que actúa para suprimir la respuesta inmune a los epítopos diana. [25]

El VIH tiene varios genes principales que codifican proteínas estructurales que se encuentran en todos los retrovirus, así como varios genes no estructurales ("accesorios") exclusivos del VIH. [26] El genoma del VIH contiene nueve genes que codifican quince proteínas virales. [27] Estos se sintetizan como poliproteínas que producen proteínas para el interior del virión, llamadas Gag, antígeno específico de grupo, las enzimas virales (Pol, polimerasa) o las glicoproteínas del virión. env (sobre). [28] Además de estos, el VIH codifica proteínas que también tienen ciertas funciones reguladoras y auxiliares. [28] El VIH-1 tiene dos elementos reguladores importantes: Tat y Rev y pocas proteínas accesorias importantes como Nef, Vpr, Vif y Vpu que no son esenciales para la replicación en ciertos tejidos. [28] El mordaza gen proporciona la infraestructura física básica del virus, y pol proporciona el mecanismo básico por el cual los retrovirus se reproducen, mientras que los otros ayudan al VIH a entrar en la célula huésped y mejorar su reproducción. Aunque pueden estar alterados por mutación, todos estos genes excepto tev existen en todas las variantes conocidas del VIH, véase Variabilidad genética del VIH. [ cita necesaria ]

El VIH emplea un sofisticado sistema de empalme diferencial de ARN para obtener nueve productos génicos diferentes de un genoma de menos de 10 kb. [29] El VIH tiene una transcripción genómica no empalmada de 9.2 kb que codifica precursores de gag y pol, una codificación de 4.5 kb empalmada simple para env, Vif, Vpr y Vpu y un ARNm de 2 kb empalmado múltiple que codifica Tat, Rev y Nef. [29]

Proteínas codificadas por el genoma del VIH
Clase Nombre del gen Productos proteicos primarios Productos proteicos procesados
Proteínas estructurales virales mordaza Poliproteína mordaza MA, CA, SP1, NC, SP2, P6
pol Poliproteína pol RT, RNasa H, IN, PR
env gp160 gp120, gp41
Elementos regulatorios esenciales hacer encaje Hacer encaje
Rvdo Rvdo
Proteínas reguladoras accesorias nef Nef
vpr Vpr
vif Vif
vpu Vpu

Proteínas estructurales virales Editar

  • mordaza (antígeno específico de grupo) codifica la poliproteína gag precursora que es procesada por la proteasa viral durante la maduración a MA (proteína de matriz, p17) CA (proteína de la cápside, p24) SP1 (péptido espaciador 1, p2) NC (proteína de la nucleocápside, p7) SP2 (péptido espaciador 2, p1) y proteína P6. [30]
  • pol codifica para las enzimas virales transcriptasa inversa (RT) y RNasa H, integrasa (IN) y proteasa del VIH (PR). [28] Se requiere la proteasa del VIH para escindir la poliproteína Gag precursora para producir proteínas estructurales, se requiere RT para transcribir el ADN a partir de la plantilla de ARN y se requiere IN para integrar el ADN viral de doble hebra en el genoma del hospedador. [26]
  • env (para "envoltura") codifica la gp160, que es escindida por una proteasa del huésped, furina, dentro del retículo endoplásmico de la célula huésped. El procesamiento postraduccional produce una glicoproteína de superficie, gp120 o SU, que se adhiere a los receptores CD4 presentes en los linfocitos, y gp41 o TM, que se incrusta en la envoltura viral para permitir que el virus se adhiera y se fusione con las células diana. [26] [30]

Elementos regulatorios esenciales Editar

  • hacer encaje (Trans-activador del VIH) juega un papel importante en la regulación de la transcripción inversa del ARN del genoma viral, asegurando una síntesis eficiente de los ARNm virales y regulando la liberación de viriones de las células infectadas. [28] Tat se expresa como Tat de un exón de 72 aminoácidos, así como Tat de dos exones de 86-101 aminoácidos, y desempeña un papel importante en las primeras etapas de la infección por VIH. Tat (14-15 kDa) se une a la estructura secundaria de tallo-bucle de ARN genómico abultado cerca de la región 5 'LTR que forma el elemento de respuesta de transactivación (TAR). [9] [28]
  • Rvdo (regulador de la expresión de las proteínas del virión): la proteína Rev se une al genoma viral a través de un motivo de unión de ARN rico en arginina que también actúa como un NLS (señales de localización nuclear), necesario para el transporte de Rev al núcleo desde el citosol durante replica viral. [28] Rev reconoce una estructura compleja de tallo-bucle del ARNm env ubicado en el intrón que separa el exón codificante de Tat y Rev, conocido como el elemento de respuesta de VIH Rev (RRE). [9] [28] Rev es importante para la síntesis de las principales proteínas virales y, por lo tanto, es esencial para la replicación viral. [cita necesaria]

Proteínas reguladoras accesorias Editar

  • vpr (proteína lentivirus R): Vpr es una proteína reguladora de transporte nucleocitoplasmático asociada a viriones. [28] Se cree que juega un papel importante en la replicación del virus, específicamente, la importación nuclear del complejo de preintegración. Vpr también parece hacer que sus células huésped detengan su ciclo celular en la fase G2. Esta detención activa la maquinaria de reparación del ADN del huésped que puede permitir la integración del ADN viral. [9] El VIH-2 y el VIS codifican una proteína adicional relacionada con Vpr llamada Vpx que funciona en asociación con Vpr. [28]
  • vif - Vif es una fosfoproteína de 23 kDa altamente conservada importante para la infectividad de los viriones del VIH-1 dependiendo del tipo de célula. [9] Se ha descubierto que el VIH-1 requiere que Vif sintetice virus infecciosos en linfocitos, macrófagos y ciertas líneas celulares humanas. No parece requerir Vif para el mismo proceso en células HeLa o células COS, entre otras. [28]
  • nef- Nef, factor negativo, es una fosfoproteína asociada a membrana miristoilada N-terminal. Participa en múltiples funciones durante el ciclo de replicación del virus. Se cree que juega un papel importante en la apoptosis celular y aumenta la infectividad del virus. [28]
  • vpu (Proteína V del virus): la Vpu es específica del VIH-1. Es una fosfoproteína de membrana integral oligomérica de clase I con numerosas funciones biológicas. Vpu está involucrado en la degradación de CD4 que involucra la vía del proteasoma de ubiquitina, así como en la liberación exitosa de viriones de las células infectadas. [9] [28]
  • tev: Este gen solo está presente en unos pocos aislados de VIH-1. Es una fusión de partes del hacer encaje, env, y Rvdo genes y códigos para una proteína con algunas de las propiedades de tat, pero pocas o ninguna de las propiedades de rev. [31]

Se han identificado varios elementos de estructura secundaria conservados dentro del genoma del ARN del VIH. La estructura 5'UTR consta de una serie de estructuras de bucle de vástago conectadas por pequeños enlazadores. [10] Estos bucles madre (5 'a 3') incluyen el elemento de la región de transactivación (TAR), la señal de poliadenilación 5 '[poli (A)], el PBS, el DIS, el SD principal y la horquilla ψ estructura ubicada dentro del extremo 5 'del genoma y el elemento de respuesta Rev VIH (RRE) dentro del gen env. [10] [32] [33] Otra estructura de ARN que se ha identificado es el bucle 3 del tallo gag (GSL3), que se cree que está involucrado en el empaquetamiento viral. [34] [35] Se ha propuesto que las estructuras secundarias de ARN afectan el ciclo de vida del VIH al alterar la función de la proteasa del VIH y la transcriptasa inversa, aunque no se ha asignado una función a todos los elementos identificados. [ cita necesaria ]

Se ha demostrado que una estructura secundaria de ARN determinada por análisis SHAPE contiene tres bucles de tallo y está ubicada entre los genes de la proteasa del VIH y la transcriptasa inversa. Esta cis Se ha demostrado que el ARN regulador se conserva en toda la familia del VIH y se cree que influye en el ciclo de vida viral. [36]

los tercer ciclo variable o Lazo V3 es una parte o región del virus de inmunodeficiencia humana. los Lazo V3 de la glicoproteína de la envoltura de viron, gp120, le permite infectar células inmunitarias humanas al unirse a un receptor de citocina en la célula inmunitaria humana diana, como una célula CCR5 o una célula CXCR4, dependiendo de la cepa del VIH. [37] La ​​glicoproteína de la envoltura (Env) gp 120/41 es esencial para la entrada del VIH-1 en las células. Env sirve como un objetivo molecular de un medicamento que trata a personas con infección por VIH-1 y una fuente de inmunógeno para desarrollar la vacuna contra el SIDA. Sin embargo, la estructura del trímero Env funcional sigue siendo difícil de alcanzar. [38]


Fondo

Todos los procesos basados ​​en plantillas de ADN que ocurren en células eucariotas lo hacen en el contexto de la cromatina. La cromatina se compone de una serie de nucleosomas que consta de 147 pares de bases de ADN de doble hebra envuelto alrededor de un octamer de proteínas histonas (Kornberg y Lorch 1999). La cromatina está altamente regulada para facilitar el funcionamiento adecuado de los procesos basados ​​en plantillas de ADN en los niveles de nucleosomas individuales, accesibilidad del ADN y estructuras de orden superior, todos los cuales están regulados por factores que interactúan con la cromatina. Estos factores que interactúan con la cromatina se dirigen a regiones del genoma como causa y consecuencia de la arquitectura de la cromatina local, creando patrones discretos de localización de factores. Lo que surge es un sistema complejo de reciprocidad en el que los factores reguladores de la cromatina afectan la arquitectura del nucleosoma, lo que a su vez afecta la unión de nuevos factores reguladores. Con la interacción dinámica entre estos procesos, se necesitan diversos métodos para examinar la arquitectura del nucleosoma y la unión del factor regulador.

Los elementos reguladores dentro de una célula se encuentran principalmente en regiones abiertas o accesibles del genoma. Por lo tanto, la identificación de elementos reguladores específicos de la célula se logra principalmente a través de ensayos de accesibilidad. La detección de cromatina abierta también puede identificar sitios de unión para proteínas que interactúan con la cromatina. En esta revisión, primero discutiremos las técnicas en el campo de la biología de la cromatina para examinar la accesibilidad de la cromatina, incluida la digestión con DNasa I y la secuenciación profunda (DNasa-seq) (Crawford et al. 2006a, b Sabo et al. 2006 Song y Crawford 2010 ), aislamiento asistido por formaldehído de elementos reguladores (FAIRE-seq) (Giresi et al.2007 Simon et al.2012), digestión con nucleasa microcócica (MNasa) seguida de secuenciación profunda (MNase-seq (Cui y Zhao 2012a Henikoff et al. 2011 Mieczkowski et al.2016 Ramani et al.2019), y un ensayo de accesibilidad de transposasas (ATAC-seq (Buenrostro et al.2013, 2015 Chen et al.2016 Corces et al.2017) Fig.1) .Estas técnicas proporcionan contexto importante para la regulación de genes, especialmente con respecto a la ocupación y posicionamiento de nucleosomas.

Métodos para mapear la accesibilidad del genoma. A DNase-seq identifica regiones abiertas de cromatina. DNasa-seq se basa en la digestión preferencial de regiones de cromatina que no están protegidas por proteínas unidas, dejando atrás regiones accesibles que se conocen como sitios hipersensibles a DNasa I (DHS). B FAIRE-seq depende de la reticulación de las proteínas que interactúan con la cromatina con el ADN utilizando formaldehído. Luego se corta la cromatina y las regiones que no están unidas por proteínas (p. Ej., Histonas) permanecen en la capa acuosa de una extracción con fenol-cloroformo, mientras que el ADN reticulado permanece en la capa orgánica. C MNase-seq perfila la ocupación y el posicionamiento de los nucleosomas. Después de la reticulación con formaldehído, la MNasa añadida digiere el ADN que no está protegido por las proteínas unidas, lo que permite inferir una mayor accesibilidad mediante una menor presencia en la biblioteca de secuenciación. D. ATAC-seq se basa en la transposasa hiperactiva Tn5 para insertar adaptadores de secuenciación en regiones accesibles del genoma. Después de la transposición, el ADN genómico puede aislarse y amplificarse mediante PCR y luego someterse a una secuenciación profunda. Figura creada con Biorender.com

Es importante destacar que la ubicación genómica de los factores o las proteínas histonas no se puede predecir en los tipos de células mediante la secuencia de ADN o la accesibilidad únicamente. Por lo tanto, se utilizan tecnologías de perfiles de proteínas individuales para identificar las características específicas de la célula de la unión funcional. Discutiremos las técnicas para determinar la unión del factor y la localización en la cromatina, incluida la inmunoprecipitación de cromatina (ChIP) (Albert et al.2007 Furey 2012 Gilmour y Lis 1984 Gilmour et al.1991 O'Neill 2003 Solomon y Varshavsky 1985), ADN adenina metiltransferasa identificación (DamID (Greil et al.2006 van Steensel y Henikoff 2000), y técnicas derivadas de inmunoescisión de cromatina (ChIC / CUT & ampRUN (Schmid et al.2004 Skene y Henikoff 2017) Fig.2).

Métodos para perfilar la localización de proteínas en cromatina. A DamID explota el E. coli ADN adenina metiltransferasa (Dam) fusionándola con un factor de interés y transfectando ese plásmido en una célula. Esta construcción metila las adeninas ubicadas cerca de los sitios de unión del factor. Luego, el ADN genómico se puede aislar y digerir con DpnI, que se escinde específicamente en la secuencia G m ATC. Luego, una porción del ADN digerido se digiere con DpnII, que escinde GATC sin metilar para identificar posibles sitios metilados fuera del rango de Dam. Las bibliotecas en paralelo se crean y se someten a una secuenciación profunda. B ChIP-seq es una tecnología basada en anticuerpos que comienza con el entrecruzamiento de factores con el ADN, seguido de cizallamiento de cromatina y extracción de anticuerpos para el factor de interés en perlas magnéticas o de agarosa. A continuación, se invierten los enlaces cruzados y se aísla el ADN para una secuenciación profunda. C CUT & ampRUN utiliza una construcción de fusión de proteína A-MNasa recombinante (pA-MNasa) para unirse a un anticuerpo primario que reconoce el factor de interés y escinde específicamente el ADN en los sitios de unión del factor, creando así pequeños fragmentos que pueden aislarse de los núcleos y usarse como una plantilla para la construcción de bibliotecas y la secuenciación profunda. CUT & ampRUN ofrece una resolución de par casi base y se puede llevar a cabo en condiciones nativas (es decir, sin entrecruzamiento) debido a su alta relación señal / ruido de secuenciación. Figura creada con Biorender.com

Juntas, las tecnologías de elaboración de perfiles de cromatina que evalúan la accesibilidad o la localización se han perfeccionado con una precisión cada vez mayor para mejorar la señal objetivo sobre el fondo y reducir la entrada de células necesaria en los últimos años, a menudo alcanzando su punto máximo con el desarrollo de adaptaciones unicelulares de las técnicas. Aquí, revisamos el desarrollo tecnológico, los métodos, las ventajas y desventajas, y la optimización para aplicaciones de baja celda.

Sección 1: Métodos para examinar la accesibilidad del ADN y el estado de la cromatina

El ADN eucariota se compacta en el núcleo a través de interacciones entre el ADN y las proteínas histonas para formar cromatina (Lammerding 2011). Generalmente, la unidad de repetición básica de la cromatina, el nucleosoma, representa un obstáculo significativo para los procesos basados ​​en plantillas de ADN, ya que los factores no pueden ocupar regiones en el ADN que están ocluidas por proteínas histonas (Beato y Eisfeld 1997 Felsenfeld 1992 Wallrath et al. 1994) . Sin embargo, las regiones de cromatina abierta son accesibles a las proteínas de unión al ADN y a menudo se encuentran en las regiones reguladoras del genoma (Song y Crawford 2010 Thurman et al. 2012). Por lo tanto, la identificación de regiones del genoma que son accesibles a proteínas que no son histonas proporciona información importante para las regiones reguladoras genómicas putativas, como potenciadores, promotores y aislantes, así como también describe la estructura del nucleosoma de regiones reguladoras conocidas del genoma (Thurman et al. 2012).

Los métodos genómicos utilizados para examinar la accesibilidad a la cromatina se han basado tradicionalmente en la digestión enzimática preferencial o la modificación del ADN accesible al ADN que está protegido por proteínas histonas unidas o factores de transcripción (Fig. 1). Muchas técnicas de accesibilidad genómica (p. Ej., DNasa-seq y MNase-seq) han evolucionado a partir de experimentos de huella de nucleasas utilizados durante mucho tiempo (Cappabianca et al. 1999 Dingwall et al. 1981 Galas y Schmitz 1978), aprovechando los desarrollos de secuenciación de próxima generación para evaluar la arquitectura del nucleosoma de todo el genoma en lugar de la huella específica del locus (Crawford et al. 2006b Schones et al. 2008). Las técnicas que han surgido son numerosas, potentes y capaces de proporcionar datos de alta resolución que describen la accesibilidad de la cromatina. Para ver una línea bioinformática general de cómo evaluar estos conjuntos de datos, consulte la Fig. 3. Aunque muchas de las enzimas utilizadas para perfilar la accesibilidad tienen ligeros sesgos, los retratos de la arquitectura del genoma que surgen son generalmente consistentes cuando se comparan entre sí.

Una tubería bioinformática general para analizar conjuntos de datos de accesibilidad o perfiles de todo el genoma. Aunque los análisis varían según la técnica utilizada para minimizar los sesgos, hemos presentado una línea general para analizar los conjuntos de datos generados por NGS. Siguiendo la información de control de calidad relevante (Andrews 2010), todos los experimentos de secuenciación implican mapear el genoma de interés, generar archivos que contienen la secuencia, información de alineación e información de calidad, conocidos como archivos .sam (o, cuando se comprimen, archivos .bam Langmead et al.2009 Langmead y Saltzburg 2012 Li y Durbin 2009). Estos archivos alineados se filtran y se utilizan en análisis posteriores para estudiar la ocupación y el posicionamiento de nucleosomas y factores; se crean clases de tamaño para dividir las regiones inaccesibles por los factores que bloquean su disponibilidad (Li, Handsaker et al. 2009 Schep et al. 2015). A partir de los archivos .bam de accesibilidad divididos por tamaño y los archivos .bam de localización filtrados por calidad, los picos se pueden llamar por encima de la puntuación de fondo local y / o compararse con un archivo de entrada (Heinz et al.2010 Meers, Tenenbaum y Henikoff, 2019 Zhang et al.2008). A partir de los picos de los factores, se pueden llamar motivos para determinar qué factores se unen con mayor probabilidad a estas ubicaciones.Los datos genómicos generalmente se ven en forma de mapas de calor o metatramas (Heinz et al.2010 Ramírez et al.2016). Figura creada con Biorender.com

DNasa-seq

DNasa-seq es un método utilizado para examinar la accesibilidad de la cromatina con la ADN endonucleasa DNasa I no específica, que degrada preferentemente el ADN desprotegido por proteínas unidas (por ejemplo, proteínas histonas Fig. 1A). Antes de la DNasa-seq, la DNasa I se había utilizado para la toma de huellas, en la que se corría un gel después del tratamiento con DNasa, tanto en presencia como en ausencia de la proteína de interés, se infería que las regiones en blanco del gel estaban protegidas y / o inaccesibles. regiones, mientras que las regiones más empobrecidas o accesibles en nucleosomas estarían marcadas por una mayor presencia de sitios de escisión en un gel (Cappabianca et al. 1999 Dingwall et al. 1981 Galas y Schmitz 1978). El grupo de Francis Collins aplicó por primera vez la huella de ADNasa I en todo el genoma en 2006, utilizando chips de microarrays (chip de ADNasa) y secuenciación de Sanger masivamente paralela (Crawford et al. 2006a, b Sabo et al. 2006). En 2008, el grupo de Gregory Crawford desarrolló aún más esta tecnología a través de la combinación con la secuenciación de próxima generación (Boyle et al. 2008) con mayor éxito que los experimentos previos de DNase-chip y DNase-seq debido a la mayor resolución y calidad ofrecida sobre la tecnología de microarrays. DNasa-seq es aplicable a toda la cromatina eucariota, incluida la de los sistemas de laboratorio comunes de plantas, levaduras, nematodos, moscas y células de mamíferos.

La secuencia de ADNasa se realiza aislando núcleos de células, sometiendo los núcleos a la digestión general del ADN por la ADNasa I, degradando el ARN y las proteínas usando ARNasas y proteinasa K, respectivamente, purificando el ADN usando una extracción con fenol-cloroformo y precipitación con etanol, y extracción en gel. fragmentos de tamaños correspondientes a la clase deseada de factores (típicamente 50-100 pb para factores de transcripción y 130-160 pb para nucleosomas (He et al. 2014). Luego, el ADN purificado y seleccionado por tamaño se usa como plantilla para la construcción de bibliotecas. Las regiones identificadas con menor frecuencia en la secuenciación de bibliotecas de ADNasa-seq han sido degradadas con mayor frecuencia por DNasa I y se infiere que son las más accesibles.

Existe un sesgo intrínseco para que la DNasa I degrade el ADN de manera diferente según la secuencia, y se ha sugerido que este efecto está relacionado con el ancho del surco menor (Lazarovici et al. 2013). Esta limitación debe tenerse en cuenta al preparar un experimento de ADNasa-seq (He et al. 2014). Para los factores que son difíciles de perfilar por DNasa-seq, una modificación reciente ha incorporado el uso de entrecruzamiento de formaldehído al 0,1% para ayudar en la identificación, denominado XL-DNase-seq (Oh et al. 2019). Otra modificación de DNasa-seq, DNase-seq de una sola célula (scDNase-seq) ha aplicado DNasa-seq a células individuales y muestras de tejido primario de bajo consumo (Jin et al. 2015). Si bien es similar a la DNasa-seq tradicional, la scDNase-seq se ha optimizado aún más, aplicando las siguientes alteraciones: inclusión de ADN portador bacteriano, falta de aislamiento nuclear, digestión optimizada de DNasa I, falta de separación en gel de agarosa y condiciones de PCR alteradas. Estas optimizaciones están diseñadas para minimizar la pérdida de muestras y facilitar la amplificación de pequeños fragmentos de ADN (Cooper et al. 2017).

DNase-seq ha tenido una gran influencia en la identificación de regiones reguladoras putativas del genoma. Las regiones que rara vez aparecen en las bibliotecas de ADNasa-seq, conocidas como sitios hipersensibles a la ADNasa I (DHS), se utilizan a menudo como un proxy para las regiones reguladoras activas, tales como potenciadores y promotores. Los intentos de identificar estas DHS han dado como resultado artículos muy influyentes que cubren casi todas las regiones reguladoras cis conocidas, incluidas más de 2,9 millones de DHS (Thurman et al. 2012) y más de 45 millones de eventos de ocupación de factores de transcripción (Neph et al. 2012). Además, DNase-seq se ha convertido en una herramienta valiosa para investigar las diferencias específicas del tejido epigenético y el tipo de célula, en gran parte gracias a los esfuerzos del proyecto ENCODE y el Roadmap Epigenomic Consortium (Consortium 2012 Maurano et al. 2015 Roadmap Epigenomics et al. 2015) .

FAIRE-seq

Como alternativa a DNasa-seq para identificar regiones accesibles en todo el genoma, en 2007 se desarrolló el aislamiento de elementos reguladores asistido por formaldehído (FAIRE). En lugar de digerir el ADN desprotegido, FAIRE se basa en la reticulación de las histonas con el ADN, mientras que el ADN no unido se infiere ser accesible (Fig. 1B). FAIRE se desarrolló por primera vez para su uso con microarrays de ADN (Giresi et al. 2007), pero pronto se combinó con tecnologías de secuenciación de próxima generación (Gaulton et al. 2010). Similar a DNasa-seq, FAIRE-seq puede usarse para examinar regiones reguladoras (incluyendo TSS, promotores y potenciadores), también conocidas como DHS. FAIRE-seq ha sido validado en células de plantas, levaduras, nematodos, moscas, ratones y humanos.

Un experimento típico de FAIRE-seq implica la reticulación de formaldehído, siendo los objetivos de reticulación más abundantes las proteínas histonas (Rodríguez-Gil et al.2018 Simon et al.2012). Luego, la cromatina reticulada se cizalla mediante sonicación a aproximadamente 200-300 pb de tamaño y el ADN se aísla mediante una extracción con fenol-cloroformo, en la que el ADN altamente reticulado permanece en la fase orgánica y el ADN no reticulado se tira a la fase acuosa. A continuación, se puede amplificar y secuenciar el ADN no reticulado de la fase acuosa. Las lecturas enriquecidas en el grupo de secuenciación tienden a tener un nucleosoma y un factor de unión más bajos y, por lo tanto, se infiere que provienen de regiones accesibles.

Una desventaja clave de los experimentos FAIRE-seq es que, si bien son informativos para la arquitectura de cromatina basada en histonas, las regiones reguladoras que están unidas por factores de transcripción o transcritas activamente también pueden reticularse. Por lo tanto, la técnica se basa en la presencia de una población mixta para un perfil de accesibilidad preciso y, en consecuencia, tiene una resolución más baja que las otras técnicas descritas en esta revisión. Como resultado, menos grupos de investigación han empleado esta tecnología; sin embargo, FAIRE-seq se ha utilizado para identificar regiones reguladoras que impulsan el desarrollo de tumores (Davie et al.2015), para diferenciar entre células en estado fundamental y células pluripotentes cebadas (Murtha et al. 2015), y, de manera similar, a los esfuerzos de DNase-seq de ENCODE y Roadmap Epigenomic Consortium, para mapear globalmente regiones reguladoras accesibles de cromatina (Bianco et al. 2015).

MNase-seq

MNase-seq es un método para analizar el posicionamiento y la ocupación del nucleosoma en todo el genoma (Fig. 1C). La nucleasa microcócica (MNasa) es una enzima aislada de Staphylococcus aureus que muestra actividad endo y exonucleasa para digerir el ADN libre (Axel 1975 Dingwall et al. 1981). Similar a la DNasa I, la MNasa se utilizó en experimentos de huellas de ADN para examinar la accesibilidad del ADN antes de la invención de tecnologías de secuenciación de próxima generación (Cappabianca et al. 1999 Dingwall et al. 1981). Los grupos de Ollie Rando, Corey Nislow y Frank Pugh, entre otros, utilizaron matrices de mosaico MNase (MNase-chip) para identificar el posicionamiento de nucleosomas en alta resolución antes del advenimiento de la secuenciación profunda (Lee et al.2007 Mavrich et al.2008 Yuan et al.2005). Al igual que con otras técnicas, la creación de perfiles de MNase pronto se combinó con tecnologías de secuenciación de próxima generación (Schones et al. 2008). Se ha utilizado MNase-seq para mapear la arquitectura de nucleosomas en eucariotas, desde plantas hasta levaduras y humanos.

Un experimento de MNasa-seq comienza con un paso de reticulación de formaldehído in vivo que está diseñado para capturar la interacción entre proteínas y ADN. Esta reticulación permite que las proteínas unidas protejan su ADN asociado de la digestión por MNasa. Después de la reticulación, las células se lisan y se digieren con MNasa, que se activa específicamente mediante la adición de Ca 2+ al tampón de lisis. Esta digestión se detiene al quelar la reacción, momento en el que las muestras se tratan con RNasa, se invierten los enlaces cruzados y se digieren las proteínas de la cromatina. Luego, el ADN se aísla mediante una extracción con fenol-cloroformo y se examina en un gel de agarosa para asegurar una digestión adecuada del ADN sin degradación. Como las proteínas en contacto con el ADN más abundantes son las histonas, este gel normalmente mostrará una escala periódica cada 147 pares de bases, que representan mono, di y trinucleosomas, etc.

Los protocolos tradicionales de MNase-seq recomiendan la escisión de la banda de mononucleosoma para enriquecer estos fragmentos de ADN protegidos (Cui y Zhao 2012b Rando 2010 Zhang y Pugh 2011); sin embargo, también es posible realizar una secuenciación profunda en la totalidad de una MNasa digerida. muestra (Henikoff et al. 2011). Los fragmentos que quedan después de la escisión de MNasa se protegieron de la digestión y, por lo tanto, se infiere que se unieron a proteínas. La secuenciación del ADN protegido por todas las proteínas entrecruzadas puede proporcionar una huella adicional correspondiente tanto a proteínas pequeñas (& lt 80 pb protegidas de la digestión, por ejemplo, factores de transcripción) como a las matrices de nucleosomas tradicionales (Hainer y Fazzio 2015 Henikoff et al. 2011).

Es importante destacar que MNase muestra diferentes cinéticas de digestión basadas en la cantidad de enzima utilizada para digerir una población de células (Mieczkowski et al.2016) además, en el caso de algunos loci genómicos (como nucleosomas frágiles), los perfiles de digestión alta y baja pueden proporcionan información drásticamente diferente (Chereji et al.2017 Mieczkowski et al.2016 Weiner et al.2010). Por lo tanto, es crucial realizar experimentos de MNasa-seq en una población uniforme con repeticiones sin MNasa, baja MNasa y alta MNasa. Mientras que MNase-seq tradicionalmente ha estado limitado por la entrada celular disponible, recientemente se ha publicado MNase-seq de una sola célula (Lai et al. 2018).

La MNasa tiene una preferencia bien documentada por la escisión de ADN desnudo rico en AT (Chung et al. 2010); sin embargo, esta preferencia de secuencia es mínima en comparación con la preferencia debido a la accesibilidad de la cromatina (Allan et al. 2012). No obstante, existen técnicas que pueden minimizar el sesgo debido a la preferencia de MNasa. El laboratorio de Jay Shendure ha publicado un protocolo alternativo de creación de bibliotecas monocatenarias para MNase-seq, conocido como MNase-SSP que muestra un sesgo de secuencia bajo y se enriquece para fragmentos más cortos que el MNase-seq tradicional, lo que permite un perfil sólido de factores de transcripción (Ramani et al. al.2019). Además, se han desarrollado algunas alternativas estrechamente relacionadas que utilizan la escisión química del ADN, en lugar de la digestión enzimática. MPE-seq, desarrollado por el grupo de Bing Ren, usa metidiumpropil-EDTA-Fe (II) (MPE) para escindir preferentemente el ADN enlazador entre histonas (Ishii et al. 2015). El grupo de Steve Henikoff también ha desarrollado una técnica de escisión química del ADN, utilizando una mutación en H4 (S47C) para crear una nucleasa específica del sitio mediante la quelación del cobre mediada por fenantrolina, que escinde localmente el ADN en el eje de la díada en presencia de peróxido (Chereji et al.2018).

Se ha utilizado MNase-seq para perfilar la ocupación de nucleosomas y los cambios de posición en las regiones reguladoras como resultado de la diferenciación celular, destacando los cambios clave en los potenciadores de células madre embrionarias (West et al. 2014). Además, MNase-seq incluso se puede utilizar para perfilar el posicionamiento Pol II en pausa, una tendencia que ha sido confirmada por el paralelo Pol II ChIP-seq (Teves y Henikoff 2011). Curiosamente, el perfil de MNase-seq se puede usar para predecir de manera confiable las interacciones del genoma 3D y las estructuras de cromatina de orden superior (Schwartz et al.2019 Zhang et al.2017). Debido a su capacidad para capturar interacciones transitorias mediante reticulación, MNase-seq es una de las técnicas de creación de perfiles de accesibilidad de cromatina más versátiles.

ATAC-seq

El ensayo de accesibilidad de transposasas y secuenciación profunda (ATAC-seq) es una tecnología adicional para evaluar la cromatina accesible. ATAC-seq implica el uso de una transposasa Tn5 hiperactiva para insertar adaptadores de secuenciación en regiones abiertas de cromatina para luego secuenciar esas regiones a través de la secuenciación de próxima generación (Buenrostro et al. 2013) Fig. 1D). A diferencia de otras técnicas de elaboración de perfiles de accesibilidad, ATAC-seq se desarrolló recientemente (Buenrostro et al. 2013), aunque se ha adaptado para su uso en un solo locus (ATAC-qPCR (Yost et al. 2018). Una técnica relativamente nueva, la enzima utilizada, la transposasa Tn5, fue una de las primeras transposasas identificadas y se ha utilizado para experimentos de transposición in vitro durante más de 20 años (Goryshin y Reznikoff 1998 Naumann y Reznikoff 2002 Reznikoff 2003 Reznikoff 2008). Tn5 opera mediante un mecanismo de "cortar y pegar" mediado por ADN, en el que la transposasa escinde un segmento de ADN, se une a un sitio de ADN diana, induce una ruptura de doble hebra e inserta el transposón en el nuevo locus (Ivics et al. 2009). En ATAC-seq, Tn5 se carga con un transposón diseñado para agregar adaptadores de secuenciación en el punto de inserción, formando un transposoma funcional. ATAC-seq se ha utilizado para mapear la cromatina abierta en levaduras, plantas, nematodos, moscas, mamíferos, e incluso tejidos congelados (Corces et al. 2017).

ATAC-seq se realiza en dos o tres pasos básicos que consisten en lisis celular y pasos de transposición de ADN y extracción y amplificación de ADN (Buenrostro et al. 2013). Se han desarrollado varios protocolos ATAC-seq, incluido el ATAC-seq original (Buenrostro et al.2013), FAST-ATAC-seq, que fue diseñado para células sanguíneas (Corces et al.2016), y Omni-ATAC-seq (Corces et al.2017), que difieren en gran medida en los detergentes utilizados en la lisis celular. Debido a que ATAC-seq se basa en la inserción de ADN accesible, en lugar de la digestión de ADN protegido, la técnica tiende a secuenciar la contaminación por ADN mitocondrial. Debido a esta prevalencia, se han desarrollado métodos para reducir las lecturas mitocondriales en ATAC-seq (Corces et al.2017 Montefiori et al.2017 Rickner et al.2019).

ATAC-seq se ha utilizado con éxito para evaluar la accesibilidad de la cromatina en células individuales (Buenrostro et al.2015 Mulqueen et al.2019) y de tejido congelado (Corces et al.2017), y por lo tanto la técnica es una herramienta valiosa para confrontar núcleos cuestiones genómicas de heterogeneidad celular y baja disponibilidad de muestras. De hecho, el grupo de Jay Shendure ha publicado 85 patrones de accesibilidad de cromatina diferentes (en gran parte específicos del tipo de célula) basados ​​en ATAC-seq indexados de una sola célula en varios tejidos de ratón (Cusanovich et al. 2018). Además, los grupos de Howard Chang y William Greenleaf han publicado estudios de accesibilidad en una letanía de cánceres humanos primarios utilizando ATAC-seq (Corces et al. 2018). El ATAC se ha emparejado además con la visualización y la citometría de flujo (ATAC-see) para permitir la obtención de imágenes directas, la cuantificación y la clasificación celular como resultado de la accesibilidad del genoma (Chen et al. 2016).

Resumen

Las técnicas utilizadas para medir la accesibilidad a la cromatina se basan en dos principios básicos: primero, que las proteínas pueden proteger al ADN de la digestión y, segundo, que las proteínas histonas son las proteínas más importantes que interactúan con el ADN. DNase-seq, MNase-seq y ATAC-seq se basan fundamentalmente en el primer principio, mientras que FAIRE-seq y MNase-seq se basan más en el segundo principio; sin embargo, ambos principios son importantes para los patrones discretos de accesibilidad descubiertos por cada técnica. Las técnicas antes mencionadas proporcionan instantáneas distintas, aunque consistentes, del posicionamiento del nucleosoma y la accesibilidad de la cromatina, y cada técnica tiene ventajas y desventajas particulares (Tabla 1). Estas tecnologías han iluminado y verificado el estado accesible del genoma mediante enfoques ortogonales y han llevado a la identificación de aproximadamente 3 millones de regiones reguladoras putativas del genoma humano (Thurman et al. 2012).

Paralelamente al mapeo de regiones del genoma generalmente accesibles, la investigación de los factores que interactúan con la cromatina y regulan estas regiones accesibles a través del perfil de localización de proteínas específicas de factores es igualmente importante para comprender los principios básicos de la arquitectura del genoma.

Sección 2: Métodos de elaboración de perfiles de localización de proteínas en cromatina

Dependiendo de sus roles específicos dentro del núcleo, las proteínas que interactúan con la cromatina muestran patrones característicos de localización genómica. Al identificar las regiones genómicas en las que se encuentran las proteínas, es posible identificar roles funcionales, motivos importantes para la unión y redes reguladoras de procesos basados ​​en plantillas de ADN in vivo. Al igual que los métodos para medir la accesibilidad del ADN, existen numerosos enfoques para identificar los sitios de unión genómica de las proteínas que interactúan con la cromatina que han ganado popularidad en los últimos años (Fig.2), cada uno de los cuales tiene ventajas y desventajas (Tabla 1). En términos generales, los métodos de elaboración de perfiles deben equilibrar la resolución de la identificación del sitio de unión con la muestra necesaria para realizar el experimento. Algunos métodos, como ChIP-exo (Rhee y Pugh 2012), priorizan la resolución de pares de bases, a expensas de una mayor entrada de muestra necesaria, otros, como DamID (van Steensel y Henikoff 2000), proporcionan datos de interacción robustos sin las limitaciones de entrada de mayores -Técnicas de resolución. Más recientemente, han surgido técnicas derivadas del método de inmunoescisión de cromatina (ChIC) (Schmid et al. 2004) y son capaces de proporcionar identificación de alta resolución de sitios de unión incluso con muestras de entrada ultrabaja. Para obtener una información bioinformática general sobre cómo identificar estos sitios de unión genómica, consulte la Fig.3.

ChIP-seq

La técnica más comúnmente utilizada para evaluar la localización de proteínas de unión a cromatina, la inmunoprecipitación de cromatina (ChIP) (Fig. 2A), se desarrolló para su uso en un solo locus utilizando marcaje de ADN radiactivo por Gilmour y Lis (1984) y reticulación de formaldehído y gel. imágenes basadas en imágenes de Solomon y Varshavsky (1985). Esta técnica se ha utilizado durante muchos años antes de ser adaptada para la secuenciación profunda después de la construcción de la biblioteca para examinar la identificación genómica del sitio de unión de una proteína que interactúa con la cromatina (Albert et al. 2007). Basado en los experimentos iniciales de radiomarcaje, ChIP-chip, una técnica en la que el ADN de ChIP se hibrida con microarrays de ADN contra varios loci genómicos, se desarrolló en 2000 como la primera aplicación genómica amplia de ChIP (Ren et al. 2000). ChIP se combinó con PCR cuantitativa (ChIP-qPCR) como una forma de examinar la ocupación de proteínas en múltiples ubicaciones de una manera cuantitativa que era más específica que el chip ChIP, pero menos restrictiva que el ChIP radiomarcado de un solo locus (Irvine et al.2002) . ChIP-seq perfila sólidamente las interacciones proteína-ADN en todas las especies eucariotas.

Un experimento de ChIP normalmente comienza con una incubación con formaldehído diseñada para reticular las lisinas de las proteínas que interactúan con el ADN local. A continuación, las células se lisan para liberar cromatina reticulada y se someten a sonicación imparcial para cortar la cromatina en segmentos cortos (típicamente entre 100 y 400 pares de bases). La cromatina cizallada se incuba luego con un anticuerpo que se dirige a la proteína de interés seguido de la adición de un anticuerpo de reconocimiento de IgG secundario que normalmente se acopla a sefarosa o perlas magnéticas. Tras el reconocimiento del epítopo, la región de interacción del ADN es arrastrada hacia abajo con la proteína a la que está reticulada, aislando así específicamente las regiones de ADN en las que la proteína se reticula (y con las que la proteína está necesariamente en estrecha proximidad, aproximadamente 2 Å ( Perez-Romero e Imperiale 2007) Luego se invierten los enlaces cruzados, se digiere la proteína y se aísla el ADN para usarlo como plantilla para qPCR específico de locus o para procesarlo en un gel.

ChIP-seq se ha combinado con varias técnicas para proporcionar una mayor resolución, incluida la digestión con exonucleasa lambda (ChIP-exo y ChIP-nexus (He et al.2015 Rhee y Pugh 2012), reticulación UV (UV-ChIP (Gilmour et al. 1991) y la digestión de MNasa (Native ChIP (O'Neill 2003). ChIP-exo y ChIP-nexus son dos técnicas que utilizan la digestión de nucleasas para mejorar la resolución de ChIP-seq a un nivel cercano al par de bases. ChIP-exo utiliza lambda exonucleasa para digerir dsDNA 5′-3 ′ no unido hasta alcanzar un entrecruzamiento proteína-ADN a través del cual la nucleasa no puede avanzar (Rhee y Pugh 2012). Similar a ChIP-exo, ChIP-nexus se basa en la digestión del ADN entrecruzado usando exonucleasa lambda sin embargo, ChIP-nexus también incorpora un protocolo de construcción de biblioteca modificado y un monitor de sobre amplificación basado en códigos de barras (He et al. 2015). Además, ChIP-nexus requiere solo un adaptador de secuenciación de 3 ′, lo que reduce los requisitos de entrada en relación con el tradicional ChIP-seq ( He et al. 2015). UV-ChIP utiliza la luz ultravioleta como lente cero gth in vivo agente de entrecruzamiento que prueba la interacción directa de proteínas; sin embargo, el entrecruzamiento con UV proporciona bajos rendimientos, lo que lo hace inadecuado para muestras de pocos insumos o interacciones poco frecuentes (Toth y Biggin 2000). Native ChIP utiliza la digestión de MNasa como una alternativa más suave a la sonicación que permite la identificación de la unión de proteínas en la cromatina no reticulada y con una resolución sustancialmente más alta que la tradicional ChIP-seq porque ya no está limitada por la eficiencia de la sonicación (O'Neill 2003).

La limitación más apremiante para la experimentación de ChIP-seq es la entrada para producir una alta relación señal / ruido, ChIP-seq normalmente requiere millones de células de entrada, particularmente para examinar la unión del factor de transcripción. Como las histonas son mucho más abundantes que otras proteínas que se unen al ADN, la optimización de las tecnologías ChIP-seq para bajos aportes ha sido mucho más fructífera utilizando histonas que factores. Para las técnicas tradicionales de ChIP-seq basadas en reticulación, μChIP-seq ha sido suficiente para perfilar las modificaciones de histonas en 400 células (Dahl et al.2016), aunque ChIP se ha combinado con tecnología de microfluidos (Cao et al.2015 Rotem et al. 2015) para reducir la entrada necesaria a 100 células para la elaboración de perfiles de modificaciones de histonas. Las técnicas nativas de ChIP-seq han tenido más éxito en la reducción de la entrada celular debido al cizallamiento de cromatina más suave. En 2006, Carrier ChIP se utilizó con éxito para perfilar modificaciones de histonas en 50 células (aunque con millones de células "portadoras" para reducir la pérdida de muestras (O'Neill et al. 2006), mientras que los intentos más recientes han reducido la entrada celular para el perfil de modificación de histonas a 500 células (MINT-ChIP y ULI-NChIP) y 200 células (STAR-ChIP (Liu et al. 2016 van Galen et al. 2016 Zhang et al. 2016). Mientras que la abundancia de factores de transcripción y la unión transitoria hacen que sea más difícil En muestras de baja entrada, dos técnicas basadas en ChIP se han reducido con éxito la entrada de células: ChIPmentation y ChIP-seq asistido por portador. La primera, ChIPmentation, fue desarrollada por el grupo de Christoph Bock y utiliza la transposasa Tn5 para ligar adaptadores de secuenciación directamente a la cromatina en perlas (Schmidl et al. 2015) La ChIPmentation se utilizó para perfilar factores de transcripción en 100.000 células. Además, el grupo de Jason Carroll ha utilizado ChIP-seq asistido por portador para perfilar la localización del factor de transcripción en tan solo 10,0 00 células (Zwart et al. 2013).

Como una de las primeras y más destacadas técnicas genómicas, ChIP y sus derivados han tenido un impacto extraordinario en la comprensión de la regulación de las interacciones y la transcripción de la cromatina. Hasta la fecha, el término “inmunoprecipitación de cromatina” tiene casi 23.000 visitas a PubMed y más de 9.000 conjuntos de datos disponibles públicamente en la base de datos ENCODE, y muchos más se almacenan en el archivo de lectura de secuencias de NCBI (Consortium 2012). Aunque ChIP-seq sigue siendo el estándar de oro de la elaboración de perfiles de localización de factores, se han desarrollado otras técnicas durante los últimos 30 años para examinar la localización de factores a través de diferentes enfoques.

DamID

DamID presenta una alternativa sin chips para localizar proteínas en la cromatina (Fig. 2B) (van Steensel y Henikoff 2000). DamID utiliza una proteína recombinante (Escherichia coli ADN adenina metiltransferasa o Dam) fusionada con la proteína de interés que interactúa con la cromatina para identificar las regiones genómicas en las que interactúa la proteína. Dam metila la adenina dentro de la secuencia GATC (Barras y Marinus 1989 Boivin y Dura 1998 Wines et al. 1996). Como la metilación de la adenina no ocurre en la mayoría de los eucariotas, DamID proporciona una lectura nativa y específica para la localización del factor (Barras y Marinus 1989). La metilación de la presa puede extenderse hasta 5 kb desde el sitio de unión a la proteína (van Steensel y Henikoff 2000), destacando el equilibrio entre resolución y especificidad equilibrada en los experimentos de DamID. Además, las regiones más accesibles del genoma son más propensas a ser metiladas por Dam (Greil et al. 2006), una variable que se controla mediante el perfil con transfección de Dam sin fusionar. Aunque DamID fue pionero con Southern blot y PCR cuantitativa (qPCR) como cuantificación de metilación, desde entonces han sido suplantados por tecnologías de secuenciación de próxima generación (Aughey et al.2019 Greil et al.2006). DamID se aplica con mayor frecuencia en Drosophila células pero se ha utilizado en levadura, C. elegans, Arabidopsis, ratones y células humanas, lo que ilustra una gama más versátil de perfiles.

Un experimento típico de DamID implica la construcción de un plásmido con Dam fusionado al extremo N o C de la proteína de interés. A continuación, el plásmido se transfecta en las células que se van a examinar, al igual que un plásmido de control que contiene Dam solo y un vector vacío. Luego, el ADN genómico se aísla de las células transfectadas y se digiere con el DpnYo enzima de restricción. Como DpnSi digiere exclusiva y específicamente G m ATC, se infiere que los fragmentos generados a partir de esta digestión han estado muy próximos a la proteína de interés que interactúa con la cromatina. Los adaptadores están ligados al DpnFragmentos digeridos con I, y luego el ADN se trata con DpnII, una enzima de restricción que escinde solo GATC no metilado, para seleccionar doblemente G m ATC en el genoma. A continuación, se amplifican las bibliotecas de ADN y se pueden enviar para una secuenciación profunda.

DamID no ha alcanzado la misma popularidad que ChIP-seq, pero presenta algunas fortalezas notables. En primer lugar, DamID no depende de los anticuerpos para perfilar la unión del factor, una ventaja significativa para perfilar proteínas poco estudiadas. Además, DamID fue el primer método mediante el cual se pudieron confirmar los datos de ChIP mediante un enfoque alternativo. Sin embargo, DamID tiene la desventaja de que la proteína perfilada no es endógena a las células huésped. Los sitios de unión de una construcción de fusión Dam a menudo serán comparables con una proteína endógena, pero probablemente no sean idénticos debido a la presencia de la construcción Dam en sí, así como a su expresión basada en plásmidos. Además, DamID requiere un sistema genéticamente manejable que se pueda transfectar con el plásmido de fusión Dam. Además, DamID está limitado por su baja resolución porque Dam puede metilar residuos de hasta 5 kb del sitio de unión de la proteína de fusión, y se pueden encontrar numerosos falsos positivos (van Steensel y Henikoff 2000). Debido a este rango de metilación, es poco probable que DamID alcance la resolución que ofrecen las técnicas basadas en ChIP. Sin embargo, DamID no está restringido por las mismas limitaciones de entrada y se ha utilizado para perfilar la unión del factor de transcripción de 1000 células ES (Tosti et al. . 2018) e incluso células individuales (Lai et al. 2019). Aunque ChIP-seq (y más recientemente, CUT & ampRUN) ha reemplazado en gran medida a DamID para la localización de factores, DamID se está volviendo más popular en el estudio de características de cromatina más amplias, por ejemplo, Chromatin Accessibility Targeted DamID (CATaDA) se ha desarrollado para evaluar la cromatina abierta (Aughey et al. .2018). CATaDa utiliza una proteína Dam sin ataduras para metilar regiones de cromatina abierta, dejando el ADN unido al nucleosoma sin metilar (Aughey et al. 2018). Split DamID también se ha utilizado para perfilar la co-ocupación de dos proteínas en los loci genómicos, actuando de manera similar a un cribado de dos híbridos de levadura (Hass et al. 2015), y un análisis catalíticamente inactivo. DpnLa construcción de fusión I-GFP se ha utilizado para examinar la metilación de GATC impulsada por Dam en tiempo real mediante microscopía (Kind et al. 2015).

CUT & ampRUN

La escisión bajo los objetivos y la liberación mediante nucleasa (CUT y ampRUN) fue desarrollada por Skene y Henikoff en 2017 como una modificación de todo el genoma de la técnica ChIC de 2004 del grupo de Ulrich Laemmli, en la que se puede combinar una proteína A recombinante fusionada con una nucleasa microcócica (pA-MNasa). con un anticuerpo primario para apuntar específicamente a la MNasa y escindir el ADN de los sitios circundantes donde se une la proteína de interés (Fig. 2C (Schmid et al. 2004). Técnicas similares incluyen la escisión endógena de cromatina (ChEC (Schmid et al. 2004), en la que implica una fusión C-terminal de MNasa con una proteína de interés y ChEC-seq, un emparejamiento de ChEC y secuenciación de próxima generación en todo el genoma (Zentner et al. 2015). Mientras que ChEC se ha aplicado con éxito para evaluar la localización de múltiples proteínas (Baptista et al.2017 Grunberg et al.2016 Grunberg y Zentner 2017 Warfield et al.2017 Zentner et al.2015), la técnica está limitada por la necesidad de etiquetar específicamente la proteína de interés. CUT & ampRUN, por otro lado, util crea una proteína pA-MNasa recombinante para reconocer cualquier anticuerpo primario con cadenas principales de IgG compatibles. Aunque CUT & ampRUN es una técnica desarrollada recientemente, se ha utilizado para perfilar las interacciones proteína-ADN en Arabidopsis, levadura, moscas, ratones y células humanas, demostrando una gama de aplicaciones versátil.

Un experimento CUT & ampRUN implica un aislamiento nuclear con un tampón hipotónico para lisar las células (Hainer y Fazzio 2019 Skene y Henikoff 2017) o la permeabilización celular con digitonina (Skene et al. 2018) y perlas magnéticas de concanavalina A recubiertas de lectina para aislar los núcleos. . Los pasos posteriores se llevan a cabo en los núcleos unidos a las perlas hasta que se liberan los fragmentos de ADN protegidos antes de la preparación de la biblioteca. Se agrega el anticuerpo primario que se dirige a la proteína de interés y se permite que se difunda libremente en los núcleos, seguido de la adición de pA-MNasa recombinante, que reconoce la estructura de IgG del anticuerpo primario y, por lo tanto, se dirige específicamente a los sitios de unión de la proteína de interés en la cromatina. . Luego, la MNasa se activa mediante la adición de Ca 2+ y se digiere en un baño de agua helada (para una cinética de digestión de MNasa subóptima) para escindir el ADN y liberar los fragmentos unidos a proteínas en el sobrenadante. A continuación, los fragmentos liberados se tratan con RNasa, se digieren con proteinasa K, se purifican y se utilizan como entrada para la construcción de bibliotecas. Los experimentos CUT & ampRUN se realizan en conjunto con una réplica en la que el anticuerpo primario se deja fuera de la muestra o se reemplaza con un control de IgG, midiendo el corte de fondo por la construcción de pA-MNasa libre y corrigiendo un sesgo inherente hacia regiones más accesibles de la genoma. Además, el ADN heterólogo se puede agregar a la reacción al quelar la digestión de MNasa (Skene y Henikoff 2017) o al contaminar E. coli El ADN de la purificación de pA-MNasa se puede usar como un pico en (Meers et al.2019). CUT & ampRUN proporciona una alta relación señal / ruido, con un fondo reducido que permite una secuenciación completa con aproximadamente 10 millones de lecturas, mientras que un experimento ChIP-seq requiere de 20 a 40 millones de lecturas para evaluar con precisión la unión a proteínas.

CUT & ampRUN ha demostrado ser adaptable a numerosas alteraciones para adaptarse a contextos experimentales, la mayoría de las cuales han sido desarrolladas por el grupo de Steve Henikoff. Una de esas adaptaciones es la automatización robótica del protocolo para la creación de perfiles de alto rendimiento (AutoCUT & ampRUN (Janssens et al. 2018). Además, el grupo de Henikoff ha publicado CUT & ampRUN.Salt, un método que permite el fraccionamiento de cromatina basado en la solubilidad y es especialmente útil para la creación de perfiles. cromatina centromérica o de otro modo insoluble en condiciones típicas (Thakur y Henikoff 2018). Para mejorar la eficiencia de la unión del anticuerpo pA-MNasa, el grupo de Henikoff ha diseñado una construcción de fusión de proteína A-proteína G-MNasa recombinante que permite el perfil de anticuerpos que no son de conejo sin un paso de anticuerpo secundario (Meers et al. 2019). Por último, CUT & ampRUN se ha combinado con el chip tradicional (CUT & ampRUN.ChIP) que permite realizar un chip para los complejos de proteínas presentes en los fragmentos CUT y ampRUN liberados (Brahma y Henikoff 2019). Por lo tanto, la técnica parece flexible para perfilar la localización de proteínas para una variedad de diseños experimentales y resultados deseados.

En 2019, se publicó el primer perfil unicelular de proteínas unidas a cromatina en todo el genoma utilizando CUT y ampRUN para examinar factores de pluripotencia en células madre embrionarias murinas (Hainer et al. 2019). Además de perfilar en células individuales, se perfilaron la unión de factores en blastocistos tempranos individuales (que constan de entre 30 y 50 células cada uno), una aplicación que antes no era posible utilizando técnicas basadas en ChIP. Más recientemente, Cleavage Under Targets and Tagmentation, o CUT & ampTag, se desarrolló como una modificación en CUT & ampRUN que utiliza una fusión de transposasa de proteína A-Tn5 recombinante en lugar de una proteína de fusión de pA-MNasa recombinante (Kaya-Okur et al. 2019). CUT & ampTag se ha utilizado para perfilar las modificaciones de histonas en células individuales, aunque todavía no se ha utilizado para perfilar la unión del factor de transcripción en células individuales (Kaya-Okur et al. 2019). Además de CUT & ampTag, se desarrolló una modificación unicelular similar de ChIC, scChIC-seq, que implica la unión de MNasa a un anticuerpo específico y la escisión de sitios diana utilizando el anticuerpo para dirigir la MNasa, luego se desarrolló la amplificación selectiva de fragmentos escindidos mediante PCR ( Ku et al.2019). Entre CUT & ampRUN, uliCUT & ampRUN, CUT & ampTag, ChEC-seq y ChIC-seq, las técnicas derivadas de ChIC y ChEC parecen preparadas para facilitar la próxima era de perfiles de factores que interactúan con la cromatina.

Resumen

A medida que el refinamiento de la técnica genómica ha permitido a los investigadores identificar sitios de unión de factores en la accesibilidad de cromatina y ADN con alta resolución, las limitaciones de las técnicas estándar se han vuelto cada vez más evidentes. Debido a las diferencias debidas a la heterogeneidad celular, la cinética de digestión enzimática inconsistente y el aislamiento de muestras no dirigidas, los avances recientes en las técnicas genómicas se han centrado en reducir la entrada de muestra necesaria y la señal de fondo. Estas mejoras técnicas han hecho posible examinar la arquitectura del genoma y los perfiles de unión de factores en células individuales, muestras de bajo ingreso como biopsias de pacientes y subconjuntos de poblaciones celulares heterogéneas. Lo que ha surgido de los estudios genómicos de accesibilidad y unión de factores es una imagen compleja de las actividades basadas en plantillas de ADN reguladas por la arquitectura de la cromatina.

El perfil de la accesibilidad del genoma y la unión de factores ha sentado las bases para la identificación de los mecanismos reguladores genómicos; sin embargo, estas técnicas son simplemente un comienzo para comprender la regulación génica a nivel mecanicista. Estos datos deben integrarse para comprender cómo funcionan las redes transcripcionales y celulares de manera cooperativa y antagónica para dar forma al genoma funcional. Además, las comparaciones entre tipos de células serán importantes para proporcionar información sobre las formas en que un conjunto común de factores impulsa las funciones específicas del tipo de célula.


EXPRESIONES DE GRATITUD

Agradecemos a M. Garlovsky, S. Martin, C. Cooney, C. Roux, J. Larson y J. Mallet por sus comentarios críticos y su discusión. K. Lohse, M. de la Cámara, J. Cerca, M. A. Chase, C. Baskett, A. M. Westram y N. H. Barton dieron su opinión sobre un borrador del manuscrito. O. Seehausen, dos revisores anónimos y el AE (Michael Kopp) proporcionaron comentarios que mejoraron enormemente el manuscrito. V. Holzmann hizo muchas correcciones a las demostraciones. G. Bisschop y K. Lohse contribuyeron amablemente con las simulaciones y análisis presentados en el Recuadro 3. También nos gustaría extender nuestro agradecimiento a todos los que participaron en la encuesta de especiación, que recibió la aprobación ética a través del Procedimiento de Revisión de Ética de la Universidad de Sheffield (Solicitud 029768). Estamos especialmente agradecidos a R. K. Butlin por estimular la discusión a lo largo de la redacción del manuscrito y por sus comentarios sobre un borrador anterior.


Condiciones de salud relacionadas con cambios genéticos

Beta talasemia

Casi 400 mutaciones en el HBB Se ha descubierto que el gen causa beta talasemia. La mayoría de las mutaciones implican un cambio en un solo bloque de construcción de ADN (nucleótido) dentro o cerca de la HBB gene. Otras mutaciones insertan o eliminan una pequeña cantidad de nucleótidos en el HBB gene.

HBB Las mutaciones genéticas que disminuyen la producción de beta-globina dan como resultado una afección llamada talasemia beta-plus (β +). Las mutaciones que impiden que las células produzcan cualquier beta-globina provocan talasemia beta-cero (β 0).

Los problemas con las subunidades que componen la hemoglobina, incluidos los niveles bajos de beta-globina, reducen o eliminan la producción de esta molécula. La falta de hemoglobina interrumpe el desarrollo normal de los glóbulos rojos. La escasez de glóbulos rojos maduros puede reducir la cantidad de oxígeno que se entrega a los tejidos por debajo de lo necesario para satisfacer las necesidades energéticas del cuerpo. La falta de oxígeno en los tejidos del cuerpo puede provocar un crecimiento deficiente, daño a los órganos y otros problemas de salud asociados con la beta talasemia.

Metahemoglobinemia, tipo beta-globina

Más de 10 mutaciones en el HBB Se ha descubierto que el gen causa metahemoglobinemia, tipo beta-globina, que es una condición que altera la hemoglobina dentro de los glóbulos rojos. Estas mutaciones a menudo afectan la región de la proteína que se une al hemo. Para que la hemoglobina se una al oxígeno, el hierro dentro de la molécula de hemo debe estar en una forma llamada hierro ferroso (Fe 2+). El hierro dentro del hemo puede cambiar a otra forma de hierro llamada hierro férrico (Fe 3+), que no puede unirse al oxígeno. La hemoglobina que contiene hierro férrico se conoce como metahemoglobina y no puede suministrar oxígeno de manera eficiente a los tejidos del cuerpo.

En la metahemoglobinemia, tipo beta-globina, mutaciones en el HBB gen alteran la proteína beta-globina y promueven que el hierro hemo cambie de ferroso a férrico. Esta hemoglobina alterada le da a la sangre un color marrón y provoca una apariencia azulada de la piel, los labios y las uñas (cianosis). Los signos y síntomas de la metahemoglobinemia, tipo beta-globina, generalmente se limitan a la cianosis, que no causa ningún problema de salud. Sin embargo, en casos raros, la metahemoglobinemia severa tipo beta-globina puede causar dolores de cabeza, debilidad y fatiga.

Enfermedad de célula falciforme

La anemia de células falciformes (también llamada enfermedad de células falciformes homocigóticas o enfermedad HbSS) es la forma más común de enfermedad de células falciformes. Esta forma es causada por una mutación particular en el HBB gen que resulta en la producción de una versión anormal de beta-globina llamada hemoglobina S o HbS. En esta condición, la hemoglobina S reemplaza ambas subunidades de beta-globina en la hemoglobina. La mutación que causa la hemoglobina S cambia un bloque de construcción de una sola proteína (aminoácido) en la beta-globina. Específicamente, el aminoácido ácido glutámico se reemplaza con el aminoácido valina en la posición 6 en la beta-globina, escrito como Glu6Val o E6V.Reemplazar el ácido glutámico con valina hace que las subunidades anormales de hemoglobina S se peguen y formen moléculas largas y rígidas que doblan los glóbulos rojos en forma de hoz (media luna). Las células falciformes mueren prematuramente, lo que puede provocar una escasez de glóbulos rojos (anemia). Las células en forma de hoz son rígidas y pueden bloquear los vasos sanguíneos pequeños, causando un dolor intenso y daño a los órganos.

Mutaciones en el HBB El gen también puede causar otras anomalías en la beta-globina, lo que lleva a otros tipos de anemia de células falciformes. Estas formas anormales de beta-globina a menudo se designan con letras del alfabeto o, a veces, con un nombre. En estos otros tipos de anemia de células falciformes, solo una subunidad de beta-globina se reemplaza por hemoglobina S. La otra subunidad de beta-globina se reemplaza con una variante anormal diferente, como la hemoglobina C o la hemoglobina E.

En la enfermedad de la hemoglobina SC (HbSC), las subunidades de beta-globina son reemplazadas por hemoglobina S y hemoglobina C. La hemoglobina C se produce cuando el aminoácido lisina reemplaza al aminoácido ácido glutámico en la posición 6 de la beta-globina (escrito Glu6Lys o E6K). La gravedad de la enfermedad de hemoglobina SC es variable, pero puede ser tan grave como la anemia de células falciformes. La hemoglobina E (HbE) se produce cuando el aminoácido ácido glutámico se reemplaza por el aminoácido lisina en la posición 26 de la beta-globina (escrito Glu26Lys o E26K). En algunos casos, la mutación de la hemoglobina E está presente con la hemoglobina S. En estos casos, una persona puede tener signos y síntomas más graves asociados con la anemia de células falciformes, como episodios de dolor, anemia y función anormal del bazo.

Otras afecciones, conocidas como talasemias beta-falciformes de hemoglobina (HbSBetaThal), se producen cuando las mutaciones que producen hemoglobina S y beta talasemia se producen juntas. Las mutaciones que combinan la anemia de células falciformes con la talasemia beta-cero (β 0) dan lugar a una enfermedad grave, mientras que la enfermedad de células falciformes combinada con la talasemia beta-plus (β +) es generalmente más leve.

Otros trastornos

Se han identificado cientos de variaciones en el HBB gene. Estos cambios dan como resultado la producción de diferentes versiones de beta-globina. Algunas de estas variaciones no causan signos o síntomas notables y se encuentran cuando se realizan análisis de sangre por otras razones, mientras que otras HBB las variaciones genéticas pueden afectar la salud de una persona. Dos de las variantes más comunes son la hemoglobina C y la hemoglobina E.

La hemoglobina C (HbC), causada por la mutación Glu6Lys en la beta-globina, es más común en personas de ascendencia africana occidental que en otras poblaciones. Las personas que tienen dos subunidades de hemoglobina C en su hemoglobina, en lugar de la beta-globina normal, tienen una afección leve llamada enfermedad de la hemoglobina C. Esta afección a menudo causa anemia crónica, en la que los glóbulos rojos se descomponen prematuramente.

La hemoglobina E (HbE), causada por la mutación Glu26Lys en la beta-globina, es una variante de la hemoglobina que se encuentra con mayor frecuencia en la población del sudeste asiático. Cuando una persona tiene dos subunidades de hemoglobina E en su hemoglobina en lugar de beta-globina, puede ocurrir una anemia leve llamada enfermedad de la hemoglobina E. En algunos casos, las mutaciones que producen hemoglobina E y beta talasemia se encuentran juntas. Las personas con esta combinación de hemoglobina pueden presentar signos y síntomas que van desde anemia leve hasta talasemia grave grave.


Condiciones de salud relacionadas con los cambios cromosómicos

Las siguientes condiciones cromosómicas están asociadas con cambios en la estructura o el número de copias del cromosoma 9.

Microdeleción 9q22.3

La microdeleción 9q22.3 es un cambio cromosómico en el que una pequeña parte del brazo largo (q) del cromosoma 9 se elimina en cada célula. A los individuos afectados les faltan al menos 352.000 pares de bases, también escritos como 352 kilobases (kb), en la región q22.3 del cromosoma 9. Este segmento de 352 kb se conoce como la región crítica mínima porque es la deleción más pequeña que se ha se encontró que causa los signos y síntomas relacionados con las microdeleciones 9q22.3. Estos signos y síntomas incluyen retraso en el desarrollo, discapacidad intelectual, ciertas anomalías físicas y los rasgos característicos de una condición genética llamada síndrome de Gorlin (también conocido como síndrome de carcinoma nevoide de células basales). Las microdeleciones de 9q22.3 también pueden ser mucho más grandes; la deleción más grande informada incluyó 20,5 millones de pares de bases (20,5 Mb).

A las personas con una microdeleción 9q22.3 les faltan de dos a más de 270 genes en el cromosoma 9. Todas las microdeleciones 9q22.3 conocidas incluyen la PTCH1 gene. Los investigadores creen que muchas de las características asociadas con las microdeleciones de 9q22.3, en particular los signos y síntomas del síndrome de Gorlin, son el resultado de una pérdida de la PTCH1 gene. Otros signos y síntomas relacionados con las microdeleciones de 9q22.3 probablemente sean el resultado de la pérdida de genes adicionales en la región q22.3. Los investigadores están trabajando para determinar qué genes faltantes contribuyen a las otras características asociadas con la deleción.

Cáncer de vejiga

Las deleciones de parte o de todo el cromosoma 9 se encuentran comúnmente en el cáncer de vejiga. El cáncer de vejiga es una enfermedad en la que ciertas células de la vejiga se vuelven anormales y se multiplican sin control para formar un tumor. El cáncer de vejiga puede causar sangre en la orina, dolor al orinar, micción frecuente, sensación de necesidad de orinar sin poder hacerlo o dolor lumbar.

El cáncer de vejiga generalmente se divide en dos tipos, cáncer de vejiga no músculo invasivo (NMIBC) y cáncer de vejiga músculo invasivo (MIBC), según el lugar de la vejiga en el que se encuentra el tumor. Muchos casos de tumores de NMIBC tienen una deleción del cromosoma 9, que por lo general ocurre temprano en la formación del tumor. Estos cambios cromosómicos se observan solo en las células cancerosas. La investigación muestra que varios genes que controlan el crecimiento y la división celular se encuentran en el cromosoma 9. Muchos de estos genes son supresores de tumores, lo que significa que normalmente ayudan a evitar que las células crezcan y se dividan de manera incontrolada. Es probable que la pérdida de uno o más de estos genes influya en el desarrollo temprano y la progresión del cáncer de vejiga.

Leucemia mieloide crónica

Un reordenamiento (translocación) de material genético entre los cromosomas 9 y 22 causa un tipo de cáncer de células formadoras de sangre llamado leucemia mieloide crónica. Este cáncer de crecimiento lento conduce a una sobreproducción de glóbulos blancos anormales. Las características comunes de la afección incluyen cansancio excesivo (fatiga), fiebre, pérdida de peso y agrandamiento del bazo.

La translocación involucrada en esta condición, escrita como t (922), fusiona parte del ABL1 gen del cromosoma 9 con parte del BCR gen del cromosoma 22, creando un gen de fusión anormal llamado BCR-ABL1. El cromosoma 22 anormal, que contiene un fragmento del cromosoma 9 y el gen de fusión, se denomina comúnmente cromosoma Filadelfia. La translocación se adquiere durante la vida de una persona y está presente solo en las células sanguíneas anormales. Este tipo de cambio genético, llamado mutación somática, no se hereda.

La proteína producida a partir del BCR-ABL1 El gen indica a las células que continúen dividiéndose de manera anormal y evita que se autodestruyan, lo que conduce a la sobreproducción de células anormales.

El cromosoma Filadelfia también se ha encontrado en algunos casos de cánceres sanguíneos de rápida progresión conocidos como leucemias agudas. Es probable que la forma de cáncer de sangre que se desarrolla esté influenciada por el tipo de glóbulo que adquiere la mutación y otros cambios genéticos que se producen. La presencia del cromosoma Filadelfia proporciona un objetivo para las terapias moleculares.

Síndrome de Kleefstra

A la mayoría de las personas con síndrome de Kleefstra, un trastorno con signos y síntomas que afectan a muchas partes del cuerpo, les falta una secuencia de aproximadamente 1 millón de bloques de construcción de ADN (pares de bases) en una copia del cromosoma 9 en cada célula. La deleción ocurre cerca del final del brazo largo (q) del cromosoma en una ubicación designada q34.3, una región que contiene un gen llamado EHMT1. Algunas personas afectadas tienen deleciones más cortas o más largas en la misma región.

La perdida del EHMT1 Se cree que el gen de una copia del cromosoma 9 en cada célula es responsable de los rasgos característicos del síndrome de Kleefstra en personas con la deleción 9q34.3. Sin embargo, la pérdida de otros genes en la misma región puede provocar problemas de salud adicionales en algunas personas afectadas.

los EHMT1 El gen proporciona instrucciones para producir una enzima llamada histona metiltransferasa 1 eucromática. Las histonas metiltransferasas son enzimas que modifican proteínas llamadas histonas. Las histonas son proteínas estructurales que se unen (se unen) al ADN y dan forma a los cromosomas. Al agregar una molécula llamada grupo metilo a las histonas, las histonas metiltransferasas pueden apagar (suprimir) la actividad de ciertos genes, que es esencial para el desarrollo y la función normales. La falta de la enzima histona metiltransferasa 1 eucromática altera el control adecuado de la actividad de ciertos genes en muchos de los órganos y tejidos del cuerpo, lo que da como resultado las anomalías del desarrollo y la función características del síndrome de Kleefstra.

Otras afecciones cromosómicas

Otros cambios en la estructura o el número de copias del cromosoma 9 pueden tener una variedad de efectos. La discapacidad intelectual, el retraso en el desarrollo, los rasgos faciales distintivos y una forma inusual de la cabeza son características comunes. Los cambios en el cromosoma 9 incluyen una pieza adicional del cromosoma en cada célula (trisomía parcial), un segmento faltante del cromosoma en cada célula (monosomía parcial) y una estructura circular llamada cromosoma 9 en anillo. Un cromosoma en anillo se produce cuando ambos extremos de un cromosoma roto se reúnen. Los reordenamientos (translocaciones) del material genético entre el cromosoma 9 y otros cromosomas también pueden provocar segmentos cromosómicos adicionales o faltantes.

Otros cánceres

Se han encontrado cambios en la estructura del cromosoma 9 en muchos tipos de cáncer. Estos cambios, que ocurren solo en las células que dan lugar al cáncer, generalmente implican una pérdida de parte del cromosoma o un reordenamiento del material cromosómico. Por ejemplo, se ha identificado una pérdida de parte del brazo largo (q) del cromosoma 9 en algunos tipos de tumores cerebrales. Además, los reordenamientos cromosómicos que fusionan el ABL1 gen con genes distintos a BCR se han encontrado en un pequeño número de leucemias agudas. Los mecanismos exactos por los cuales estos cambios genéticos conducen al cáncer no se comprenden completamente, aunque es probable que las proteínas producidas a partir de ellos promuevan el crecimiento descontrolado de las células.


Ver el vídeo: Marcadores moleculares (Noviembre 2022).