Información

9: Genomas, genes y redes reguladoras de amplificadores - Biología

9: Genomas, genes y redes reguladoras de amplificadores - Biología


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

En este punto hemos introducido genes, ADN y proteínas, pero hemos dejado sin resolver una serie de cuestiones importantes. ¡La clave es mantener la calma y seguir analizando!


Redes reguladoras de genes

Eric H. Davidson, en The Regulatory Genome, 2006

Resumen del editor

Este capítulo se centra en las implicaciones evolutivas de la estructura y función de las redes reguladoras de genes. Los cambios en los enlaces funcionales dados de las redes reguladoras de genes se producen a nivel del ADN mediante la alteración de la secuencia reguladora en cis que define los sitios diana del factor de transcripción. Los genes de diferenciación se encuentran en una posición única en la estructura de la red reguladora y residen en la periferia de la red. A diferencia de todos los genes que constituyen la estructura interna de la red, sus productos no tienen la función de controlar otros genes. Las limitaciones al cambio evolutivo en la función de la batería de genes de diferenciación están directamente sujetas a la selección, ya que producen en detalle la mayoría de las funcionalidades fenotípicas con las que el animal se enfrenta a su entorno. El plan corporal está codificado en las regiones internas de la red reguladora de genes, que durante el desarrollo determinan la progresión de los estados reguladores espaciales, no el negocio de las baterías de genes de diferenciación. Muchos de los efectos regionales generales de la ganancia o pérdida de mutaciones funcionales del gen hox en la morfología que se han registrado durante las últimas décadas recuerdan la diversificación evolutiva.


Enlaces relacionados

Referencias: Una enciclopedia comparativa de elementos de ADN en el genoma del ratón. Yue F, Cheng Y, Breschi A, Vierstra J, Wu W, Ryba T, Sandstrom R, Ma Z, Davis C, Pope BD, Shen Y, Pervouchine DD, Djebali S, Thurman RE, Kaul R, Rynes E, Kirilusha A , Marinov GK, Williams BA, Trout D, Amrhein H, Fisher-Aylor K, Antoshechkin I, DeSalvo G, See LH, Fastuca M, Drenkow J, Zaleski C, Dobin A, Prieto P, Lagarde J, Bussotti G, Tanzer A , Denas O, Li K, Bender MA, Zhang M, Byron R, Groudine MT, McCleary D, Pham L, Ye Z, Kuan S, Edsall L, Wu YC, Rasmussen MD, Bansal MS, Kellis M, Keller CA, Morrissey CS, Mishra T, Jain D, Dogan N, Harris RS, Cayting P, Kawli T, Boyle AP, Euskirchen G, Kundaje A, Lin S, Lin Y, Jansen C, Malladi VS, Cline MS, Erickson DT, Kirkup VM, Learned K, Sloan CA, Rosenbloom KR, Lacerda de Sousa B, Beal K, Pignatelli M, Flicek P, Lian J, Kahveci T, Lee D, Kent WJ, Ramalho Santos M, Herrero J, Notredame C, Johnson A, Vong S , Lee K, Bates D, Neri F, Diegel M, Canfield T, Sabo PJ, Wilken MS, Reh TA, Giste E, Shafer A, Kutyavin T, Haugen E, Dunn D, Reynolds AP, N eph S, Humbert R, Hansen RS, De Bruijn M, Selleri L, Rudensky A, Josefowicz S, Samstein R, Eichler EE, Orkin SH, Levasseur D, Papayannopoulou T, Chang KH, Skoultchi A, Gosh S, Disteche C, Treuting P, Wang Y, Weiss MJ, Blobel GA, Cao X, Zhong S, Wang T, Good PJ, Lowdon RF, Adams LB, Zhou XQ, Pazin MJ, Feingold EA, Wold B, Taylor J, Mortazavi A, Weissman SM, Stamatoyannopoulos JA, Snyder MP, Guigo R, Gingeras TR, Gilbert DM, Hardison RC, Beer MA, Ren B Mouse ENCODE Consortium. Naturaleza. 2014 noviembre 20515 (7527): 355-64. doi: 10.1038 / nature13992. PMID: 25409824.

Conservación de los circuitos que actúan en trans durante la evolución regulatoria de los mamíferos. Stergachis AB, Neph S, Sandstrom R, Haugen E, Reynolds AP, Zhang M, Byron R, Canfield T, Stelhing-Sun S, Lee K, Thurman RE, Vong S, Bates D, Neri F, Diegel M, Giste E, Dunn D, Vierstra J, Hansen RS, Johnson AK, Sabo PJ, Wilken MS, Reh TA, Treuting PM, Kaul R, Groudine M, Bender MA, Borenstein E, Stamatoyannopoulos JA. Naturaleza. 2014 noviembre 20515 (7527): 365-70. doi: 10.1038 / nature13972. PMID: 25409825.

Principios de conservación de información regulatoria entre ratón y humanos. Cheng Y, Ma Z, Kim BH, Wu W, Cayting P, Boyle AP, Sundaram V, Xing X, Dogan N, Li J, Euskirchen G, Lin S, Lin Y, Visel A, Kawli T, Yang X, Patacsil D , Keller CA, Giardine B Mouse ENCODE Consortium, Kundaje A, Wang T, Pennacchio LA, Weng Z, Hardison RC, Snyder MP. Naturaleza. 2014 de noviembre de 20515 (7527): 371-5. doi: 10.1038 / nature13985. PMID: 25409826.

Los dominios que se asocian topológicamente son unidades estables de regulación del tiempo de replicación. Papa BD, Ryba T, Dileep V, Yue F, Wu W, Denas O, Vera DL, Wang Y, Hansen RS, Canfield TK, Thurman RE, Cheng Y, Gülsoy G, Dennis JH, Snyder MP, Stamatoyannopoulos JA, Taylor J , Hardison RC, Kahveci T, Ren B, Gilbert DM. Naturaleza. 2014 noviembre 20515 (7527): 402-5. doi: 10.1038 / nature13986. PMID: 25409831.

Los paisajes del ADN regulador del ratón revelan los principios globales de la evolución cis-reguladora. Vierstra J, Rynes E, Sandstrom R, Zhang M, Canfield T, Hansen RS, Stehling-Sun S, Sabo PJ, Byron R, Humbert R, Thurman RE, Johnson AK, Vong S, Lee K, Bates D, Neri F, Diegel M, Giste E, Haugen E, Dunn D, Wilken MS, Josefowicz S, Samstein R, Chang KH, Eichler EE, De Bruijn M, Reh TA, Skoultchi A, Rudensky A, Orkin SH, cPapayannopoulou T, Treuting PM, Selleri L, Kaul R, Groudine M, Bender MA, Stamatoyannopoulos JA. Ciencias. 2014 noviembre 21346 (6212): 1007-12. doi: 10.1126 / science.1246426. PMID: 25411453.

Comparación de los paisajes transcripcionales entre tejidos humanos y de ratón. Lin S, Lin Y, Nery JR, Urich MA, Breschi A, Davis CA, Dobin A, Zaleski C, Beer MA, Chapman WC, Gingeras TR, Ecker JR, Snyder MP. Proc Natl Acad Sci U S A. 2014 Dic 2111 (48): 17224-9. doi: 10.1073 / pnas.1413624111. Publicación electrónica del 20 de noviembre de 2014 PMID: 25413365.

Fondos: Instituto Nacional de Investigación del Genoma Humano (NHGRI) de los NIH, Instituto Nacional de Ciencias Médicas Generales (NIGMS), Instituto Nacional del Cáncer (NCI), Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales (NIDDK), Instituto Nacional Eunice Kennedy Shriver de Salud Infantil y Desarrollo (NICHD), Instituto Nacional del Corazón, los Pulmones y la Sangre (NHLBI), Instituto Nacional de Ciencias de la Salud Ambiental (NIEHS), Instituto Nacional sobre el Abuso de Drogas (NIDA), Instituto Nacional de Salud Mental (NIMH), Instituto Nacional de Trastornos Neurológicos y accidente cerebrovascular (NINDS), y el Fondo Común de los NIH, el Plan Español Nacional Wellcome Trust, la Fundación Nacional de Ciencias del Instituto Médico Howard Hughes y la Ley de Recuperación y Reinversión Estadounidense.


Resultados

Evaluación de oxidantes y antioxidantes de las tres accesiones de algodón americano (upland) CRI12, LAT40 y MAR85 en condiciones de estrés salino

Los tres genotipos de algodón americano (upland) son morfológicamente idénticos y no presentan variaciones significativas cuando se exponen a cualquier forma de estrés, por lo que en este estudio no se consideraron varios rasgos morfológicos. Sin embargo, observamos una variación en el crecimiento de las raíces y la acumulación de biomasa, CRI12 y LAT40 tenían una raíz relativamente más alta y una biomasa en general más alta en comparación con MAR85 (Fig. 1a). Además, al realizar un análisis profundo de los niveles de concentración de enzimas oxidantes y antioxidantes en los tejidos foliares de los tres cultivares en condiciones de estrés salino, MAR85 y CRI12 mostraron concentraciones significativamente más altas de prolina y superóxido dismutasa (SOD) en comparación con LAT40 (Fig. 1b), una indicación de que CRI12 y MAR85 se vieron menos afectados bajo estrés salino en comparación con LAT40. Además, los niveles de concentración de malondialdehído (MDA) dentro de las plantas es una indicación de que las plantas están sufriendo estrés oxidativo, siendo el MDA un subproducto de la peroxidación lipídica [22]. Los resultados obtenidos estuvieron de acuerdo con hallazgos previos en los que la eliminación del factor de transcripción trihélix en el algodón redujo la tolerancia al estrés por sequía y sal y, a su vez, aceleró la acumulación de varios oxidantes y niveles de MDA bajo la exposición al estrés por sequía y sal [22].

Características morfológicas y fisiológicas de MAR85, CRI12 y LAT40 después del tratamiento de estrés salino-alcalino. a Fenotipo de plántula en diferentes etapas de desarrollo en tres accesiones de algodón americano (upland). B El contenido dinámico de PRO, MDA y SOD después del tratamiento de estrés salino-alcalino

Identificación de secuenciación y transcripción

Los análisis de transcripción de tres accesiones de G. hirsutum difirieron significativamente en sus características morfológicas, así como en sus conocimientos cruciales a nivel de sistemas sobre los mecanismos moleculares que subyacen a la respuesta al estrés de sales alcalinas [23, 24]. En este estudio, un cultivar de algodón americano (upland) (CRI12, China) y otros dos cultivares silvestres de algodón americano (upland) (LAT40, G. hirsutum raza latifolium40 y MAR85, G. hirsutum race mari-garant85) se utilizaron para el análisis de la transcripción mediante la realización de la secuenciación de ARN en sus tejidos cuando se exponían a estrés por salinidad. Se consideraron dos órganos, la hoja y la raíz de las tres accesiones, en cuatro etapas de tratamiento diferentes las muestras se codificaron como Rt_0h, Rt_3h, Rt_12h, Rt_48h para las muestras de raíz y las muestras de hojas se codificaron como Lf_0h, Lf_3h, Lf_12h y Lf_48h, todas las muestras se repitieron tres veces. El rendimiento de las tres accesiones de algodón americano (upland) se clasificó en cuatro grupos distintos, como etapa de crecimiento normal (CK0), etapa temprana de respuesta al estrés alcalino-salino (SS3), etapa de daño significativo de las plántulas (SS12) y etapa de recuperación de la plántula (SS48). Para investigar la dinámica del transcriptoma a lo largo del tratamiento de estrés con sales alcalinas, se aisló el ARN total de la hoja y la raíz de tres accesiones de G. hirsutum en cuatro etapas de tratamiento diferentes. En total, se produjeron 1,106,485,712 números de lecturas sin procesar a partir de 48 bibliotecas de ADNc, después de la limpieza, se obtuvieron 1,097,617,134 (99.19%) lecturas limpias. El porcentaje de lecturas mapeadas entre las lecturas limpias en cada biblioteca osciló entre el 83,88 y el 89,61%, además, el porcentaje de lecturas limpias con un valor de calidad Phred del 30% osciló entre el 94,37 y el 97,05%. Además, las lecturas limpias se alinearon con el genoma de referencia de Gossypium hirsutum (ANUNCIO1), en el que del 83,06 al 89,73% de las lecturas generadas a partir de las 48 muestras se mapearon en el genoma de referencia, produciendo entre el 77,4 y el 82,3% de las lecturas mapeadas de forma única en el genoma de referencia.. G. hirsutum genoma. Lo que fue más interesante, las lecturas mapeadas de forma única se mapearon al genoma de referencia mediante el uso de HT-seq (paquete Python), con mayor eficiencia y precisión (Tabla 1 y https://www.ncbi.nlm.nih.gov/sra/ PRJNA531727).

Análisis de transcripción y expresión en varios tejidos de las tres especies de algodón en condiciones de estrés salino

Se identificaron un total de 64.737 genes, y el número de genes expresados ​​en diferentes muestras varió de 51.586 a 57.263 según se detectó mediante análisis de datos de secuencia de ARN (Fig. 2a). Para comprender las diferencias globales en la dinámica del transcriptoma durante diferentes etapas de tratamiento, el análisis de distribución de expresión, el análisis de correlación, el análisis de componentes principales (PCA) y la agrupación jerárquica se han logrado de manera realista en función de los valores de FPKM para todos los genes expresados ​​en al menos uno de los 32 genes. muestras de tejido (Fig. 2b). Las muestras de hojas mostraron un nivel de expresión más bajo que la raíz, y el mismo tejido de tratamiento / etapa de tratamiento de tres accesiones de G. hirsutum muestra la distribución de expresión similar. El análisis del coeficiente de correlación de Pearson, entre las 32 muestras combinadas, ilustró una correlación más significativa en el mismo tejido / etapa de tratamiento entre tres accesiones de G. hirsutum (Figura 2c). Como era de esperar, el transcriptoma de las hojas de tres razas de algodón americano (upland) contrastantes se agruparon y mostraron diferencias sustanciales con los puntos de tratamiento. El LAT40 y el CRI12 mostraron una correlación más exacta y un fenotipo similar en la hoja después de que el tratamiento con sales alcalinas indicó una alta similitud en sus programas de transcripción. En comparación con los estadios CK0, SS3, SS12 y SS48 se mostraron más cercanos en la raíz y la hoja de tres accesiones de algodón americano (upland) (Fig. 2d). Sugirió una diferencia significativa de programas transcripcionales entre la condición de estrés estándar y de sal alcalina. En general, los tejidos / etapas de tratamiento exhibieron una mayor correlación en estos análisis que esperaban tener transcriptomas y funciones / actividades más similares.

Análisis de expresión génica de tres accesiones de G. hirsutum. a distribución del nivel de expresión de diferentes muestras B Mapa de calor del resultado del análisis de correlación de muestras basado en la expresión global del transcriptoma bajo estrés de sales alcalinas C Gráfico de la base del análisis de componentes principales (PCA) en la expresión global del transcriptoma bajo estrés de sales alcalinas D Agrupación de muestras basada en la expresión global del transcriptoma bajo estrés por sales alcalinas

Expresión diferencial de genes después del tratamiento con sales alcalinas

Para investigar el patrón de expresión diferencial de los diversos factores de transcripción en las tres accesiones de algodón americano (upland), se perfilaron dos tejidos, los tejidos de la hoja y la raíz en condiciones de estrés salino. El número total de genes expresados ​​diferencialmente (DEG) varió, desde 8663 (MAR85L_CK0 frente a MAR85L_SS12) a 22,068 (CRI12R_CK0 frente a CRI12R_SS12), además, los DEG se obtuvieron a partir de la comparación por pares (MAR85L: MAR85L_CK0 frente a MAR85L_SS3 MAR1285 MAR85L_CK0 frente a MAR85L_SS48 La comparación por pares de MAR85R, LAT40L / R y CRI12L / R fue similar con MAR85L) utilizando el software DEGseq (Fig. 3a). Se observó un mayor número de DEGs en raíces (un total de 41.132 DEGs) que en hojas (un total de 35.724 DEGs) lo que indicaba que las raíces podrían ser el principal tejido afectado por el estrés salino y así tener una regulación génica más dinámica y compleja. para reducir la toxicidad de las sales en las células de la raíz. Los resultados obtenidos están de acuerdo con hallazgos previos en el patrón de expresión génica tiende a ser específico de tejido Magwanga et al. [25], encontró que un gran número de PASTO los genes estaban altamente regulados al alza en los tejidos de las hojas en comparación con los tejidos del tallo y las raíces en condiciones de estrés por sequía. En comparación con las etapas SS3 (21,738 y 30,525, en hojas y raíces, respectivamente) y SS48 (23,418 y 26,533, en hojas y raíces, respectivamente), la etapa SS12 (28,521 y 32,560, en hojas y raíces, respectivamente) exhibió el mayor número de DEG en la raíz y la hoja, lo que indica que la etapa SS12 estaba más activada para responder al estrés por sales alcalinas. Curiosamente, MAR85 mostró el número más bajo de DEG en todas las etapas en comparación con LAT40 (número más alto de DEG) y CRI12. Indicó que las respuestas inconsistentes al estrés por sales alcalinas de tres accesiones de algodón americano (upland). Además, se identificaron 3509 (SS3 VS. CK0) 8138 (SS12 VS. CK0), y 5955 (SS48 VS. CK0) DEG comunes en cada etapa y posteriormente el tratamiento con sales alcalinas en las hojas de tres accesiones de algodón americano (upland). Luego, 8870 (SS3 VS. CK0), (Fig. 3e), 10,428 (SS12 VS. CK0) y 7281 (SS48 VS. CK0), se identificaron DEG en las raíces (Fig. 3b). El número variable de genes expresados ​​diferencialmente sugirió que cada etapa de tratamiento de tejido / sal alcalina retuvo sus propios programas de desarrollo independientes. Alternativamente, la complejidad transcripcional puede simplemente reflejar la complejidad de las etapas de semillas capturadas, que contenían más de un tipo de célula.

Análisis de diferentes genes de expresión (DEG) de tres accesiones de G. hirsutum. a Número de DEG después del tratamiento con sales alcalinas B-gramo DEG en diferentes etapas de tratamiento en hoja y raíz (L3 h, L12 h, L48 h, R3h, R12h y R48h), respectivamente

Anotación funcional de conjuntos DEG en las tres accesiones de algodón americano (upland) en diferentes tejidos (hoja y raíz)

Se utilizó un total de 22.359 DEG (11.818 y 15.674 en hojas y raíces, respectivamente) para el enriquecimiento funcional y el análisis de red de coexpresión ponderada (WGCNA). El análisis de conglomerados, consecuencia de los 27.492 DEG, fue similar al análisis de conglomerados de todos los genes. Esta observación empírica apoyó que los 22,359 DEG obtenidos de los tejidos de las hojas y las raíces en las tres diferentes accesiones de algodón podrían ilustrar con precisión las variaciones en las muestras analizadas. Los DEG comunes de cada tejido / etapa en tres accesiones de algodón americano (upland) se utilizaron además para llevar a cabo el enriquecimiento de ontología genética (GO) y el análisis de enriquecimiento de la enciclopedia de genes y genomas de Kyoto (KEGG). Se anotaron un total de 17,985 genes, y se encontró que 7836 y 10,149 se expresan diferencialmente en la hoja y las raíces, respectivamente. Entre los 7836 DEG anotados, 105 términos GO se enriquecieron significativamente en PAG-valor ≤0.05, FDR ≤ 0.05 (Archivo adicional 6: Tabla S2). En las raíces, se anotaron más DEG, sin embargo, se encontró que solo 96 términos GO se enriquecieron significativamente (Archivo adicional 7: Tabla S3). Además, 54 términos GO se enriquecieron comúnmente entre los tejidos de la hoja y la raíz, incluido el proceso de oxidación-reducción (GO: 0055114), el proceso metabólico de carbohidratos (GO: 0005975), la actividad oxidorreductasa (GO: 0016491), la actividad de la proteína serina / treonina quinasa ( GO: 0004713) y la actividad del factor de transcripción (GO: 0003700), que se sabía que estaban implicados en la respuesta al estrés abiótico.

Se observaron términos GO de enriquecimiento específico de tejido donde los DEG obtenidos de la hoja se enriquecieron significativamente en la fotosíntesis (GO: 0015979) y los términos GO relacionados con la fotosíntesis (GO: 0019684, GO: 0009765). Además, todos los 4163 DEG (2426 y 2667 DEG en hojas y raíces, respectivamente) se enriquecieron utilizando la base de datos KEGG. Los DEG de la hoja y la raíz se enriquecieron significativamente en 30 y 34 términos KEGG, respectivamente, con el valor Q de ≤0.0001, y el número de genes para cada término analizado establecido en ≥3 (Archivo adicional 8: Tabla S4 y Archivo adicional 9: Tabla S5). La transducción de señales de hormonas vegetales (ko04075) y la biosíntesis de metabolitos secundarios (ko01110) fueron las vías de KEGG más comunes detectadas (archivo adicional 2: Figura S1 y S2), y anteriormente se ha descubierto que las dos vías están significativamente involucradas en la respuesta al estrés abiótico [26,27,28,29].Además, los términos KEGG enriquecidos específicamente para la hoja detectados fueron los relacionados con el aparato fotosintético de la hoja de la planta, como Fotosíntesis (ko00195) y Fotosíntesis - proteínas de antena (ko00196). A pesar de que la respuesta al estrés por sales alcalinas está involucrada en vías más complejas, procesos de transducción de señales y oxidación-reducción, los DEGS detectados podrían estar desempeñando un papel central en los tejidos de las hojas y raíces del algodón en condiciones de estrés por sal. Además de los DEG, analizamos los diversos factores de transcripción de plantas con función putativa para mejorar la tolerancia al estrés salino entre los tres cultivares de algodón utilizados. Se identificaron un total de 2080 TF, en los que se detectaron 991 TF entre los DEG en los tejidos de las hojas, mientras que 1577 TF fueron de los DEG analizados de las raíces de los tejidos de la raíz (archivo adicional 10: Tabla S6). Los resultados obtenidos para los TF se correlacionaron positivamente con la distribución de los DEG en los que se encontraron más expresados ​​en las raíces que en los tejidos foliares, una indicación de que las raíces podrían ser el tejido vegetal primario, que se ve muy afectado bajo la sal. condiciones de estrés. En todos los TF identificados, se encontró que 53 familias de genes diferentes estaban vinculadas a los TF como ZF-HD, SRS, familias de TF similares a S1Fa, SAP y NF-X1 se identificaron para los DEG para los tejidos de la raíz mientras que la familia YABBY TF , se detectó para los DEG encontrados para los tejidos foliares.

Construcción de módulos y redes de coexpresión

Para investigar la red reguladora de genes de la respuesta al estrés por sales alcalinas en el algodón americano (upland), identificamos conjuntos de genes coexpresados ​​a través del análisis de redes de coexpresión de genes ponderados (WGCNA) que se pueden utilizar para encontrar redes (módulos) de genes altamente correlacionados [30 ]. En el presente estudio, se utilizaron 22.359 DEG para WGCNA. Para garantizar una red sin escala, el poder de β = 12 (R2 libre de escala = 0,8740) se seleccionó con precisión mediante la determinación de la potencia de umbral suave (archivo adicional 3: Figura S3A / B) y la evaluación del análisis de topología libre de escala (archivo adicional 3: Figura S3C / D). En representación de la interacción entre genes con perfiles de expresión similares, se identificaron varias redes que se denominaron módulos de coexpresión. Se identificó un total de 20 módulos mediante el método Dynamic Tree Cut (parámetro central: MEDissThres = 0,25), que varían desde 135 genes en el módulo mistyrose hasta 4793 genes en el módulo darkmagenta. Entre los 20 módulos, 17 genes no fueron útiles, que mostrados en el módulo gris, no pudieron ser seleccionados por ningún otro módulo (Archivo adicional 4: Fig. 4a-b). Se seleccionaron al azar mil genes para la visualización de redes de genes. Los genes del mismo módulo muestran una superposición topológica superior (archivo adicional 4: Figura S4), lo que indica que las redes (módulos) que fueron construidos por WGCNA tienen funciones biológicas útiles.

Construcción de la red de coexpresión de tres accesiones de algodón americano (upland). a Dendrograma de agrupación de 22.359 genes expresados ​​diferentes, con diferencias basadas en la superposición topológica. Las filas de colores proporcionan una comparación visual simple de las asignaciones de módulos (cortes de ramas) según el método de corte de ramas híbrido dinámico. B Número de genes de cada red / módulo

Identificación y visualización de módulos específicos de tejido / estadio en hojas y raíces del algodón americano (upland)

Un perfil resumido (eigengene) para cada módulo obtenido por WGCNA. Por ejemplo, agrupando el mapa de calor y el gráfico de barras de genes propios de los módulos que se correlacionaron altamente con los rasgos, que se muestran en la (Fig. 5a), representó los niveles de expresión génica de cada módulo. Para determinar la correlación entre módulo y rasgo, asociamos genes propios con etapas de tratamiento con sales alcalinas y razas de algodón americano (upland) mediante el análisis del coeficiente de correlación de Pearson, respectivamente. Curiosamente, ninguno de los módulos se asoció significativamente con tres razas de algodón americano (upland) (r ≥ 0,60, p ≤ 0,01) sin embargo, 11 módulos de coexpresión mostraron una correlación relativamente más alta (r ≥ 0,60) con estadios SS3, SS12, SS48 en hojas y raíces de algodón americano (upland) (Fig. 5b-c). Sugirió que las redes de coexpresión eran significativamente diferentes en diferentes etapas. Por el contrario, ninguna de las redes de coexpresión se encontró asociada con tres accesiones de algodón americano (upland), lo que indica que una red reguladora particular de respuesta al estrés de sales alcalinas en diferentes razas de algodón americano (upland). Las etapas SS12 y SS48 se correlacionaron con más de un módulo. El estadio SS12 se correlacionó con el marrón 2 (Número de gen: 1163, r = 0,79), verde oliva oscuro (Número gen: 416, r = 0,76) y verde mar oscuro 4 (Número de gen: 237, r = 0,68) módulos en hoja, y correlacionados con orquídea mediana (Número de gen: 241, r = 0,66) y azul violeta (Número gen: 2632, r = 0,71) módulos en la raíz, respectivamente. El estadio SS48 se asoció con la rosa brumosa (Número de gen: 135, r = 0,67) y azul pizarra claro (Número de gen: 1300, r = 0,87) módulos en hoja, y asociados con azul acero claro1 (número de gen: 1218, 0.87) y rojo anaranjado 4 (número de gen: 536, r = 0,85) módulos en la raíz, respectivamente. Si bien, solo un módulo se correlacionó con la etapa SS3 (blanco navajo (número de gen: 326, r = 0,88) módulo SS3 etapa en hoja naranja rojo1 (Número de gen: 1836, r = 0,95) módulo-SS3 etapa en raíz). Curiosamente, los módulos altamente correlacionados y significativos se correlacionaron todos positivamente con diferentes etapas, lo que indicó que diferentes genes de expresión en diferentes tejidos / etapas se regularon predominantemente hacia la respuesta al estrés por sales alcalinas.

Visualización de niveles de expresión génica y valores de genes propios de módulos significativos. a El mapa de calor de agrupamiento y el diagrama de barras representan los niveles de expresión génica de cada módulo. En los mapas de calor, los colores van del verde al rojo, lo que indica niveles de expresión de bajos a altos, respectivamente. B Mapa de calor de correlaciones entre módulo y diferentes etapas de tratamiento en hoja y raíz. C Mapa de calor de correlación entre módulos y tres accesiones de algodón americano (upland) en hoja y raíz. Los colores que van del azul al blanco y al rojo indican correlaciones bajas, intermedias y altas, respectivamente. ME, el primer componente principal de los perfiles de expresión estandarizados de un módulo dado

Análisis de enriquecimiento de GO

Realizamos análisis de enriquecimiento GO de genes en módulos específicos de tejido / estadio. Los términos GO enriquecidos se presentan en (Archivo adicional 12: Tabla S8). El análisis GO categoriza los genes en tres grupos posibles, a saber, componente celular (CC), funciones moleculares (MF) y proceso biológico (BP). La función molecular detectada para los DEG fue la actividad transductora de señal (GO: 0004871) y la actividad reguladora de la respuesta fosforilada (GO: 0000156) que se enriquecieron significativamente en la etapa SS3, la actividad de la proteína tirosina quinasa (GO: 0004713), la actividad de la proteína quinasa (GO : 0004672) y la actividad de la proteína serina / treonina quinasa (GO: 0004674) fueron las tres principales altamente enriquecidas en la etapa SS12 en la hoja, mientras que la unión de ácido nucleico de la región reguladora (GO: 0001067), la unión de ADN de la región reguladora de la transcripción (GO: 0044212), región de unión al ADN (GO: 0000975) fueron los tres principales enriquecidos significativamente en la etapa SS48 (P & lt 0,001, FDR & lt 0.05) en hoja. En el análisis de enriquecimiento de GO para el proceso biológico (BP), no se identificó ninguna vía significativa en las etapas SS3 en la fosforilación de proteínas foliares (GO: 0006468), la modificación de macromoléculas (GO: 0043412) y el proceso de modificación de proteínas (GO: 0036211) fueron los Las tres vías principales en la etapa SS12 en la hoja, mientras que el proceso metabólico de un solo organismo (GO: 0044710), el proceso metabólico de los carbohidratos (GO: 0005975) y el proceso de oxidación-reducción (GO: 0055114) fueron las tres vías principales en la etapa SS48 en la hoja. . Para el análisis GO de la función molecular, la actividad del factor de transcripción de unión a ácidos nucleicos (GO: 0001071), la actividad del factor de transcripción, la unión al ADN específico de secuencia (GO: 0003700) y la actividad oxidorreductasa que actúa sobre donantes emparejados, con incorporación o reducción de oxígeno molecular (GO : 0016705) fueron los tres principales enriquecidos significativamente en la etapa SS3 en la raíz. en la etapa SS12 en la raíz, mientras que la actividad oxidorreductasa (GO: 0016491), la actividad acil-CoA deshidrogenasa (GO: 0003995) y la actividad catalítica (GO: 0003824) fueron las tres principales enriquecidas significativamente en la etapa SS48 en la raíz. Curiosamente, la actividad oxidorreductasa se encontró en diferentes etapas de diferenciación. En el análisis de enriquecimiento de GO del proceso biológico, la regulación del proceso biosintético de ARN (GO: 2001141), la regulación de la transcripción, la plantilla de ADN (GO: 0006355), la regulación de la transcripción de la plantilla de ácido nucleico (GO: 1903506) se enriquecieron significativamente. Los términos GO en la etapa SS3 en la regulación de la raíz del proceso metabólico del ARN (GO: 0051252), la regulación del proceso biosintético del ARN GO: 2001141 y la regulación de la transcripción, con plantilla de ADN (GO: 0006355) fueron las tres vías principales en la etapa SS12 en la raíz. De manera similar, con la etapa SS12 en la hoja, el proceso metabólico de un solo organismo (GO: 0044710), el proceso de un solo organismo (GO: 0044699) y el proceso de oxidación-reducción (GO: 0055114) fueron las tres vías principales en la etapa SS48 en la raíz. En general, la transducción de señales se realizó en las etapas SS3 y SS12 y regula la transcripción se realizó en la etapa SS48 en la hoja. Aunque es complicado regular el estrés por sales alcalinas en la raíz, la regulación de la oxidación-reducción se realizó en todas las etapas. Los resultados obtenidos están de acuerdo con hallazgos anteriores en los que se han identificado términos GO similares para varios genes sensibles al estrés, como PASTO genes [25], COMPAÑERO genes [31] entre otros.

Identificación de genes centrales y altamente conectados

Para identificar los genes centrales bajo estrés salino-alcalino, se utilizaron dos métodos diferentes para cribar genes. Cada peso de posibilidad de gen (pag. peso) se obtuvo mediante la función de selección de red del paquete WGCNA en función de la significación genética (GS), la pertenencia modular (MM) y pag. El valor del peso indicó que el gen tenía una mayor correlación con los rasgos (etapas de tratamiento). Los 30 primeros centro los genes se identificaron basándose en p. Peso. En el segundo método, se seleccionaron los 150 principales y los 300 genes altamente conectados para módulos de mayor correlación de diferentes etapas para el análisis basado en la matriz de superposición topológica (TOM) de todos los genes de expresión diferencial. Además, los 30 genes principales que eran centrales y altamente conectados se visualizaron utilizando el software Cytoscape 3.3.0 (archivo adicional 11: Tabla S7, Fig. 6a-b). En total, 180 centro Se encontraron genes de mayor correlación con diferentes etapas de tratamiento y también se seleccionaron 180 genes de mayor conectividad en seis etapas diferentes, en las que se identificaron 39 genes comunes mediante dos métodos diferentes que indicaron el papel central de estos genes en respuesta al estrés de sales alcalinas. Curiosamente, se obtuvieron 19 y 18 genes comunes en las etapas SS3L y SS48L, pero ninguno de los genes comunes se encontró en otras etapas. Proteínas transmembrana (Pfam: DUF3082), Gh_D11G2953 y Gh_A11G2587, fueron los genes más correlacionados con otros genes y en las etapas SS3L bajo estrés por sales alcalinas. Proteína de la familia de las galactosiltransferasas (Gh_D05G1401 y Gh_A05G1229) y proteína de la familia de la lisina descarboxilasa (Gh_D05G1724 y Gh_A03G0267) también se observó una indicación de que estos genes eran factores significativamente importantes en la etapa SS3L en relación con la tolerancia al estrés salino.

Visualización de conexiones de genes en varios módulos mediante mapa de calor y Cytoscape 3.3.0. En la parte superior de la imagen A-F, gráficos de mapas de calor que representan las relaciones entre los 30 genes más importantes identificados mediante la detección de redes. Cada columna y fila del mapa de calor corresponde a un solo gen. Los colores claros significan superposiciones topológicas que los colores progresivamente más oscuros corresponden a superposiciones topológicas más altas. En la parte inferior de la imagen A-F, conexiones de 30 genes concentradores que se seleccionaron de entre los 150 genes más conectados y las 300 conexiones principales de los genes altamente conectados de los módulos de correlación más alta. Las parcelas A-F representan la centro red de genes de L3 h, L12 h, L48 h, R3h, R12h y R48h, respectivamente

Tres enzimas ramificadoras de almidón diferentes (Gh_A02G1739, Gh_D02G0995 y Gh_Sca006745G03) y dos proteínas de la superfamilia RING / U-box (Gh_D05G0963 y Gh_D07G1649) se identificaron que podrían estar jugando un papel importante en las etapas de SS48L. Los pares de genes homólogos fueron identificados al mismo tiempo por WGCNA, lo que sugirió sus posibles funciones clave en la regulación del estrés por sales alcalinas en el algodón. Se encontró un total de 35 TF entre centro genes, de 26 TF mostraron una mayor conectividad con varios DEG. Además, entre los 35 TF, 4 de los genes comunes tenían una mayor correlación con otros genes y etapas de tratamiento bajo estrés de sales alcalinas, eran miembros del dedo de zinc de doble caja B (DBB, Gh_A10G0877 y Gh_A11G2610) y factor nuclear YA (NF-YA, Gh_D03G0606 y Gh_Sca006219G01) Familia TF. En general, 321 centro Se identificaron genes, incluidos 35 factores de transcripción.

Validación de los genes hub por RT-qPCR

Para detectar el nivel de expresión y la función del centro gen, se seleccionaron 12 genes y se analizó su expresión. En cada uno de los genes seleccionados se examinaron aleatoriamente en cinco muestras mediante RT-qPCR. La información del cebador genético de 12 centro genes fue diseñado y los detalles están contenidos en (Archivo adicional 5: Tabla S1, Archivo adicional 6: Tabla S2, Archivo adicional 7: Tabla S3, Archivo adicional 8: Tabla S4, Archivo adicional 9: Tabla S5, Archivo adicional 10: Tabla S6 , Archivo adicional 11: Tabla S7, Archivo adicional 12: Tabla S8). Encontramos que los datos del nivel de expresión génica de RT-qPCR estaban significativamente altamente correlacionados (cor = 0,7397, pag-valor = 1.458e-11) con los datos de RNA-seq (Fig. 7a). Este resultado demostró que los datos de RNA-seq eran fiables en esta investigación. Además, en comparación con el nivel de expresión de las plántulas de control, los genes hub se expresaron diferencialmente en condiciones de estrés salino, lo que sugirió que los genes hub identificados por WGCNA tenían un papel putativo en la respuesta al estrés salino-alcalino.

Validación de genes hub por RT-qPCR

Sensibilidad mejorada a la sal en GhSOS3 y GhCBL10 plántulas de silenciamiento génico inducido por virus (VIGS)

Para investigar más a fondo las funciones de los genes centrales, GhSOS3 y GhCBL10, el VIGS pYL156-GhPDS, pYL156-Ctrl, pYL156-GhSOS3 y pYL156-GhCBL10 las plantas se observaron bajo estrés salino-alcalino. Se observaron hojas de albino en plántulas inoculadas con pYL156-PDS después de 7 días de inoculación. En comparación con las plántulas infectadas, encontramos que las plántulas de control tuvieron un crecimiento rápido después de 20 días de inoculación. Además, no se observaron diferencias entre las plántulas infectadas (Fig. 8a). Los niveles de expresión de GhSOS3 y GhCBL10 fueron verificados por RT-qPCR En comparación con plántulas pYL156-Ctrl, los niveles de expresión de GhSOS3 y GhCBL10 se regularon negativamente en las plántulas de silenciamiento génico correspondientes después de 20 días de inoculación (Fig. 8b). La licencia de pYL156-GhSOS3 y pYL156-GhCBL10 las plántulas se marchitaron y marchitaron en comparación con el control y las plántulas pYL156-Ctrl después de 20 días de tratamiento de estrés salino-alcalino (Fig. 8c). Además, el contenido de PRO y SOD fue menor en pYL156-GhSOS3 y pYL156-GhCBL10 plántulas en comparación con las plántulas de control y pYL156-Ctrl después de 20 días de tratamiento de estrés salino-alcalino. Por el contrario, el contenido de MDA fue mayor en pYL156-GhSOS3 y pYL156-GhCBL10 plántulas en comparación con las plántulas de control y pYL156-Ctrl (Fig. 8d). Este resultado sugirió pYL156-GhSOS3 y pYL156-GhCBL10 se mejoró la sensibilidad de las plántulas.

Evaluación de fenotipo, análisis de expresión y ensayos bioquímicos en VIGS y plantas de tipo salvaje bajo estrés de sales alcalinas. a El fenotipo de normal (CK), pYL156-Ctrl, pYL156-PDS, pYL156-GhSOS3 y pYL156-GhCBL10 plántulas de MAR85. B El fenotipo de normal (CK), pYL156-Ctrl, pYL156-PDS, pYL156-GhSOS3 y pYL156-GhCBL10 plántulas de MAR85 después de 20 días después del tratamiento de estrés salino-alcalino. C El nivel de expresión de GhCBL10 y GhSOS3 genes en VIGS, WT y plantas controladas positivamente en condiciones normales (D) Contenido de PRO, MDA y SOD en condiciones normales (CK), pYL156-Ctrl, GhSOS3 y pYL156-GhCBL10 plántulas de MAR85 después del tratamiento de estrés salino-alcalino


Métodos

Motivos y redes reguladoras de genes.

Tomamos el conjunto de interacciones regulatorias para E. coli del conjunto de datos en la ref. 2, que utiliza la información disponible en la base de datos de RegulonDB 7 y proporciona nuevas interacciones compiladas a partir de la literatura. Hubo 1.409 interacciones reguladoras que involucraron 121 factores de transcripción y 795 genes diana. Encontramos 42 FFM y 30 SIM en esta red. Tomamos los factores de transcripción y sus genes diana en levadura del conjunto de datos en la ref. 3, que constaba de 906 interacciones que implicaban 109 factores de transcripción y 402 genes diana. Hay 131 FFM y 29 SIM en esta red. El gran número de FFM en la levadura refleja la extensa interregulación del factor de transcripción en el eucariota en comparación con el procariota. Los detalles sobre esto se proporcionan en la Nota complementaria en línea.

Identificación de genes duplicados.

La detección de homología entre proteínas parálogas distantes en un organismo es una tarea difícil debido a la divergencia de secuencia. Pero es bien sabido que la estructura de una proteína está más conservada que su secuencia. Por lo tanto, para detectar de manera confiable relaciones distantes entre E. coli y proteínas de levadura, utilizamos asignaciones de dominios estructurales tridimensionales de las proteínas de la red como medida de homología. Si dos proteínas tenían la misma arquitectura de dominio, o una serie de dominios de las mismas familias de proteínas, asumimos que se derivan del mismo ancestro común, como se apoya en el análisis de las estructuras de proteínas 26 y secuencias 27.

Obtuvimos arquitecturas de dominio de las asignaciones de dominio en la base de datos SUPERFAMILY 13 (versión 1.61) para las secuencias de proteínas en la levadura y E. coli genomas. La información evolutiva sobre los dominios es inherente al esquema de clasificación de la base de datos SCOP 28, y los modelos ocultos de Markov de la base de datos SUPERFAMILY se basan en estos dominios.

Consideramos que las arquitecturas de dominio que diferían solo por espacios o repeticiones de dominios eran homólogas, ya que el método de asignación estructural a veces pasa por alto las repeticiones. En comparación con los grupos de secuencias encontrados por FASTA 29 de secuencias completas (valor E ≤ 0,01 en una base de datos grande, coinciden con más del 80% de la secuencia), nuestro método de comparación de arquitecturas de dominio nunca divide los grupos de secuencias. Sin embargo, varios grupos de secuencias tenían la misma arquitectura de dominio. Para ilustrar la cobertura del método, el 48% de todas las proteínas de levadura en el genoma tenían una asignación de dominio, mientras que sólo ~ 5% puede agruparse mediante FASTA de la manera descrita anteriormente.

Si hubiera una asignación de dominio para una sola proteína en un par de genes regulados por el factor de transcripción, podríamos rastrear la duplicación solo si el par estuviera incrustado en una topología de red adecuada. Por ejemplo, si un factor de transcripción carecía de una asignación de dominio pero regulaba dos genes que son homólogos, aún podríamos rastrear la evolución de tales interacciones (Fig. 2b).

Identificación de aristas duplicadas y procedimiento de simulación.

Evaluamos la importancia de las interacciones compartidas entre homólogos en comparación con un escenario en el que las arquitecturas de dominio se barajaron aleatoriamente a través de proteínas. Simulamos esto reteniendo la topología de la red real y barajando arquitecturas de dominio aleatoriamente entre esos nodos con información de arquitectura de dominio. Mezclamos los factores de transcripción por separado de los genes diana. Llevamos a cabo la simulación 10.000 veces, y cada vez calculamos el número de factores de transcripción homólogos con dianas compartidas y de genes diana homólogos con factores de transcripción compartidos. La fracción de homólogos con interacciones compartidas nunca fue tan alta como la observada en la red real en las 10,000 iteraciones del cálculo (Métodos suplementarios en línea).

La información sobre el conjunto de datos utilizado y las asignaciones estructurales está disponible en http://www.mrc-lmb.cam.ac.uk/genomes/madanm/net_evol/.

Nota: Información suplementaria está disponible en el sitio web de Nature Genetics.


Materiales y métodos

Interacciones regulatorias

Obtuvimos interacciones regulatorias de RegulonDB 5.6 [1]. Después de eliminar los genes de ARN y los pseudogenes, y el factor sigma de mantenimiento RpoD, teníamos 159 TF caracterizados, 1.354 genes regulados y 3.085 interacciones reguladoras entre ellos. Algunos de los TF son heterodímeros en estos casos, analizamos solo una de las dos subunidades. También examinamos TF y anotaciones de genes en EcoCyc [47] y operones conocidos en RegulonDB.

Historias evolutivas de TF

Investigamos las historias evolutivas de los TF comparando el árbol de genes con el árbol de especies. Como primer paso, usamos árboles de unión rápida de vecinos [48] para COG, PFams y ad hoc BLAST familias del navegador de árboles MicrobesOnline [49] y comparamos los árboles genéticos con el árbol de especies MicrobesOnline. (Las partes más relevantes del árbol de especies se muestran en la Figura 2, y la construcción del árbol de especies se describe a continuación).

Dado un árbol de genes y un árbol de especies, identificamos eventos de transferencia horizontal utilizando una combinación de la filogenia del gen y el patrón de presencia y ausencia del gen. Si un clado fuertemente apoyado en el árbol genético estaba presente en genomas dispares, de modo que se necesitarían tres o más eventos de deleción para explicar la distribución de la subfamilia en el árbol de especies, entonces asignamos un evento HGT. Deleciones en los genomas altamente reducidos del grupo endosimbionte de insectos (Buchnera, Wigglesworthia, y Blochmannia) no se consideraron como evidencia de HGT. Dado que la HGT parece ser común en bacterias, el umbral de tres o más eventos de deleción es conservador. En particular, con umbrales más altos, se requiere un gran número de deleciones de bacterias ancestrales para explicar la distribución actual de genes, lo que requiere que las bacterias ancestrales hayan tenido genomas excesivamente grandes [50, 51].

Si el árbol de genes mostraba parálogos y la filogenia de dos subgrupos era consistente con el árbol de especies, entonces asignamos un evento de duplicación de genes. Las historias que no cumplían con ninguno de estos criterios se consideraron nativas, incluso si había discrepancias menores entre el árbol de la especie y el árbol genético. Si un gen mostró evidencia tanto de HGT como de duplicación, usamos el evento más reciente para clasificar el origen del gen (por ejemplo, ronroneo/rbsR, en la Figura 4, se clasifica como una duplicación).

Una vez que tuvimos una clasificación tentativa, la confirmamos verificando homólogos cercanos (por BLASTp) que podrían estar ausentes de la familia de genes (debido a las limitaciones de la asignación de la familia de genes) y construyendo un árbol filogenético más pequeño y preciso para un determinado subconjunto de homólogos. Para construir estos árboles de mayor calidad, utilizamos MUSCLE [52] para alinear las secuencias de codificación de proteínas, Gblocks para recortar las alineaciones [53] y tanto TreePuzzle [54] como phyml [55] para construir árboles filogenéticos.

También preguntamos si el supuesto evento de HGT afectó al E. coli linaje. Por ejemplo, como se ve para crp (Figura 5), ​​el árbol sugiere un evento de transferencia de E. coliantepasados ​​de otro linaje, pero esto no implica que E. coliLos ancestros adquirieron el gen por HGT. Estos genes se clasificaron como nativos.

Suponemos que estos genes fueron transferidos de otras bacterias al E. coli linaje, en lugar de viceversa, aunque teóricamente es posible que estos FT surgieran en el E. coli linaje relativamente recientemente y luego fueron transferidos a otro lugar. Debido a que la mayoría de los TF pertenecen a familias numerosas que están presentes en muchos otros linajes bacterianos, y también porque estos TF a menudo tienen parálogos distantes en E. coli, un origen reciente de estas familias dentro del E. coli el linaje no es plausible.

Árbol de especies

El árbol de especies se calculó a partir de árboles de máxima verosimilitud de proteínas concatenadas mediante el uso de una representación matricial de la parsimonia [56]. Los árboles de máxima probabilidad se generaron a partir de un árbol guía de menor calidad seleccionando, para cada nodo interno en el árbol guía, una pequeña cantidad de genomas descendientes y grupos cerrados (menos de 20 genomas en total). Dado este pequeño grupo de genomas, identificamos COG [22] que están presentes como una sola copia en cada genoma. Debido a que estos grupos de genomas generalmente consistían en parientes cercanos, por lo general había cientos de genes conservados. Alineamos y recortamos cada COG, nuevamente usando MUSCLE y Gblocks, y concatenamos las alineaciones. Debido a que las alineaciones resultantes a menudo eran muy grandes, eliminamos los sitios invariantes, y si la alineación aún contenía más de 5,000 posiciones, tomamos una muestra aleatoria de sitios. Luego construimos un árbol con phyml, usando cuatro categorías de tasas evolutivas. Convertimos los árboles a una matriz de caracteres [56] y usamos PAUP 4.0b10 [57] para inferir el árbol más parsimonioso. Por último, utilizamos PHYLIP [58] para inferir longitudes de rama de máxima verosimilitud, con tasas de distribución gamma, a partir de una alineación concatenada de 74 proteínas altamente conservadas.

Una descripción más completa de la construcción del árbol de especies está disponible en línea [49]. El árbol no contiene valores de arranque, pero la mayoría de los árboles de origen tienen un fuerte soporte de arranque y son congruentes entre sí (datos no mostrados). Las incertidumbres más relevantes son la ubicación de Photorhabdus, y si Sodalis deben agruparse con los otros endosimbiontes de insectos (Buchnera etcétera).

Muestreo de reguladores

Examinamos los 20 principales reguladores mundiales, que representan aproximadamente dos tercios de las interacciones regulatorias en RegulonDB. Para los reguladores vecinos, examinamos aquellos que se describieron en una compilación anterior de interacciones regulatorias, ColiNet 1.1 [59], que usamos en la fase inicial de este proyecto. Aunque esta no es una muestra verdaderamente aleatoria, no conocemos ninguna razón por la cual los reguladores caracterizados más recientemente tendrían diferentes historias evolutivas. Examinamos una muestra aleatoria de 23 de los otros reguladores caracterizados en RegulonDB. Nuevamente, estos fueron principalmente reguladores que se describieron en ColiNet.

Identificamos reguladores putativos en E. coli K12 mediante la búsqueda de ontología genética GO: 0003700 ('actividad del factor de transcripción') utilizando la base de datos MicrobesOnline. Seleccionamos al azar 20 de estos para examinar y verificamos que se predijo que contenían dominios de hélice-giro-hélice (mediante el uso de InterPro), que no estaban anotados como enzimas de restricción o enzimas de modificación del ADN y que no estaban ya caracterizados. según EcoCyc [47].

Identificación automática de genes HGT

Para identificar la HGT automáticamente, buscamos genes que carecen de homólogos cercanos en grupos consecutivos de bacterias relacionadas (Figura 9). Definimos homólogos "cercanos" mediante puntuaciones BLAST, y para confirmar la supuesta HGT utilizamos una prueba de cuarteto (ver Figura 9). Este enfoque contrasta con los enfoques que se basan en gran medida en el árbol genético [13, 24] y es más similar a los análisis de presencia / ausencia [60, 61]. Aunque el método es conservador y omite muchos eventos de HGT (datos no mostrados), clasifica aproximadamente una cuarta parte de los genes que codifican proteínas en E. coli K12 como HGT, lo que produce una muestra suficientemente grande para el análisis.

Identificación automatizada de genes HGT. Examinamos las puntuaciones más altas de la herramienta de búsqueda de alineación local básica (BLAST) de homólogos dentro de grupos de genomas a distancias crecientes de Escherichia coli. Si la puntuación BLAST fue sustancialmente más baja (en un factor de 1,3) en dos grupos consecutivos en relación con su mejor puntuación en genomas más distantes, entonces el gen se consideró un candidato para la transferencia horizontal de genes (HGT). Dados estos candidatos, usamos una prueba de cuarteto para determinar si el mejor impacto del genoma más distante estaba en realidad más relacionado con el E. coli gen que fueron los mejores resultados de los genomas intermedios. La prueba del cuarteto confirmó HGT en el 92% de estos casos, y para el 71% de los genes cuya topología del cuarteto indicó HGT, la topología fue fuertemente apoyada (PAG & lt 0.05, por la prueba de Shimodaira-Hasegawa en un rompecabezas de árbol [54]). 'HPVS' se refiere a Haemophilus, Pasteurella, Vibrio, Shewanellay especies relacionadas.

La prueba del cuarteto no se realizó si no había un homólogo más distante en cada uno de los grupos de genomas a los que les "faltaban" buenos resultados del gen, porque en estos casos no tenemos cuatro genes para formar un cuarteto. Si tuviéramos un gen de cada grupo de genomas, alineamos los cuatro genes con MUSCLE, eliminamos posiciones con huecos y probamos la probabilidad de las tres topologías con tree puzzle [54], usando tasas evolutivas distribuidas por gamma.

Red reguladora barajada

Para probar si las similitudes regulatorias entre parálogos ocurrieron con más frecuencia de lo que esperaríamos por casualidad, usamos una hipótesis nula simple de que la red reguladora evoluciona al azar. Esta hipótesis nula es equivalente a un modelo neutral simplista en el que los sitios de unión para los reguladores surgen de forma neutral, y los sitios de unión para los reguladores globales surgen con más frecuencia que para otros reguladores, de modo que regulan más genes.

Para probar esta hipótesis nula, barajamos la red de modo que el número de interacciones para cada TF y para cada gen regulado no cambia (similar al informe de Maslov y Sneppen [62] pero para las redes reguladoras). Más precisamente, seleccionamos los genes regulados para cada TF mediante muestreo sin reemplazo del conjunto completo de genes regulados. Volvimos a muestrear partes de la red para evitar interacciones duplicadas entre genes regulados y TF. Esto dio redes con el mismo grado de distribución que la red original, tanto para TF como para genes regulados.

Una prueba de aleatorización alternativa consiste en permutar las relaciones de paralogía en lugar de las redes reguladoras. (Ver el informe de Teichmann y Babu [4], aunque usan la terminología de 'arquitecturas de dominio' en lugar de paralogía). Esta prueba confirmó que la evolución convergente es más común en la red real de lo esperado por casualidad los tres tipos de similitud convergente en la Tabla 1 fueron más comunes en la red real que en 999 o más de los 1,000 barajados de paralogía que ejecutamos.

Predicción de sitios de unión para reguladores globales

Obtuvimos sitios de unión de CRP caracterizados en E. coli de DPInteract [34]. Alineamos estos sitios con MEME [63], convertimos la alineación en una matriz de peso con simetría palindrómica y usamos patser [64] para buscar sitios. Buscamos de -200 a +100 en relación con el codón de inicio de cada gen, y solo consideramos los sitios potenciales con una puntuación de 6,0 bits o más. Este punto de corte es bastante débil y conduce a una alta sensibilidad pero a una especificidad modesta en los que encontramos sitios en E. coli para 13 de los 16 genes regulados por CRP que examinamos, pero el 13% de las regiones aguas arriba seleccionadas al azar para xenólogos de E. coli los genes tuvieron un impacto en 6.0 bits o más. Sin embargo, es poco probable que los sitios de PCR xenólogos en la Tabla 2 hayan ocurrido por casualidad. yiaK y gntK tienen hits de más de 10 bits, lo que ocurre en menos del 1% de las regiones ascendentes, y árabe tiene dos sitios cercanos, lo que sugiere una unión cooperativa y también es poco probable que ocurra por casualidad.

Los análisis de otros reguladores globales que tienen matrices de peso en DPInteract se realizaron de manera similar, pero sin forzar que la matriz de peso sea palindrómica. Algunos de los factores sigma tienen múltiples modelos, en cuyo caso usamos la mejor puntuación para cualquier modelo. Las matrices de peso para lrp y fis no se utilizaron porque tienen poca especificidad [34].


Referencias

Lee TI, Rinaldi NJ, Robert F, Odom DT, Bar-Joseph Z, Gerber GK, Hannett NM, Harbison CT, Thompson CM, Simon I, et al: Redes reguladoras transcripcionales en Saccharomyces cerevisiae. Ciencias. 2002, 298: 799-804. 10.1126 / science.1075090.

Stormo GD: sitios de unión al ADN: representación y descubrimiento. Bioinformática. 2000, 16: 16-23. 10.1093 / bioinformatics / 16.1.16.

Cliften P, Sudarsanam P, Desikan A, Fulton L, Fulton B, Majors J, Waterston R, Cohen BA, Johnston M: Encontrar características funcionales en Saccharomyces genomas por huella filogenética. Ciencias. 2003, 301: 71-76. 10.1126 / science.1084337.

Kellis M, Patterson N, Endrizzi M, Birren B, Lander ES: Secuenciación y comparación de especies de levadura para identificar genes y elementos reguladores. Naturaleza. 2003, 423: 241-254. 10.1038 / nature01644.

Aparicio S, Morrison A, Gould A, Gilthorpe J, Chaudhuri C, Rigby P, Krumlauf R, Brenner S: Detectando elementos reguladores conservados con el genoma modelo del pez globo japonés, Fugu rubripes. Proc Natl Acad Sci USA. 1995, 92: 1684-1688.

Pritsker M, Liu YC, Beer MA, Tavazoie S: descubrimiento del genoma completo de los sitios de unión del factor de transcripción utilizando la conservación a nivel de red. Genome Res. 2004, 14: 99-108. 10.1101 / gr.1739204.

Hughes JD, Estep PW, Tavazoie S, Church GM: Identificación computacional de cis -Elementos reguladores asociados con grupos de genes relacionados funcionalmente en Saccharomyces cerevisiae. J Mol Biol. 2000, 296: 1205-1214. 10.1006 / jmbi.2000.3519.

Zhu J, Zhang MQ: SCPD: una base de datos de promotores de la levadura Saccharomyces cerevisiae. Bioinformática. 1999, 15: 607-611. 10.1093 / bioinformatics / 15.7.607.

Yamaguchi-Iwai Y, Dancis A, Klausner RD: AFT1: un mediador del control transcripcional regulado por hierro en Saccharomyces cerevisiae. EMBO J. 1995, 14: 1231-1239.

Beer MA, Tavazoie S: Predicción de la expresión génica a partir de la secuencia. Celda. 2004, 117: 185-198. 10.1016 / S0092-8674 (04) 00304-6.

Erives A, Levine M: los potenciadores coordinados comparten características organizativas comunes en el genoma de Drosophila. Proc Natl Acad Sci USA. 2004, 101: 3851-3856. 10.1073 / pnas.0400611101.

Sudarsanam P, Pilpel Y, Church GM: la co-ocurrencia de elementos promotores en todo el genoma revela un casete regulador en cis de motivos de transcripción de ARNr en Saccharomyces cerevisiae. Genome Res. 2002, 12: 1723-1731. 10.1101 / gr.301202.

Blaiseau PL, Thomas D: múltiples complejos de activación transcripcional unen el activador de levadura Met4 al ADN. EMBO J. 1998, 17: 6327-6336. 10.1093 / emboj / 17.21.6327.

Chiang DY, Moses AM, Kellis M, Lander ES, Eisen MB: pares de palabras conservadas filogenéticamente y espacialmente asociadas con cambios de expresión génica en levaduras. Genome Biol. 2003, 4: R43-10.1186 / gb-2003-4-7-r43.

Davidson EH: Sistemas reguladores genómicos. 2001, San Diego, CA: Academic Press

Coghlan A, Wolfe KH: Tasa de reordenamiento del genoma cuatro veces más rápida en nematodos que en Drosophila. Genome Res. 2002, 12: 857-867. 10.1101 / gr.172702.

Maduro MF, Rothman JH: Haciendo tripas de gusano: la red reguladora de genes del Caenorhabditis elegans endodermo. Dev Biol. 2002, 246: 68-85. 10.1006 / dbio.2002.0655.

Cui M, Han M: requisitos reglamentarios cis para la expresión específica de células vulvares del Caenorhabditis elegans gen del factor de crecimiento de fibroblastos egl-17. Dev Biol. 2003, 257: 104-116. 10.1016 / S0012-1606 (03) 00033-2.

Gaudet J, Mango SE: Regulación de la organogénesis por el Caenorhabditis elegans Proteína FoxA PHA-4. Ciencias. 2002, 295: 821-825. 10.1126 / science.1065175.

Maduro MF, Meneghini MD, Bowerman B, Broitman-Maduro G, Rothman JH: La restricción del mesendodermo a un solo blastómero por la acción combinada de SKN-1 y un homólogo de GSK-3 está mediada por MED-1 y -2 en C. elegans. Mol Cell. 2001, 7: 475-485. 10.1016 / S1097-2765 (01) 00195-2.

Harfe BD, Fire A: Regulación específica de músculos y nervios de un nuevo factor de homeodominio de clase NK-2 en Caenorhabditis elegans. Desarrollo. 1998, 125: 421-429.

Jantsch-Plunger V, Fire A: Estructura combinatoria de un potenciador transcripcional específico del músculo corporal en Caenorhabditis elegans. J Biol Chem. 1994, 269: 27021-27028.

Tsukiyama T, Becker PB, Wu C: disrupción del nucleosoma dependiente de ATP en un promotor de choque térmico mediada por la unión del factor de transcripción GAGA. Naturaleza. 1994, 367: 525-532. 10.1038 / 367525a0.

King-Jones K, Korge G, Lehmann M: Las proteínas hélice-bucle-hélice dAP-4 y sin hijas se unen tanto in vitro como in vivo a los sitios SEBP3 necesarios para la activación transcripcional del gen Sgs-4 de Drosophila. J Mol Biol. 1999, 291: 71-82. 10.1006 / jmbi.1999.2963.

Krause M, Fire A, Harrison SW, Priess J, Weintraub H: La acumulación de CeMyoD define el destino de las células musculares de la pared corporal durante C. elegans embriogénesis. Celda. 1990, 63: 907-919. 10.1016 / 0092-8674 (90) 90494-Y.

Hu YF, Luscher B, Admon A, Mermod N, Tjian R: el factor de transcripción AP-4 contiene múltiples dominios de dimerización que regulan la especificidad del dímero. Genes Dev.1990, 4: 1741-1752.

Blackwell TK, Weintraub H: diferencias y similitudes en las preferencias de unión al ADN de los complejos de proteínas MyoD y E2A reveladas por la selección del sitio de unión. Ciencias. 1990, 250: 1104-1110.

Krause M, Park M, Zhang J, Yuan J, Harfe B, Xu S, Greenwald I, Cole M, Paterson B, Fuego A: A C. elegans La proteína bHLH E / sin hijas marca el desarrollo del músculo neuronal pero no estriado. Desarrollo. 1997, 124: 2179-2189.

Furuyama T, Nakazawa T, Nakano I, Mori N: Identificación de los patrones de distribución diferencial de ARNm y secuencias de unión de consenso para homólogos de DAF-16 de ratón. Biochem J. 2000, 349: 629-634. 10.1042 / 0264-6021: 3490629.

Murphy CT, McCarroll SA, Bargmann CI, Fraser A, Kamath RS, Ahringer J, Li H, Kenyon C: genes que actúan aguas abajo de DAF-16 para influir en la vida útil de Caenorhabditis elegans. Naturaleza. 2003, 424: 277-283. 10.1038 / nature01789.

Lee SS, Kennedy S, Tolonen AC, Ruvkun G: genes diana de DAF-16 que controlan C. elegans esperanza de vida y metabolismo. Ciencias. 2003, 300: 644-647. 10.1126 / science.1083614.

Gronostajski RM: Análisis de la unión del factor nuclear I al ADN utilizando oligonucleótidos degenerados. Ácidos nucleicos Res. 1986, 14: 9117-9132.

Lee W, Mitchell P, Tjian R: el factor de transcripción AP-1 purificado interactúa con elementos potenciadores inducibles por TPA. Celda. 1987, 49: 741-752. 10.1016 / 0092-8674 (87) 90612-X.

Kockel L, Homsy J, Bohmann D: Drosophila AP-1: lecciones de un invertebrado. Oncogén. 2001, 20: 2347-2364. 10.1038 / sj.onc.1204300.

Karin M, Liu Z, Zandi E: Función y regulación AP-1. Curr Opin Cell Biol. 1997, 9: 240-246. 10.1016 / S0955-0674 (97) 80068-3.

Grandori C, Cowley SM, James LP, Eisenman RN: La red Myc / Max / Mad y el control transcripcional del comportamiento celular. Annu Rev Cell Dev Biol. 2000, 16: 653-699. 10.1146 / annurev.cellbio.16.1.653.

Rice DA, Mouw AR, Bogerd AM, Parker KL: un elemento promotor compartido regula la expresión de tres enzimas esteroidogénicas. Mol Endocrinol. 1991, 5: 1552-1561.

Ueda H, Sun GC, Murata T, Hirose S: ​​un nuevo motivo de unión al ADN colinda con el dominio del dedo de zinc del receptor FTZ-F1 de la hormona nuclear de insecto y la proteína de unión repetida terminal larga embrionaria de ratón. Mol Cell Biol. 1992, 12: 5667-5672.

Shaywitz AJ, Greenberg ME: CREB: un factor de transcripción inducido por estímulos activado por una serie diversa de señales extracelulares. Annu Rev Biochem. 1999, 68: 821-861. 10.1146 / annurev.biochem.68.1.821.

Dijk MAV, Voorhoeve PM, Murre C: Pbx1 se convierte en un activador transcripcional al adquirir la región N-terminal de E2A en la leucemia linfoblastoide aguda de células pre-B. Proc Natl Acad Sci U S A. 1993, 90: 6061-6065.

Manak JR, Mathies LD, Scott MP: Regulación de un potenciador del intestino medio decapentapléjico por proteínas homeóticas. Desarrollo. 1994, 120: 3605-3619.

Mauhin V, Lutz Y, Dennefeld C, Alberga A: Definición del repertorio de sitios de unión al ADN para el factor de transcripción de Drosophila SNAIL. Ácidos nucleicos Res. 1993, 21: 3951-3957.

Huber HE, Edwards G, Goodhart PJ, Patrick DR, Huang PS, Ivey-Hoyle M, Barnett SF, Oliff A, Heimbrook DC: El factor de transcripción E2F se une al ADN como un heterodímero. Proc Natl Acad Sci U S A. 1993, 90: 3525-3529.

Boxem M, vanden Heuvel S: C. elegans Los genes multivulva sintéticos de clase B actúan en la regulación de G (1). Curr Biol. 2002, 12: 906-911. 10.1016 / S0960-9822 (02) 00844-8.

Ceol CJ, Horvitz HR: dpl-1 DP y efl-1 E2F actúan con lin-35 Rb para antagonizar la señalización de Ras en C. elegans desarrollo vulvar. Mol Cell. 2001, 7: 461-473. 10.1016 / S1097-2765 (01) 00194-0.

Kwon JY, Hong M, Choi MS, Kang S, Duke K, Kim S, Lee S, Lee J: genes de respuesta al etanol y su regulación analizados por un microarray y un enfoque genómico comparativo en el nematodo Caenorhabditis elegans. Genómica. 2004, 83: 600-614. 10.1016 / j.ygeno.2003.10.008.

Lund J, Tedesco P, Duke K, Wang J, Kim SK, Johnson TE: Perfil transcripcional del envejecimiento en C. elegans. Curr Biol. 2002, 12: 1566-1573. 10.1016 / S0960-9822 (02) 01146-6.

Ohler U, Yekta S, Lim LP, Bartel DP, Burge CB: Patrones de conservación de secuencias flanqueantes y un motivo corriente arriba característico para la identificación de genes de microARN. ARN. 2004, 10: 1309-1322. 10.1261 / rna.5206304.

Celniker SE, Rubin GM: El Drosophila melanogaster genoma. Annu Rev Genomics Hum Genet. 2003, 4: 89-117. 10.1146 / annurev.genom.4.070802.110323.

Matsukage A, Hirose F, Hayashi Y, Hamada K, Yamaguchi M: La secuencia DRE TATCGATA, un elemento activador del promotor putativo para Drosophila melanogaster genes relacionados con la proliferación celular. Gene. 1995, 166: 233-236. 10.1016 / 0378-1119 (95) 00586-2.

Choi T, Cho N, Oh Y, Yoo M, Matsukage A, Ryu Y, Han K, Yoon J, Baek K: El sistema del factor de unión del elemento relacionado con la replicación del ADN (DRE) (DREF) puede estar involucrado en la expresión de los Drosophila melanogaster Gen TBP. FEBS Lett. 2000, 483: 71-77. 10.1016 / S0014-5793 (00) 02085-8.

Park SY, Kim YS, Yang DJ, Yoo MA: Regulación transcripcional del gen de la catalasa de Drosophila por el sistema DRE / DREF. Ácidos nucleicos Res. 2004, 32: 1318-1324. 10.1093 / nar / gkh302.

Hanes SD, Brent R: Un modelo genético para la interacción de la hélice de reconocimiento del homeodominio con el ADN. Ciencias. 1991, 251: 426-430.

Anderson MG, Perkins GL, Chittick P, Shrigley RJ, Johnson WA: Drifter, un factor de transcripción del dominio POU de Drosophila, es necesario para la correcta diferenciación y migración de las células traqueales y la glía de la línea media. Genes Dev. 1995, 9: 123-137.

Bhat KM, Poole SJ, Schedl P: Los genes miti-mere y pdm1 colaboran durante la especificación del linaje RP2 / sib en Drosophila neurogénesis. Mol Cell Biol. 1995, 15: 4052-4063.

Junger MA, Rintelen F, Stocker H, Wasserman JD, Vegh M, Radimerski T, Greenberg ME, Hafen E: El Drosophila El factor de transcripción Forkhead FOXO media la reducción en el número de células asociado con la señalización reducida de la insulina. J Biol. 2003, 2: 20-10.1186 / 1475-4924-2-20.

Erickson JW, Cline TW: Los aspectos clave del mecanismo primario de determinación del sexo se conservan en todo el género. Drosophila. Desarrollo. 1998, 125: 3259-3268.

Waterston RH, Lindblad-Toh K, Birney E, Rogers J, Abril JF, Agarwal P, Agarwala R, Ainscough R, Alexandersson M, An P, et al: Secuenciación inicial y análisis comparativo del genoma del ratón. Naturaleza. 2002, 420: 520-562. 10.1038 / nature01262.

Suske G: la familia Sp de factores de transcripción. Gene. 1999, 238: 291-300. 10.1016 / S0378-1119 (99) 00357-1.

Ramji DP, Foka P: CCAAT / proteínas de unión al potenciador: estructura, función y regulación. Biochem J. 2002, 365: 561-575.

Latchman D: factores de transcripción eucariotas. 1997, Londres: Academic Press

Vo N, Goodman RH: proteína de unión a CREB y p300 en la regulación transcripcional. J Biol Chem. 2001, 276: 13505-13508.

Bernards R: Regulación transcripcional. Activar el interruptor Myc. Curr Biol. 1995, 5: 859-861. 10.1016 / S0960-9822 (95) 00173-4.

Nasrin N, Ercolani L, Denaro M, Kong XF, Kang I, Alexander M: un elemento de respuesta a la insulina en el gen de gliceraldehído-3-fosfato deshidrogenasa se une a una proteína nuclear inducida por insulina en células cultivadas y por manipulaciones nutricionales in vivo. Proc Natl Acad Sci U S A. 1990, 87: 5273-5277.

Suzuki F, Goto M, Sawa C, Ito S, Watanabe H, Sawada J, Handa H: Interacciones funcionales de las subunidades de la proteína de unión a GA humana del factor de transcripción. J Biol Chem. 1998, 273: 29302-29308. 10.1074 / jbc.273.45.29302.

Zimmermann AG, Wright KL, Ting JP, Mitchell BS: Regulación de la expresión génica de la inosina-5'-monofosfato deshidrogenasa tipo II en células T humanas. Papel de una secuencia novedosa del octamer palindrómico 5 '. J Biol Chem. 1997, 272: 22913-22923. 10.1074 / jbc.272.36.22913.

Gottlieb S, Hanes SD, Golden JA, Oakey RJ, Budarf ML: Tipo goosecoid, un gen eliminado en DiGeorge y síndromes velocardiofaciales, reconoce el ADN con una especificidad bicoide y se expresa en el cerebro del ratón en desarrollo. Hum Mol Genet. 1998, 7: 1497-1505. 10.1093 / hmg / 7.9.1497.

Singh H, Sen R, Baltimore D, Sharp PA: factor nuclear que se une a un motivo de secuencia conservada en elementos de control transcripcional de genes de inmunoglobulina. Naturaleza. 1986, 319: 154-158. 10.1038 / 319154a0.

Nie Z, Mei Y, Ford M, Rybak L, Marcuzzi A, Ren H, Stiles GL, Ramkumar V: El estrés oxidativo aumenta la expresión del receptor de adenosina A1 activando el factor nuclear kappa B. Mol Pharmacol. 1998, 53: 663-669.

Glasgow JN, Wood T, Perez-Polo JR: Identificación y caracterización de los sitios de unión del factor nuclear κB en el promotor bcl-x murino. J Neurochem. 2000, 75: 1377-1389. 10.1046 / j.1471-4159.2000.0751377.x.

Whitfield ML, Sherlock G, Saldanha AJ, Murray JI, Ball CA, Alexander KE, Matese JC, Perou CM, Hurt MM, Brown PO, Botstein D: Identificación de genes expresados ​​periódicamente en el ciclo celular humano y su expresión en tumores. Mol Biol Cell. 2002, 13: 1977-2000. 10.1091 / mbc.02-02-0030 ..

Rustici G, Mata J, Kivinen K, Lio P, Penkett CJ, Burns G, Hayles J, Brazma A, Nurse P, Bahler J: Programa de expresión génica periódica del ciclo celular de levadura de fisión. Nat Genet. 2004, 36: 809-817. 10.1038 / ng1377.

Stormo GD, Fields DS: Especificidad, energía libre y contenido de información en interacciones proteína-ADN. Trends Biochem Sci. 1998, 23: 109-113. 10.1016 / S0968-0004 (98) 01187-6.

Kalir S, Alon U: Uso de un plano cuantitativo para reprogramar la dinámica de la red de genes de flagelos. Celda. 2004, 117: 713-720. 10.1016 / j.cell.2004.05.010.

Waterman MS, Eggert M: Un nuevo algoritmo para las mejores alineaciones de subsecuencias con aplicación a las comparaciones de tRNA-rRNA. J Mol Biol. 1987, 197: 723-728. 10.1016 / 0022-2836 (87) 90478-5.

Wolfertstetter F, Frech K, Herrmann G, Werner T: Identificación de elementos funcionales en secuencias de ácido nucleico no alineadas mediante un nuevo algoritmo de búsqueda de tuplas. Comput Appl Biosci. 1996, 12: 71-80.

Zhang MQ: Identificación de promotores centrales de genes humanos en silico. Genome Res. 1998, 8: 319-326.

Curwen V, Eyras E, Andrews TD, Clarke L, Mongin E, Searle SM, Clamp M: El sistema automático de anotación de genes ENSEMBL. Genome Res. 2004, 14: 942-950. 10.1101 / gr.1858004.

Centro de secuenciación del genoma humano de la Facultad de Medicina de Baylor: proyecto del genoma de Drosophila. [http://www.hgsc.bcm.tmc.edu/projects/drosophila]

Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, et al: Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética. Nat Genet. 2000, 25: 25-29. 10.1038 / 75556.

Mewes HW, Amid C, Arnold R, Frishman D, Guldener U, Mannhaupt G, Munsterkotter M, Pagel P, Strack N, Stumpflen V, et al: MIPS: análisis y anotación de proteínas de genomas completos. Ácidos nucleicos Res. 2004, D41-D44. 10.1093 / nar / gkh092. 32 Base de datos

Gusfield D: Algoritmos sobre cadenas, árboles y secuencias. 1997, Cambridge, Reino Unido: Cambridge University Press

Prensa WH, Flannery BP, Teukolsky SA, Vetterling WT: Recetas numéricas en C: El arte de la informática científica. 1993, Cambridge, Reino Unido: Cambridge University Press

Pilpel Y, Sudarsanam P, Church GM: Identificación de redes reguladoras mediante análisis combinatorio de elementos promotores. Nat Genet. 2001, 29: 153-159. 10.1038 / ng724.

Yuh CH, Bolouri H, Davidson EH: Genomic cis -Lógica reguladora: análisis experimental y computacional de un gen de erizo de mar. Ciencias. 1998, 279: 1896-1902. 10.1126 / science.279.5358.1896.

Needleman SB, Wunsch CD: método general aplicable a la búsqueda de similitudes en la secuencia de aminoácidos de dos proteínas. J Mol Biol. 1970, 48: 443-453.

Matys V, Fricke E, Geffers R, Gössling E, Haubrock M, Hehl R, Hornischer K, Karas D, Kel AE, Kel-Margoulis OV, et al: TRANSFAC: regulación transcripcional, de patrones a perfiles. Ácidos nucleicos Res. 2003, 31: 374-378. 10.1093 / nar / gkg108.

Gollub J, Ball CA, Binkley G, Demeter J, Finkelstein DB, Hebert JM, Hernandez-Boussard T, Jin H, Kaloper M, Matese JC, et al: The Stanford Microarray Database: acceso a datos y herramientas de evaluación de calidad. Ácidos nucleicos Res. 2003, 31: 94-96. 10.1093 / nar / gkg078.

Stuart JM, Segal E, Koller D, Kim SK: una red de coexpresión de genes para el descubrimiento global de módulos genéticos conservados. Ciencias. 2003, 302: 249-255. 10.1126 / science.1087447.

Lieb JD, Liu X, Botstein D, Brown PO: Unión específica del promotor de Rap1 revelada por mapas de todo el genoma de la asociación proteína-ADN. Nat Genet. 2001, 28: 327-334. 10.1038 / ng569.

Balasubramanian B, Lowry CV, Zitomer RS: el represor Rox1 del Saccharomyces cerevisiae Los genes hipóxicos son una proteína de unión al ADN específica con un motivo de grupo de alta movilidad. Mol Cell Biol. 1993, 13: 6071-6078.

Gasch AP, Spellman PT, Kao CM, Carmel-Harel O, Eisen MB, Storz G, Botstein D, Brown PO: Programas de expresión genómica en la respuesta de las células de levadura a los cambios ambientales. Mol Biol Cell. 2000, 11: 4241-4257.


Discusión

Las diferencias fenotípicas entre genes ortólogos humanos y de ratón a menudo se consideran un fracaso de los modelos de ratón y rara vez se informan en ciertos casos (Bakker et al. 2013 Chandrasekera y Pippin 2013 Seok et al. 2013). Por lo tanto, aún no está claro qué genes ortólogos han sufrido cambios fenotípicos significativos y qué tipos de eventos evolutivos moleculares han contribuido a las diferencias fenotípicas. En el presente estudio, establecimos por primera vez un enfoque integrado para la comparación genotipo-fenotipo para revelar diversos eventos evolutivos moleculares que probablemente contribuyan a las diferencias fenotípicas resultantes de las diferencias entre los genomas humanos y de ratón. Diseñamos un sistema de puntuación de PS cuantitativo (fig. 1) para mapear las comparaciones de fenotipos a escala del genoma para analizar la concordancia o discrepancia en la enfermedad humana y los fenotipos de ratón. Descubrimos que las discrepancias fenotípicas se explicaban en parte por la divergencia en los elementos reguladores no codificantes y los perfiles transcriptómicos más que por las diferencias en las secuencias codificantes de proteínas (figs. 2-4).

Las puntuaciones de PS proporcionan una evaluación estadística de la importancia de la similitud fenotípica en comparación con el modelo esperado basado en la conjetura de la función ortológica (fig. 1). Sin embargo, nos preguntamos si la precisión de las puntuaciones de PS se ve afectada por lo incompleto del mapeo genotipo-fenotipo actual. Por lo tanto, confirmamos que el cálculo de las puntuaciones de PS fue sólido al eliminar el 15% de las asignaciones de genotipo-fenotipo (Pearson ρ = 0,95), o cuando se utilizan versiones anteriores de las bases de datos de mapeo (ρ = 0,91), simulando así la incompletitud del mapeo (fig. Suplementaria S16, Material suplementario en línea). También confirmamos que nuestro conjunto de datos para la comparación de fenotipos no estaba sesgado hacia una clase de fenotipo en particular, y demostramos que representaba mapas gen-fenotípicos actuales de humanos y ratones (fig. Suplementaria S17, Material suplementario en línea). Específicamente, la proporción de genes con clases HPO y MPO en nuestro conjunto de datos estaba altamente correlacionada con la proporción en las bases de datos OMIM y MGI, respectivamente (ρ = 1,00 en OMIM, ρ = 0,98 en MGI), lo que indica que la composición de los términos fenotípicos en nuestro conjunto de datos proporciona una buena representación de los de los conjuntos genéticos completos. Tomados en conjunto, nuestro enfoque fenómico utilizando la puntuación PS podría ser aplicable para la comparación de las relaciones gen-fenotipo actuales entre las dos especies.

Encontramos que la divergencia reguladora se asoció con diferencias fenotípicas en genes ortólogos humanos y de ratón (fig. 3). La aparición frecuente de diferencias fenotípicas podría deberse a la divergencia evolutiva entre especies en lugar de errores aleatorios en las comparaciones de genotipo-fenotipo. Se informó que los cambios en las secuencias reguladoras de genes podrían ser una fuente de evolución fenotípica (Carroll 2008 Indjeian et al. 2016). Los grupos de genes a menudo se regulan juntos y sus funciones se ven afectadas por mutaciones de cambio en genes reguladores (Babu et al. 2004 Voordeckers et al. 2015). De hecho, encontramos que los genes ubicados en la misma ruta o módulo funcional tendían a mostrar diferencias fenotípicas concurrentes, lo que es consistente con informes anteriores que implican que los cambios fenotípicos pueden ocurrir de manera modular (Ryan et al.2013 Han et al.2015 Kachroo et al. al.2015). Por ejemplo, a partir del análisis de LPG, 13 de los 17 genes de la vía de la anemia de Fanconi (FAP) con puntuaciones de PS similares tenían diferencias fenotípicas significativas (tabla complementaria S4, Material complementario en línea). De hecho, las mutaciones de los genes FAP de ratón no muestran las anomalías del desarrollo que se observan con frecuencia en pacientes humanos con AF (Bakker et al. 2013).

Nuestros resultados proporcionan evidencia de que se deben realizar análisis comparativos de datos transcriptómicos para identificar en qué tejidos la expresión génica del ratón es un modelo adecuado de enfermedades humanas, e indican la necesidad de optimizar el uso cuidadoso de modelos animales. Nuestros resultados mostraron que, en muchos casos, los cambios en los perfiles de expresión específicos de tejido entre especies pueden explicar las diferencias fenotípicas entre genes ortólogos humanos y de ratón (fig. 4). Los datos comparativos recientes del transcriptoma revelaron que muchos genes ortólogos humanos / de ratón tienen diferentes perfiles de transcriptoma en diferentes tejidos o tipos de células (Forrest et al. 2014 Yue et al. 2014). La comparación de los datos del transcriptoma puede ser invaluable para identificar qué tejidos o tipos de células están conectados a cambios fenotípicos o la conservación de un gen particular entre organismos humanos y modelos (Breschi et al. 2017), ya que los cambios transcriptómicos se consideran un "fenotipo molecular intermedio". y una consecuencia de la variación genética que refleja el estado actual de un sistema (es decir, un tejido, órgano o especie) (Burga y Lehner 2013).

Los fenólogos, genes ortólogos con fenotipos que son idénticos en todas las especies, son útiles cuando se investigan los mecanismos moleculares que subyacen a los fenotipos de enfermedades humanas a través de enfoques genéticos en ratones (McGary et al. 2010 McWhite et al. 2015). Sin embargo, el descubrimiento de fenólogos es difícil ya que se observan frecuentes diferencias fenotípicas entre genes ortólogos, y el mapeo de las relaciones genotipo-fenotipo humano y de ratón es a menudo incompleto. Por lo tanto, investigamos la conservación de la expresión específica de tejido en todos los genes ortólogos humanos y de ratón utilizando las bases de datos FANTOM y ENCODE (datos complementarios S2, Material complementario en línea y consulte nuestro sitio complementario https://sbi.postech.ac.kr/w/PS ). Es probable que los genes ortólogos con conservación de alta expresión sean útiles para identificar fenólogos putativos.

En nuestro análisis, la divergencia de secuencias codificantes de proteínas no pudo explicar las diferencias fenotípicas entre genes ortólogos humanos y de ratón (fig. 2). Según la teoría neutra de la evolución molecular, la divergencia de secuencias de genes podría resultar de la fijación de muchas mutaciones neutrales aleatorias, así como de la selección positiva de mutaciones beneficiosas, que afectan la evolución adaptativa de los fenotipos (Orr 2005). Además, debido a la alta complejidad del mapeo de genotipo-fenotipo, las diferencias fenotípicas solo podrían explicarse por la integración de diversas características evolutivas moleculares obtenidas de comparaciones entre especies de enfoques multiómicos, incluidas características evolutivas moleculares relacionadas con secuencias no codificantes o codificantes ( Maher 2012 Breschi et al.2017). Por lo tanto, se necesitan más estudios sobre diversos eventos evolutivos moleculares para comprender mejor las diferencias fenotípicas entre especies. Anticipamos que nuestra comparación entre especies de mapas de genotipo-fenotipo combinada con el uso de datos de enfoques multiómicos demostrará ser un recurso valioso, incluso como un conjunto de referencia para el entrenamiento y la construcción de modelos computacionales que pueden explicar la naturaleza compleja de diferencias fenotípicas a través de características evolutivas moleculares (Breschi et al. 2017).


Introducción

El cuerpo humano adulto se compone de

37 billones de células 1, que son las unidades funcionales de los sistemas del organismo. Aunque cada célula contiene información genómica casi idéntica, se espera que existan en el cuerpo humano al menos varios cientos de tipos de células principales con morfología, comportamiento y funciones distintas. La desviación de la identidad destinada a las células funcionales es una de las principales causas de enfermedades humanas. Diferentes composiciones celulares de tejido tumoral pueden dar como resultado diferentes respuestas y pronósticos de fármacos. Las variantes genéticas asociadas a la enfermedad afectan solo a determinados tipos de células, lo que dificulta la validación funcional de variantes candidatas derivadas de estudios de asociación de todo el genoma 2. Por lo tanto, comprender el funcionamiento del cuerpo humano en la resolución celular es el objetivo final en biología y medicina.

La investigación de tipos de células individuales in vivo es un desafío técnico. El análisis de citometría de flujo se ha utilizado para la elaboración de perfiles unicelulares durante las últimas décadas 3, aunque con algunas limitaciones. Primero, es un método de análisis dirigido solo para un conjunto preseleccionado de moléculas. En segundo lugar, debido a la limitación espectral de las proteínas fluorescentes, este método puede perfilar hasta 17 proteínas simultáneamente, que se extiende a

40 proteínas por citometría de masas 4. Recientemente, hemos sido testigos de una rápida mejora en la tecnología de secuenciación de ARN unicelular (scRNA-seq), que de hecho es un cambio de juego en el campo de la biología unicelular. La tecnología actual de scRNA-seq puede generar fácilmente datos de transcriptoma completo para cientos o miles de células a partir de una única reacción de secuenciación e identificar genes clave asociados con cada tipo de célula o estado mediante análisis de expresión diferencial en distintos grupos celulares de transcriptoma similar. Por lo tanto, ahora caracterizamos tipos o estados de células individuales en un tejido que generalmente se compone de diversos tipos de células. Hasta la fecha, se ha desarrollado una amplia variedad de métodos para la generación y análisis de datos de scRNA-seq, y se describen ampliamente en otras excelentes revisiones 4,5,6,7. Estudios comparativos recientes también mostraron que los protocolos scRNA-seq difieren sustancialmente en su capacidad para capturar ARN, escalabilidad y rentabilidad 8,9.

A pesar de muchas mejoras, las ómicas unicelulares pueden no ser suficientes para comprender la heterogeneidad celular. Aunque el análisis de expresión diferencial de los datos de scRNA-seq puede identificar genes específicos para tipos y estados de células, comprender la identidad celular simplemente a partir de una lista de genes regulados hacia arriba o hacia abajo sería una tarea abrumadora porque los efectos funcionales de los genes dependen de sus relaciones. Las funciones de los genes y los efectos de las variantes asociadas a la enfermedad son en gran parte atribuibles a los socios de interacción de estos genes en el contexto celular dado 10,11. Desde la perspectiva de la biología de sistemas, el modelado de genes en red será de gran utilidad para comprender las organizaciones funcionales de los reguladores clave involucrados en las vías operativas de cada estado celular 12. La biología de redes ha cambiado nuestra percepción de una célula de un sistema compuesto principalmente por vías de señalización lineal a uno ocupado por muchas conexiones entrelazadas altamente complejas entre moléculas. En particular, la red reguladora de genes (GRN) es un modelo gráfico intuitivo pero versátil para el análisis funcional que se ha utilizado ampliamente durante la última década. Los GRN han hecho contribuciones significativas a la identificación de biomarcadores de enfermedades y dianas terapéuticas y, en última instancia, se convirtieron en una herramienta crucial para descifrar los datos de genómica médica 13. El escrutinio de las interacciones reguladoras entre genes en varios contextos biológicos proporcionará información valiosa sobre cómo se diseñaron para ser reguladas las funciones emergentes de un sistema vivo dado.

En este artículo de revisión, presentamos la definición de biología de redes unicelulares y presentamos las metodologías actuales para inferir GRN a partir de datos de scRNA-seq y determinar cómo pueden mejorar nuestra comprensión de los circuitos reguladores de la identidad celular y facilitar la práctica de la medicina de precisión.


Materiales y métodos

Medios de crecimiento y cepas

Las bacterias se cultivaron en medio mínimo de sales T suplementado con glucosa (0,2% p / v) más 30 & # x003bcM KH2correos4 para quimiostatos o KH 1 mM2correos4 para cultivo por lotes (Spira et al. 1995). Las bacterias para las pruebas fenotípicas se cultivaron o se cultivaron en medio mínimo A o L-caldo (como lo describe Miller [1972]). Todo el crecimiento fue a 37 ° C.Para los quimiostatos a largo plazo, MC4100TF se cultivó durante la noche en sales T y se inoculó en un quimiostato de 80 ml que contenía sales T, glucosa al 0,2% y 30 & # x003bcM KH2correos4 como se describe (Spira y Ferenci 2008). La concentración bacteriana en el quimiostato fue estable durante 37 días, entre 1,5 y 2,5 & # x000d7 108 bacterias / ml.

Las cepas utilizadas en este estudio se describen en la tabla 2. Los diferentes alelos de rpoS, hfq, y lugar se transfirieron de cepas evolucionadas a cepas ancestrales o de cepas ancestrales a cepas evolucionadas por transducción P1 como se describe en Miller (1972). Para la transferencia de la lugar mutación, zib563::Tennesse10 se utilizó como marcador de selección vinculado. Para la transferencia de rpoS y hfq de aislamientos evolucionados a cepas ancestrales o de aislamientos ancestrales a evolucionados, primero construimos cysD :: amplificador y purA :: tet cepas utilizando el protocolo descrito en Yu y Court (1998). La proximidad de cysD :: Amplificador locus a rpoS y purA :: tet locus a hfq cotransducción permitida (& # x0003e90% de cotransducción en ambos casos). Los transductantes se probaron en busca de alelos mediante secuenciación.

Tabla 2

Cepas utilizadas en el estudio

SonGenotipo relevanteReferencia u origen
MC4100TFF-araD139 D (argF-lac) U169 rspL150 deoCl relA1 thiA ptsF25 flb5301 rbsRSpira y col. (2008)
BW4218Aislado evolucionado por quimiostatoEste estudio
BW4223Aislamiento evolucionado de quimiostatoEste estudio
BW4227Aislado evolucionado por quimiostatoEste estudio
BW4236Aislamiento evolucionado de quimiostatoEste estudio
BW3454MC4100TF metC162::Tennesse10Notley-McRobb y Ferenci (1999)
BW4239Aislado evolucionado por quimiostatoEste estudio
BW5151DY330 purA:: Tn10Este estudio
BW5153MC4100TF purA:: Tn10Este estudio
BW5166MC4100 hfq4223Este estudio
BW6006BW4223 hfq4100Este estudio
BW5197BW4236 lugar4100TFEste estudio
BW5199MC4100 lugar4236Este estudio
BW5200MC4100TF zib563::Tennesse10Spira y col. (2008)
BW6007DY330 cysD::amperioEste estudio
BW6008MC4100TF cysD :: amplificadorEste estudio
BW6009BW4218 cysD::amperioEste estudio
BW6010BW4227 cysD::amperioEste estudio
BW6011BW4239 cysD::amperioEste estudio
BW6012MC4100 rpoS4218Este estudio
BW6013MC4100 rpoS4227Este estudio
BW6014MC4100 rpoS4239Este estudio
BW6015BW4218 rpoS4100Este estudio
BW6016BW4227 rpoS4100Este estudio
BW6017BW4239 rpoS4100Este estudio
DY330W3110 & # x00394lacU169 gal490 & # x003bbcl857 & # x00394 (cro-bioA)Yu y col. (2000)

Detección de rpoS Estado

El nivel de RpoS se evaluó teñiendo glucógeno con yodo; la intensidad del color marrón varía según el nivel de & # x003c3 S en la célula (Notley-McRobb et al. 2002). Para la cuantificación, las fotografías se escanearon densitométricamente a través de parches manchados de 2 - & # x003bcl en agar L utilizando el software Image J y densidades relacionadas con los valores de los ancestros. Para las transferencias, los cultivos bacterianos se cultivaron durante la noche en medio LB a 37 o C.Las proteínas de 2 & # x000d7 109 células se resolvieron mediante electroforesis en gel de dodecilsulfato de sodio (SDS) & # x02013 en un gel al 12,5% y se detectó RpoS en transferencias. con anticuerpos monoclonales anti-RpoS diluidos (NeoClone). Se utilizó el kit Super Signal West Pico (Pierce) para detectar las bandas RpoS según lo recomendado por el fabricante. Las intensidades de la señal en los autorradiogramas se escanearon y calcularon utilizando el software Image J. Se utilizaron al menos tres cultivos replicados y se probaron para determinar su significación estadística.

Ensayo de fosfatasa alcalina

Se usó p-nitrofenilfosfato (p-NPP) como sustrato como se describe (Spira et al. 1995), y las unidades de actividad AP se definen como el aumento de absorbancia a 410 nm / min. Densidad de celda óptica a 600 / nm.

Ensayo de susceptibilidad SDS

La sensibilidad a SDS se ensayó a partir de cultivos durante la noche que crecieron en caldo L por manchado de cultivos (2 & # x003bcl) sobre placas de agar L que contenían SDS al 3% (p / v). Los cultivos líquidos que contenían SDS al 3% se siguieron midiendo la absorbancia de réplicas de 6 veces de cepas en caldo L en placas de microtitulación.

Metil & # x003b1-glucósido (& # x003b1-MG)

Para ensayar la sensibilidad a & # x003b1-MG, se colocó un cultivo (2 & # x003bcl) en medio mínimo A una placa de agar con glicerol al 0,2% con o sin 1% de & # x003b1-MG. Para la cuantificación, las fotografías se escanearon densitométricamente a través de los parches de crecimiento utilizando el software Image J y las densidades relacionadas con los valores de los ancestros.

Rendimientos de crecimiento

Los rendimientos se determinaron midiendo la densidad óptica de los cultivos a 600 nm.

Ensayo biológico

El catabolismo de la cepa de partida y los aislados de quimiostato con 95 sustratos se determinaron usando el Biolog GN2 (Biolog) disponible comercialmente como se describió previamente (King et al. 2004).

Ensayos de resistencia al estrés

Las bacterias de los cultivos durante la noche en caldo L se lavaron dos veces y se diluyeron en NaCl al 0,9% hasta una densidad de 10 3 células / ml. Para el estrés oxidativo, H recién diluido2O2 se añadió a 1 ml de cultivo hasta concentraciones finales de 1, 2, 3, 4 y 5 mM y se mantuvo a temperatura ambiente durante 30 min. Para la osmolaridad, se incubaron suspensiones de 4 & # x000d7 103 células / ml en NaCl 1, 2, 3, 4, 5 M durante 1 ha temperatura ambiente.

Ensayo de captación de Pi

Para los ensayos de transporte, se mezclaron bacterias 500 & # x003bcl de cultivos de quimiostato limitados por Pi de 30 h de antigüedad con 5 & # x003bcl de 100 & # x003bcM KH2correos4 y 10 & # x003bcl de 1 & # x003bcCi 32 P / & # x003bcl (MP Biomedicals). Las muestras (100 & # x003bcl) tomadas en puntos de tiempo se filtraron a través de filtros de tamaño de poro 0,45 - & # x003bcm, se lavaron inmediatamente con 5 ml de solución de lavado (sal T más 100 & # x003bcM KH2correos4). Las tasas de absorción se determinaron midiendo el centelleo de 32 P en las células 5 & # x000d7 10 7 de los filtros.

Ensayo ppGpp

Las células que crecían exponencialmente en sales T / glucosa se suplementaron con 32 P-KH 0,25 mM2correos4 (100 & # x003bcCi / ml) en una DO600 = 0,2. Las muestras se recolectaron después de 70, 80 y 90 min. Las muestras etiquetadas se analizaron como en Spira et al. (2008).

Experimentos de acondicionamiento físico en quimiostatos

Para las comparaciones de aptitud, un derivado resistente a la tetraciclina de MC4100TF que lleva un reunióSe utilizó la inserción de C :: Tn10 y el medio se complementó con 4 & # x003bcg / ml de metionina. Las competencias de quimiostato fueron las descritas anteriormente (Maharjan et al. 2006) y los coeficientes de selección se basaron en las ecuaciones de Dykhuizen y Hartl (1983).

Los detalles y estrategias de proteómica y genómica se describen en las tablas complementarias S1 y S2 (Material complementario en línea) y leyendas asociadas.


Ver el vídeo: How to describe, analyze and interrogate dynamics of gene regulatory networks - Tomas Gedeon (Noviembre 2022).