Información

Construcción sintética con múltiples ORF que no expresan

Construcción sintética con múltiples ORF que no expresan


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Diseñé una construcción sintética en papel y la sinteticé de una empresa. El objetivo era crear un vector que se pueda usar para estudiar la regulación tanto transcripcional como postranscripcional por diferentes elementos cis (se pueden estudiar 2-3 elementos cis diferentes simultáneamente).

La construcción es así:

SmaI-RES1-CMV-RES1'-GFP-MCS1-SV40PA-Linker-RES2-CMV-RES2'-RFP-MCS2-SV40PA-Linker-RES3-CMV-RES3'- YFP-MCS3-SV40PA-ΔLinker-SmaI

dónde:

RES1 = KpnI [GGTACC] RES1 '= SalI [GTCGAC] MCS1 = EcoRI + BamHI [GAATTCTGGATCC] RES2 = ClaI [ATCGAT] RES2' = NheI [GCTAGC] MCS2 = SpeI + HindIII [ACTAGTAAGCTT] RESTAGA XbaI = PvuI [CGATCG] MCS3 = NotI + SacI [GCGGCCGCGAGCTC] secuencia de consenso Kozak = GCCACCATGG Linker (100 pb) = AATTCTGGATCCTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCGAATTTCGATTCCACCGCCGCCTTCTATGAAAGGTTGGGCTTCGGAATCGTTTTCCGGGACGCCGGCTGGATGATCCTCCAGCGCGGGGATCTCATGC

GFP, RFP e YFP son variantes de rotación rápida con secuencia de plagas MODC. Tomé las secuencias de estas proteínas del sitio web de Evrogen. Tomé la secuencia de señal Sv40 polyA de uno de sus vectores para evitar cualquier evento de incompatibilidad. La secuencia de Kozak también se tomó solo de esos vectores. El tamaño total es de ~ 4.8kb. Para el promotor de CMV, tomé la secuencia estándar utilizada en la mayoría de los vectores.

Con este vector podría clonar cualquier secuencia reguladora postranscripcional entre el codón de terminación y SV40PA, y también podría cambiar los promotores.

Con el promotor de CMV y sin 3'UTR, veo una expresión muy débil de GFP, pero no pude ver ninguna expresión de RFP. Usé pMaxGFP y dsRed como control para la sensibilidad del filtro.

Transfecté el plásmido en Hela y Neuro2a y en varias concentraciones (1-5μg) usando lipofectamina. Los controles se expresan bien (transfectados 1 μg cada uno) pero veo una expresión de GFP muy débil y no veo ninguna expresión de RFP.

Verifiqué el informe de control de calidad de secuenciación proporcionado por la empresa y no había indeles ni otros desajustes. No tengo ni idea de por qué el constructo no se expresa.

¿Es el enlazador un problema? ¿100 pb no son suficientes?


Me temo que no hay muchas respuestas, ¡pero volvamos al banco contigo! (Por eso se llama investigación).

Hay varios factores que podrían estar influyendo aquí. Podrías tener una lectura transcripcional o traduccional. Debe verificar su secuencia y las celdas a las que va a ingresar para asegurarse de que no esté recibiendo la supresión de ámbar (UAG).

Antes de hacer cualquier cosa, debe verificar el ADN de todos sus grupos. Ejecútelo sin cortar en un gel y asegúrese de que la mayor parte del ADN sea súper espiral. La siguiente cosa más fácil de verificar son los problemas de traducción. Obtenga un anticuerpo GFP, posiblemente algunos que reconozcan diferentes epítopos, y vea si su GFP está saliendo del tamaño correcto. Es posible que no se procese correctamente o no se pliegue correctamente.

Puede tener problemas optimizando la secuencia. Primero, las mutaciones sinónimos pueden causar variantes de plegamiento (1). En segundo lugar, es posible que esté causando un bolígrafo u otra estructura secundaria o terciaria desventajosa. Si no puede detectar ningún problema en su Western, podría considerar hacer un Northern para solucionar los problemas de la transcripción.

Si descarta todo lo demás, y está obteniendo una expresión pobre, entonces la única forma que conozco de impulsar el CMV es usar T7. El problema con T7 siempre será el uso de una fuente. Si puede usar células BSR / T7 y puede ponerlas en sus manos, funcionan muy bien. De lo contrario, está viendo un plásmido T7 o MVA-T7 como fuentes comunes. Los plásmidos nunca dan lugar a una gran cantidad de expresión en las manos de nadie que haya conocido. El MVA-T7 funciona, pero decir que confunde las cosas sería la subestimación del año.


Constructo sintético con múltiples ORF que no se expresan - Biología

Los grupos de genes microbianos crípticos y biosintéticos no caracterizados son fuentes sin precedentes de nuevos productos naturales.

Las herramientas de biología sintética juegan un papel vital para la exploración, la sobreproducción y la diversificación de estructuras de productos naturales.

Los sistemas de recombinación y CRISPR / Cas9 son una fascinante herramienta de ingeniería genética para la ingeniería de vías de NP y host.

Se requiere ingeniería de hosts para la producción eficiente de NP objetivo.


Datos asociados

Fondo

Los enfoques de biología sintética pueden hacer una contribución significativa al avance de la ingeniería metabólica al reducir el tiempo de desarrollo de los organismos recombinantes. Sin embargo, la mayoría de las herramientas de biología sintética se han desarrollado para Escherichia coli. Aquí proporcionamos una plataforma para la ingeniería rápida de C. glutamicum, microorganismo de gran interés industrial. Esta bacteria, utilizada durante décadas para la producción fermentativa de aminoácidos, se ha desarrollado recientemente como hospedante para la producción de varios compuestos de importancia económica, incluidos metabolitos y proteínas recombinantes, debido a su mayor capacidad de secreción en comparación con hospedadores bacterianos tradicionales como E. coli. Por lo tanto, el desarrollo de plataformas moleculares modernas puede contribuir significativamente a establecer C. glutamicum como una fábrica microbiana robusta y versátil.

Resultados

Se creó una plataforma basada en plásmidos llamada pTGR donde todos los componentes genéticos están flanqueados por sitios de restricción únicos para facilitar la evaluación de secuencias reguladoras y el ensamblaje de construcciones para la expresión de múltiples genes. El enfoque se validó mediante el uso de genes indicadores para probar promotores, sitios de unión a ribosomas y para el ensamblaje de operones de genes duales y grupos de genes que contienen dos unidades transcripcionales. Montaje combinatorio de promotor (tac, cspB y césped) y RBS (lacZ, cspB y césped) elementos con diferentes fortalezas conferían una clara expresión génica diferencial de dos genes informadores, eGFP y mCherry, lo que permite la & # x0201cfine-tuning & # x0201d transcripcional & # x0201d de múltiples genes. Además, la plataforma permitió el ensamblaje rápido de operones y grupos de genes para la coexpresión de genes heterólogos, una característica que puede ayudar a la ingeniería de vías metabólicas.

Conclusiones

Anticipamos que la plataforma pTGR contribuirá a explorar el potencial de partes novedosas para regular la expresión génica y facilitar el ensamblaje de circuitos genéticos para la ingeniería metabólica de C. glutamicum. La estandarización proporcionada por este enfoque puede proporcionar un medio para mejorar la productividad de las rutas biosintéticas en las fábricas de microbios para la producción de nuevos compuestos.


Resultados

Codificación de circuitos

La codificación de circuitos es un enfoque para cifrar la topología de un circuito genético, ya sea in vitro o in vivo (es decir, dentro de una célula diseñada), que ofrecería protección cuando el circuito se almacena o se transfiere entre las partes. La codificación de circuitos se puede lograr mediante el uso de recombinasas unidireccionales específicas del sitio, como las recombinasas de serina grandes, que reconocen secuencias de ADN específicas conocidas como attB y attP sitios 5. Si estos sitios de reconocimiento de recombinasa (RRS) se colocan en la misma pieza de ADN, la recombinasa análoga provocará un evento de recombinación único entre los RRS, lo que resultará en la inversión o escisión del ADN entre los RRS, según su orientación relativa. 6,7. Estos eventos de recombinación pueden usarse para codificar la topología de un circuito cuando no está en uso, lo cual es útil ya que el comportamiento de un circuito genético está determinado en gran medida por su topología y las propiedades bioquímicas de los componentes.

Para demostrar la codificación de circuitos usando recombinasas, usamos circuitos transcripcionales como ejemplo. Aquí, la topología de los circuitos transcripcionales está determinada por emparejamientos específicos promotor-gen, donde los promotores expresan genes que codifican factores de transcripción, y cada promotor puede ser regulado por uno o más factores de transcripción. Un proceso que pueda "codificar" y "descifrar" determinísticamente estos emparejamientos permitiría el cifrado y descifrado de la topología del circuito, lo que daría como resultado circuitos funcionales o no funcionales, respectivamente.

Las recombinasas unidireccionales proporcionan un medio de codificar y descifrar de forma determinista la topología del circuito mediante la reestructuración física del ADN. La Figura 1 ilustra una prueba de concepto del proceso de cifrado para una puerta AND genética. La puerta AND está compuesta por tres genes, organizados linealmente en un tramo de ADN (Fig. 1a). La puerta se codifica usando un proceso iterativo de dos pasos: (1) se elige una sección de ADN de manera que al menos un extremo esté entre un promotor y su gen y esa sección se invierta, y (2) RRS que flanquea la región invertida son introducido en la secuencia. De esta manera, se pueden introducir múltiples conjuntos de RRS para codificar el circuito (Fig. 1b). El circuito codificado se puede sintetizar o ensamblar in vitro. El descifrado (Fig. 2a) requiere aplicar el mismo conjunto de recombinasas que se utilizó para el proceso de cifrado en un conjunto restringido de ordenamientos (un análisis de esto para la puerta AND se analiza más adelante). Al superponer pares de sitios de recombinasa correspondientes a diferentes recombinasas, se introduce la dependencia del orden en el proceso de descifrado. La aplicación dependiente del orden de las recombinasas unidireccionales se ha utilizado anteriormente en la construcción de circuitos lógicos genéticos 1,8, mientras que las recombinasas bidireccionales se han utilizado para "descomprimir" una estructura de circuito genético único en un equilibrio de más de una estructura. 9.

Cifrado de una puerta AND genética mediante codificación de circuitos. a Puerta AND genética. Codificación de ORF A, B, C lacI, araC, y gfp, respectivamente. pA, pB y pC son los promotores proD, pLtetO-1 y pLac / ara-1, respectivamente. El inductor 1 (IPTG) inhibe la represión transcripcional por LacI, y el inductor 2 (arabinosa) activa la transcripción por AraC. Este circuito se probó en células que no expresan el represor TetR, por lo que pLtetO-1 es constitutivamente activo. B Cifrado de la puerta AND. En cada paso, se agrega un nuevo conjunto de sitios de recombinación (señuelo o no) o pares señuelo promotor-gen. El promotor pD y ORF D son pLtetO-1 y tetR, respectivamente. Los sitios de recombinasa indicados por triángulos, corchetes, corchetes y semicírculos son reconocidos por las recombinasas TP01, BxbI, Int3 y PhiC31, respectivamente.

Descifrado de la puerta AND genética. a Descifrado de la puerta AND codificada de la Fig. 1. Se muestra el comportamiento de las construcciones de cada etapa del descifrado. norte = 3, las barras de error representan la desviación estándar. La construcción final no codificada (paso 4) demuestra el comportamiento de la puerta Y, mientras que los pasos intermedios muestran el comportamiento de la puerta que no es Y. B Un ejemplo de descifrado incorrecto. Las secuencias 34 de RiboJ se utilizaron directamente corriente arriba del RBS de cada gen para evitar cualquier interferencia del tamaño aumentado de los 5UTR (RiboJ54, RiboJ51, RiboJ53 y RiboJ, para araC, lacI, tetR, y gfp respectivamente). NoInd = sin inductor, Arab = arabinose

La codificación de circuitos se puede reforzar sustancialmente utilizando señuelos. Los señuelos son elementos genéticos que están presentes dentro de la construcción codificada y posiblemente podrían ser parte de un circuito funcional, pero en realidad no son necesarios para la función del circuito. Los señuelos introducen una incertidumbre adicional en cuanto a cuál es la topología real del circuito funcional, lo que dificulta la ruptura del circuito codificado. La posibilidad de genes señuelo permite que los eventos de escisión se incorporen al proceso de descifrado, evitando así que la escisión sea una indicación de un descifrado incorrecto. El ejemplo de codificación de puerta AND ilustra el uso de un par promotor-gen señuelo y RRS señuelo (Fig. 1b). El par promotor-gen señuelo pD y ORF D corresponde a pLtet0-1 y tetR, que podrían ser elementos plausibles del circuito funcional. Los señuelos RRS son aquellos que son reconocidos por la recombinasa PhiC31. En este ejemplo, la recombinación con PhiC31 no es necesaria para el descifrado correcto, y si se usa daría como resultado una eliminación de la mayoría de los componentes del circuito, dejando solo los ORF tetR y gfp restante. El circuito resultante no realizaría la función de puerta AND correcta.

Implementamos experimentalmente un ejemplo de codificación y codificación de circuitos en las Figs. 1, 2 in vitro. También debería ser posible llevar a cabo este proceso en circuitos codificados dentro de las celdas 1,10,11. Comenzando con un plásmido que contiene la construcción mezclada, descodificamos la construcción a través de sucesivas rondas de tratamiento in vitro con diferentes recombinasas purificadas. En cada ronda, los plásmidos se transformaron en E. coli y se seleccionaron construcciones recombinadas. En el trabajo futuro, este protocolo podría optimizarse para que los sucesivos eventos de recombinación, transformación y selección no fueran necesarios.

El craqueo por fuerza bruta de las construcciones codificadas por recombinasa podría lograrse ya sea (1) construyendo todos los circuitos posibles basados ​​en los promotores y genes presentes, o (2) probando todos los órdenes e identidades posibles de las recombinasas. En cualquier caso, la identidad del circuito verdadero aún debe establecerse a partir de la colección resultante de topologías potenciales. . Además, los señuelos significan que un tercero debe estimar qué elementos son componentes reales del circuito para evitar un circuito final con componentes incorrectos.

Un enfoque más sistemático para descifrar el circuito codificado es enumerar todos los posibles estados de ADN que se pueden obtener a partir de los diferentes ordenamientos de las recombinasas, y luego evaluar los estados para determinar la probabilidad de que sean el circuito verdadero. Enumeramos todas las posibles órdenes de descifrado de recombinasa ( ( mathop < sum> nolimits_^ frac <> << izquierda ( right)! >> = 64 )) 12, donde norte es el número total de recombinasas y k es el número de recombinasas utilizadas en un posible descifrado, para la puerta AND cifrada (Figura complementaria 1). Se ha demostrado formalmente en otro lugar que cuando se usa un solo par de RRS por recombinasa, norte Las recombinasas pueden producir como máximo 2 norte estados de ADN únicos 11 (incluido el estado en el que no se utilizan recombinasas). Además, diferentes ordenamientos del mismo conjunto de recombinasas pueden conducir al mismo estado de ADN [11]. En la práctica, no todos los pedidos de recombinasas son productivos porque un evento de escisión puede eliminar otros sitios de recombinación, que luego no pueden usarse en pasos posteriores. Sin embargo, debido a que cualquier ordenamiento del mismo conjunto de recombinasas conduce al mismo estado de ADN, todos los ordenamientos no deben estar disponibles para que el estado sea inalcanzable. Para la puerta AND, norte = 4 y 2 norte = 16, y aunque los eventos de escisión solo permiten que 35 de los 64 posibles ordenamientos de recombinasas tengan un efecto productivo (uno en el que cada recombinasa del conjunto tiene un efecto sobre el estado del ADN) en el estado del ADN cuando se realizan (Figura complementaria 1), encontrar que los 16 estados son alcanzables. Dos de estos estados son idénticos debido a eventos de escisión anidados. Debido a la aparición de este tipo de redundancia, mientras que el número de estados de ADN únicos que se pueden alcanzar normalmente puede ser inferior a 2 norte , puede que no sea sustancialmente menor.

Por lo tanto, a un atacante se le presentaría una lista de posibles candidatos de circuito únicos, que incluso si solo se enumeran en los cientos bajos (por ejemplo, 2 8 = 256) puede incluir muchos candidatos plausibles. En el caso de la puerta AND, a pesar de su pequeño tamaño, muchos de los 15 estados de ADN (16 incluido el estado cifrado) son configuraciones plausibles de emparejamientos y circuitos promotor-ORF (Figura 1 complementaria). Un examen más detallado de estas configuraciones sugiere formas de aumentar la diversidad y el número de conexiones en estos circuitos incorrectos, haciéndolos parecer más plausibles. Por ejemplo, el uso de diferentes variantes de pLtetO-1 para pB y pD diferenciaría entre algunas configuraciones, agregando un promotor de forma permanente (es decir, sin sitios de recombinasas entre el promotor y el ORF para que esta relación nunca se rompa) conduciendo tetR la expresión introduciría tetR enlaces en muchas configuraciones, y hacer pC bidireccional o más simplemente agregar un promotor opuesto en muchos casos expresaría lacI e introducir un circuito de retroalimentación. Ninguna de estas adiciones afectaría la topología de la puerta AND descifrada correcta, aunque podría haber un efecto cuantitativo de hacer que pC sea bidireccional. Finalmente, en este ejemplo, el circuito de puerta AND correcto es mucho más simple (por ejemplo, no contiene promotores u ORF sin usar, y tiene un solo promotor por gen, con todos los pares promotor-gen en la misma dirección) que muchos de los otros estados candidatos . En la práctica, el circuito correcto debe diseñarse para que parezca comparablemente desestructurado como los otros candidatos para que no se destaque.

La implementación práctica de este enfoque está limitada por el número, la ortogonalidad y la eficiencia de las recombinasas disponibles. Por ejemplo, se ha demostrado que 11 recombinasas son en gran medida muy ortogonales entre sí 13, y podrían descubrirse más mediante la extracción adicional. Tres de las recombinasas muestran bajos niveles de intercomunicación con un solo otro sitio de reconocimiento además del propio. La ortogonalidad del conjunto de recombinasas utilizadas es, por tanto, importante, ya que la intercomunicación conduciría a eventos de recombinación incorrectos. Si fuera necesario, la intercomunicación probablemente podría reducirse mediante la ingeniería y la evolución dirigida. Las eficiencias de recombinasa pueden afectar el tiempo necesario para un descifrado exitoso, así como la eficacia general de descifrado. Por ejemplo, se ha demostrado que Bxb1 recombina el 90% de los sitios en 2 h in vitro 14. Suponiendo que esta tasa se cumple para otras recombinasas, se esperaría que un descifrado con cinco recombinasas tuviera una eficiencia combinada de 0,9 5

60%. Permitir que las reacciones de recombinasas se prolonguen más o realizar la evolución de las recombinasas para mejorar su actividad podría ayudar a mitigar estos problemas.

Las reacciones de recombinasa descritas aquí son unidireccionales y no permiten la reversibilidad a menos que se utilicen junto con factores de direccionalidad de recombinasa [15]. Esto es aceptable para las aplicaciones actuales, ya que las celdas diseñadas a menudo son de un solo uso y rara vez se recuperan y se vuelven a utilizar. En aplicaciones futuras, esto puede cambiar y, por lo tanto, volver a codificar puede ser útil. Un ejemplo puede ser una aplicación de campo fuera de un laboratorio de investigación, donde no es posible mantener un banco de existencias congeladas durante largos períodos de tiempo. Entonces sería útil mantener un solo banco de celdas durante un período de tiempo prolongado, descodificando el circuito cuando las celdas necesiten ser utilizadas y luego volviendo a codificar el circuito. Además, volver a codificar también es interesante ya que plantea desafíos técnicos y conceptuales. A continuación, presentamos un enfoque para oscurecer circuitos que es reversible.

Camuflaje de circuito

A diferencia de la codificación de circuitos, el camuflaje del circuito mantiene la topología del circuito real, pero hace que esta topología sea difícil de determinar. Esto se logra integrando el circuito funcional dentro de un circuito de "camuflaje" más grande (Fig. 3), una forma de esteganografía. Se emplea una estrategia similar en el diseño de circuitos integrados (IC) 16,17,18, mediante la cual se agregan contactos ficticios adicionales entre capas conductoras para que desde la vista superior (la vista desde la cual se puede usar microscopía para descubrir el diseño del circuito) el diseño del circuito no es fácilmente identificable. En nuestro enfoque, el des-camuflaje utiliza una “clave” molecular para restar los efectos de los genes camufladores del circuito funcional para que pueda operar correctamente. En la implementación discutida aquí, esto se logra reprimiendo la expresión de los genes de camuflaje. Como la mayoría de los mecanismos de represión son reversibles, el camuflaje puede ser transitorio y el circuito se puede volver a camuflar eliminando las modalidades represivas.

Camuflaje de circuito. Los nodos rojos denotan genes del circuito correcto, mientras que los nodos azules son los genes del circuito de camuflaje. La adición de una “clave molecular” reprime o elimina los efectos de los genes del circuito de camuflaje que inciden en el circuito correcto, dejando que funcione el circuito correcto. Solo los nodos reprimidos por la clave molecular y que solo inciden en el circuito correcto se han eliminado en el circuito no camuflado. Los nodos a los que apunta la clave pero que todavía tienen un nodo incidente del circuito correcto se han mantenido, ya que estos nodos actuarán como sumideros de las proteínas del circuito correcto.

La Figura 4 muestra una implementación de prueba de concepto in vivo del camuflaje del circuito en un circuito conmutador biestable 19. La Figura 4a muestra la topología de conmutador biestable que se basa en la represión cruzada por tetR y lacIy su biestabilidad en términos de producción de GFP. Para camuflar el circuito, agregamos dos genes adicionales al circuito, araC y λCI (Figura 4b). Modificando la conducción del promotor tetR para incluir un sitio de unión para λCI, λCI puede unirse a los promotores del interruptor biestable, y en concierto con la activación de λCI expresión de AraC, perturba su función al destruir el comportamiento del interruptor de palanca. Para desenmascarar el circuito, lo transformamos en un plásmido que contiene dCas9 expresado constitutivamente, junto con dos ARN guía expresados ​​constitutivamente que se dirigen a los ORF de araC y λCI, que juntos forman una “clave CRISPR”. La clave CRISPR reprimió la expresión de araC y λCI a través de la interferencia CRISPR, dejando el interruptor biestable sin camuflaje y funcionando (Fig. 4b). El plásmido contenía el repA101 ts de origen sensible a la temperatura de pDK46, que es estable a 30 ° C pero inestable a 42 ° C, y el marcador de resistencia a ampicilina. Al hacer crecer las células en medio sólido a 42 ° C durante la noche sin selección, se eliminó el plásmido, camuflando así el circuito al hacer que pierda su funcionalidad debido a los efectos de los genes de camuflaje.

Camuflaje y desenmascaramiento de un interruptor biestable mediante camuflaje de circuito. a El interruptor biestable está formado por tetR y lacI reprimirse unos a otros. GFP sirve como reportero. B Los genes adicionales araC y λCI interconectarse con el circuito y camuflarlo cambiando la topología e interfiriendo con su función. La adición de la clave CRISPR reprime la expresión de araC y λCI, sin camuflar el interruptor. La dinámica del interruptor sin camuflaje es comparable a la del circuito sin la adición de genes de camuflaje. La eliminación de la llave CRISPR vuelve a camuflar el interruptor. Los datos de citometría de flujo muestran la salida de GFP del interruptor. Las células inducidas con + aTc se representan como histogramas en rojo, las células inducidas con + IPTG se representan como histogramas en azul. Cada etapa se realizó por triplicado; cada histograma representa una réplica biológica. Los histogramas adicionales en la etapa de eliminación del camuflaje son controles negativos (consulte Métodos para obtener más detalles)

Romper el camuflaje por la fuerza bruta requiere encontrar todos los posibles subcircuitos del circuito camuflado y determinar el correcto. Usando una clave molecular que puede apuntar a genes específicos, el número de posibles subcircuitos es 2 norte dónde norte es el número total de genes dentro del circuito camuflado. Este es un esquema numéricamente comparable al número de rutas de codificación para la codificación de circuitos. Sin embargo, decidir cuál de estos 2 norte circuitos es el verdadero circuito es probablemente más difícil que con la codificación de circuitos. Esto se debe a que los promotores y los ORF siempre se emparejan en el camuflaje del circuito, en comparación con el cifrado de circuito en el que tanto la combinación promotor-ORF que expresa el factor de transcripción como el promotor-ORF que regula el factor de transcripción deben emparejarse para que el enlace sea plausible. . Esto significa que el universo de circuitos candidatos plausibles del camuflaje del circuito será más grande y estará más conectado en promedio que el de la codificación de circuitos. Si se pueden apuntar enlaces específicos en lugar de solo genes específicos, el camuflaje puede fortalecerse, ya que normalmente hay más enlaces reguladores que genes. No existe un mecanismo simple conocido que pueda discriminar entre enlaces reguladores de los mismos genes, pero bloquear diferencialmente el acceso del factor de transcripción a diferentes promotores puede ser una estrategia. Por ejemplo, apuntar a un sitio único que se superpone a un sitio de unión al activador podría permitir el bloqueo de la unión del activador a un promotor que contiene el sitio único pero no a otro que no contiene el sitio único. El mismo enfoque podría funcionar para los represores eucariotas que se unen corriente arriba del promotor central.

Para un esquema de camuflaje ideal, el circuito no debe mostrar el comportamiento cualitativo y cuantitativo correcto cuando se usa una clave incorrecta. Examinamos el comportamiento de nuestro circuito bajo claves incorrectas para comprender las diferentes clases de comportamientos que podrían resultar en un caso general. En la Fig.5, el número de posibles dianas de gRNA (en cualquier lugar donde haya un NGG para S. pyogenes dCas9) se proporciona debajo de cada promotor y ORF. Los números para los promotores son exactos, mientras que para los ORF se estima que son la longitud del ORF en pb dividido por 16 (no se consideró la probabilidad aleatoria de obtener NGG en un triplete (CCN, que corresponde a NGG en la cadena inferior) ). El número total es 235, lo que da un número total de combinaciones de gRNA de 2 ^ 235

10 70. Si bien cada una de las 10 70 combinaciones podría ser una clave potencial, para la manejabilidad, consideramos solo un ARNg para cada ORF como un miembro clave potencial. Para los promotores, consideramos solo los ARNg que se superponen con la región del promotor central y los elegimos todos para superponerse a la región -10. Esto da un conjunto de 7 gRNA que pueden formar parte de la clave correcta, etiquetada a-g en la Fig. 3, para un total de 2 ^ 7 = 128 combinaciones, o 127 si se excluye la combinación sin gRNA. Como una simplificación adicional, solo examinamos combinaciones de como máximo 3 gRNA, específicamente un subconjunto de estos que ilustra los resultados probables de usar una clave incorrecta (Fig. 5). Hubo una variedad de efectos cualitativos y cuantitativos de usar una tecla incorrecta, en comparación con el comportamiento correcto del interruptor (Fig.4b, panel 2): ​​Las combinaciones a + b, a + b + gy e + b dieron resultados que eran cualitativamente diferentes al comportamiento de cambio. Las combinaciones c y c + d dieron como resultado un cambio cuantitativamente diferente o un comportamiento similar al de un cambio. La combinación b + f produjo un comportamiento de cambio comparable. La combinación e + f dio como resultado un comportamiento de cambio comparable pero no confiable (no todas las repeticiones se realizaron de la misma manera, también se observó para a + b). Estos cuatro comportamientos: (1) ninguna diferencia práctica del circuito cifrado (b + f), (2) cuantitativamente diferente del circuito correctamente descifrado (cyc + d), (3) cualitativamente diferente del circuito correctamente descifrado (a + b, a + f + g, ye + b), y (4) cuantitativamente equivalente al circuito correctamente descifrado pero inconsistente (e + f) cubren los posibles escenarios que podrían verse en el caso general.

Descamuflar usando claves incorrectas. El circuito camuflado se vuelve a dibujar. Las posiciones de dirección de ARNg se muestran como una barra roja. Los ARNg e + g forman la clave correcta, utilizada en la Fig. 2. Los números junto a los promotores y los ORF indican el número de sitios potenciales de unión del ARNg (es decir, secuencias adyacentes a una NGG PAM). Los histogramas muestran la salida GFP de claves incorrectas. Las células inducidas con + aTc se representan como histogramas en rojo, las células inducidas con + IPTG se representan como histogramas en azul. Cada experimento se realizó por triplicado; cada histograma representa una réplica biológica

Aunque la mayoría de los circuitos que se han descrito en la literatura son sistemas de prueba de concepto, su uso eventual será en el control preciso de células y organismos diseñados, donde la relación cuantitativa entre entrada y salida es vital. Los ejemplos incluyen clasificadores de células para el cáncer 20 donde las tasas de falsos negativos y positivos se determinan mediante el comportamiento del circuito cuantitativo, y probióticos diseñados que detectan los niveles de biomarcadores y valoran la expresión de compuestos terapéuticos a dosis específicas. Por tanto, ocultar el comportamiento cuantitativo de un circuito puede ser tan importante como ocultar el comportamiento cualitativo.

Mientras que la topología del circuito correcto se destruye en la codificación de circuitos, la topología puede permanecer intacta con el camuflaje del circuito. Por lo tanto, la proporción de genes de camuflaje con respecto a los genes del circuito verdadero es importante: cuanto menor sea esta proporción, más probable es que la selección aleatoria de un subcircuito conectado le proporcione una parte del circuito verdadero. Al igual que con la codificación de circuitos, el camuflaje de circuitos no ofrece protección cuando el circuito no se ha camuflado y está en uso, aunque el punto de debilidad difiere. Para la codificación de circuitos, la vulnerabilidad es la capacidad de secuenciar la construcción no codificada, mientras que con el camuflaje de circuitos, la vulnerabilidad es la capacidad de obtener la clave molecular cuando está en la celda. El uso de otros tipos de claves moleculares que son naturalmente transitorias o difíciles de detectar en el contexto celular puede minimizar esta debilidad. Los ejemplos incluyen la entrega directa de ARN pequeños que normalmente son eliminados rápidamente por la célula, o un conjunto de compuestos que se metabolizan rápidamente. En cada caso, sin un suministro frecuente de la llave, el circuito se volvería a camuflar rápidamente.

Tradicionalmente, la ingeniería metabólica ha utilizado la modificación genética permanente para optimizar la producción de compuestos diana, como mutaciones en secuencias reguladoras específicas o genes para alterar sus funciones. CRISPRi se ha utilizado recientemente para diseñar el metabolismo de los importantes Corynbacterium glutamicium reprimiendo genes en lugar de eliminarlos 21. Este enfoque puede permitir un ajuste más preciso del metabolismo del huésped, lo que permite lograr configuraciones de la red metabólica que serían difíciles de lograr con mutaciones o knockouts. Nuestro enfoque de utilizar una clave de descifrado transitorio se puede aplicar a la ingeniería metabólica. Para cualquier vía dada, existe una distribución de flujo óptima que maximiza la producción de un compuesto objetivo dado. Al agregar y eliminar transitoriamente una clave de plásmido dCas9-gRNA para modular la expresión de los diferentes componentes de la vía, una cepa puede modificarse transitoriamente para lograr este óptimo. Ésta es una situación ideal en la que la cepa solo tiene valor comercial cuando está des-camuflada y en funcionamiento, mientras que la cepa base almacenada sin ingeniería probablemente tenga un valor comercial sustancialmente menor.


Contenido

El primer circuito genético natural estudiado en detalle fue el operón lac. En estudios de crecimiento diauxico de E. coli en medios de dos azúcares, Jacques Monod y Francois Jacob descubrieron que E. coli consume preferentemente la glucosa que se procesa más fácilmente antes de cambiar al metabolismo de la lactosa. Descubrieron que el mecanismo que controlaba la función de "conmutación" metabólica era un mecanismo de control de dos partes en el operón lac. Cuando la lactosa está presente en la célula, se produce la enzima β-galactosidasa para convertir la lactosa en glucosa o galactosa. Cuando la lactosa está ausente en la célula, el represor lac inhibe la producción de la enzima β-galactosidasa para prevenir cualquier proceso ineficaz dentro de la célula.

El operón lac se utiliza en la industria de la biotecnología para la producción de proteínas recombinantes para uso terapéutico. El gen o genes para producir una proteína exógena se colocan en un plásmido bajo el control del promotor lac. Inicialmente, las células se cultivan en un medio que no contiene lactosa ni otros azúcares, por lo que los nuevos genes no se expresan. Una vez que las células alcanzan un cierto punto en su crecimiento, se agrega isopropil β-D-1-tiogalactopiranósido (IPTG). IPTG, una molécula similar a la lactosa, pero con un enlace de azufre que no es hidrolizable para que E. Coli no la digiera, se utiliza para activar o "inducir" la producción de la nueva proteína. Una vez que se inducen las células, es difícil eliminar IPTG de las células y, por lo tanto, es difícil detener la expresión.

Dos ejemplos tempranos de circuitos biológicos sintéticos fueron publicados en Nature en 2000. Uno, por Tim Gardner, Charles Cantor y Jim Collins, trabajando en la Universidad de Boston, demostró un interruptor "biestable" en E. coli. El interruptor se enciende calentando el cultivo de bacterias y se apaga mediante la adición de IPTG. Utilizaron a GFP como reportero de su sistema. [3] El segundo, de Michael Elowitz y Stanislas Leibler, mostró que tres genes represores podrían estar conectados para formar un bucle de retroalimentación negativa denominado Repressilator que produce oscilaciones autosostenidas de los niveles de proteína en E. coli. [4]

Actualmente, los circuitos sintéticos son un área floreciente de investigación en biología de sistemas con más publicaciones que detallan los circuitos biológicos sintéticos publicados cada año. [5] También ha habido un interés significativo en fomentar la educación y la divulgación: el Concurso Internacional de Máquinas de Ingeniería Genética [6] gestiona la creación y estandarización de piezas de BioBrick como un medio para permitir que los estudiantes de pregrado y secundaria diseñen sus propios circuitos biológicos sintéticos .

Existen aplicaciones tanto inmediatas como a largo plazo para el uso de circuitos biológicos sintéticos, incluidas diferentes aplicaciones para la ingeniería metabólica y la biología sintética. Entre las demostradas con éxito se incluyen la producción farmacéutica [7] y la producción de combustible. [8] Sin embargo, los métodos que implican la introducción genética directa no son intrínsecamente efectivos sin invocar los principios básicos de los circuitos celulares sintéticos. Por ejemplo, cada uno de estos sistemas exitosos emplea un método para introducir inducción o expresión de todo o nada. Se trata de un circuito biológico en el que se introduce un represor o promotor simple para facilitar la creación del producto o la inhibición de una vía competidora. Sin embargo, con la comprensión limitada de las redes celulares y los circuitos naturales, se dificulta la implementación de esquemas más robustos con un control y retroalimentación más precisos. Ahí radica el interés inmediato por los circuitos celulares sintéticos.

El desarrollo en la comprensión de los circuitos celulares puede conducir a nuevas y emocionantes modificaciones, como las células que pueden responder a los estímulos ambientales. Por ejemplo, se podrían desarrollar células que señalen entornos tóxicos y reaccionen activando las vías utilizadas para degradar la toxina percibida. [9] Para desarrollar una célula de este tipo, es necesario crear un circuito celular sintético complejo que pueda responder adecuadamente a un estímulo dado.

Dado que los circuitos celulares sintéticos representan una forma de control de las actividades celulares, se puede razonar que con una comprensión completa de las vías celulares, se pueden diseñar células "plug and play" [1] con circuitos genéticos bien definidos. Se cree ampliamente que si se genera una caja de herramientas adecuada de piezas, [10] se pueden desarrollar células sintéticas implementando solo las vías necesarias para la reproducción de la supervivencia celular. A partir de esta célula, para ser considerada como una célula de genoma mínimo, se pueden agregar piezas de la caja de herramientas para crear una ruta bien definida con circuitos sintéticos apropiados para un sistema de retroalimentación efectivo. Debido al método básico de construcción desde cero y la base de datos propuesta de piezas de circuitos mapeados, se pueden usar técnicas que reflejan las utilizadas para modelar circuitos electrónicos o de computadora para rediseñar celdas y modelar celdas para una fácil resolución de problemas y comportamiento predictivo y rendimientos.

Osciladores Editar

Elowitz y col. y Fung et al. creó circuitos oscilatorios que utilizan múltiples mecanismos de autorregulación para crear una oscilación dependiente del tiempo de la expresión del producto génico. [11] [12]

Interruptores biestables Editar

Gardner y col. utilizó la represión mutua entre dos unidades de control para crear una implementación de un interruptor de palanca capaz de controlar las células de manera biestable: estímulos transitorios que dan como resultado respuestas persistentes. [3]

Operadores lógicos Editar

Sintonizadores analógicos Editar

Usando retroalimentación negativa y promotores idénticos, los circuitos de genes linealizadores pueden imponer una expresión génica uniforme que depende linealmente de la concentración del inductor químico extracelular. [15]

Controladores de la heterogeneidad de la expresión génica Editar

Los circuitos de genes sintéticos pueden controlar la expresión génica. La heterogeneidad puede controlarse independientemente de la media de expresión génica. [dieciséis]

Otros sistemas de ingeniería Editar

Los sistemas de ingeniería son el resultado de la implementación de combinaciones de diferentes mecanismos de control. Se implementó un mecanismo de conteo limitado mediante una cascada de genes controlada por pulsos [17] y la aplicación de elementos lógicos permite la "programación" genética de células como en la investigación de Tabor et al., Que sintetizó un programa de detección de bordes bacterianos fotosensibles. [18]

Los desarrollos recientes en la síntesis de genes artificiales y el correspondiente aumento de la competencia dentro de la industria han provocado una caída significativa en el precio y el tiempo de espera de la síntesis de genes y han ayudado a mejorar los métodos utilizados en el diseño de circuitos. [19] Por el momento, el diseño de circuitos está mejorando a un ritmo lento debido a la organización insuficiente de las interacciones de genes múltiples y modelos matemáticos conocidos. Este problema se está abordando mediante la aplicación de software de diseño asistido por computadora (CAD) para proporcionar representaciones multimedia de circuitos a través de imágenes, texto y lenguaje de programación aplicado a circuitos biológicos. [20] Algunos de los programas CAD más conocidos incluyen GenoCAD, Clotho framework y j5. [21] [22] [23] GenoCAD utiliza gramáticas, que son "reglas" de código abierto o generadas por el usuario que incluyen los genes disponibles y las interacciones genéticas conocidas para la clonación de organismos. El marco de Clotho utiliza las reglas estándar de Biobrick. [20]


MATERIALES Y MÉTODOS

Conjuntos de datos utilizados en el análisis

Generamos dos réplicas biológicas de Ribo-Seq para Staphylococcus aureus Newman y descargado Escherichia coli MG1655 (Ribo-Seq, GSM3455899 y TIS-Ribo-Seq tratado con retapamulina, GSM3455900 (19)) y Bacillus subtilis datos (Ribo-Seq, GSM872395 y GSM872397, (40)) del repositorio Gene Expression Omnibus (GEO). Los datos de Ribo-Seq para S. aureus Newman se cargaron en GEO con el número de acceso GSE150601. Datos de espectrometría de masas para S. aureus son de (41) y para E. coli desde (42).

Ribo-Seq de S. aureus

Células cultivadas en medio TSB (digestión pancreática de caseína 17 g / l, digestión enzimática de soja 3 g / l, NaCl 5 g / l, K2HPO4 2,5 g / l, glucosa 2,5 g / l, pH 7,3) hasta DO550 = 1 se recogieron mediante centrifugación rápida, se resuspendieron en tampón de lisis Tris 20 mM helado, pH 8,0, que contenía MgCl 10 mM2· 6 H2O, NH 100 mM4Cl, Triton-X-100 al 0,4%, 4 U DNasa, 0,4 μl de superasa-In (Ambion), cloranfenicol 1 mM y disgregado por homogeneización (FastPrep-24 ™, MP Biomedicals) con 0,5 ml de perlas de vidrio (0,1 mm de diámetro). 100 A260 unidades de fracción de ARNm unido a ribosoma se sometieron a digestión nucleolítica con 10 unidades / μl de nucleasa microcócica (Thermofisher) en tampón con pH 9,2 (Tris 10 mM pH 11 que contiene NH 50 mM4Cl, MgCl 10 mM2, Triton X-100 al 0,2%, 100 μg / ml de cloranfenicol y CaCl 20 mM2). Los fragmentos de ARNr se agotaron utilizando el S. aureus riboPOOL rRNA oligo set (siTOOLs, Alemania) y la preparación de la biblioteca se realizó como se describió previamente (43).

Procesamiento y mapeo de datos

Las lecturas de secuenciación sin procesar se recortaron utilizando FASTX Toolkit (umbral de calidad: 20) y los adaptadores se cortaron utilizando cutadapt (superposición mínima de 1 nt). Se utilizaron las siguientes versiones del genoma para el mapeo: E. coli U00096.3, S. aureus NC_009641.1 y B. subtilis NC_000964.3. Los genomas y las anotaciones se descargaron de NCBI (enero de 2020). En el primer paso del mapeo, se descartaron las lecturas del mapeo de los ARNr. A partir de entonces, las lecturas se asignaron de forma única a los genomas de referencia utilizando Bowtie (44), ajustes de parámetros: -l 16 -n 1 -e 50 -m 1 –strata –best. Se descartaron las lecturas no asignadas de forma exclusiva. El número total de lecturas mapeadas se resume en la Tabla complementaria S1.

La identificación de péptidos para E. coli se realizó utilizando el conjunto de datos PXD000498 (mascot_daemon_merge.mgf) (42) disponible en PRIDE (45). Para identificar una búsqueda MASCOT (versión 2.6) (46) contra los candidatos smORF (tomando solo el smORF más largo para candidatos que comparten el mismo codón de terminación) y todos los genes codificantes de proteínas (4243 secuencias) y la base de datos de señuelos respectiva se llevó a cabo con los parámetros de búsqueda como publicado anteriormente (42).

Flujo de trabajo más sofocante

El flujo de trabajo de smORFer, que se ejecuta de forma modular, se resume en la Figura 1. Se realizan varios pasos simples de conteo y filtrado usando BEDTools (47), p. Ej. ORF en regiones no anotadas donde el filtro por intersectBed y el recuento de lecturas se realizó utilizando CoverBed. Se requiere la primera parte del Módulo A para definir los límites de todos los ORF putativos. La selección se refina aún más por las propiedades estructurales que son intrínsecas a las secuencias codificantes de proteínas. Los módulos B y C añaden más confianza a los candidatos smORF detectados y se pueden ejecutar de forma independiente o en conjunto, lo último aumenta la detección de smORF novedosos positivos verdaderos.

Esquema general del algoritmo smORFer con sus tres módulos que evalúan la información genómica (módulo A, verde), traducción y periodicidad de 3 nt en los RPF de los datos de Ribo-Seq (módulo B, azul), y TIS de TIS-Ribo-Seq ( módulo C, naranja).

Esquema general del algoritmo smORFer con sus tres módulos que evalúan la información genómica (módulo A, verde), traducción y periodicidad de 3 nt en los RPF de los datos de Ribo-Seq (módulo B, azul), y TIS de TIS-Ribo-Seq ( módulo C, naranja).

Detección de ORF basada en el genoma (Módulo A)

Se generó una lista de ORF putativos utilizando un script de Perl modificado (48) que genera ORF putativos con codón de inicio y parada dentro del marco. Usamos cuatro codones de inicio, ATG, GTG, TTG, CTG, que son los más comunes en procariotas (49), y los tres codones de terminación uniformes, TGA, TAG, TAA. smORFer separados smORF según su ubicación, p. ej. en las regiones anotadas y no anotadas, y también contiene un filtro específico de hebra para seleccionar la región.

Para detectar si un smORF putativo potencialmente codifica péptidos o proteínas, es decir, exhibe 3-nt periodicidad de la secuencia del CDS, y por lo tanto, podría traducirse potencialmente, utilizamos la transformada de Fourier (FT implementada como función fft base de R) del contenido de GC de cada gen, es decir, para cada ORF individual, este es un vector de 0 y 1. La señal se normaliza primero a la longitud del ORF ya que la intensidad de la señal depende de la longitud del ORF. En este patrón periódico de 3 nt, el período de 1,5 nt siempre está presente junto con el período de 3 nt independientemente de la longitud del ORF putativo. A partir de entonces, construimos la fracción de señal normalizada en el período de 3 nt y la dividimos por la media aritmética de la señal entre períodos de 3 nt y 1,5 nt.

Detección de ORF traducidos a partir de datos de Ribo-Seq, incluido el procesamiento de lectura (Módulo B)

Los datos de Ribo-Seq se mapean primero y los smORF con un mínimo de cinco RPF se seleccionan y asignan como "traducido'. Una cobertura de ≥5 recuentos de RPF está en promedio por encima del error de recuento para ORF cortos en conjuntos de datos de Ribo-Seq (23, 50) y sugerimos que se utilice como un límite arbitrario cuando no se dispone de réplicas biológicas. De lo contrario, los recuentos de lectura mínimos fiables por gen deben determinarse individualmente para cada Ribo-Seq mediante el análisis de variabilidad de las estadísticas de recuento de dos réplicas biológicas independientes que también evalúa la influencia del ruido de recuento (23, 43).

El procedimiento de calibración asigna a cada RPF el codón en el sitio ribosómico A o P, lo que permite realizar un seguimiento del ritmo periódico de los ribosomas por codones a lo largo de los ORF. Para colocar una lectura en el sitio ribosómico A o P, las lecturas se agrupan primero por longitud y el desplazamiento se determina para cada intervalo de longitud de lectura individualmente como se describe ((51) todos los scripts están disponibles aquí: https://github.com/ AlexanderBartholomaeus / MiMB_ribosome_profiling). Para los conjuntos de datos procarióticos de Ribo-Seq, se recomienda una calibración utilizando los extremos 3 ', es decir, los codones de terminación, ya que las nucleasas utilizadas para generar RPF en bacterias se escinden de una manera selectiva de secuencia con algo menos de variaciones en los extremos 3' (52) . Las distribuciones de longitud de lectura varían entre conjuntos de datos probablemente debido a diferentes protocolos experimentales (53) y se deben considerar al menos cuatro a cinco intervalos de longitud de lectura más alta. Aquí, consideramos para E. coli y B. subtilis leer contenedores de longitud de 27 a 30 nt y para S. aureus Contenedores de 24-28 nt con una compensación para el sitio A de 11 nt para 24-28 nt y 12 nt para 29-30 nt. Alternativamente, se pueden usar otros algoritmos que extraen el sitio A o P de las lecturas de RPF. De manera similar a nuestro enfoque, Plastid (54) y RiboProfling (55) calculan el sitio P estratificando las lecturas en contenedores de acuerdo con su longitud y tratando cada contenedor de forma independiente, se obtienen compensaciones variables entre contenedores. riboWaltz (56), un algoritmo R de dos pasos, calcula el sitio P con una alta precisión utilizando un desplazamiento único coherente.

La calibración requiere una buena cobertura de lectura, por lo tanto, los smORF con una cobertura de 100 RPF por kilobase de longitud de ORF (RPK) se sometieron además a análisis de FT para determinar la periodicidad de 3 nt o codón del perfil de RPF calibrado. Por lo general, una cobertura de 100 RPK (es decir, 1 lectura por 10 nt) da como resultado un buen análisis de FT. Los smORF con una periodicidad de 3 nt en la cobertura de RPF se clasifican como "3-nt traducido ". A continuación, la periodicidad de 3 nt o codón del perfil de RPF calibrado se somete a FT y se extrae una puntuación de la media de la señal entre los períodos de 3 nt y 1,5 nt. El umbral (FT & gt 2) se determina a partir de las distribuciones acumulativas de los valores de FT para 2315 ORF que codifican proteínas con ≥100 RPK. Los smORF con un valor FT superior a 2 se clasifican como "3nt-traducido ". Los smORF con baja cobertura de RPF, para los que no se pudo determinar una señal periódica de 3 nt en los perfiles de RPF, se clasifican como 'traducido'. Tenga en cuenta que 'traducido' Los smORF también deben conservarse, ya que podrían ser verdaderos aciertos, pero sus niveles de traducción relativamente bajos, con solo unos pocos RPF, impiden la calibración y el análisis de FT.

Detección de TIS (Módulo C)

Ribo-Seq se realiza en presencia de un inhibidor de inicio de la traducción aquí, para E. coli se utilizó retapamulina (19). TIS-Ribo-Seq se procesó de la misma manera que Ribo-Seq. El nucleótido medio de cada RPF se extrae y se utiliza en un análisis posterior en el caso de una longitud de lectura uniforme, se toma el nucleótido 3 'de la primera mitad de un RPF (51). Cabe señalar que las lecturas de TIS-Ribo-Seq no se pueden calibrar, debido a la cobertura sesgada en el inicio y la falta de cobertura en la terminación, esta última impide la calibración tanto en los codones de inicio como en los de parada (51). Además, no es posible una asignación manual del desplazamiento, porque la retapamulina se une al centro de la peptidil-transferasa tanto en presencia como en ausencia del iniciador fMet-tRNA (19, 57, 58), difuminando así la asignación del sitio P en al menos dos posiciones de codones. Para cada smORF, se suman los recuentos de TIS de nucleótido medio sobre los tres nucleótidos del codón de inicio y un codón aguas arriba y aguas abajo del comienzo y los ORF con más de 5 RPF se clasifican como que tienen TIS verdadero.

Versiones, scripts y ejemplos del sistema operativo y R

Usamos Ubuntu 18.04 LTS como sistema operativo. Para el análisis y visualización de datos, usamos R (3.5.0), incluidos los paquetes seqinr (3.6-1) y Biostrings (2.50.2) que están disponibles en todos los sistemas operativos. Scripts, ejemplos de llamadas y archivos (excepto los archivos BAM debido a su gran tamaño) para usar smORFer E. coli Los conjuntos de datos están disponibles en https://github.com/AlexanderBartholomaeus/smORFer.


RESULTADOS

Los métodos de ensamblaje dirigidos por superposición se basan en 20 a 50 pb de secuencia compartida entre las partes del ADN que se unen, según el método preciso utilizado (9). La investigación sugirió que se requiere un mínimo de 40 pb para un ensamblaje eficiente mediante recombinación homóloga de levadura, y que una longitud similar de ADN es óptima para el método de ensamblaje de Gibson (26, 43, 44). Para permitir que nuestro estándar MODAL sea compatible con Gibson, CPEC y el ensamblaje de levadura, seleccionamos 45 pb para que sean la longitud de nuestras regiones de superposición, que llamamos enlazadores y actúan como "extremos de guía" en las reacciones de ensamblaje. Para poder unirlos fácilmente a cualquier parte de ADN mediante un protocolo estándar, las partes deben pasar por un proceso de estandarización único. Consiste en una PCR en la que la parte de ADN se amplifica a partir de cualquier fuente (es decir, ADN plásmido o genómico) utilizando cebadores específicos de la parte que contienen secuencias "adaptadoras" de 15 pb (figura 1A). Estas dos secuencias (adaptador de prefijo y adaptador de sufijo) son universales y flanquean las partes del ADN después de la amplificación. Tenga en cuenta que este paso puede reemplazarse por síntesis directa de ADN. Los enlazadores finales de guía se pueden unir a cualquier parte de ADN mediante una PCR estandarizada: esto utiliza cebadores de un conjunto de cebadores universales reutilizables (el conjunto de enlazadores), que se aparean con las secuencias del adaptador y codifican los enlazadores finales de guía (Figura 1A) . La posición de las partes de ADN en las construcciones finales está determinada por los enlazadores, ya que guían la reacción de ensamblaje: por ejemplo, si el ensamblaje deseado es la parte A seguida de la parte B, entonces A se amplifica usando un cebador inverso que es el inverso. complemento de la secuencia del enlazador más la secuencia del adaptador del sufijo, y B se amplifica usando un cebador directo, es decir, la secuencia del enlazador más la secuencia del adaptador del prefijo. Sin embargo, si se invierte el orden deseado (es decir, la parte B seguida de la parte A), los cebadores utilizados para amplificar las partes se intercambian, de modo que B se amplifica con el cebador inverso mencionado anteriormente y A se amplifica con el cebador directo.

El ensamblaje dirigido por superposición de partes de ADN mediante la adición de secuencias de enlazadoras modulares puede permitir el ensamblaje estandarizado de genes en diferentes órdenes y orientaciones sin efectos de contexto. (A) Esquema de la estrategia MODAL. Usando una PCR inicial, las partes de ADN seleccionadas se amplifican desde su fuente para estar flanqueadas por secuencias adaptadoras definidas de 15 pb (P = adaptador de prefijo, S = adaptador de sufijo), que luego pueden clonarse, almacenarse y verificarse la secuencia en el vector pJET. Las secuencias enlazadoras (numeradas del 1 al 4) se añaden luego en 5 'y 3' de los adaptadores mediante PCR y estas guían el ensamblaje de superposición mediado por homología en plásmidos u otras construcciones. La bifurcación en el diagrama muestra un ejemplo de cómo cambiar qué enlazadores se agregan a la parte A y la parte B cambia su orden en la construcción final. (B) Usando un solo conjunto de cuatro enlazadores aleatorios de 45 pb y cuatro estandarizados E. coli partes (expresión constitutiva de GFP, expresión constitutiva de RFP, resistencia a la kanamicina y un origen de replicación pUC), se utilizó el ensamblaje de Gibson para construir plásmidos con partes en una variedad de órdenes. La expresión de GFP y RFP por célula medida por citometría de flujo no mostró una variación significativa cuando las partes se barajaron a diferentes posiciones en el plásmido y contenían diferentes secuencias enlazadoras aguas arriba y aguas abajo de los genes. La fluorescencia media por celda se calculó a partir de las mediciones de FL1 (GFP) y FL5 (RFP) promedio (norte = 5). Las barras de error indican un error estándar.

El ensamblaje de partes de ADN dirigido por superposición mediante la adición de secuencias de enlazadoras modulares puede permitir el ensamblaje estandarizado de genes en diferentes órdenes y orientaciones sin efectos de contexto. (A) Esquema de la estrategia MODAL. Usando una PCR inicial, las partes de ADN seleccionadas se amplifican desde su fuente para estar flanqueadas por secuencias adaptadoras definidas de 15 pb (P = adaptador de prefijo, S = adaptador de sufijo), que luego pueden clonarse, almacenarse y verificarse la secuencia en el vector pJET. Las secuencias enlazadoras (numeradas del 1 al 4) se añaden luego en 5 'y 3' de los adaptadores mediante PCR y estas guían el ensamblaje de superposición mediado por homología en plásmidos u otras construcciones. La bifurcación en el diagrama muestra un ejemplo de cómo cambiar qué enlazadores se agregan a la parte A y la parte B cambia su orden en la construcción final. (B) Usando un solo conjunto de cuatro enlazadores aleatorios de 45 pb y cuatro estandarizados E. coli partes (expresión constitutiva de GFP, expresión constitutiva de RFP, resistencia a la kanamicina y un origen de replicación pUC), se utilizó el ensamblaje de Gibson para construir plásmidos con partes en una variedad de órdenes. La expresión de GFP y RFP por célula medida por citometría de flujo no mostró una variación significativa cuando las partes se barajaron a diferentes posiciones en el plásmido y contenían diferentes secuencias enlazadoras aguas arriba y aguas abajo de los genes. La fluorescencia media por celda se calculó a partir de las mediciones de FL1 (GFP) y FL5 (RFP) promedio (norte = 5). Las barras de error indican un error estándar.

Para mitigar los errores transmitidos por la PCR, tomamos tres pasos: (i) todas las PCR se realizaron utilizando una ADN polimerasa de alta fidelidad, (ii) las partes estandarizadas generadas en el paso 1 de la PCR se clonaron en el vector pJET y la secuencia se verificó antes de su uso posterior y (iii) el número de ciclos en el paso 2 de la PCR no excedió los 25 ciclos.

Las secuencias de superposición modular permiten el ensamblaje en un solo recipiente de construcciones multigénicas con contextos variables

Para validar nuestro enfoque, tomamos un conjunto de cuatro partes de ADN a nivel de gen y generamos una pequeña biblioteca preliminar de cebadores MODAL con los que ensamblarlos. Cuatro partes requieren que se ensamblen cuatro enlazadores, por lo que generamos ocho cebadores de 60 meros: cada cebador directo consta de una secuencia de enlazador final de guía de 45 bases seguida de la secuencia del adaptador de prefijo de 15 bases, y cada cebador inverso consta del complemento inverso de la secuencia del enlazador seguida del adaptador de sufijo de 15 bases. Las secuencias enlazadoras se generaron aleatoriamente para tener un contenido de GC ~ 50% sobre la región de solapamiento de 45 pb. Usando la estrategia MODAL (Figura 1A) con el método de ensamblaje de Gibson de una sola olla, generamos E. coli plásmidos que codifican la expresión constitutiva de GFP y RFP, la replicación del ADN y la resistencia a la kanamicina. Nuestro método permitió que los mismos materiales de partida combinaran nuestras cuatro partes a nivel de genes en plásmidos funcionales que tienen sus genes en una variedad de órdenes y orientaciones diferentes. Para determinar si nuestras secuencias enlazadoras sintéticas imparten algún efecto específico del contexto (es decir, modulación de la expresión génica local), también determinamos la salida de GFP y RFP de plásmidos construidos a partir de partes en diferentes órdenes. La cuantificación de GFP y RFP reveló una expresión génica notablemente confiable independientemente del contexto local y la presencia de las regiones enlazadoras (Figura 1B). Por lo tanto, la estrategia MODAL no solo permite reorganizar rápidamente el orden y la orientación de los genes dentro de las construcciones, sino que las secuencias sintéticas que codifican los adaptadores y enlazadores fueron bien toleradas entre partes de ADN a nivel de gen (es decir, cuando son intergénicas).

Con adaptador de prefijo, adaptador de sufijo y enlazadores de 45 pb, nuestro enfoque modular deja 75 pb de ADN sintético entre las partes. Si bien esto puede ser tolerable a nivel de gen del ensamblaje de ADN, es poco probable que tales secuencias largas sean completamente neutrales cuando se colocan entre las partes a nivel de subgen que constituyen unidades de expresión génica, como promotores, regiones 5 'no traducidas y lectura abierta. marcos (ORF). Confirmamos esto construyendo una serie de casetes de expresión bicistrónicos que constan de un promotor, GFP y RFP y evaluando los niveles de expresión relativos de GFP y RFP cuando se usaron diferentes enlazadores. Como era de esperar, la expresión génica varió significativamente según los enlazadores seleccionados y el orden del bicistrón (Figura complementaria S2). Tal dependencia del contexto probablemente se deba a diferencias en el plegamiento del ARN local dentro de las transcripciones, que modula la eficiencia de elementos como las secuencias del sitio de unión al ribosoma (RBS) (45) y ajusta la estabilidad del ARNm.

Diseñador R2oDNA: software en línea para el diseño de secuencias enlazadoras ortogonales para ensamblaje de ADN dirigido por superposición

Estos experimentos iniciales demostraron el potencial para estandarizar el ensamblaje de ADN dirigido por superposición. Sin embargo, al ensamblar los plásmidos en la Figura 1B, casi la mitad de las colonias no expresaron GFP o RFP, o solo expresaron un único informador fluorescente. Esto refleja nuestra experiencia más amplia de ensamblaje de Gibson a nivel de plásmido, donde vemos variaciones significativas en la eficiencia según las piezas que se ensamblan. Por lo tanto, decidimos desarrollar una herramienta de software, R2oDNA Designer, como un medio para probar las restricciones necesarias para un ensamblaje de ADN eficiente y para facilitar la generación de secuencias de ADN ortogonales adecuadas para superposiciones. Al hacerlo, reconocimos que cualquier ADN podría contener secuencias que lo hicieran ineficaces para los métodos de ensamblaje de ADN superpuesto (por ejemplo, ejecuciones de poliA o secuencias que forman horquillas fuertes cuando son monocatenarias), o podría contener secuencias de enzimas de restricción que impiden el manejo planificado aguas abajo. Además, ciertas secuencias de ADN podrían ser perjudiciales para la función biológica del sistema (por ejemplo, sitios de unión al factor de transcripción) o para el huésped mediante recombinación homóloga imprevista con el genoma.

Para abordar estos problemas, R2oDNA Designer ha sido diseñado para generar secuencias de ADN sintético de una longitud y composición definidas que son adecuadas para el ensamblaje superpuesto y pueden excluir secuencias prohibidas predefinidas. El software utiliza un MCSA para muestrear aleatoriamente el espacio de la secuencia de ADN y puntuar las secuencias generadas, convergiendo en un conjunto que cumple los criterios definidos de longitud predeterminada y contenido de GC o temperatura de fusión (Figura 2A). Estas secuencias se comparan con las secuencias del genoma de una lista de organismos proporcionada (aquí hemos utilizado E. coli, S. cerevisiae y Bacillus subtilis) utilizando el algoritmo BLAST (41), para eliminar cualquiera que pudiera cruzarse con secuencias cromosómicas. Finalmente, todas las secuencias restantes se comparan entre sí utilizando un algoritmo de eliminación de red para eliminar aún más cualquiera que pueda recocerse de forma cruzada y, por lo tanto, no sería ortogonal y adecuado para el ensamblaje de un solo recipiente definido.

R2oDNA Designer es una herramienta de software en línea para el diseño de secuencias enlazadoras sintéticas para la estrategia MODAL. (A) Vista general del proceso. Se genera un grupo inicial de secuencias aleatorias que coinciden con los requisitos del usuario principal (restricciones de nucleótidos específicas de longitud y posición). Luego, estos se optimizan utilizando MCSA utilizando una función de puntuación que penaliza (i) las estructuras secundarias de ADN monocatenario, (ii) los motivos de secuencia prohibida, incluidos los sitios de enzimas de restricción, (iii) los motivos funcionales como las secuencias de unión a ribosomas y (iv) las secuencias de elementos de inserción, (v) auto recocido no deseado y (vi) contenido de GC o T fuera del objetivometro. Se optimizan todas las secuencias que contienen motivos prohibidos o estructuras secundarias medianas a fuertes o auto-recocido. Se elimina cualquier secuencia con impactos BLAST significativos en genomas seleccionados. Finalmente, cualquier secuencia restante que se recoja entre sí se elimina mediante un algoritmo de eliminación de red. (B) Se muestra la interfaz de usuario de R2oDNA Designer. Los usuarios pueden ingresar la longitud del enlazador, los requisitos de secuencia y las preferencias para el contenido de GC o la temperatura de fusión en la primera ventana. Se puede ajustar una lista de las secuencias y genomas prohibidos para comparar en la ventana de configuración avanzada.

R2oDNA Designer es una herramienta de software en línea para el diseño de secuencias enlazadoras sintéticas para la estrategia MODAL. (A) Vista general del proceso. Se genera un grupo inicial de secuencias aleatorias que coinciden con los requisitos del usuario principal (restricciones de nucleótidos específicas de longitud y posición). Luego, estos se optimizan utilizando MCSA utilizando una función de puntuación que penaliza (i) las estructuras secundarias de ADN monocatenario, (ii) los motivos de secuencia prohibida, incluidos los sitios de enzimas de restricción, (iii) los motivos funcionales como las secuencias de unión a ribosomas y (iv) las secuencias de elementos de inserción, (v) auto recocido no deseado y (vi) contenido de GC o T fuera del objetivometro. Todas las secuencias que contienen motivos prohibidos o estructuras secundarias medianas a fuertes o autoanillado se optimizan. Se elimina cualquier secuencia con impactos BLAST significativos en genomas seleccionados. Finalmente, cualquier secuencia restante que se recoja entre sí se elimina mediante un algoritmo de eliminación de red. (B) Se muestra la interfaz de usuario de R2oDNA Designer. Los usuarios pueden ingresar la longitud del enlazador, los requisitos de secuencia y las preferencias para el contenido de GC o la temperatura de fusión en la primera ventana. Se puede ajustar una lista de las secuencias y genomas prohibidos para comparar en la ventana de configuración avanzada.

El software R2oDNA Designer, disponible gratis en línea en http://www.r2odna.com, permite al usuario seleccionar entre un conjunto de secuencias prohibidas predeterminadas (Tabla complementaria S3) o cargar las suyas propias (Figura 2B). De manera similar, la lista de secuencias del genoma con las que se comparan las secuencias sintéticas se puede personalizar. Una característica adicional del software es la capacidad de puntuar secuencias existentes para su "aceptabilidad" para ser utilizadas como un enlazador superpuesto. En los Materiales complementarios se proporcionan más detalles del software y sus características.

Las secuencias de superposición diseñadas permiten un ensamblaje de ADN modular en un solo recipiente mediante una variedad de técnicas

Para demostrar cómo las secuencias enlazadoras generadas por R2oDNA Designer pueden mejorar la eficiencia de clonación de plásmidos modulares para una variedad de métodos de ensamblaje de ADN en un solo recipiente, probamos la eficiencia de ensamblaje de ADN de dos plásmidos de 4 partes: un E. coli plásmido que expresa constitutivamente GFP y RFP y un S. cerevisiae Plásmido 2 -μ que también expresa constitutivamente variantes de GFP y RFP (yEGFP y mCherry, respectivamente, ver Figura 1B y Figura complementaria S1). Ensamblaje de ADN del E. coli El plásmido se probó utilizando los métodos de ensamblaje de Gibson y CPEC, transformando los productos de ensamblaje en DH10B E. coli y cuantificación de la eficiencia del ensamblaje como el porcentaje de colonias que eran tanto rojas como verdes cuando se escaneaban en busca de fluorescencia (Figura 3A). El ensamblaje de ADN del plásmido de levadura se probó usando ensamblaje directo en levadura (en vivo recombinación), transformando las partes modulares en YPH500 S. cerevisiae y cuantificar la eficiencia del ensamblaje como el porcentaje de colonias que eran tanto rojas como verdes cuando se escaneaban en busca de fluorescencia.

Evaluación de enlazadores diseñados utilizados dentro de la estrategia MODAL con Gibson, CPEC y S. cerevisiae métodos de ensamblaje de ADN de recombinación. (A) Para evaluar las secuencias del enlazador modular, se ensamblaron cuatro partes mediante ensamblaje de Gibson en un plásmido que codifica la expresión constitutiva de GFP y RFP, siguiendo el esquema ilustrado en la Figura 1A. DH10B E. coli se transformaron con reacciones de ensamblaje y se cultivaron en placas de agar LB + kanamicina durante la noche y luego se escanearon en busca de fluorescencia verde y roja al día siguiente. Esto se repitió tres veces en días separados, y aquí se muestra un solo conjunto. El ensamblaje se realizó utilizando seis conjuntos de enlazadores diferentes: aleatorio, diseñado con un 40% de contenido de GC, diseñado con un 50% de contenido de GC, diseñado con un 40% de contenido de GC, funcional y sin cicatrices. El ensamblaje correcto da colonias que parecen amarillas debido a la fluorescencia verde y roja simultánea. (B) El número total de colonias y el porcentaje de aquellas que contienen plásmidos correctamente ensamblados (la "precisión") se calcularon a partir del análisis de imágenes de cada placa para ensamblajes de ADN utilizando diferentes secuencias enlazadoras y utilizando Gibson, CPEC y S. cerevisiae métodos de ensamblaje de ADN de recombinación. Equivalente E. coli Se utilizaron partes y células competentes para Gibson y CPEC (norte = 3), pero para S. cerevisiae ensamblado, se utilizaron células YPH500 y las partes de ADN codificaron la expresión constitutiva de yEGFP y mCherry RFP, selección de uracilo y un origen de plásmido de 2 μ (norte = 2). Las barras de error indican un error estándar. (C) Esquema que ilustra la diferencia entre el proceso de ensamblaje y las regiones intergénicas formadas por la estrategia MODAL y el ensamblaje sin cicatrices.

Evaluación de enlazadores diseñados utilizados dentro de la estrategia MODAL con Gibson, CPEC y S. cerevisiae métodos de ensamblaje de ADN de recombinación. (A) Para evaluar las secuencias del enlazador modular, se ensamblaron cuatro partes mediante ensamblaje de Gibson en un plásmido que codifica la expresión constitutiva de GFP y RFP, siguiendo el esquema ilustrado en la Figura 1A. DH10B E. coli se transformaron con reacciones de ensamblaje y se cultivaron en placas de agar LB + kanamicina durante la noche y luego se escanearon en busca de fluorescencia verde y roja al día siguiente. Esto se repitió tres veces en días separados, y aquí se muestra un solo conjunto. El ensamblaje se realizó utilizando seis conjuntos de enlazadores diferentes: aleatorio, diseñado con un 40% de contenido de GC, diseñado con un 50% de contenido de GC, diseñado con un 40% de contenido de GC, funcional y sin cicatrices. El ensamblaje correcto da colonias que parecen amarillas debido a la fluorescencia verde y roja simultánea. (B) El número total de colonias y el porcentaje de aquellas que contienen plásmidos correctamente ensamblados (la "precisión") se calcularon a partir del análisis de imágenes de cada placa para ensamblajes de ADN utilizando diferentes secuencias enlazadoras y utilizando Gibson, CPEC y S. cerevisiae métodos de ensamblaje de ADN de recombinación. Equivalente E. coli Se utilizaron partes y células competentes para Gibson y CPEC (norte = 3), pero para S. cerevisiae ensamblado, se utilizaron células YPH500 y las partes de ADN codificaron la expresión constitutiva de yEGFP y mCherry RFP, selección de uracilo y un origen de plásmido de 2 μ (norte = 2). Las barras de error indican un error estándar. (C) Esquema que ilustra la diferencia entre el proceso de ensamblaje y las regiones intergénicas formadas por la estrategia MODAL y el ensamblaje sin cicatrices.

Se evaluaron cuatro conjuntos diferentes de enlazadores generados por R2oDNA Designer para el ensamblaje de Gibson del E. coli plásmido, comparándolos con un ensamblaje Gibson estándar a medida que produce un producto sin costuras ("Sin cicatrices") y con enlazadores generados aleatoriamente, como se usa en la Figura 1 ("Aleatorio"). También se evaluaron dos conjuntos de los cuatro enlazadores para CPEC y ensamblaje directo en levadura. Los cuatro conjuntos consistieron en tres diseñados por corridas típicas de R2oDNA Designer, con 40, 50 y 60% de contenido de GC especificado durante el proceso de diseño (consulte la Tabla complementaria S3 para conocer los parámetros de diseño). El cuarto conjunto, "funcional", se diseñó para ilustrar los problemas de un enfoque sugerido anteriormente en el que las partes funcionales cortas se codifican dentro de las secuencias de las regiones superpuestas (26). Este conjunto de cuatro secuencias enlazadoras, que codifican un promotor, un terminador, una secuencia de etiqueta peptídica y un sitio de ARNasa III, se seleccionó utilizando la capacidad de R2oDNA Designer para puntuar secuencias existentes para su idoneidad como enlazadores, que se describe más adelante en los Materiales complementarios. Para todas las reacciones de ensamblaje, la región de superposición se diseñó para que fuera de 45 pb.

Todas las reacciones de ensamblaje de Gibson de las cuatro partes E. coli El plásmido dio un número elevado de colonias por transformación excepto por dos: cuando se usaron los enlazadores diseñados con un contenido de GC del 60% y con los enlazadores funcionales (Figura 3B). Dada la poca idoneidad para el ensamblaje de superposición de los enlazadores funcionales (según lo evaluado por nuestro software), no es sorprendente que fueran ineficientes; sin embargo, nos sorprendió que el 60% de los enlazadores diseñados por GC también funcionaran mal. La repetición de este ensamblaje de ADN, pero el uso de un conjunto adicional de cuatro secuencias enlazadoras más diseñadas para tener un contenido de GC del 60% no cambió el número de colonias por transformación, lo que demuestra que la baja eficiencia no era una característica específica de una o más de las secuencias utilizadas. como enlazador.

La mayor precisión para el ensamblaje de Gibson, con el mayor porcentaje de clones correctos, se observó con la estrategia MODAL con los enlazadores GC al 40%. El ensamblaje sin cicatrices generó muchas colonias, pero un gran porcentaje de estas expresó solo una proteína fluorescente. Es probable que esto se deba a un ensamblaje incorrecto dirigido por homologías de secuencia parcial entre las secuencias promotora y terminadora de las partes que codifican GFP y RFP (Figura 3C).

Habiendo determinado que los enlazadores GC al 40% diseñados por R2oDNA Designer dieron la mayor precisión para el ensamblaje de Gibson y que los enlazadores GC al 60% eran problemáticos, a continuación examinamos si estas observaciones también eran válidas para otros dos métodos de ensamblaje dirigidos por superposición de uso común, CPEC y ensamblaje directo en levadura. Para CPEC, tanto los enlazadores GC al 40 como al 60% dieron un alto porcentaje (85%) de colonias correctas pero un número mucho menor de transformantes que con el ensamblaje de Gibson. En este caso, se obtuvieron significativamente más colonias usando enlazadores GC al 60% en comparación con enlazadores GC al 40% (Figura 3B). Para el ensamblaje directo en levadura, tanto los enlazadores GC al 40 como al 60% dieron un 100% de precisión, lo que significa que cada colonia era visible como un ensamblaje correcto cada vez que se repetía el experimento. En contraste con CPEC, pero al igual que con Gibson, los enlazadores GC al 40% eran preferibles a los enlazadores GC al 60%, produciendo sustancialmente más colonias (Figura 3B). Es interesante notar que los enlazadores GC al 60% son preferidos por el método de ensamblaje que ocurre cíclicamente a temperaturas altas (≥60 ° C) (CPEC), mientras que los enlazadores GC al 40% son preferidos cuando la reacción de ensamblaje es isotérmica y se realiza a temperaturas más bajas.

La PCR mutagénica dentro de MODAL permite la construcción rápida de bibliotecas con diversidad dirigida a partes específicas

La estrategia MODAL de usar PCR para conectar partes modulares a conjuntos de conectores diseñados permite que se use casi cualquier secuencia amplificable dentro de nuestro enfoque de ensamblaje, que contrasta con muchas técnicas de restricción dependientes de enzimas [como GoldenBraid (46) y BioBricks (17) ], que especifican que ciertas secuencias deben estar ausentes de las partes. Si bien normalmente mantenemos la PCR en un número bajo de ciclos y usamos una polimerasa de alta fidelidad para evitar que se introduzcan errores en las partes, también es sencillo en esta etapa reemplazar la PCR de alta fidelidad con la PCR mutagénica para una o más partes seleccionadas de un constructo para ser diversificado (35, 47). Con solo una pequeña modificación, nuestro enfoque se convierte así en un método rápido para generar bibliotecas de construcciones dentro del proceso de ensamblaje de ADN.

Para demostrar esta variación de nuestra estrategia MODAL, modificamos nuestro diseño de plásmido de expresión de RFP y GFP de levadura de cuatro partes, de modo que el promotor constitutivo de GFP (el promotor ADH1) y la región de GFP transcrita se dividieron y trataron como dos partes modulares separadas, lo que significa que nuestro diseño ahora era un ensamblaje de plásmido de cinco partes que usaba cinco secuencias enlazadoras GC al 40%. El ensamblaje de ADN se realizó directamente en la levadura como antes, pero durante la PCR para agregar las regiones enlazadoras a las partes, amplificamos la parte del promotor ADH1 en dos reacciones diferentes en paralelo, una reacción estándar usando una polimerasa de alta fidelidad y una reacción mutagénica, optimizada para incorporar ∼10 mutaciones por 100 pb (Figura 4A). Para examinar la eficacia de este enfoque para generar rápidamente bibliotecas, seleccionamos cuatro colonias del ensamblaje no mutado y 52 colonias del ensamblaje mutado. Estas colonias se cultivaron durante la noche en medio líquido y luego se caracterizaron para la expresión de GFP y RFP usando citometría de flujo de dos colores. Se observó que la expresión de GFP por plásmido variaba significativamente entre las colonias seleccionadas del ensamblaje de PCR mutagénico, pero se mantuvo constante entre las colonias del ensamblaje estándar (Figura 4B, recuadro). A partir del ensamblaje mutagénico, seleccionamos una biblioteca de 20 promotores ADH1 mutados que dieron una variedad de salidas de GFP diferentes. Repetimos su caracterización por triplicado y determinamos sus secuencias de nucleótidos (Figura 4B y Tabla complementaria S4). Por lo tanto, dentro de los simples pasos de nuestra estrategia MODAL, pudimos dirigir la mutagénesis a una parte específica en la construcción final y crear una biblioteca constitutiva de promotores de levadura útil para proyectos de biología sintética e ingeniería metabólica (47, 48).

La incorporación de la mutación dentro del proceso de la estrategia MODAL permite la creación rápida de bibliotecas de construcciones. (A) Además de realizar el ensamblaje estándar, las partes seleccionadas también se pueden mutar fácilmente como parte del flujo de trabajo del ensamblaje mediante la adición de análogos de nucleótidos en la amplificación por PCR que agrega las regiones enlazadoras, como en el esquema mostrado. La PCR mutagénica (35) utiliza dPTP y 8-oxo-dGTP para incorporar incorrectamente un alto porcentaje de errores de secuencia en la PCR. (B) El ensamblaje directo de un plásmido modular de cinco partes en levadura con mutación aplicada a la parte del promotor ADH1 da como resultado cientos de colonias de levadura que muestran diferentes niveles medios de expresión de GFP. El cribado inicial de 52 colonias mediante citometría de flujo (recuadro) permite seleccionar una biblioteca graduada de 20 promotores ADH1 mutantes (A1-A20) que cubre un rango de expresión de 3 órdenes de magnitud, por encima y por debajo de la salida proporcionada por el promotor ADH1 no mutado ( ADH). Las barras de error indican un error estándar (norte = 3).

La incorporación de la mutación dentro del proceso de estrategia MODAL permite la creación rápida de bibliotecas de construcciones. (A) Además de realizar el ensamblaje estándar, las partes seleccionadas también se pueden mutar fácilmente como parte del flujo de trabajo del ensamblaje mediante la adición de análogos de nucleótidos en la amplificación por PCR que agrega las regiones enlazadoras, como en el esquema mostrado. La PCR mutagénica (35) utiliza dPTP y 8-oxo-dGTP para incorporar incorrectamente un alto porcentaje de errores de secuencia en la PCR. (B) El ensamblaje directo de un plásmido modular de cinco partes en levadura con mutación aplicada a la parte del promotor ADH1 da como resultado cientos de colonias de levadura que muestran diferentes niveles medios de expresión de GFP. El cribado inicial de 52 colonias mediante citometría de flujo (recuadro) permite seleccionar una biblioteca graduada de 20 promotores ADH1 mutantes (A1-A20) que cubre un rango de expresión de 3 órdenes de magnitud, por encima y por debajo de la salida proporcionada por el promotor ADH1 no mutado ( ADH). Las barras de error indican un error estándar (norte = 3).


PERSPECTIVAS

Como se ve en los estudios resumidos aquí, la densidad de información codificada en genomas eucariotas y bacterianos es mucho mayor de lo que se pensaba anteriormente, con muchos más eventos de traducción de los esperados. La traducción puede cumplir una función reguladora o dar como resultado una proteína funcional, o posiblemente ambas. La estricta regulación observada sugiere que la traducción de estas regiones previamente ignoradas es importante para la célula, un punto enfatizado por la asociación de la expresión anormal de alt-ORF con la enfermedad. Estos estudios abren muchas nuevas y emocionantes vías de investigación ya mencionadas y plantean preguntas adicionales que vale la pena considerar.

Estándar de evidencia

Es poco probable que cada posible ORF traducido dé lugar a una proteína funcional, y el análisis funcional de cada alt-ORF traducido predicho llevará tiempo. Esto lleva a la pregunta de cuándo anotar un ORF putativo. ¿Qué nivel de evidencia es necesario? ¿Es suficiente la evidencia de traducción por perfiles de ribosomas o coincidencias por espectrometría de masas? La presencia de densidad de ribosoma no indica necesariamente la traducción de un producto proteico. De manera similar, una sola coincidencia espectral por espectrometría de masas no proporciona evidencia concreta para la síntesis. Además, la traducción de un ORF podría ser un ruido de traducción que no tiene una función reguladora ni produce una proteína estable. Sugerimos que deben estar presentes múltiples líneas de evidencia antes de que se anote un ORF putativo.

Complicación de la función dual

Para alt-ORF anidados como el gndA-gndP par, hay preguntas sobre cómo la expresión de las dos funciones codificadas por regiones superpuestas se impactan entre sí. En relación con esto, hay un número creciente de ejemplos en los que las transcripciones que se ha demostrado que actúan como ARN reguladores también codifican proteínas pequeñas, por lo que cumplen una "función dual" (150). El ARN regulador y la proteína pequeña podrían actuar en la misma vía o tener consecuencias muy diferentes. La planta Medicago truncatula el miARN regulador miR171b codifica la proteína pequeña miPEP171, que se demostró que aumenta la acumulación de miR171b para mejorar la formación de raíces laterales (151). En bacterias, el E. coli El ARNs regulador de SgrS también codifica la proteína SgrT, tanto SgrS como SgrT regulan el mismo objetivo, el transportador de glucosa EIICB (152). los Staphylococcus aureus El ARNs del ARNIII, que se empareja con múltiples ARNm para regular la virulencia, también codifica una proteína δ-hemolisina. Si bien la δ-hemolisina es importante en S. aureus virulencia, en este caso el ARNs regulador y la proteína que produce no impactan en el mismo objetivo [revisado en (153, 154)].Se sabe muy poco sobre cuándo y cómo estos ARN de función dual actúan como ARNm frente a los ARN reguladores o si las dos actividades interfieren entre sí.

Evolución

La consideración de cómo evolucionan los ORF alternativos en general, y las funciones superpuestas en particular, también conduce a preguntas interesantes. Por ejemplo, en el caso de los ARN de función dual, ¿qué actividad evolucionó primero? Para las proteínas de membrana pequeñas e hidrófobas, ¿evolucionaron a partir de la duplicación de un dominio transmembrana? Una hipótesis atractiva es que los ORF alternativos, que están menos conservados que los ORF principales (en consonancia con su función reguladora en la expresión génica), han evolucionado más recientemente. A diferencia de los ORF principales que emplean principalmente codones de inicio AUG canónicos, los ORF alternativos a menudo usan codones de inicio casi afines (tripletes similares a AUG) para la iniciación. Esta característica además argumenta que la traducción de alt-ORF es de una eficiencia mucho menor en comparación con el ORF principal. Recientemente se demostró que en un D. melanogaster población, una fracción considerable de alt-ORF son beneficiosos y se fijan rápidamente bajo selección positiva (68). Además de las mutaciones, la inserción de elementos transponibles puede generar nuevos ORF alternativos. En particular, un estimado de ~ 10% de los ORF alternativos humanos se derivan de elementos transponibles (155). Las fuerzas evolutivas que gobiernan la generación de alt-ORF en todos los organismos quedan por explorar.

Potencial de explotación

Dadas sus amplias funciones, es deseable diseñar ORF alternativos para un control preciso de la traducción de proteínas (156-158). De hecho, la edición del genoma de los uORF endógenos en plantas permitió la modulación traslacional de los ORF principales que codifican proteínas involucradas en el desarrollo o la biosíntesis de antioxidantes (156). Además, la inserción de uORF que responden a patógenos en transgenes que codifican reguladores inmunitarios clave permite que las plantas obtengan una resistencia a enfermedades de amplio espectro sin comprometer la aptitud de la planta (158). Más recientemente, se han realizado esfuerzos para identificar compuestos de moléculas pequeñas que se dirigen a la traducción de uORF (159). Dado que la mayoría de los uORF se basan en codones de inicio casi afines, la traducción dirigida no AUG puede ser una estrategia terapéutica.

En esta misma línea, una vez más se conozcan los mecanismos de acción de las pequeñas proteínas, sus funciones podrían ser aprovechadas para el tratamiento de enfermedades. Tanto los análogos sintéticos estables de pequeñas proteínas reguladoras naturales como las moléculas que afectan la unión de proteínas pequeñas podrían tener valor terapéutico [revisado para eucariotas en (13)]. Por ejemplo, la inhibición o el mimetismo de pequeñas proteínas implicadas en la infección, como la proteína de reclutamiento del stressosoma Prli42, o la resistencia a los antibióticos, como el regulador de la bomba de eflujo de múltiples fármacos AcrZ, podrían ser herramientas valiosas para combatir la infección o la resistencia a múltiples fármacos. particularmente junto con otras terapias.


Discusión

Existe una demanda creciente para la producción de nuevas moléculas pequeñas y biomateriales, incluidos medicamentos, productos químicos, biocombustibles y biopolímeros. Para producir de manera eficiente estas moléculas y reducir el costo de producción de los compuestos existentes en células microbianas manipuladas, un desafío importante es regular la expresión de una gran cantidad de genes para optimizar la producción de una vía de biosíntesis. La introducción de genes en los hospedadores de producción se logra típicamente utilizando plásmidos previamente ensamblados y propagados en E. coli. La biología sintética puede hacer una contribución significativa para acelerar este proceso mediante el uso de plásmidos estandarizados donde todos los componentes se sintetizan con formatos estándar para facilitar el intercambio y las pruebas [3, 30].

Aquí presentamos un marco de biología sintética para la ingeniería genética de C. glutamicum, microorganismo de interés industrial para el que aún no se han desarrollado herramientas de biología sintética. En el diseño descrito en el presente documento, todos los componentes del plásmido están flanqueados por sitios de restricción únicos para permitir una sustitución estandarizada de elementos genéticos. En la mayoría de los casos, las partes y los genes de ruta utilizados en nuestro laboratorio son sintéticos y están diseñados para evitar los sitios NdeI, EcoRI, XbaI, SpeI, NheI y AvrII, aunque las secuencias naturales que carecen de estos sitios y amplificadas por PCR para agregar los sitios de restricción flanqueantes son utilizado también. Las secuencias reguladoras cortas, como los promotores y los RBS, pueden agregarse simplemente usando oligonucleótidos superpuestos. El uso de codones de genes heterólogos se puede optimizar para facilitar su expresión en C. glutamicum. Todo el proceso de diseño de genes, incluida la generación / eliminación de sitios de restricción y la optimización de codones, se puede lograr en un solo paso utilizando programas gratuitos basados ​​en la web como Optimizer [31, 32].

Se han propuesto varios formatos para la construcción de plásmidos sintéticos y para el ensamblaje de piezas [30, 33-36]. El método más aceptado en la comunidad de biología sintética fue creado por Knight y colaboradores [37]. Propusieron el estándar BioBrick para el ensamblaje de partes biológicas, donde todas las partes están flanqueadas por un conjunto estándar de sitios de restricción para permitir la unión y combinación con otras partes. Los plásmidos descritos aquí pueden adaptarse para ajustarse al método de ensamblaje de BioBrick reemplazando el conjunto de sitios de restricción, aunque también se han descrito algunas limitaciones para este formato [38].

Pueden lograrse niveles óptimos de enzima para maximizar la producción a partir de una ruta biosintética como resultado del ajuste fino de la expresión génica, por ejemplo, modulando la transcripción o traducción. Para este propósito, es deseable una caja de herramientas con una colección de promotores y RBS capaces de proporcionar diferentes niveles de expresión génica. El sistema pTGR puede servir como una prueba estandarizada para evaluar la fuerza de las secuencias promotoras. Para validar esta aplicación, se probaron tres promotores utilizando el eGFP como gen informador. Fragmentos de ADN sintético que contienen el E. coli tac promotor, y el césped y cspB promotor de C. glutamicum se insertaron utilizando el formato estándar. Se obtuvieron tres niveles de intensidad de fluorescencia: el tac promotor proporcionó la señal más fuerte, el césped promotor la menor cantidad de fluorescencia y el cspB una intensidad intermedia. El resultado no es sorprendente ya que, (i) otros grupos han utilizado E. coli lac promotores derivados como tac y trc sobreexpresar genes en C. glutamicum[15, 39, 40] y (ii) la secuencia de la casilla −10 del tac promotor es idéntico al del promotor de consenso de C. glutamicum[23]. Curiosamente, este promotor puede proporcionar otro ejemplo de ajuste fino de la expresión génica mediante el uso de diferentes concentraciones del inductor de IPTG [41]. Aunque Knoppova y colaboradores describieron previamente un enfoque basado en GFP para caracterizar los promotores [16], el vector descrito no posee la versatilidad de la plataforma pTGR para probar múltiples secuencias reguladoras.

La iniciación es el paso de la traducción que limita la velocidad. Siempre que no haya estructuras secundarias entre el RBS y la secuencia codificante, se demostró que los RBS pueden utilizarse como parte reguladora ya que afectan el inicio de la traducción y, por tanto, la expresión génica [42, 43]. Además, recientemente se describió un método para el diseño automático de RBS artificiales para controlar la expresión génica, ampliando el potencial de estas secuencias para su uso en circuitos genéticos [44]. De esta manera, el pTGR también puede usarse para probar el efecto modulador de RBS sobre la expresión génica. Para validar esta aplicación, se probaron tres RBS diferentes utilizando eGFP como gen informador bajo el tac promotor. Las secuencias proporcionaron cantidades variables de intensidad de fluorescencia, validando el uso del sistema para poblar una colección de estas secuencias reguladoras de la expresión génica.

El pTGR proporciona un medio rápido para crear construcciones para la expresión de múltiples genes. El diseño permite el ensamblaje de constructos -operones o agrupaciones de genes- en tantos pasos de clonación como genes sean ensamblados: (i) insertando todos los genes a expresar en un vector pTGR con las secuencias reguladoras deseadas y (ii) la transferencia secuencial de los genes con secuencias reguladoras correspondientes a un vector que contiene otro gen para extender un operón o grupo de genes como se ilustra en la Figura 1B.

Es tentador esperar que la salida de promotores y RBS en experimentos de expresión de un solo gen a partir de vectores sonda pueda anticipar el rendimiento de estas partes en un contexto más complejo como operones o agrupaciones de genes múltiples. Por ejemplo, el nivel de expresión de ambas proteínas en los experimentos que se muestran en la Figura 4 es similar al esperado de la expresión individual de cada proteína (Figura 3). Esto facilitaría la clasificación de partes reguladoras para regular con precisión la expresión génica en vías que requieren múltiples proteínas. Sin embargo, la salida de muchas partes puede depender del contexto. Por tanto, la obtención del equilibrio óptimo para todas las proteínas, especialmente para las vías que contienen un elevado número de genes, puede requerir múltiples pruebas para encontrar las secuencias reguladoras adecuadas. Además, en la mayoría de los casos se desconoce el nivel óptimo de expresión de una proteína dada en una vía, y son necesarias construcciones combinatorias que utilicen una variedad de secuencias reguladoras para encontrar la combinación correcta [45-47]. La plataforma pTGR puede contribuir a acelerar estas pruebas facilitando el ensamblaje rápido de construcciones combinatorias y el intercambio de partes involucradas en la regulación de la expresión génica.

Otras características de la plataforma pTGR pueden proporcionar niveles adicionales de regulación. Por ejemplo, el número de copias de un grupo de genes o un operón puede regularse utilizando orígenes de replicación de plásmidos de número de copias medio o bajo. Esto se puede lograr fácilmente en un paso de clonación utilizando los sitios KpnI y PstI que flanquean el origen de replicación. Alternativamente, se puede insertar en este lugar una secuencia para la inserción de los genes en el cromosoma.

En principio, la plataforma descrita aquí para C. glutamicum puede extenderse a otros microorganismos reemplazando su origen de replicación por una contraparte apropiada de, por ejemplo, Bacilo y Streptomyces. Este tipo de experimentos se encuentran en curso en nuestro laboratorio para validar el uso del sistema pTGR en otros microorganismos de interés industrial.


No aceptar la complejidad biológica está frenando a los biólogos sintéticos

Los genes sintéticos diseñados en el material genético de una célula que pueden inducirse o suprimirse a voluntad han tenido un problema importante: el control preciso. Donde incluso pequeñas cantidades de una proteína pueden significar la diferencia entre la vida y la muerte, el control genético estricto, preciso y binario, al igual que encender o apagar una luz, es crucial. No hay lugar para fugas en el sistema.

La producción sostenible y limpia de combustibles, productos químicos y medicamentos se está logrando cada vez más mediante la ingeniería de genes sintéticos y circuitos genéticos en microorganismos. Esto requiere un control preciso de conjuntos de genes.

Los bioingenieros de la Universidad de Bristol han encontrado una solución simple al problema de regular con precisión la expresión de genes inducibles sintéticos mediante el aprovechamiento del dogma central en los niveles de síntesis de ARN y proteínas.

Estos hallazgos se publican en el artículo & # 8220 Aprovechamiento del dogma central para un control estricto de la expresión génica en varios niveles & # 8221 de la revista. Comunicaciones de la naturaleza. El estudio fue financiado por la Royal Society, Max Planck Society, la Organización Europea de Biología Molecular (EMBO), BBSRC y EPSRC con el apoyo del Bristol BioDesign Institute (BBI).

& # 8220Aunque "encender" o "apagar" un gen suena simple, conseguir que una célula viva lo haga por orden es un verdadero desafío. Cada célula es ligeramente diferente y los procesos involucrados no son 100 por ciento confiables, & # 8221 dice Veronica Greco, estudiante de doctorado en la Facultad de Ciencias Biológicas de Bristol & # 8217 y autora principal del estudio.

La naturaleza generalmente se basa en la redundancia en todos los bioprocesos críticos. Este diseño natural es complicado pero permite que los sistemas biológicos anulen los errores y sobrevivan. El equipo se inspiró en esta comprensión básica de la naturaleza y estudió sistemáticamente el uso combinado de reguladores transcripcionales (síntesis de ARN) y traduccionales (síntesis de proteínas) en la expresión de proteínas.

& # 8220Si miras una Venus atrapamoscas, encontrarás que una trampa solo se cerrará cuando se activen varios pelos juntos. Esto ayuda a reducir la posibilidad de que una trampa se cierre por accidente. Queríamos hacer algo similar al controlar la expresión de un gen dentro de una célula, agregando múltiples niveles de regulación para asegurarnos de que solo se activa precisamente cuando queremos, & # 8221 dice Greco.

& # 8220 Lo maravilloso de este proyecto fue lo bien que funcionó para aprovechar dos de los procesos centrales presentes en cada célula y que sustentan toda la vida: transcripción y traducción, & # 8221, dice Claire Grierson, PhD, profesora y directora de la escuela. of Biological Sciences en Bristol, y uno de los autores principales del estudio.

La evidencia reportada en este estudio muestra que mediante la regulación de múltiples niveles, uno podría crear algunos de los interruptores regulados con mayor precisión para la expresión génica construidos hasta la fecha.

En colaboración con Amir Pandi, PhD, y Tobias Erb, PhD, de Bristol & # 8217s Max Planck Institute for Terrestrial Microbiology, el equipo demostró que incluso cuando se utilizan fuera de células vivas (in vitro), estos sistemas multinivel ofrecen un control estricto sobre los genes. expresión.

& # 8220Cuando diseñamos microbios, a menudo tratamos de simplificar nuestros sistemas tanto como sea posible, pensando que tendremos un mejor control sobre lo que está sucediendo. Pero lo que hemos demostrado es que aceptar parte de la complejidad inherente de la biología podría ser la clave para desbloquear por completo su potencial para las biotecnologías de alta precisión del mañana ”, dice Thomas Gorochowski, PhD, autor principal correspondiente del estudio y becario de investigación de la Royal Society University en Bristol.

Desde los primeros sistemas genéticos inducibles diseñados en los años 80, el control de la expresión génica en biotecnología se ha revolucionado utilizando moléculas pequeñas (quimiogenética), luz (optogenética) y otras señales. Recientemente, biólogos sintéticos han desarrollado métodos más avanzados para controlar la expresión génica que involucran reguladores basados ​​en proteínas de unión al ADN, como dedos de zinc, TALEN, CRISPRi, interacciones ARN-ARN, procesos postranscripcionales / traslacionales como la degradación de ARN y proteínas y la evolución dirigida. .

En lugar de utilizar solo una de las opciones disponibles para controlar la expresión génica, este estudio muestra que para regular estrictamente la expresión génica, se deben acoplar múltiples formas de regulación para reducir la expresión no deseada y mejorar la robustez de un sistema. Hasta la fecha se han implementado pocos sistemas regulatorios multinivel. Abrazar esta redundancia inherente de la naturaleza puede ser un diseño desordenado, pero puede aclarar los aspectos básicos de cómo se puede lograr un control estricto de varios niveles y las compensaciones que existen entre el rendimiento, la complejidad regulatoria y la carga celular.


Ver el vídeo: Adin ross - she make it clap Freestyle ft Tory lanez Lyrics (Noviembre 2022).