Información

¿Proteínas con hélices alfa solas y hojas beta solas?

¿Proteínas con hélices alfa solas y hojas beta solas?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Me gustaría ver algunos ejemplos de proteínas con ID de PDB para poder descargarlos y verlos en el software VMD. Necesito algunas proteínas solo con hélice alfa y proteínas solo con láminas beta.


Puede considerar echar un vistazo a la clasificación estructural de proteínas SCOP para verificar todas las proteínas beta y todas las proteínas alfa. Según ejemplos específicos y aunque no pertenecen a las clases SCOP mencionadas anteriormente, Porin para una proteína beta (PDB: 1A0S) y Rhodopsin para una proteína alfa (PDB: 1F88) son dos estructuras agradables para observar.


Puede encontrar ejemplos utilizando la función "drilldown" en la página de inicio de RCSB PDB:

Haga clic en el número 103921 en la parte superior de la página en http://www.rcsb.org, luego busque la sección "Clasificación SCOP" y luego, por ejemplo, seleccione "Todas las proteínas alfa".


¿Proteínas con hélices alfa solas y hojas beta solas? - biología

ProteinShop, una herramienta de visualización por computadora para manipular las estructuras de las proteínas, se acerca a uno de los objetivos más preciados de la biología: determinar por completo la forma de una proteína desconocida a partir de su secuencia genética.

Silvia Crivelli, del Grupo de Visualización de la División de Investigación Computacional de Berkeley Lab, dice que se produjo un gran paso adelante cuando "copiamos conceptos de la robótica". Cuando mueves el brazo de un robot, mueves todas las articulaciones, como tu brazo real ". Después de un año de trabajo en ProteinShop, dice Crivelli," pudimos aplicar las mismas técnicas matemáticas a las estructuras de las proteínas ".

ProteinShop lee la cadena de aminoácidos de una proteína desconocida y ensambla las estructuras secundarias predichas: en este caso, & quot; desenrollado & quot
las bobinas se alternan con hebras beta y
una hélice alfa central. Incluso para proteínas grandes, este paso es prácticamente instantáneo.

Es solo uno de los componentes que utiliza el vehículo de ProteinShop para ayudar a los competidores en la carrera más candente en computación biológica & # 8212 el & quotGrand Prix de bioinformática & quot; conocido como CASP, la Evaluación Crítica de Predicción de Estructura.

En 1994, el desafío de predecir estructuras proteicas terminadas a partir de secuencias de genes dio lugar a la competencia científica única de CASP. Equipos de biólogos e informáticos de todo el mundo intentan superarse entre sí para obtener las predicciones más rápidas y precisas de las estructuras de proteínas recientemente encontradas pero aún no publicadas. El número de competidores se ha más que quintuplicado, de menos de tres docenas de grupos en 1994 a 187 en el CASP5 del año pasado.

En CASP5, un equipo dirigido por Teresa Head-Gordon de la División de Biociencias Físicas de Berkeley Lab, quien también es profesora de bioingeniería en la Universidad de California en Berkeley, empleó el Método de Optimización Global desarrollado por Head-Gordon y sus colegas, incluido Crivelli de Berkeley Lab y Bobby Schnabel, Richard Byrd y Betty Eskow de la Universidad de Colorado.

En lugar de depender en gran medida del conocimiento de los `` pliegues '' de proteínas (conjuntos tridimensionales de estructuras) ya almacenados en el Banco de datos de proteínas (PDB), el Método de optimización global utiliza configuraciones de proteínas iniciales proporcionadas por ProteinShop, que fue creado por Wes Bethel y Crivelli de Berkeley. Lab junto con Nelson Max del Laboratorio Nacional Lawrence Livermore y la Universidad de California en Davis, y Bernd Hamann y Oliver Kreylos de UC Davis.

Con un impulso de ProteinShop, el equipo CASP5 de Head-Gordon pudo predecir las configuraciones de 20 pliegues de proteínas nuevos o difíciles que van desde 53 a 417 aminoácidos de longitud. El equipo ocupó el puesto 15 en la competencia general, lo que, dice Crivelli, "es excelente para un método que no usa mucho conocimiento del PDB".

La forma de una proteína es lo que determina su función. Sin embargo, una cadena unidimensional de residuos de aminoácidos, según lo especificado por las secuencias codificantes de un gen, no revela a primera vista mucho acerca de las formas tridimensionales.

El usuario le dice a ProteinShop que alinee dos hebras beta en una hoja beta parcial, formando enlaces de hidrógeno entre los residuos de aminoácidos seleccionados de cada hebra. En la región de la bobina amarilla, la cinemática inversa calcula los ángulos diedros correctos cuando las hebras se doblan juntas.

Nadando en un ambiente acuoso, la cadena de aminoácidos & # 8212 la estructura primaria de la proteína & # 8212 se retuerce rápidamente en formas familiares conocidas como hélices alfa y hojas beta, esforzándose por reducir las fuerzas atractivas y repulsivas entre los aminoácidos enlazados. El resultado son regiones locales donde se minimiza la energía necesaria para mantener la estructura.

Las estructuras secundarias se pliegan rápidamente en una estructura terciaria tridimensional para la mayoría de las proteínas, lo que representa la energía mínima global para la estructura en su conjunto. (Algunas proteínas complicadas como la hemoglobina, ensambladas a partir de componentes distintos, también tienen una estructura cuaternaria).

Al estudiar miles de proteínas conocidas, los biólogos han aprendido a reconocer secuencias de aminoácidos que probablemente formen hélices alfa, además de aquellas que forman las hebras planas que se ordenan una al lado de la otra en hojas beta. Esta información de estructura secundaria puede almacenarse en bancos de datos y aplicarse a pliegues de proteínas desconocidos.

Pero las denominadas regiones helicoidales que unen estructuras secundarias en una proteína desconocida no son tan fáciles de predecir. Cuantos más aminoácidos haya en la proteína, más mínimos de energía local habrá y más difícil será calcular el mínimo de energía global.

El método de optimización global aborda el problema en dos fases distintas. Durante la fase de configuración, el programa genera estructuras secundarias probables a partir de una secuencia dada de aminoácidos, que se combinan en varias configuraciones aproximadas.

Durante la siguiente fase, la energía total de la estructura se reduce paso a paso. Las optimizaciones globales se realizan en subconjuntos de los ángulos entre los residuos de aminoácidos (ángulos diedros) que se prevé que formen regiones helicoidales. Finalmente, debido a que la función energética no es perfecta, se proponen varias estructuras terciarias.

Antes de ProteinShop, la fase de configuración del método de optimización global consumía muchísimo tiempo. Debido a que la estructura primaria de una proteína contiene docenas o cientos de residuos de ácido, por lo tanto miles de átomos, la fase inicial requirió que la computadora corriera horas o días antes de asentarse en las estructuras secundarias.

Además, aunque la predicción de las hélices alfa era sencilla, las láminas beta eran difíciles de ensamblar a partir de hebras beta y sus configuraciones eran menos seguras. En CASP4, en 2000, el equipo predijo las estructuras de solo 8 pliegues, el más largo contiene 240 aminoácidos.

El Grupo de Visualización desarrolló ProteinShop en preparación para CASP5. ProteinShop incorpora la técnica matemática llamada cinemática inversa & # 8212 bien conocida no solo en robótica sino también en videojuegos.

La cinemática inversa se utiliza para predecir los movimientos generales de estructuras que constan de segmentos articulados, por ejemplo, los dedos, los brazos y los hombros de un robot o una figura animada. Teniendo en cuenta los grados de libertad permitidos en cada articulación, se pueden predecir contorsiones que no rompen las extremidades ni penetran en los cuerpos.

[Haga clic para ampliar la imagen]
Las dos hojas parciales se juntan y estabilizan mediante enlaces de hidrógeno entre las hebras beta uno y cuatro.

"La diferencia es que con un robot tienes quizás 10 o 20 articulaciones, pero en una bobina a menudo tenemos regiones largas, 80 aminoácidos", dice Crivelli, "y queremos que todos los ángulos diedros entre ellos se muevan de manera concertada". & quot

En ProteinShop, las estructuras secundarias y las bobinas se construyen agregando aminoácidos a la estructura de uno en uno, tratando cada uno como un segmento articulado de una estructura flexible. En cuestión de segundos, un módulo de "generador de geometría" incorpora estructuras secundarias predichas, o fragmentos de ellas, en la cadena.

"Todo parece como si pudieras moverlo como espaguetis", dice Crivelli. "Pero antes de incorporar la cinemática inversa, si intentaba mover una configuración de proteína, se rompía".

Ahora el proceso funciona lo suficientemente rápido como para ser verdaderamente interactivo, lo que permite al usuario alterar los ángulos diedros entre los aminoácidos individuales. En casos difíciles como el ensamblaje de hebras beta en láminas, el usuario puede manipular la conformación para lograr el mejor y menos enérgico ajuste. Además, el usuario puede jugar con la "preconfiguración" completa, arrastrando ensamblajes secundarios completos a nuevas relaciones sin romper estructuras anteriores.

"Una vez que tenemos las estructuras alfa y beta, queremos dejarlas en paz", dice Crivelli. "Principalmente trabajamos en las regiones de bobinas".

[Haga clic para ampliar la imagen]
Ahora el usuario selecciona la hélice central y la manipula para reducir la interferencia (donde las esferas naranjas marcan las colisiones de átomos). Mientras tanto, la cinemática inversa calcula los ángulos en las regiones de la bobina que flanquean, y ProteinShop mantiene todas las estructuras intactas mientras se mueve la hélice.

El programa ProteinShop permite varios estilos de ilustrar el pliegue y sus partes, y ayuda al usuario enviando muchas señales. En un modo, aparecen pequeñas esferas naranjas cuando el usuario ha obligado a los átomos a chocar: cuanto más costosa en energía es la colisión, más grande es la esfera naranja. La manipulación también se puede simplificar seleccionando manualmente los residuos para la unión automática.

El futuro de la optimización global

La segunda fase del método de optimización global & # 8212 buscando el mínimo de energía global & # 8212 sigue siendo un desafío computacional. El enfoque básico para encontrar la energía óptima para una estructura terciaria es ajustar repetidamente los presupuestos de energía de muchas regiones más pequeñas, incorporando cada mejora hasta que no haya más cambios. Este método "basado en la física" depende únicamente de los cálculos de energía, no del conocimiento de los pliegues existentes.

En la práctica, realizar estos cálculos para cada parte de una estructura llevaría demasiado tiempo. Los procedimientos sofisticados desarrollados por el equipo de Head-Gordon optimizan solo regiones pequeñas muestreadas al azar. Por lo tanto, no es seguro que el resultado final sea el verdadero óptimo global. Aun así, la optimización global de una proteína desconocida de tamaño moderado puede requerir semanas de tiempo de computadora.

"Estamos elaborando una nueva metodología que combinará nuestro enfoque basado en la física con métodos basados ​​en el conocimiento", dice Crivelli. & quot; Al reconocer estructuras y fragmentos que se sabe que funcionan, no tendremos que calcular todos los ángulos desde cero. La herramienta será altamente interactiva, mostrando energías y ahorrando mínimos a medida que el usuario las encuentre. Se organizará como una búsqueda guiada a través de un árbol que evoluciona dinámicamente, basando las nuevas estructuras en las anteriores que se ha demostrado que funcionan para el pliegue. & Quot

[Haga clic para ampliar la imagen]
La estructura de la proteína 3-D final, lista para la optimización.

Para permitir este alto grado de interacción, se requerirá un rendimiento aún mayor de los códigos de procesamiento paralelo ya de alto rendimiento del método de optimización global. El resultado tendrá implicaciones para problemas científicos mucho más allá de la solución exitosa de estructuras proteicas desconocidas.

Mientras tanto, ProteinShop se está preparando para el desafío de CASP6. Muchos grupos que compitieron en CASP5 ya están interesados ​​en lo que el poderoso ProteinShop puede contribuir con sus propios métodos para correr la carrera hacia la línea de meta de predicción de proteínas de CASP6.


Nuevos conocimientos sobre el plegamiento de proteínas aprendidos de las hojas beta

El plegamiento de proteínas desnaturalizadas en sus conformaciones nativas se denomina dogma de Anfinsen y es la razón fundamental para predecir estructuras de proteínas basadas en secuencias primarias. A lo largo de los últimos 40 años de estudio, todos los algoritmos disponibles que predicen estructuras de proteínas en 3D o 2D, o predicen la tasa de plegamiento de proteínas basándose solo en la secuencia de aminoácidos, tienen una precisión limitada (80%). Este hecho ha llevado a algunos investigadores a buscar la información perdida, desde el ARNm hasta las secuencias de proteínas, y nos anima a repensar la lógica del dogma de Anfinsen. En este estudio, nos centramos en la relación entre la hebra y sus socios. Encontramos dos reglas basadas en un conjunto de datos no redundante tomado de la base de datos PDB. Nos referimos a estas dos reglas como la regla de "primer emparejamiento que viene primero" y la regla de "sin amor". La primera regla de emparejamiento que viene primero indica que una hebra dada prefiere emparejarse con la siguiente, si la región conectada es lo suficientemente flexible. La regla sin amor significa que las afinidades entre una hebra dada y otra hebra son comparables a la afinidad entre la hebra dada y su pareja. Por supuesto, las afinidades entre la hebra dada y un péptido de hélice / espiral son significativamente menores que la afinidad entre la hebra dada y su pareja. Estas dos reglas sugieren que en el plegamiento de proteínas, el plegamiento tiene lugar durante la traducción, y también sugieren que una proteína desnaturalizada no es lo mismo que su secuencia primaria. Volviendo a comprobar los experimentos originales de Anfinsen, encontramos que el método utilizado para desnaturalizar la proteína en el experimento simplemente rompe los enlaces disulfuro, mientras que las hélices y las láminas permanecen intactas. En otras palabras, las proteínas desnaturalizadas aún retienen todas las hélices y láminas beta, mientras que la secuencia primaria no. Aunque se necesita una mayor verificación a través de experimentos biológicos, nuestros resultados, como se muestra en este estudio, pueden revelar una nueva perspectiva para estudiar el plegamiento de proteínas.

Palabras clave: Hélice de hoja beta, proteína de emparejamiento cercano al vecino, plegamiento a nivel de cadena.

Cifras

Tabla 1. El BSD máximo y el…

Tabla 1. El BSD máximo y las tasas acumuladas de los pares de cadenas que tienen diferentes…

Tabla 2. Porcentajes de intervalo nacional y…

Tabla 2. Porcentajes de hebras de intervalo nacional e intervalo extranjero, basados ​​en todos los pares de hebras β ...

Tabla 3. Porcentaje de ocurrencias y casos…

Tabla 3. Porcentaje de ocurrencias y casos de cada uno de todos los posibles estilos de emparejamiento de…

Tabla 4. Resultados de la característica que distingue entre…

Tabla 4. Resultados de la característica que distingue entre los cuatro tipos de pares, utilizando SVM. (7 veces ...

Figura 1. Ilustración del emparejamiento de cadenas β en…

Figura 1. Ilustración del emparejamiento de cadenas β en una hoja β (1HZT) (a) El boceto de…

Figura 2. (a) Porcentaje acumulado de cadena β ...

Figura 2. (a) Porcentaje acumulado de pares de cadenas β a medida que aumenta BSD. (b) Distribución de la cadena β ...

Figura 3. Hebras a lo largo de la secuencia primaria ...

Figura 3. Hebras a lo largo de la secuencia primaria de un par BSD = 3

Figura 4. Porcentajes acumulados (PC) de R,…

Figura 4. Porcentajes acumulados (CP) de R, Rt1 y Rt2 calculados a partir del actual conjunto de datos

Figura 5. Gráfica dispersa de D valor…

Figura 5. Gráfico disperso de D valor (y) versus F valor (x) de la cadena β real…


4.6 Esquemas de clasificación de estructuras

Los capítulos anteriores dieron una amplia descripción de las estructuras de las proteínas. Hay dos esfuerzos notables para clasificar todas las proteínas. SCOP y CATH. Intuitivamente, uno podría preguntarse si existe una cantidad limitada de pliegues de capital. Curiosamente, no se identificaron nuevos pliegues después de 2008 o 2012, según el algoritmo utilizado.

4.6.1 SCOP: Clasificación estructural de proteínas

Casi todas las proteínas tienen similitudes estructurales con otras proteínas y, en algunos de estos casos, comparten un origen evolutivo común. El conocimiento de estas relaciones es fundamental para comprender la evolución de las proteínas y el desarrollo.

La base de datos scop tiene como objetivo proporcionar una descripción detallada y completa de las relaciones estructurales y evolutivas entre todas las proteínas cuya estructura se conoce, incluidas todas las entradas en Protein Data Bank (PDB). Está disponible como un conjunto de documentos de hipertexto estrechamente vinculados que hacen que la gran base de datos sea comprensible y accesible. Además, las páginas de hipertexto ofrecen una panoplia de representaciones de proteínas, que incluyen enlaces a entradas de PDB, secuencias, referencias, imágenes y sistemas de visualización interactiva. Se puede acceder directamente a los datos en la página web de SCOP.

La anotación estructural en SCOP se realiza de forma manual y automática.

Las proteínas se clasifican para reflejar la relación tanto estructural como evolutiva. Existen muchos niveles en la jerarquía, pero los niveles principales son familia, superfamilia y pliegue, que se describen a continuación. La posición exacta de los límites entre estos niveles es hasta cierto punto subjetiva. La clasificación evolutiva es generalmente conservadora: cuando existe alguna duda sobre la relación, se hacen nuevas divisiones en los niveles de familia y superfamilia. Por lo tanto, algunos investigadores pueden preferir centrarse en los niveles más altos del árbol de clasificación, donde se agrupan las proteínas con similitud estructural.

Los diferentes niveles principales en la jerarquía son (de arriba a abajo):

  • Superfamilias: Unir familias de proteínas con características funcionales y estructurales comunes que infieren probables ancestros comunes
  • Familia: Proteínas con secuencia relacionada pero típicamente con función distinta.
  • Proteínas: Secuencias de esencialmente con esencialmente la misma función (diferentes especies, diferentes isoformas)
  • Clases: Pliegues con estructura similar
  • Pliegues: Elementos estructurales similares

Se define que las proteínas tienen un pliegue común si tienen las mismas estructuras secundarias principales en la misma disposición y con las mismas conexiones topológicas. Diferentes proteínas con el mismo pliegue a menudo tienen elementos periféricos de estructura secundaria y regiones de giro que difieren en tamaño y conformación. En algunos casos, estas regiones periféricas diferentes pueden comprender la mitad de la estructura. Las proteínas colocadas juntas en la misma categoría de pliegues pueden no tener un origen evolutivo común: las similitudes estructurales podrían surgir solo de la física y la química de las proteínas que favorecen ciertos arreglos de empaquetamiento y topologías de cadena.

Andreeva A, Howorth D, Chandonia JM, Brenner SE, Hubbard TJP, Chothia C y Murzin AG (2007) Crecimiento de datos y su impacto en la base de datos SCOP: nuevos desarrollos Nucleic Acids Research, 2008, Vol. 36

4.6.2 CATH: Clasificación de estructuras proteicas

CATH es una clasificación jerárquica de estructuras de dominio de proteínas, que agrupa proteínas en cuatro niveles principales, clase (C), arquitectura (A), topología (T) y superfamilia homóloga (H). La anotación de dominios es manual y automática

  • Clase (similar a la clase de SCOP): se define por el contenido de la estructura secundaria (todo alfa, todo beta, alfa / beta, etc.).
  • Arquitectura: Agrupación de una disposición estructuralmente similar de elementos secundarios, independientemente de su conectividad, sin embargo
  • Topología o familia de pliegues: Agrupación estructural en función de la conectividad y la forma 3D general
  • Superfamilias homólogas: Agrupación de dominios de proteínas con (se predice que tienen) un ancestro común.

Sillitoe I, Lewis, TE, Cuff AL, Das S, Ashford P, Dawson NL, Furnham N, Laskowski RA, Lee D, Lees J, Lehtinen S, Studer R, Thornton JM, Orengo CA. CATH: anotaciones estructurales y funcionales integrales para secuencias del genoma. Ácidos nucleicos Res. Enero de 2015: 10.1093 / nar / gku947


¿Cuáles son las limitaciones asociadas con el envío de una secuencia de aminoácidos FASTA?
Al enviar solo una secuencia de aminoácidos FASTA, el programa asume que la proteína de entrada no está presente en la base de datos local de proteínas Swiss-Prot (de las siguientes siete especies: Homo sapiens, Rattus norvegicus, Mus musculus, Drosophila melanogaster, Caenorhabditis elegans, Saccharomyces cerevisiae o Arabidopsis thaliana). Por tanto, los siguientes procesos que hacen uso de la base de datos no se pueden ejecutar:

  • Se puede establecer una longitud de secuencia definida por el usuario para la producción de péptidos sintéticos para inmunización de 5 a 50 aminoácidos.
  • Normalmente se usa un péptido de 10-25 aminoácidos.
  • Una secuencia más larga puede proporcionar una mayor probabilidad de producir un anticuerpo potente en virtud del hecho de que contiene más epítopos potenciales, pero por la misma razón existe una mayor probabilidad de que produzca clones de IgG con menor especificidad.
  • Además, el costo de la síntesis de péptidos a menudo aumenta sustancialmente con péptidos más grandes.
  • Se puede establecer una & # 39 longitud del epítopo & # 39 lineal definida por el usuario desde 5 aminoácidos hasta la longitud completa del péptido.
  • Solo los 5-10 aminoácidos en cada región hipervariable forman el sitio de unión al antígeno de una molécula de anticuerpo. Como resultado, el tamaño del determinante antigénico (epítopo) que reconoce un anticuerpo es generalmente comparativamente pequeño.
  • La longitud del epítopo se utiliza para la determinación de la unicidad y conservación de un péptido como se describe a continuación.

¿Qué información se muestra en la predicción de la estructura secundaria de Chou-Fasman en el panel de salida principal?
La predicción de Chou-Fasman se realiza como se describe excepto por ligeras modificaciones. La estructura secundaria predicha, es decir, hélice alfa, hoja beta, giro beta fuerte o giro beta débil se muestra con diferentes colores y al pasar el mouse. La alta inmunogenicidad se correlaciona con la falta de hélices alfa o láminas beta y la presencia de giros beta. El principal valor práctico de este análisis es que identifica ubicaciones de prolinas (el principal determinante de una predicción de & # 39beta-turn & # 39), que ayudan a la inmunogenicidad al interferir con la formación de & alpha-helix.

¿Qué información se muestra en el mapa de calor de hidropatía Kyte-Doolittle (K-D) en el panel de salida principal?
El panel principal muestra el índice de hidropatía de Kyte-Doolittle (KDHI) de cada péptido a lo largo de una secuencia de proteínas. El KDHI se muestra en un mapa de calor de color RGB de escala de 8 bits (0-255) y al pasar el mouse. Dado que los valores más bajos de KDHI se correlacionan con una mayor inmunogenicidad, la transformación de 8 bits del KDHI se realiza en la dirección inversa para que el valor más bajo (-4.5, más hidrofílico) se transforme en 255 (mostrado en el cian más brillante, por defecto) mientras que el valor más alto (4.5, más hidrofóbico) se transforma en 0.

¿Qué es la puntuación de inmunogenicidad (puntuación de Ig)?
La puntuación de inmunogenicidad es un predictor de inmunogenicidad. Cuanto mayor sea la puntuación, mayor será la inmunogenicidad predicha. La puntuación de inmunogenicidad de un péptido se calcula a partir de la siguiente fórmula:

Donde: KDHI = índice de hidropatía de Kyte-Doolittle, Pt (promedio) = parámetros conformacionales promedio de Chou-Fasman de giro beta, y Tail Bonus = un valor que varía de 1.0 a 1.5. KDHI es un valor medio de los índices de hidropatía de aminoácidos consecutivos en un péptido. Se calcula utilizando la escala de hidropatía (un rango de -4,5 a 4,5), con un KDHI negativo que se predice que es más inmunogénico que un KDHI positivo. Por tanto, en la fórmula se utiliza el valor negativo del KDHI. Se agrega un valor de 4.5 para mantener la puntuación de inmunogenicidad en un rango positivo. PAGt (promedio) es un valor promedio de los parámetros conformacionales de Chou-Fasman de un giro beta (Pt) de aminoácidos en un péptido. Se calcula usando Pt valores de una base de datos de referencia de 29 proteínas como se describe. La información del & # 39dominio topológico & # 39 de una proteína extraída de la base de datos Swiss-Prot se utiliza para determinar el Tail Bonus. La bonificación de cola solo se otorga a un péptido que reside en la cola terminal NH2 o COOH de una proteína de membrana integral. Los valores de Tail Bonus pueden oscilar entre 1.0 y 1.5. Un valor de bonificación de cola de 1,5 corresponde a la longitud total de un péptido que está presente en una región de la cola, mientras que un péptido cuya longitud completa está presente en una región sin cola recibe un valor de bonificación de cola de 1,0. Los valores se correlacionan linealmente con el número de aminoácidos contenidos en la cola en comparación con la longitud total del péptido.

¿Qué es la puntuación de singularidad?
Se supone que un péptido inmunogénico típico contiene múltiples epítopos potenciales lineales superpuestos (

5-10 aminoácidos), cada uno de los cuales teóricamente puede invocar una respuesta inmune. La singularidad de estas secuencias de epítopos lineales en comparación con otras proteínas de la misma especie ayuda a determinar la especificidad de un anticuerpo producido contra ese péptido. En AbDesigner, la secuencia de cada epítopo lineal sucesivo (que se desplaza en un aminoácido) a lo largo de una secuencia de péptidos se compara con la base de datos de secuencias de proteínas completa de esa especie. La longitud de un epítopo lineal se puede establecer desde 5 aminoácidos hasta la longitud completa del péptido. El número total de epítopos lineales en otras proteínas que tienen secuencias idénticas a los epítopos lineales en un péptido dado se calcula de la siguiente manera:

Donde: M = el número total de coincidencias de epítopos lineales, n = el número de epítopos lineales sucesivos a lo largo de una secuencia de péptidos, ymI = el número de epítopos lineales en las otras proteínas que tienen secuencias idénticas al epítopo lineal i. Los epítopos lineales redundantes en una proteína se cuentan solo una vez. Un valor más alto de M corresponde a un péptido menos único y viceversa. La puntuación de unicidad de un péptido se calcula según la siguiente fórmula:

Donde: MC = el valor de corte para M. La puntuación de unicidad más alta es igual a MC (cuando no hay coincidencia con ningún epítopo lineal en un péptido, M = 0) y la puntuación de unicidad más baja es igual a 0 (cuando el número total de coincidencias de epítopos lineales es igual o superior al valor de corte, M & ge MC). METROC se establece arbitrariamente en tres veces de n.

¿Qué es el puntaje de conservación?
Conservation Score predice la probabilidad de que la proteína diana sea detectable por el anticuerpo en múltiples especies ortólogas. Cuanto mayor sea la puntuación, mayor será la conservación prevista. La puntuación de conservación de un péptido se determina de manera comparable a la puntuación de unicidad. Para empezar, la secuencia de cada epítopo lineal sucesivo (que se desplaza en un aminoácido) a lo largo de un péptido en una proteína se compara con las secuencias de las proteínas ortólogas, basándose en un código mnemónico de identificación de proteína en el nombre de entrada Swiss-Prot, entre tres especies comúnmente estudiadas (es decir, humanos, ratas y ratones). La puntuación de conservación de un péptido se calcula a continuación a partir del número total de epítopos lineales en proteínas ortólogas que tienen secuencias idénticas a los epítopos lineales en un péptido dado de la siguiente manera:

Donde: n = el número de epítopos lineales sucesivos a lo largo de una secuencia de péptidos ycI = el número de epítopos lineales en las proteínas ortólogas que tienen secuencias idénticas al epítopo lineal i. Los epítopos lineales redundantes en una proteína se cuentan solo una vez. La puntuación de conservación más alta se alcanza cuando un péptido se conserva completamente en las tres especies y es igual al número total de especies ortólogas evaluadas multiplicado por n. La puntuación de conservación más baja es igual a 0 (cuando no hay conservación).

¿Cómo se muestran la puntuación de inmunogenicidad, la puntuación de singularidad y la puntuación de conservación en el panel de resultados principal?
La puntuación de inmunogenicidad, la puntuación de unicidad y la puntuación de conservación de cada péptido se muestran en mapas de calor de color RGB de 8 bits. La transformación de esos valores en una representación de densidad (D) en una escala de 8 bits (0-255) se realiza utilizando una escala lineal: D = 255 & veces (X - Xmin)/(Xmax - Xmin), donde X es el valor, Xmin es el valor mínimo y Xmax es el valor máximo según se define a continuación:

X Xmin Xmax
Puntuación Ig la puntuación de Ig más baja en esa proteína la puntuación de Ig más alta en esa proteína
Puntuación de unicidad 0 3 veces de n
Puntuación de conservación 0 el número total de especies ortólogas evaluadas multiplicado por n
Nota: n = el número de epítopos lineales sucesivos a lo largo de una secuencia de péptidos

De forma predeterminada, la puntuación de inmunogenicidad, la puntuación de singularidad y la puntuación de conservación más altas se muestran en verde, amarillo y rojo más brillantes, respectivamente. Sin embargo, los colores definidos por el usuario se pueden seleccionar en la barra de menú. Además, para cada péptido, el valor y el rango de la puntuación de inmunogenicidad se muestran al pasar el mouse sobre el mapa de calor de la puntuación de inmunogenicidad, mientras que las alineaciones de secuencias múltiples se muestran al pasar el mouse sobre los mapas de calor de unicidad y conservación.

¿Cuáles son las características de las proteínas?
Las características proteicas informadas son anotaciones dependientes de la posición de regiones o sitios de interés, como modificaciones postraduccionales, sitios de unión, sitios activos de enzimas, estructura secundaria local, conflictos de secuencia y otras características extraídas del registro de proteínas Swiss-Prot apropiado. Se muestran con varios colores distintos y al pasar el mouse por encima de una secuencia de proteínas.


Recordando el trabajo de G.N. Ramachandran y otros en la época del COVID-19

El mundo entero se tambalea por el impacto de la pandemia de COVID-19. La salida más segura depende de la fabricación de una vacuna eficaz. Muchos candidatos a vacunas se encuentran actualmente en diferentes etapas de ensayos clínicos. Un escaneo rápido de la lista sugiere que más de la mitad de los candidatos están intentando utilizar la proteína de pico del nuevo coronavirus & # 8217s para generar inmunidad, por lo que es fundamental obtener su estructura correcta.

G.N. El trabajo de Ramachandran de la década de 1960 es notable en este sentido. Me presentaron por primera vez su influencia en la biología estructural cuando era estudiante de posgrado y siempre he deseado que fuera más conocido fuera de este campo de nicho. Su trabajo ha guiado el diseño de vacunas y terapias a base de proteínas que afectan la vida cotidiana. Sin embargo, su nombre no es conocido ni siquiera en la India.

Ramachandran comenzó su carrera académica como estudiante de ingeniería eléctrica en el Instituto Indio de Ciencias de Bengaluru. Pronto fue llevado al departamento de física por C.V. Raman, quien dijo: & # 8220 estoy admitiendo a Ramachandran en mi departamento ya que es demasiado brillante para estar en el tuyo. & # 8221

Bajo Raman, Ramachandran comenzó a investigar en el campo de la óptica y la topografía de rayos X. Después de graduarse, obtuvo un doctorado en la Universidad de Cambridge, en el laboratorio de Lawrence Bragg. Se centró en la cristalografía de rayos X, una técnica utilizada para analizar las estructuras de las proteínas.

Casi al mismo tiempo, el físico estadounidense Linus Pauling estaba realizando un trabajo pionero sobre la naturaleza y estructura de las proteínas. La enseñanza y los escritos de Pauling tuvieron una gran influencia en Ramachandran. Entonces, cuando este último se convirtió en profesor de física en la Universidad de Madrás en 1952, estableció un laboratorio de cristalografía de rayos X para estudiar las estructuras biológicas.

Las proteínas están hechas de polímeros de cadena larga llamados polipéptidos. Puede haber una o varias cadenas polipeptídicas que se unen para formar una proteína. La nueva proteína de pico de coronavirus # 8217s comprende tres cadenas de péptidos idénticas. Cada cadena consta de unidades repetidas llamadas aminoácidos. La cadena se pliega en intrincadas formas o motivos, como hélices y láminas. Estas formas son importantes proteínas mal plegadas que a menudo dan lugar a enfermedades debilitantes.

Glicoproteína de pico de SARS-CoV-2. Imagen: 5-HT2AR / Wikimedia Commons

La región naranja larga en la proteína de pico es la hélice alfa y la región rosa es una hoja beta. La mezcla y el emparejamiento de motivos forman diferentes estructuras proteicas necesarias para garantizar que la proteína realice su función. En este caso, la estructura general de la proteína de pico ayuda a unirse con una proteína en la superficie de las células de la nariz y la boca humanas.

El orden de los aminoácidos dentro de una cadena de péptidos dicta cómo se plegará. Amino acids take their name from the nitrogen-containing molecule (amino) on one end and the carbonyl group (acid) on the other, with a connecting carbon atom in the middle (Cα). The differences between amino acids come from a third part, called the side chain (R), which attaches to the central carbon atom.

The structure of an un-ionised amino acid. Image: Techguy78/Wikimedia Commons, CC BY-SA 4.0

In the mid-20th century, the idea of firing beams of X-rays at molecules to elucidate their structure based on how they diffracted the beams was new. In 1951, Pauling, Robert Corey and Herman Branson published their descriptions of the alpha helix and beta sheet motifs. Ramachandran wanted to continue this work, and chose to study the structure of collagen first.

Collagen is protein found abundantly in the human body: it makes up the bulk of our skin, cartilage and connective tissues. Together with his postdoctoral fellow, Gopinath Kartha, Ramachandran proposed a triple helix structure for collagen – also called the Madras helix. However, Alexander Rich and Francis Crick contested this idea because they thought this structure allowed little space between atoms than was compatible with the prevailing understanding of chemistry.

This set Ramachandran and his colleagues C. Ramakrishnan and V. Sasisekharan on the path to further understand and describe the structures of polypeptide chains. They conducted a survey of the crystal structures available to determine how close two atoms could approach, and thus deduce the permissible interatomic distances within a polypeptide chain.

They also found that in a chain, each amino acid can only rotate around two bonds. Based on this they characterised two angles – phi (φ), the angle between the nitrogen atom and the central carbon atom, and psi (ψ), the angle between the carbonyl carbon atom and the central carbon. The figure below shows the two angles.

A protein backbone showing the phi and psi angles. Image: Dcrjsr/Wikimedia Commons, CC BY 3.0

Now, they could plot all possible combinations of these angles within a given polypeptide sequence against each other, and eliminate any combination that violated the interatomic contact limits. And voila! They managed to reduce a messy biological problem to simple considerations in elementary mathematics.

The resulting Ramachandran plot changed how biochemists studied molecules of interest and unraveled complicated biological processes. It’s a plot with phi on one axis and psi on the other. At a glance, the graph revealed islands of possible combinations separated by seas of impossible structures. If a molecule’s angles pulled it into the sea, biochemists would know it couldn’t exist in the body and follow the laws of physical chemistry at the same time.

Ramachandran plots for two amino acids, proline (left) and glycine (right). Images: Dcrjsr/Wikimedia Commons, CC BY 3.0

More broadly, biochemists today can quickly understand which structures are possible and which aren’t, and compare known and unknown structures in an intuitive manner. The Ramachandran plot has also become an elegant way to introduce students to protein structural biology and help them understand how structure and function are related to each other.

When Ramachandran died in 2001, at the age of 78, the tributes flooded in. One in particular, by Janet Thornton, published in an obituary by Easwara Subramanian, went thus:

“I have never met Professor Ramachandran, but his contribution … ranks with Pauling’s discovery of the α-helix. It never fails to excite me, when I see the Ramachandran plot and realise how much of the beauty and order of protein structures is encapsulated by this plot. I also think that this major discovery highlights the importance of clear thought and vision that do not always need expensive equipment and huge teams of people.”

The plot’s remarkable longevity is unsurprising given its endless significance in protein structural biology. It is vital that researchers independently validate different biological structures so that others who use those biological objects, like proteins, to develop drugs and vaccines can be sure they know the structure well enough. There exist a variety of algorithms that can check a structure’s accuracy using updated Ramachandran plots.

When they need to check the structure of an unknown protein, researchers compare data obtained from crystallographic studies and from theoretical calculations. The more the plots match, the more confident scientists can be that their structure is the right one.

Ramachandran’s life is a testament to the power of curiosity, intellect and determination. Science education can be biased in favour of assigning credit to individuals, often white men of the West, over groups. In fact, science is an inherently collaborative endeavour, with each generation building on the work of previous ones. So just as we celebrate Ramachandran’s life and work, let’s also celebrate the lives and work of his students and collaborators – who together helped advance the science of protein structural biology such that it has risen to the occasion in our present crisis as well.

Deepika Calidas is a biochemist. Her last position was as a postdoctoral fellow at the Johns Hopkins School of Medicine.


Referencias

Adams, J. A. Kinetic and catalytic mechanisms of protein kinases. Chem. Rvdo. 101, 2271–2290 (2001).

Blume-Jensen, P. & Hunter, T. Oncogenic kinase signalling. Naturaleza 411, 355–365 (2001).

Lahiry, P., Torkamani, A., Schork, N. J. & Hegele, R. A. Kinase mutations in human disease: interpreting genotype-phenotype relationships. Nat. Rev. Genet. 11, 60–74, https://doi.org/10.1038/nrg2707 (2010).

Zhang, J., Yang, P. L. & Gray, N. S. Targeting cancer with small molecule kinase inhibitors. Nat. Rev. Cancer 9, 28–39, https://doi.org/10.1038/nrc2559 (2009).

Manning, G., Whyte, D. B., Martinez, R., Hunter, T. & Sudarsanam, S. The protein kinase complement of the human genome. Ciencias 298, 1912–1934 (2002).

Ten Eyck, L. F., Taylor, S. S. & Kornev, A. P. Conserved spatial patterns across the protein kinase family. Biochim. Biophys. Acta 1784, 238–243, https://doi.org/10.1016/j.bbapap.2007.11.002 (2008).

Middelbeek, J., Clark, K., Venselaar, H., Huynen, M. A. & Van Leeuwen, F. N. The alpha-kinase family: an exceptional branch on the protein kinase tree. Celda. Mol. Life Sci. 67, 875–890 (2010).

Stefely, J. A. et al. Mitochondrial ADCK3 employs an atypical protein kinase-like fold to enable coenzyme Q biosynthesis. Mol. Celda 57, 83–94, https://doi.org/10.1016/j.molcel.2014.11.002 (2015).

LaRonde-LeBlanc, N. & Wlodawer, A. A family portrait of the RIO kinases. J. Biol. Chem. 280, 37297–37300 (2005).

Xiao, J., Tagliabracci, V. S., Wen, J., Kim, S.-A. & Dixon, J. E. Crystal structure of the Golgi casein kinase. procedimientos de la Academia Nacional de Ciencias 110, 10574–10579 (2013).

Blackford, A. N. & Jackson, S. P. ATM, ATR, and DNA-PK: the trinity at the heart of the DNA damage response. Mol. Celda 66, 801–817 (2017).

Steussy, C. N. et al. Structure of pyruvate dehydrogenase kinase: Novel folding pattern for a serine protein kinase. J. Biol. Chem. 276, 37443–37450 (2001).

Ogden, T. H. & Rosenberg, M. S. Multiple sequence alignment accuracy and phylogenetic inference. Syst. Biol. 55, 314–328 (2006).

Jiang, Y. et al. An expanded evaluation of protein function prediction methods shows an improvement in accuracy. Genome biology 17, 184 (2016).

Chartier, M., Chenard, T., Barker, J. & Najmanovich, R. Kinome Render: a stand-alone and web-accessible tool to annotate the human protein kinome tree. PeerJ 1, e126, https://doi.org/10.7717/peerj.126 (2013).

Möbitz, H. The ABC of protein kinase conformations. Biochimica et Biophysica Acta (BBA)-Proteins and Proteomics 1854, 1555–1566 (2015).

Brooijmans, N., Chang, Y. W., Mobilio, D., Denny, R. A. & Humblet, C. An enriched structural kinase database to enable kinome-wide structure-based analyses and drug discovery. Protein Sci. 19, 763–774 (2010).

McSkimming, D. I., Rasheed, K. & Kannan, N. Classifying kinase conformations using a machine learning approach. BMC Bioinformatics 18, 86 (2017).

Creixell, P. et al. Unmasking determinants of specificity in the human kinome. Celda 163, 187–201 (2015).

Rahman, R., Ung, P. M.-U. & Schlessinger, A. KinaMetrix: a web resource to investigate kinase conformations and inhibitor space. Ácidos nucleicos Res. 47, D361–D366 (2018).

van Linden, O. P., Kooistra, A. J., Leurs, R., de Esch, I. J. & de Graaf, C. KLIFS: A knowledge-based structural database to navigate kinase-ligand interaction space. J. Med. Chem. https://doi.org/10.1021/jm400378w (2013).

Hartmann, S. & Vision, T. J. Using ESTs for phylogenomics: can one accurately infer a phylogenetic tree from a gappy alignment? BMC Evol. Biol. 8, 95 (2008).

Kwon, A. et al. Tracing the origin and evolution of pseudokinases across the tree of life. Sci. Señal. 12, eaav3810 (2019).

Magrane, M. & UniProt Consortium. UniProt Knowledgebase: a hub of integrated protein data. Database 2011, bar009 (2011).

Hildebrand, A., Remmert, M., Biegert, A. & Söding, J. Fast and accurate automatic structure prediction with HHpred. Proteínas 77(Suppl 9), 128–132, https://doi.org/10.1002/prot.22499 (2009).

Ye, Y. & Godzik, A. FATCAT: a web server for flexible structure comparison and structure similarity searching. Ácidos nucleicos Res. 32, W582–585 (2004).

Yamaguchi, H., Matsushita, M., Nairn, A. C. & Kuriyan, J. Crystal structure of the atypical protein kinase domain of a TRP channel with phosphotransferase activity. Mol. Celda 7, 1047–1057 (2001).

Zhao, Y. et al. Crystal Structures of PI3Kalpha Complexed with PI103 and Its Derivatives: New Directions for Inhibitors Design. ACS Med. Chem. Lett. 5, 138–142, https://doi.org/10.1021/ml400378e (2014).

Ferreira-Cerca, S., Kiburu, I., Thomson, E., LaRonde, N. & Hurt, E. Dominant Rio1 kinase/ATPase catalytic mutant induces trapping of late pre-40S biogenesis factors in 80S-like ribosomes. Ácidos nucleicos Res. 42, 8635–8647, https://doi.org/10.1093/nar/gku542 (2014).

Maurice, F., Pérébaskine, N., Thore, S. & Fribourg, S. In vitro dimerization of human RIO2 kinase. RNA Biology In press, 1–10, https://doi.org/10.1080/15476286.2019.1653679 (2019).

Tso, S.-C. et al. Structure-based design and mechanisms of allosteric inhibitors for mitochondrial branched-chain α-ketoacid dehydrogenase kinase. procedimientos de la Academia Nacional de Ciencias 110, 9728–9733 (2013).

Kato, M., Li, J., Chuang, J. L. & Chuang, D. T. Distinct structural mechanisms for inhibition of pyruvate dehydrogenase kinase isoforms by AZD7545, dichloroacetate, and radicicol. Estructura 15, 992–1004, https://doi.org/10.1016/j.str.2007.07.001 (2007).

Cheng, H. et al. ECOD: an evolutionary classification of protein domains. PLOS Comput. Biol. 10, e1003926 (2014).

Tsutakawa, S. E., Jingami, H. & Morikawa, K. Recognition of a TG mismatch: the crystal structure of very short patch repair endonuclease in complex with a DNA duplex. Celda 99, 615–623 (1999).

Braschi, B. et al. Genenames. org: the HGNC and VGNC resources in 2019. Ácidos nucleicos Res. 47, D786–D792 (2018).

Tai, C.-H., Vincent, J. J., Kim, C. & Lee, B. SE: an algorithm for deriving sequence alignment from a pair of superimposed structures. BMC Bioinformatics 10, S4 (2009).

Sievers, F. et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol. Syst. Biol. 7, 539 (2011).

Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M. & Barton, G. J. Jalview Version 2—a multiple sequence alignment editor and analysis workbench. Bioinformática 25, 1189–1191 (2009).

Zhang, W. et al. Crystal structures of the Gon7/Pcc1 and Bud32/Cgi121 complexes provide a model for the complete yeast KEOPS complex. Ácidos nucleicos Res. 43, 3358–3372, https://doi.org/10.1093/nar/gkv155 (2015).

Padyana, A. K., Qiu, H., Roll-Mecak, A., Hinnebusch, A. G. & Burley, S. K. Structural basis for autoinhibition and mutational activation of eukaryotic initiation factor 2alpha protein kinase GCN2. J. Biol. Chem. 280, 29289–29299, https://doi.org/10.1074/jbc.M504096200 (2005).

Kumar, A. et al. Structure of PINK1 and mechanisms of Parkinson’s disease-associated mutations. eLife 6, https://doi.org/10.7554/eLife.29985 (2017).

Christie, M., Boland, A., Huntzinger, E., Weichenrieder, O. & Izaurralde, E. Structure of the PAN3 pseudokinase reveals the basis for interactions with the PAN2 deadenylase and the GW182 proteins. Mol. Celda 51, 360–373, https://doi.org/10.1016/j.molcel.2013.07.011 (2013).

Nagae, M. et al. 3D structural analysis of protein O-mannosyl kinase, POMK, a causative gene product of dystroglycanopathy. Genes Cells 22, 348–359, https://doi.org/10.1111/gtc.12480 (2017).

Xu, Q. et al. Identifying three-dimensional structures of autophosphorylation complexes in crystals of protein kinases. Sci Signal 8, rs13, https://doi.org/10.1126/scisignal.aaa6711 (2015).

Crooks, G. E., Hon, G., Chandonia, J.-M. & Brenner, S. E. WebLogo: a sequence logo generator. Genome Res. 14, 1188–1190 (2004).

Modi, V. & Dunbrack, R. L. Defining a new nomenclature for the structures of active and inactive kinases. procedimientos de la Academia Nacional de Ciencias 116, 6818–6827 (2019).

Jaccard, P. La distribution de la flore dans la zone alpine. Revue générale des sciences pures et appliqué 15(Dec), 961–967 (1907).

Xiong, S. et al. Structural basis for auto-inhibition of the NDR1 kinase domain by an atypically long activation segment. Estructura 26, 1101–1115. e1106 (2018).

Hanks, S. K., Quinn, A. M. & Hunter, T. The protein kinase family: conserved features and deduced phylogeny of the catalytic domains. Ciencias 241, 42–52 (1988).

Hunter, T. In Métodos Enzymol. Vol. 200 3–37 (Elsevier, 1991).

Talavera, G. & Castresana, J. Improvement of phylogenies after removing divergent and ambiguously aligned blocks from protein sequence alignments. Syst. Biol. 56, 564–577 (2007).

Kumar, S., Stecher, G., Li, M., Knyaz, C. & Tamura, K. MEGA X: molecular evolutionary genetics analysis across computing platforms. Mol. Biol. Evol. 35, 1547–1549 (2018).

Letunic, I. & Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Ácidos nucleicos Res. 44, W242–W245 (2016).

Lemoine, F. et al. Renewing Felsenstein’s phylogenetic bootstrap in the era of big data. Naturaleza 556, 452 (2018).

de Cárcer, G., Manning, G. & Malumbres, M. From Plk1 to Plk5: functional evolution of polo-like kinases. Ciclo celular 10, 2255–2262 (2011).

Needham, E. J., Parker, B. L., Burykin, T., James, D. E. & Humphrey, S. J. Illuminating the dark phosphoproteome. Sci. Señal. 12, eaau8645 (2019).

Sauder, J. M., Arthur, J. W. & Dunbrack, R. L. Jr. Large-scale comparison of protein sequence alignment algorithms with structure alignments. Proteins: Structure, Function and Genetics 40, 6–22 (2000).

Yona, G. & Levitt, M. Within the twilight zone: a sensitive profile-profile comparison tool based on information theory. J. Mol. Biol. 315, 1257–1275 (2002).

Fox, G., Sievers, F. & Higgins, D. G. Using de novo protein structure predictions to measure the quality of very large multiple sequence alignments. Bioinformática 32, 814–820 (2015).

Le, Q., Sievers, F. & Higgins, D. G. Protein multiple sequence alignment benchmarking through secondary structure prediction. Bioinformática 33, 1331–1337 (2017).

Tokumitsu, H., Wayman, G. A., Muramatsu, M. & Soderling, T. R. Calcium/calmodulin-dependent protein kinase kinase: identification of regulatory domains. Bioquímica 36, 12823–12827 (1997).

Osawa, M. et al. A novel target recognition revealed by calmodulin in complex with Ca 2+-calmodulin-dependent kinase kinase. Nat. Struct. Mol. Biol. 6, 819 (1999).

Tokumitsu, H., Muramatsu, M.-a., Ikura, M. & Kobayashi, R. Regulatory mechanism of Ca2+/calmodulin-dependent protein kinase kinase. J. Biol. Chem. 275, 20090–20095 (2000).

Dai, G. et al. Calmodulin activation of polo-like kinase 1 is required during mitotic entry. Biochem. Cell Biol. 91, 287–294 (2013).

Kauselmann, G. et al. The polo-like protein kinases Fnk and Snk associate with a Ca2+-and integrin-binding protein and are regulated dynamically with synaptic plasticity. The EMBO journal 18, 5528–5539 (1999).

Plotnikova, O. V., Pugacheva, E. N., Dunbrack, R. L. & Golemis, E. A. Rapid calcium-dependent activation of Aurora-A kinase. Comunicaciones de la naturaleza 1, 64, https://doi.org/10.1038/ncomms1061 (2010).

Mallampalli, R. K., Glasser, J. R., Coon, T. A. & Chen, B. B. Calmodulin protects Aurora B on the midbody to regulate the fidelity of cytokinesis. Cell Cycle 12, 663–673 (2013).

Brinkworth, R. I., Breinl, R. A. & Kobe, B. Structural basis and prediction of substrate specificity in protein serine/threonine kinases. procedimientos de la Academia Nacional de Ciencias 100, 74–79 (2003).

Anastassiadis, T., Deacon, S. W., Devarajan, K., Ma, H. & Peterson, J. R. Comprehensive assay of kinase catalytic activity reveals features of kinase inhibitor selectivity. Nat. Biotechnol. 29, 1039 (2011).

Bishop, A. C. et al. A chemical switch for inhibitor-sensitive alleles of any protein kinase. Naturaleza 407, 395 (2000).

Ye, Y. & Godzik, A. Flexible structure alignment by chaining aligned fragment pairs allowing twists. Bioinformática 19(Suppl 2), 246–255 (2003).

Söding, J., Biegert, A. & Lupas, A. N. The HHpred interactive server for protein homology detection and structure prediction. Ácidos nucleicos Res. 33, W244–248, https://doi.org/10.1093/nar/gki408 (2005).

Yamaguchi, M. et al. Cryo-EM of Mitotic Checkpoint Complex-Bound APC/C Reveals Reciprocal and Conformational Regulation of Ubiquitin Ligation. Mol. Celda 63, 593–607, https://doi.org/10.1016/j.molcel.2016.07.003 (2016).

Dong, C. et al. The crystal structure of an inactive dimer of PDZ-binding kinase. Biochem. Biophys. Res. Comun. 476, 586–593, https://doi.org/10.1016/j.bbrc.2016.05.166 (2016).

Eddy, S. R. In Genome Informatics 2009: Genome Informatics Series Vol. 23 205–211 (World Scientific, 2009).

The PyMOL molecular graphics system. (Schrödinger, Inc., San Carlos, CA, 2002).

R: A Language and Environment for Statistical Computing. (R Foundation for Statistical Computing, Vienna, Austria, 2015).


5 HOW WELL DOES DALI DO WHAT IT DOES?

This section is based on literature review. DALI has been in uninterrupted service for nearly 30 years, and it has appeared in a number of published method evaluations. Literature was sampled by a keyword search of Medline abstracts. At first glance, different reports give contradictory rankings to different structural alignment programs. This is because of the different evaluation methodologies. Although each benchmark views the data from a different angle, DALI does remarkably well on aggregate (Table 2 and 3). It is worth noting that the studies have used various incarnations of the DaliLite software and Dali web server, and some cases reported as failures in earlier studies give good results with the current version (v.5) of DaliLite.

Equipo de prueba Test cases 1st 2nd 3rd 4th Referencia
HOMSTRAD 11 FATCAT DALI RÁPIDO 54
CDD 4,017 DALI Matras Sheba FatCat 16
SISYPHUS 69 DALI Matras FatCat CE 53
RIPC 40 FatCat California CE DALI, Matras, Sheba 53
CDD, MALIDUP, MALISUM 3,591, 241, 130 DeepAlign DALI MATT, Formatt, TMalign 28
CDD core regions 3,591 UniAlign DALI DeepAlign TMalign 55
HOMSTRAD 9,536 UniAlign DeepAlign TMalign DALI 55
BaliBASE 1944 UniAlign DeepAlign DALI TMalign 55
HOMSTRAD, RIPC 64, 23 DALI-score TM-score SO-score SP-score 56
Equipo de prueba Test cases Escribe Criterion 1st 2nd 3rd 4th Referencia
CATH 86 x 2,771 Query-wise ROC curves DALI Matras Structal CE 65
SCOP (40% id) 402,077 same-fold pairs +300,000 random different-fold pairs Pooled ROC curves RÁPIDO DALI K2 CE 54
CATH (40% id) topologs 2,930 x 2,930 Pooled ROC area (native score) DALI, Structal CE SSAP 49
%TP at 1%FP (native score) DALI Structal CE SSAP 49
SABmark-sup 425 groups x all of benchmark Pooled ROC area DeepAlign TMalign DALI Formatt 28
SABmark-twi 209 groups x all of benchmark Pooled ROC area DeepAlign DALI TMalign Formatt 28
SCOPe same-fold pairs 500 x all SCOPe domains Query-wise Selectivity of the first 200 results mTMalign DALI SSM 29
SCOPe same fold, diff. Sf 51 x 15,211/176022 Query-wise Fmax DALI DeepAlign mTMalign TMalign 23
SCOPe same sf, diff. Familia 119 x 15,211/176022 Query-wise Fmax DALI, DeepAlign mTMalign TMalign 23
SCOPe same family 140 x 15,211/176022 Query-wise Fmax DeepAlign, DALI, mTMalign TMalign 23

5.1 Why reference-based evaluation?

The first task in evaluation is to establish a ground truth. Tables 2 and 3 collate evaluation studies, which used manually curated reference alignments and fold classifications. The motivation for this is that human experts can assess the “biological significance” of structural similarities in a way, which is difficult to quantify exactly, as different features may be given more or less weight in different situations. There is another school of thought, which repurposes any structural alignment program as a means of producing a rigid-body 3D superimposition by a least-squares fit of the aligned atoms. This superimposition is then evaluated using RMSD-related geometrical scores. Because each program optimizes its alignments with respect to the program's native scoring function, this type of evaluation 49-52 informs on the similarity of the program's native score to the evaluator's canonical score. For example, Kolodny et al. 49 show that Dali's native score performs very well in receiver operator characteristic (ROC) and error-coverage plots, although the paper's main thrust is how this performance degrades on moving the goalposts.

5.2 Evaluation of alignment quality against manually curated reference alignments

Several sets of manually curated structural alignments have been created for evaluation purposes (see references in Table 2). The data sets differ in hardness. For example, RIPC is a collection of pathological cases for structural aligners, involving repetitions, large indels, circular permutations and extensive conformational variability. 53 The primary evaluation criterion is Fcar, the fraction of correctly aligned residues relative to the reference alignment (Appendix II). If the dataset specifies core regions (e.g., the CDD dataset), then only core positions are evaluated. Some data sets, for example, HOMSTRAD, were developed for testing sequence alignment programs, and they align the whole sequences also over structurally variable segments. For example, an N-terminal helix/coil in the pair 1ed9A/1ew2A is misaligned by DALI with respect to HOMSTRAD. 54 Table 2 shows DALI at top rank in at least one test set in three of six evaluation studies. DeepAlign 28 and UniAlign 55 include sequence similarity as a component of their scoring function and show improvement over DALI, which only uses the C-alpha coordinates. Recently, the DALI score and three RMSD-related geometrical scoring functions were compared using a generic global optimization program. 56 The ranking in Table 2 is based on recall with block size 4 from table 9 of Reference 56 . The conclusion was that the Dali-score and human experts like the same set of correspondences, which are not optimal with respect to criteria based on rigid-body superimposition.

5.3 Evaluation of database searches against reference fold classifications

Table 3 collates studies, which include DALI and use various subsets of SCOP or CATH as ground truth. The main parameters used to evaluate binary classifiers are precision and recall, also called selectivity and sensitivity (Appendix III). There are at least four considerations to take into account when choosing an evaluation methodology, discussed below.

5.3.1 Possible misclassification

Manual classifications show discrepancies when compared to each other 57 and inconsistencies when compared to the results of automated comparisons. 13 To account for possible misclassification, it is common to define correct pairs as having the same fold and incorrect pairs as having different folds. The fold level describes general structural similarity and has clearer distinction than subdivisions within a fold to analogs and remote or close homologs.

5.3.2 Stratification by difficulty

Close homologs have more pronounced structural similarity than remote homologs and analogous folds. Some test pairs are therefore “easier” and others more “difficult” for structural aligners. For example, Holm 23 reports evaluation results at different levels of difficulty: fold level, superfamily level and family level. If a database structure is in the same SCOP fold as the query but in a different superfamily, it is counted as correct in fold level evaluation and ignored for superfamily or family level statistics. If a database structure is in the same SCOP superfamily as the query but in a different family, it is counted as correct in superfamily level evaluation and ignored for fold and family level statistics. If a database structure is in the same SCOP family as the query, it is counted as correct in family level evaluation and ignored for fold and superfamily level statistics. This scheme has roots in the benchmarking of sequence alignment software. 58

5.3.3 Sample selection

Proteins with clear sequence similarity have trivially similar structures. All studies in Table 3 except the mTMalign paper 29 draw their test pairs from a non-redundant subset of the PDB. When the threshold for sequence identity is 40% or lower, most same-family pairs are removed. The benchmark for mTMalign 29 consists of 500 randomly selected query domains, which are compared against all domains in the full SCOPe database. The lack of stratification is likely to bias test pairs towards easy cases. In very populous fold classes, this happens because the evaluation is restricted to the first 200 results (Appendix IV). In other cases, the fold class may consist of a single family, which also limits the structural diversity of the test cases. The evaluation of FAST 54 generated an impressive number of test cases from all non-redundant SCOP domains. This means that most same-fold pairs will come from a small number of hugely populous fold classes. Specifically, in a representative subset of SCOPe 2.07, 19 fourfolds generate half of all same-fold pairs, 44 folds contain half of all domains, and 36% of the folds are singletons, that is, have a single member (Figure A1 in Appendix V).

5.3.4 Pooled or querywise evaluation

los Fmax criterion is an evaluation metric that balances recall and precision. Calculating Fmax involves scanning an ordered list of hits for the optimal threshold that maximizes the harmonic mean of precision and recall. The querywise variant tests whether same-fold test cases are higher up in each result list than different-fold test cases. The pooled variant requires that the scale of similarity is comparable across all queries, such as a probability of same-fold membership. Holm 23 showed large differences between average querywise Fmax and pooled Fmax evaluation for DALI and DeepAlign (Figure 5). mTMalign had excellent precision at the cost of lower recall. Pooling result lists had little effect on mTMalign, because of the scarcity of false-positives. In contrast, DALI's and DeepAlign's performance collapses in pooled Fmax evaluation compared to query-wise evaluation. This means that they recognize structural similarities in agreement with SCOP, but class boundaries occur at different Z-scores (DaliLite) or bitscores (DeepAlign) for different queries. DALI outperformed the other programs at fold level and tied with DeepAlign at superfamily level (Figure 5).


Hydrogen Bonds, Ionic Bonds, Disulfide Bridges

While secondary structure describes the shape of chains of amino acids in space, tertiary structure is the overall shape assumed by the entire molecule, which may contain regions of both sheets and coils. If a protein consists of one polypeptide chain, a tertiary structure is the highest level of structure. Hydrogen bonding affects the tertiary structure of a protein. Also, the R-group of each amino acid may be either hydrophobic or hydrophilic.


Referencias

Henikoff S, Greene EA, Pietrokovski S, Bork P, Attwood TK, Hood L: Gene families: the taxonomy of protein paralogs and chimeras. Ciencias 1997, 278: 609–614. 10.1126/science.278.5338.609

Henikoff JG, Greene EA, Pietrokovski S, Henikoff S: Increased coverage of protein families with the blocks database servers. Res de ácidos nucleicos 2000, 28: 228–230. 10.1093/nar/28.1.228

Kabsch W, Sander C: Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers 1983, 22: 2577–2637. 10.1002/bip.360221211

Henikoff S, Henikoff JG, Alford WJ, Pietrokovski S: Automated construction and graphical presentation of protein blocks from unaligned sequences. Gene 1995, 163: GC17–26. 10.1016/0378-1119(95)00486-P

Sitbon E, Pietrokovski S: New types of conserved sequence domains in DNA-binding regions of homing endonucleases. Trends Biochem Sci 2003, 28: 473–477. 10.1016/S0968-0004(03)00170-1

Bystroff C, Simons KT, Han KF, Baker D: Local sequence-structure correlations in proteins. Curr Opin Biotechnol 1996, 7: 417–421. 10.1016/S0958-1669(96)80117-0

Han KF, Baker D: Global properties of the mapping between local amino acid sequence and local structure in proteins. Proc Natl Acad Sci U S A 1996, 93: 5814–5818. 10.1073/pnas.93.12.5814

Mizuguchi K, Blundell T: Analysis of conservation and substitutions of secondary structure elements within protein superfamilies. Bioinformática 2000, 16: 1111–1119. 10.1093/bioinformatics/16.12.1111

Cygler M, Schrag JD, Sussman JL, Harel M, Silman I, Gentry MK, Doctor BP: Relationship between sequence conservation and three-dimensional structure in a large family of esterases, lipases, and related proteins. Protein Sci 1993, 2: 366–382.

Liu J, Tan H, Rost B: Loopy proteins appear conserved in evolution. J Mol Biol 2002, 322: 53–64. 10.1016/S0022-2836(02)00736-2

Hubbard TJ, Murzin AG, Brenner SE, Chothia C: SCOP: a structural classification of proteins database. Res de ácidos nucleicos 1997, 25: 236–239. 10.1093/nar/25.1.236

Chothia C, Lesk AM: The relation between the divergence of sequence and structure in proteins. Embo J 1986, 5: 823–826.

Doolittle RF: Similar amino acid sequences: chance or common ancestry? Ciencias 1981, 214: 149–159. 10.1126/science.7280687

Holm L, Sander C: The FSSP database: fold classification based on structure-structure alignment of proteins. Res de ácidos nucleicos 1996, 24: 206–209. 10.1093/nar/24.1.206

Brenner SE, Chothia C, Hubbard TJ, Murzin AG: Understanding protein structure: using scop for fold interpretation. Métodos Enzymol 1996, 266: 635–643.

Rost B: Protein structures sustain evolutionary drift. Fold Des 1997, 2: S19–24. 10.1016/S1359-0278(97)00059-X

Rost B: Twilight zone of protein sequence alignments. Protein Eng 1999, 12: 85–94. 10.1093/protein/12.2.85

He MM, Wood ZA, Baase WA, Xiao H, Matthews BW: Alanine-scanning mutagenesis of the beta-sheet region of phage T4 lysozyme suggests that tertiary context has a dominant effect on beta-sheet formation. Protein Sci 2004, 13: 2716–2724. 10.1110/ps.04875504

Heinz DW, Baase WA, Zhang XJ, Blaber M, Dahlquist FW, Matthews BW: Accommodation of amino acid insertions in an alpha-helix of T4 lysozyme. Structural and thermodynamic analysis. J Mol Biol 1994, 236: 869–886. 10.1006/jmbi.1994.1195

Blaber M, Baase WA, Gassner N, Matthews BW: Alanine scanning mutagenesis of the alpha-helix 115–123 of phage T4 lysozyme: effects on structure, stability and the binding of solvent. J Mol Biol 1995, 246: 317–330. 10.1006/jmbi.1994.0087

Bastolla U, Porto M, Eduardo Roman MH, Vendruscolo MH: Connectivity of neutral networks, overdispersion, and structural conservation in protein evolution. J Mol Evol 2003, 56: 243–254. 10.1007/s00239-002-2350-0

Porto M, Roman HE, Vendruscolo M, Bastolla U: Prediction of site-specific amino acid distributions and limits of divergent evolutionary changes in protein sequences. Mol Biol Evol 2005, 22: 630–638. 10.1093/molbev/msi048

Bornberg-Bauer E, Chan HS: Modeling evolutionary landscapes: mutational stability, topology, and superfunnels in sequence space. Proc Natl Acad Sci U S A 1999, 96: 10689–10694. 10.1073/pnas.96.19.10689

Mirny L, Shakhnovich E: Evolutionary conservation of the folding nucleus. J Mol Biol 2001, 308: 123–129. 10.1006/jmbi.2001.4602

Rodionov MA, Blundell TL: Sequence and structure conservation in a protein core. Proteins: Structure, Function, and Genetics 1998, 33: 358–366. Publisher Full Text 10.1002/(SICI)1097-0134(19981115)33:3<358::AID-PROT5>3.0.CO2-0

Rose GD: Secondary Structure in Protein Analysis. En Encyclopedia of Biological Chemistry. New York, Elsevier Inc. 2004:1–6.

Henikoff S, Henikoff JG, Pietrokovski S: Blocks+: a non-redundant database of protein alignment blocks derived from multiple compilations. Bioinformática 1999, 15: 471–479. 10.1093/bioinformatics/15.6.471

Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM: CATH--a hierarchic classification of protein domain structures. Estructura 1997, 5: 1093–1108. 10.1016/S0969-2126(97)00260-8

Levitt M, Chothia C: Structural patterns in globular proteins. Naturaleza 1976, 261: 552–558. 10.1038/261552a0

Andersen CAF, Rost B: Secondary structure assignment. Methods of Biochemical Analysis. En Bioinformática estructural. Volume 44. Edited by: Bourne FE and Weissig H. Edited by: Suelter CH. Hoboken, NJ, Wiley-Liss 2003:649.

Levitt M: Conformational preferences of amino acids in globular proteins. Bioquímica 1978, 17: 4277–4285. 10.1021/bi00613a026

Ramachandran GN, Sasisekharan V: Conformation of polypeptides and proteins. Química de proteínas avanzada 1968, 23: 283–438.

Creamer TP, Rose GD: Side-chain entropy opposes alpha-helix formation but rationalizes experimentally determined helix-forming propensities. Proc Natl Acad Sci U S A 1992, 89: 5937–5941. 10.1073/pnas.89.13.5937

Chellgren BW, Creamer TP: Side-chain entropy effects on protein secondary structure formation. Proteínas 2006, 62: 411–420. 10.1002/prot.20766

Minor DL Jr., Kim PS: Context is a major determinant of beta-sheet propensity. Naturaleza 1994, 371: 264–267. 10.1038/371264a0

Leopold PE, Montal M, Onuchic JN: Protein folding funnels: a kinetic approach to the sequence-structure relationship. Proc Natl Acad Sci U S A 1992, 89: 8721–8725. 10.1073/pnas.89.18.8721

Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F: The InterPro database, an integrated documentation resource for protein families, domains and functional sites. Res de ácidos nucleicos 2001, 29: 37–40. 10.1093/nar/29.1.37

Bairoch A, Apweiler R, Wu CH, Barker WC, Boeckmann B, Ferro S, Gasteiger E, Huang H, Lopez R, Magrane M, Martin MJ, Natale DA, O'Donovan C, Redaschi N, Yeh LS: The Universal Protein Resource (UniProt). Res de ácidos nucleicos 2005, 33: D154–9. 10.1093/nar/gki070

Henikoff S, Henikoff JG: Position-based sequence weights. J Mol Biol 1994, 243: 574–578. 10.1016/0022-2836(94)90032-9

Hubbard SJ, Thornton JM: 'NACCESS', Computer Program. , Department of Biochemistry and Molecular Biology, University College London 1993.


Ver el vídeo: 6 giro beta estructura secundaria de las proteínas (Febrero 2023).