Información

Vía y arquitectura de la corriente ventral propuesta por el grupo de Poggio

Vía y arquitectura de la corriente ventral propuesta por el grupo de Poggio


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Por favor, ¿puede darme una explicación muy breve sobre todas las funciones en la arquitectura de la corriente ventral resumida en esta figura?

Esta figura es de una teoría cuantitativa del reconocimiento visual inmediato de Serre et al. Prog Brain Res. 2007.

Leí varios artículos sobre este modelo, pero todavía no entiendo el objetivo básico, especialmente detrás de las dos operaciones (operaciones de tipo Gaussiano y tipo máximo) ... Así que, por favor, ¿alguien puede explicarme en detalle la ruta de la corriente ventral (de V1-V2-V4-IT-PFC) incluidas las dos operaciones en este modelo.

Por ejemplo: no entiendo cómo se construyen las celdas en S1…


Esta es una arquitectura típica de computación propuesta como modelo para la corriente ventral de procesamiento visual en primates. Tiene una larga historia (por ejemplo, Neocognitoron de Fukushima fue de 1980) y todavía es ampliamente aceptado en el aprendizaje automático (por ejemplo, el aprendizaje profundo) y la neurociencia.

Está motivado por la organización de células V1 simples y células complejas. Las células simples en V1 pueden considerarse aproximadamente como detectores de bordes en una ubicación retiniana específica. Es por eso que en la figura que cita, se representan como un círculo con una barra (un campo receptivo de dibujos animados). Las celdas simples solo pueden detectar cosas de manera muy local, lo que significa que si el borde aparece en una ubicación diferente en su campo de visión, no responderá.

Matemáticamente, puede pensar en un filtro espacial que detecta un borde (por ejemplo, un parche de Gabor orientado) multiplicado a su imagen retiniana y sumado. Por ejemplo, el filtro a continuación detectará una barra de 45 grados alineada en el área de color caliente, pero tendrá menos actividad si la barra se desplaza fuera de la posición específica.

Las celdas complejas en V1, por otro lado, siguen siendo un detector de bordes, pero tienen cierta invariancia de ubicación. En otras palabras, cuando el borde se desplaza ligeramente, la respuesta de las células complejas no parece cambiar. Se cree que esto se debe a que las células complejas se extraen de múltiples células simples con la misma orientación. Esto es lo que ve en su figura, donde una sola celda compleja extrae información de las mismas celdas simples de orientación pero en diferentes ubicaciones.

Matemáticamente, una operación soft-max o una operación max sobre las salidas de celda simple pueden conducir a un buen modelo de celda complejo. Pero, no se limita a tales operaciones. De hecho, los modelos cuadráticos u otros modelos no lineales también se utilizan ampliamente en la neurociencia computacional.

La jerarquía completa para la corriente ventral se obtiene simplemente extendiendo repetidamente utilizando la analogía de célula simple-célula compleja. Para cada pila, la capa de celda simple extrae alguna característica local (calculando la salida de la celda compleja de la capa anterior), y la capa de celda compleja la hace invariable en el espacio. Desde los bordes en V1, se pueden obtener esquinas en la siguiente capa, luego contornos complejos y hasta los objetos. Al menos así es como va la historia.


Modelos de aprendizaje profundo para la corteza prefontal en el reconocimiento de objetos

La corriente ventral subyace en el reconocimiento y la categorización de objetos en primates humanos y no humanos, pero la codificación neuronal en su región más alta, la corteza prefrontal (PFC), sigue siendo poco conocida. Con los avances recientes en el aprendizaje profundo, se ha demostrado que las redes neuronales convolucionales (CNN) optimizadas para objetivos son altamente precisas para predecir las respuestas neuronales en el área cortical ventral más alta, la corteza temporal inferior (TI), que tiene una alta selectividad de categoría basada en visuales. información. Además, las capas intermedias del modelo eran muy precisas para predecir las respuestas neurales ventrales aguas arriba (en V4). Nuestro objetivo es aplicar CNN orientadas a objetivos para predecir las respuestas neuronales en la corteza prefrontal ventrolateral (vlPFC). Debido a que la investigación sugiere que el vPFC incorpora información de objetos relacionada con el comportamiento en el reconocimiento de objetos, planteamos la hipótesis de que las CNN impulsadas por objetivos tendrán un rendimiento inferior a las CNN impulsadas por datos en las respuestas neuronales de vlPFC. Esperamos que nuestros resultados arrojen luz sobre el papel del vlPFC en la corriente ventral y la medida en que la región codifica las características del objeto relacionadas con el comportamiento.


Abstracto

Los estudios de neurociencia computacional han examinado el sistema visual humano a través de imágenes de resonancia magnética funcional (fMRI) e identificado un modelo en el que el cerebro de los mamíferos sigue dos vías independientes para reconocer tareas de movimiento biológico. Por un lado, la corriente dorsal analiza la información de movimiento aplicando flujo óptico, que considera las características rápidas. Por otro lado, la corriente ventral analiza la información de la forma con características lentas. El enfoque propuesto sugiere que la percepción del movimiento del sistema visual humano comprende interacciones de características rápidas y lentas para identificar movimientos biológicos. Las características del formulario en el sistema visual siguen la aplicación del modelo de base activa (ABM) con análisis de características lento incremental (IncSFA). Se requiere observación episódica para extraer las funciones más lentas, mientras que las funciones rápidas actualizan el procesamiento de la información de movimiento en cada fotograma. La aplicación de IncSFA brinda la oportunidad de abstraer las acciones humanas y utilizar prototipos de acción. Sin embargo, las características rápidas se obtienen de la división de flujo óptico, que brinda la oportunidad de interactuar con el sistema, ya que el reconocimiento final se realiza mediante una combinación del flujo óptico y la información ABM-IncSFA y mediante la aplicación de la máquina de aprendizaje extremo del kernel. La aplicación de IncSFA en la corriente ventral y la participación de características lentas y rápidas en el mecanismo de reconocimiento son las principales contribuciones de esta investigación. Los dos conjuntos de datos de acción humana para la evaluación comparativa (KTH y Weizmann) y los resultados destacan el rendimiento prometedor de este enfoque en la modificación del modelo.


Contenido

Representaciones invariantes Editar

Un gran desafío en las tareas de reconocimiento visual es que el mismo objeto puede verse en una variedad de condiciones. Se puede ver desde diferentes distancias, diferentes puntos de vista, con diferente iluminación, parcialmente ocluido, etc. Además, para clases particulares de objetos, como caras, pueden ser relevantes transformaciones específicas muy complejas, como el cambio de expresiones faciales. Para aprender a reconocer imágenes, es muy beneficioso tener en cuenta estas variaciones. Resulta en un problema de clasificación mucho más simple y, en consecuencia, en una gran reducción de la complejidad de la muestra del modelo.

Un simple experimento computacional ilustra esta idea. Se entrenaron dos instancias de un clasificador para distinguir imágenes de aviones de las de automóviles. Para el entrenamiento y prueba de la primera instancia, se utilizaron imágenes con puntos de vista arbitrarios. Otra instancia recibió solo imágenes vistas desde un punto de vista particular, lo que equivalía a entrenar y probar el sistema en la representación invariante de las imágenes. Se puede ver que el segundo clasificador funcionó bastante bien incluso después de recibir un solo ejemplo de cada categoría, mientras que el rendimiento del primer clasificador estuvo cerca de la conjetura aleatoria incluso después de ver 20 ejemplos.

Las representaciones invariantes se han incorporado en varias arquitecturas de aprendizaje, como los neocognitrones. La mayoría de estas arquitecturas, sin embargo, proporcionaron invariancia a través de características o propiedades de la propia arquitectura diseñadas a medida. Si bien es útil tener en cuenta algunos tipos de transformaciones, como las traducciones, no es trivial adaptarse a otros tipos de transformaciones, como las rotaciones en 3D y las expresiones faciales cambiantes. M-Theory proporciona un marco de cómo se pueden aprender tales transformaciones. Además de una mayor flexibilidad, esta teoría también sugiere cómo el cerebro humano puede tener capacidades similares.

Plantillas Editar

Otra idea central de la Teoría M se acerca en espíritu a las ideas del campo de la detección comprimida. Una implicación del lema de Johnson-Lindenstrauss dice que se puede incrustar un número particular de imágenes en un espacio de características de baja dimensión con las mismas distancias entre imágenes mediante el uso de proyecciones aleatorias. Este resultado sugiere que el producto escalar entre la imagen observada y alguna otra imagen almacenada en la memoria, llamada plantilla, puede usarse como una característica que ayuda a distinguir la imagen de otras imágenes. La plantilla no necesita estar relacionada de ninguna manera con la imagen, podría elegirse al azar.

Combinando plantillas y representaciones invariantes Editar

Las dos ideas descritas en las secciones anteriores se pueden unir para construir un marco para aprender representaciones invariantes. La observación clave es cómo se comporta el producto escalar entre la imagen I < displaystyle I> y una plantilla t < displaystyle t> cuando la imagen se transforma (mediante transformaciones como traslaciones, rotaciones, escalas, etc.). Si la transformación g < displaystyle g> es miembro de un grupo unitario de transformaciones, entonces se cumple lo siguiente:

En otras palabras, el producto escalar de la imagen transformada y una plantilla es igual al producto escalar de la imagen original y la plantilla transformada inversamente. Por ejemplo, para una imagen girada 90 grados, la plantilla transformada inversamente se giraría -90 grados.

En la sección introductoria, se afirmó que la teoría M permite aprender representaciones invariantes. Esto se debe a que las plantillas y sus versiones transformadas se pueden aprender de la experiencia visual, al exponer el sistema a secuencias de transformaciones de objetos. Es plausible que se produzcan experiencias visuales similares en los primeros períodos de la vida humana, por ejemplo, cuando los bebés juegan con juguetes en sus manos. Debido a que las plantillas pueden no tener ninguna relación con las imágenes que el sistema tratará de clasificar más adelante, los recuerdos de estas experiencias visuales pueden servir como base para reconocer muchos tipos diferentes de objetos en la vida posterior. Sin embargo, como se muestra más adelante, para algunos tipos de transformaciones, se necesitan plantillas específicas.

De las órbitas a las medidas de distribución Editar

Para implementar las ideas descritas en las secciones anteriores, es necesario saber cómo derivar una representación invariante computacionalmente eficiente de una imagen. Esta representación única de cada imagen puede caracterizarse tal como aparece mediante un conjunto de distribuciones de probabilidad unidimensionales (distribuciones empíricas de los productos punto entre la imagen y un conjunto de plantillas almacenadas durante el aprendizaje no supervisado). Estas distribuciones de probabilidad, a su vez, pueden describirse mediante histogramas o un conjunto de momentos estadísticos del mismo, como se mostrará a continuación.

Surge una pregunta natural: ¿cómo se pueden comparar dos órbitas? Hay varios enfoques posibles. Uno de ellos emplea el hecho de que intuitivamente dos órbitas empíricas son iguales independientemente del orden de sus puntos. Por lo tanto, se puede considerar una distribución de probabilidad P I < displaystyle P_> inducida por la acción del grupo en las imágenes I < displaystyle I> (g I < displaystyle gI> puede verse como una realización de una variable aleatoria).

Para clasificar una imagen, se puede utilizar la siguiente "receta":

  1. Memoriza un conjunto de imágenes / objetos llamados plantillas
  2. Memorice las transformaciones observadas para cada plantilla
  3. Calcule los productos escalares de sus transformaciones con imagen
  4. Calcule el histograma de los valores resultantes, llamado firma de la imagen
  5. Compare el histograma obtenido con las firmas almacenadas en la memoria.

Grupos de transformaciones no compactos Editar

En la "receta" para la clasificación de imágenes, los grupos de transformaciones se aproximan con un número finito de transformaciones. Tal aproximación solo es posible cuando el grupo es compacto.

Grupos como todas las traducciones y todas las escalas de la imagen no son compactos, ya que permiten transformaciones arbitrariamente grandes. Sin embargo, son localmente compactos. Para grupos localmente compactos, la invariancia se puede lograr dentro de cierto rango de transformaciones. [2]

La conveniencia de plantillas personalizadas para grupos no compactos está en conflicto con el principio de aprendizaje de representaciones invariantes. Sin embargo, para ciertos tipos de transformaciones de imágenes que se encuentran con regularidad, las plantillas pueden ser el resultado de adaptaciones evolutivas. Los datos neurobiológicos sugieren que hay una afinación similar a la de Gabor en la primera capa de la corteza visual. [5] La optimización de las plantillas de Gabor para traducciones y escalas es una posible explicación de este fenómeno.

Transformaciones no grupales Editar

Muchas transformaciones interesantes de imágenes no forman grupos. Por ejemplo, las transformaciones de imágenes asociadas con la rotación 3D del objeto 3D correspondiente no forman un grupo, porque es imposible definir una transformación inversa (dos objetos pueden verse iguales desde un ángulo pero diferentes desde otro ángulo). Sin embargo, la invariancia aproximada aún se puede lograr incluso para transformaciones que no son de grupo, si se cumple la condición de localización para las plantillas y la transformación se puede linealizar localmente.

Como se dijo en la sección anterior, para casos específicos de traducciones y escalado, la condición de localización se puede satisfacer mediante el uso de plantillas genéricas de Gabor. Sin embargo, para la transformación de casos generales (no grupales), la condición de localización se puede satisfacer solo para una clase específica de objetos. [2] Más específicamente, para satisfacer la condición, las plantillas deben ser similares a los objetos que uno quisiera reconocer. Por ejemplo, si uno quisiera construir un sistema para reconocer caras rotadas en 3D, es necesario usar otras caras rotadas en 3D como plantillas. Esto puede explicar la existencia de módulos especializados en el cerebro como responsables del reconocimiento facial. [2] Incluso con plantillas personalizadas, para la localización es necesaria una codificación de imágenes y plantillas similar al ruido. Naturalmente, se puede lograr si la transformación de no grupo se procesa en cualquier capa que no sea la primera en la arquitectura de reconocimiento jerárquico.

Arquitecturas jerárquicas Editar

La sección anterior sugiere una motivación para las arquitecturas de reconocimiento de imágenes jerárquicas. Sin embargo, también tienen otros beneficios.

En primer lugar, las arquitecturas jerárquicas logran mejor el objetivo de "analizar" una escena visual compleja con muchos objetos que constan de muchas partes, cuya posición relativa puede variar mucho. En este caso, diferentes elementos del sistema deben reaccionar ante diferentes objetos y partes. En arquitecturas jerárquicas, las representaciones de partes en diferentes niveles de jerarquía de incrustación se pueden almacenar en diferentes capas de jerarquía.

En segundo lugar, las arquitecturas jerárquicas que tienen representaciones invariables de partes de objetos pueden facilitar el aprendizaje de conceptos compositivos complejos. Esta facilitación puede ocurrir mediante la reutilización de representaciones aprendidas de partes que fueron construidas antes en el proceso de aprendizaje de otros conceptos. Como resultado, la complejidad de la muestra de aprender conceptos de composición puede reducirse en gran medida.

Finalmente, las arquitecturas jerárquicas tienen una mejor tolerancia al desorden. El problema del desorden surge cuando el objeto objetivo está frente a un fondo no uniforme, que funciona como un distractor para la tarea visual. La arquitectura jerárquica proporciona firmas para partes de objetos de destino, que no incluyen partes de fondo y no se ven afectadas por variaciones de fondo. [6]

En arquitecturas jerárquicas, una capa no es necesariamente invariante para todas las transformaciones que maneja la jerarquía como un todo. Algunas transformaciones pueden pasar a través de esa capa a capas superiores, como en el caso de las transformaciones no grupales descritas en la sección anterior. Para otras transformaciones, un elemento de la capa puede producir representaciones invariantes solo dentro de un pequeño rango de transformaciones. Por ejemplo, los elementos de las capas inferiores de la jerarquía tienen un campo visual pequeño y, por lo tanto, solo pueden manejar un pequeño rango de traducción. Para tales transformaciones, la capa debe proporcionar covariante en lugar de firmas invariantes. La propiedad de la covarianza se puede escribir como distr (⟨μ l (g I), μ l (t)⟩) = distr (⟨μ l (I), μ l (g - 1 t)⟩) < displaystyle distr ( langle mu _(gI), mu _(t) rangle) = distr ( langle mu _(Yo), mu _(g ^ <-1> t) rangle)>, donde l < displaystyle l> es una capa, μ l (I) < displaystyle mu _(I)> es la firma de la imagen en esa capa, y d i s t r < displaystyle distr> significa "distribución de valores de la expresión para todo g ∈ G < displaystyle g in G>".

La teoría M se basa en una teoría cuantitativa de la corriente ventral de la corteza visual. [7] [8] Comprender cómo funciona la corteza visual en el reconocimiento de objetos sigue siendo una tarea desafiante para la neurociencia. Los seres humanos y los primates pueden memorizar y reconocer objetos después de ver solo un par de ejemplos, a diferencia de cualquier sistema de visión artificial de última generación que generalmente requiere una gran cantidad de datos para reconocer objetos. Antes del uso de la neurociencia visual en la visión por computadora se ha limitado a la visión temprana para derivar algoritmos estereoscópicos (por ejemplo, [9]) y para justificar el uso de filtros DoG (derivado de Gauss) y más recientemente de filtros de Gabor. [10] [11] No se ha prestado atención real a características biológicamente plausibles de mayor complejidad. Si bien la visión por computadora convencional siempre se ha inspirado y desafiado por la visión humana, parece que nunca ha avanzado más allá de las primeras etapas de procesamiento en las celdas simples en V1 y V2. Aunque algunos de los sistemas inspirados, en diversos grados, por la neurociencia, se han probado en al menos algunas imágenes naturales, los modelos neurobiológicos de reconocimiento de objetos en la corteza aún no se han extendido para tratar con bases de datos de imágenes del mundo real. [12]

El marco de aprendizaje de la teoría M emplea una hipótesis novedosa sobre la función computacional principal de la corriente ventral: la representación de nuevos objetos / imágenes en términos de una firma, que es invariante a las transformaciones aprendidas durante la experiencia visual. Esto permite el reconocimiento de muy pocos ejemplos etiquetados, en el límite, solo uno.

La neurociencia sugiere que las funciones naturales para que las compute una neurona son un producto de puntos de alta dimensión entre un "parche de imagen" y otro parche de imagen (llamado plantilla) que se almacena en términos de pesos sinápticos (sinapsis por neurona). El modelo computacional estándar de una neurona se basa en un producto escalar y un umbral. Otra característica importante de la corteza visual es que consta de células simples y complejas. Esta idea fue propuesta originalmente por Hubel y Wiesel. [9] La teoría M emplea esta idea. Las celdas simples calculan productos escalares de una imagen y transformaciones de plantillas ⟨I, g i t k⟩ < displaystyle langle I, g_t ^ rangle> para i = 1,. . . , | G | < Displaystyle i = 1. | G |> (| G | < displaystyle | G |> es un número de celdas simples). Las células complejas son responsables de agrupar y calcular histogramas empíricos o momentos estadísticos de los mismos. Las neuronas pueden calcular la siguiente fórmula para construir un histograma:

Aplicaciones a la visión artificial Editar

En [ aclaración necesaria ] [13] [14] los autores aplicaron la teoría M al reconocimiento facial sin restricciones en fotografías naturales. A diferencia del método DAR (detección, alineación y reconocimiento), que maneja el desorden detectando objetos y recortándolos de cerca para que quede muy poco fondo, este enfoque logra la detección y alineación implícitamente almacenando transformaciones de imágenes de entrenamiento (plantillas) en lugar de hacerlo explícitamente. detectar y alinear o recortar caras en el momento de la prueba. Este sistema se construye de acuerdo con los principios de una teoría reciente de la invariancia en redes jerárquicas y puede evadir el problema del desorden generalmente problemático para los sistemas de alimentación directa. El sistema de extremo a extremo resultante logra una mejora drástica en el estado del arte en esta tarea de extremo a extremo, alcanzando el mismo nivel de rendimiento que los mejores sistemas que operan en imágenes alineadas y recortadas de cerca (sin datos de entrenamiento externos) . También funciona bien en dos conjuntos de datos más nuevos, similares a LFW, pero más difíciles: versión significativamente alterada (desalineada) de LFW y SUFR-W (por ejemplo, la precisión del modelo en la categoría LFW "no alineado y sin datos externos usados" es 87.55 ± 1,41% en comparación con APEM (emparejamiento elástico probabilístico adaptativo) de última generación: 81,70 ± 1,78%).

La teoría también se aplicó a una variedad de tareas de reconocimiento: desde el reconocimiento invariante de un solo objeto en el desorden hasta problemas de categorización multiclase en conjuntos de datos disponibles públicamente (CalTech5, CalTech101, MIT-CBCL) y tareas complejas de comprensión de escenas (callejeras) que requieren el reconocimiento de objetos basados ​​tanto en formas como en texturas (en el conjunto de datos StreetScenes). [12] El enfoque funciona realmente bien: tiene la capacidad de aprender de solo unos pocos ejemplos de entrenamiento y se demostró que supera a varios modelos de constelaciones de sistemas más complejos de última generación, el sistema jerárquico de detección de rostros basado en SVM. Un elemento clave en el enfoque es un nuevo conjunto de detectores de características tolerantes a escala y posición, que son biológicamente plausibles y concuerdan cuantitativamente con las propiedades de ajuste de las células a lo largo de la corriente ventral de la corteza visual. Estas características se adaptan al conjunto de entrenamiento, aunque también mostramos que un conjunto de características universales, aprendido de un conjunto de imágenes naturales no relacionadas con ninguna tarea de categorización, también logra un buen rendimiento.

Aplicaciones para el reconocimiento de voz Editar

Esta teoría también se puede extender al dominio del reconocimiento de voz. Como ejemplo, en [15] se propuso una extensión de una teoría para el aprendizaje no supervisado de representaciones visuales invariantes al dominio auditivo y se evaluó empíricamente su validez para la clasificación de sonidos del habla sonora. Los autores demostraron empíricamente que una representación de una sola capa, a nivel de teléfono, extraída de las características del habla base, mejora la precisión de la clasificación de segmentos y disminuye el número de ejemplos de entrenamiento en comparación con las características estándar espectrales y cepstrales para una tarea de clasificación acústica en un conjunto de datos TIMIT. [dieciséis]


Materiales y métodos

Datos experimentales

Para evaluar los métodos propuestos, se analizó un conjunto de datos disponible públicamente (introducido en Kay et al., 2008 y Naselaris et al., 2009). Todos los detalles experimentales se presentaron en los estudios mencionados anteriormente (Kay et al., 2008 Naselaris et al., 2009). Por lo tanto, aquí solo resumiremos brevemente el proceso de recopilación de datos.

El conjunto de datos contiene datos de entrenamiento y validación de las respuestas BOLD fMRI preprocesadas después de ser recolectadas de dos sujetos masculinos (S1 y S2), mientras veían imágenes naturales. La biblioteca de imágenes de capacitación incluyó 1.750 imágenes en escala de grises, cada una de las cuales se presentó dos veces. La biblioteca de imágenes de validación incluyó 120 imágenes en escala de grises diferentes, cada una de las cuales se presentó 13 veces. Las fotografías se presentaron en ensayos sucesivos de 4 s en cada ensayo, se presentó una fotografía durante 1 s, y el fondo gris se presentó durante 3 s. Cada presentación de 1 s consistió en una fotografía encendida y # x02013OFF & # x02013ON & # x02013OFF & # x02013ON donde ON corresponde a la presentación de la fotografía durante 200 ms y OFF corresponde a la presentación del fondo gris durante 200 ms. La recolección de datos se realizó utilizando un escáner de resonancia magnética 4-T Varian INOVA (Varian, Inc., Palo Alto, CA, Estados Unidos). Se obtuvieron dieciocho cortes coronales de la corteza occipital (grosor de corte = 2,25 mm, espacio de corte = 0,25 mm, campo de visión = 128 mm & # x000d7 128 mm). Las señales BOLD se recolectaron usando una secuencia de pulsos de eco-gradiente ponderada en T2 & # x02217, con cortes intercalados, de un solo disparo, de imagen eco-planar (resolución espacial = 2 mm & # x000d7 2 mm & # x000d7 2,5 mm, flip ángulo = 20 & # x000b0, TE = 28 ms, TR = 1 s, tamaño de matriz 64 & # x000d7 64).

Marco del modelo de codificación visual de GaborNet

El modelo GaborNet-VE adoptó un esquema de codificación basado en regiones en el que todos los vóxeles de un ROI en la corteza visual se codifican conjuntamente (Zhang et al., 2019). Por lo tanto, el modelo GaborNet-VE se entrenó con datos de resonancia magnética funcional recopilados de todos los ROI. El entrenamiento y las pruebas de modelos se implementaron en el marco de aprendizaje profundo, PyTorch (0.4.0). El modelo de codificación visual propuesto consta de una capa de entrada, una capa convolucional de Gabor, varias capas convolucionales regulares, varias capas completamente conectadas y una capa de salida. La función de activación de una capa convolucional se define como la transformación de la unidad lineal rectificada (ReLU) (Nair y Hinton, 2010) de una convolución bidimensional de la función de activación de la capa anterior. La función de activación de una capa completamente conectada se define como la transformación ReLU no lineal de la suma ponderada de las funciones de activación de la capa anterior. Además, la capa convolucional de Gabor puede ser de tipo real unidireccional o una combinación de dos sentidos de tipos reales e imaginarios. El número de filtros convolucionales de Gabor en esa capa es 64 o 128, y el tamaño de cada filtro es (7, 7), (9, 9), (11, 11) o (13, 13). El número de filtros convolucionales en una capa convolucional regular es 64 y el tamaño de cada filtro es (3, 3). En cada capa convolucional, el tamaño de la zancada es (2, 2) y se utiliza un relleno válido. El tamaño del mini-lote, el tipo de optimizador [descenso de gradiente estocástico o estimación de momento adaptativo (Adam) (Kingma y Ba, 2014)], el coeficiente de caída de la tasa de aprendizaje y el número y tipos de capas ocultas (convolucional de Gabor, convolucional regular, o capas completamente conectadas) se optimizaron con un esquema de validación cruzada de cinco veces para los datos de fMRI de V1 y V2. Los hiperparámetros optimizados de GaborNet-VE son los siguientes: la estructura de la capa oculta tiene una capa convolucional de Gabor bidireccional y dos capas convolucionales regulares, seguidas de una capa completamente conectada (Figura 1) el número de filtros convolucionales de Gabor es 128 (divididos por igual entre los tipos real e imaginario) el tamaño de cada filtro de Gabor es (9, 9) el tamaño del mini lote es 128 el optimizador de Adam se usa el coeficiente de caída de la tasa de aprendizaje es 0.001. Todos los demás hiperparámetros se mantuvieron fijos. Además, GaborNet-VE utilizó la estrategia de aprendizaje del modelo ETECR con optimización selectiva de funciones y voxels. Los detalles de esta estrategia de aprendizaje se muestran en la sección & # x0201cOptimization Strategy. & # X0201d

Modelo de codificación visual propuesto. (A) Marco modelo. Un estímulo visual se transforma en una respuesta de vóxel en dos etapas. Primero, el estímulo visual (S) se transforma en un espacio de características no lineal [F (s)] mediante un mapeo no lineal. Luego, el espacio de características se transforma en una respuesta de vóxel (R) mediante un mapeo lineal. (B) Un diagrama esquemático del modelo GaborNet-VE. La respuesta a una imagen natural se predice mediante un modelo de extremo a extremo que consta de una capa convolucional de Gabor, dos capas convolucionales regulares sucesivas y una capa completamente conectada. La capa convolucional de Gabor tiene 128 núcleos de Gabor con 64 núcleos para cada uno de los tipos reales e imaginarios. El tamaño de cada núcleo de Gabor es 9 & # x000d7 9. Además, cada capa convolucional regular tiene 64 núcleos de un tamaño de 3 & # x000d7 3. A cada capa convolucional le sigue una transformación de unidad lineal rectificada (ReLU). La capa completamente conectada calcula la suma ponderada de las entradas de la capa anterior seguida de una transformación ReLU.

Filtros de Gabor en la primera capa de codificación visual de GaborNet

Los filtros de Gabor, presentados por Dennis Gabor, son una familia de filtros de paso de banda, que aceptan o rechazan entradas dentro de un rango de frecuencias espaciales (Gabor, 1946). Estos filtros se han utilizado como una herramienta eficiente en diversas aplicaciones de análisis de patrones (Huang et al., 2004) para extraer diferentes tipos de texturas, bordes y características espectrales localizadas espacialmente. Los resultados recientes de visualización de redes profundas demostraron que los núcleos similares a Gabor se usaban principalmente en las primeras capas convolucionales de CNN entrenadas en conjuntos de datos de imágenes naturales a gran escala (Krizhevsky et al., 2017). La similitud entre Gabor y los núcleos convolucionales y la resistencia a errores inherente de las redes profundas representan la base para incorporar los núcleos de Gabor en la red propuesta. Por lo tanto, una capa convolucional de Gabor reemplaza la capa convolucional regular como la primera capa en nuestro modelo GaborNet-VE.

Un filtro de Gabor es un filtro gaussiano modulado por una onda sinusoidal compleja (Alekseev y Bobe, 2019). Este filtro es monótono y diferenciable y se puede definir matemáticamente de la siguiente manera:


1. & # X00A0Tasks: ¿Qué hacemos con nuestros ojos?

* Fei-Fei, L., Iyer, A., Koch, C. y Perona, P. (2007). ¿Qué percibimos en una mirada a una escena del mundo real? Diario de visión, 7 (1): 10 & # 821110

# * Tierra, M. & # X00A0F. (2009). Visión, movimientos oculares y comportamiento natural. Neurociencia visual, 26 (01): 51

* Donahue, J. y Grauman, K. Anotador Razones para el reconocimiento visual. Actas de la Conferencia Internacional sobre Visión por Computador (ICCV)

Parih, D. y Grauman, K. (2011). Atributos relativos. Actas de la Conferencia Internacional sobre Visión por Computador (ICCV)

Hayhoe, M. y Ballard, D. (2005). Movimientos oculares en comportamiento natural. Tendencias en ciencias cognitivas, 9 (4): 188 & # 8211194

2. & # x00A0Modelos generativos: ¿Cuál es la estructura causal de las imágenes?

# * Schwartz, O., Sejnowski, T. & # X00A0J. Y Dayan, P. (2009). Organización perceptiva en la ilusión de inclinación. Revista de visión, 9 (4): 19.1 & # 821120

* Tappen, M., Freeman, W. y Adelson, E. (2005). Recuperación de imágenes intrínsecas a partir de una única imagen. Análisis de patrones e inteligencia de máquinas, transacciones IEEE en, 27 (9): 1459 & # 82111472

# Zhu, S. (2003). Modelado estadístico y conceptualización de patrones visuales. Análisis de patrones e inteligencia de máquinas, transacciones IEEE en, 25 (6): 691 & # 8211712

2.1. & # X00A0 Representación neuronal de información visual: medición y significado

Logothetis, N. & # x00A0K. (2008). Qué podemos hacer y qué no podemos hacer con fMRI. Naturaleza, 453 (7197): 869 & # 8211878

Guillery, R. & # x00A0W. y Sherman, S. & # x00A0M. (2002). Funciones de relevo talámico y su papel en la comunicación corticocortical: generalizaciones del sistema visual. Neurona, 33 (2): 163 & # 8211175

# Grill-Spector, K. y Malach, R. (2004). LA CORTEZA VISUAL HUMANA. Revisión anual de neurociencia, 27 (1): 649 & # 8211677

# * Green, C. & # X00A0S., Pouget, A. y Bavelier, D. (2010). Inferencia probabilística mejorada como mecanismo de aprendizaje general con videojuegos de acción. Biología actual: CB, 20 (17): 1573 & # 82111579

Ma, W. & # x00A0J. y Pouget, A. (2006). Inferencia bayesiana con códigos poblacionales probabilísticos. Nature Neuroscience, 9 (11): 1432 & # 82111438

# Lennie, P. (1998). Unidades únicas y organización cortical visual. PERCEPCIÓN-LONDRES-, 27: 889 & # 8211936

Blake, R. (1995). Estrategias psicoanatómicas del estudio de la percepción visual humana. En visión temprana y más allá. Prensa del MIT

#Adelson, E. & # X00A0H. y Bergen, J. & # x00A0R. (1991). La función plóptica y los elementos de la visión temprana. En Landy, M. & # X00A0S. y Movshon, J. & # x00A0A., editores, Modelos computacionales de procesamiento visual. Prensa del MIT, Cambridge, MA

Callaway, E. (1998). Circuitos locales en la corteza visual primaria del mono macaco. Revisión anual de neurociencia, 21: 47 & # 821174

#Graf, A. B. & # X00A0A., Kohn, A., Jazayeri, M. y Movshon, J. & # X00A0A. (2011). Decodificación de la actividad de poblaciones neuronales en la corteza visual primaria de macacos. Nature Publishing Group, 14 (2): 239 & # 8211245

3. & # X00A0 Modelos de abajo hacia arriba

3.1. & # X00A0 Modelos ascendentes: reconocimiento

Riesenhuber, M. y Poggio, T. (1999). Modelos jerárquicos de reconocimiento de objetos en la corteza. Nature Neuroscience, 2: 1019 & # 82111025

#Thorpe, S., Fize, D. y Marlot, C. (1996). La velocidad de procesamiento en el sistema visual humano. Naturaleza, 381 (6582): 520 & # 8211522

# * Poggio, T. (2011). La magia computacional de la corriente ventral: hacia una teoría. Precedencias de la naturaleza

* Zeiler, M. & # X00A0D., Krishnan, D., Taylor, G. & # X00A0W. Y Fergus, R. (2010). Redes deconvolucionales. En 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), páginas 2528 & # 82112535. IEEE

Leibo, J., Mutch, J. y Rosasco, L. (2010). Aprendizaje de invariancias genéricas en el reconocimiento de objetos: traducción y escala

* Serre, T., Oliva, A. y Poggio, T. (2007). Una arquitectura Feedforward permite una categorización rápida. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 104 (15): 6424 & # 82116429

Alpert, S., Galun, M., Brandt, A. y Basri, R. (2011). Segmentación de imágenes por agregación probabilística de abajo hacia arriba e integración de señales. Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas

# * Sharon, E. (2006). Jerarquía y adaptabilidad en la segmentación de escenas visuales. Naturaleza, 442 (7104): 810 & # 8211813

Peelen, M. & # X00A0V., Fei-Fei, L. y Kastner, S. (2009). Mecanismos neuronales de la categorización rápida de escenas naturales en la corteza visual humana. Naturaleza, 460 (7251): 94 & # 821197

3.2. & # X00A0 Modelos de abajo hacia arriba: prominencia

Li Z. (1997) Dinámica cortical primaria para agrupación visual Presentado en el taller "Aspectos teóricos de la computación neuronal", mayo de 1997, Universidad de Ciencia y Tecnología de Hong Kong. Publicado en & quot; Aspectos teóricos de la computación neuronal & quot; K.M. Wong, I. King y D.Y. Yeung (eds) páginas 155-164. Springer-verlag enero de 1998 (pdf)

# * Soltani, A. y Koch, C. (2010). Cálculos de prominencia visual: mecanismos, restricciones y el efecto de la retroalimentación. Revista de neurociencia, 30 (38): 12831 & # 821112843

# * Zhang, X., Zhaoping, L., Zhou, T. y Fang, F. (2012). Actividades neuronales en V1 Cree un mapa de prominencia de abajo hacia arriba. Neurona, 73 (1): 183 & # 8211192

Esparcir, M. & # X00A0W. (2011). Codificación predictiva como modelo de la hipótesis del mapa de prominencia V1. Redes neuronales

# * Spratling, M. & # X00A0W. (2010). Codificación predictiva como modelo de propiedades de respuesta en el área cortical V1. Revista de neurociencia, 30 (9): 3531 & # 82113543

Itti, L. y Baldi, P. (2009). La sorpresa bayesiana atrae la atención humana. Investigación de la visión, 49 (10): 1295 & # 82111306

Zhang, L., Tong, M. & # X00A0H., Marks, T. & # X00A0K., Shan, H. y Cottrell, G. & # X00A0W. (2008). SUN: Un marco bayesiano para la prominencia utilizando estadísticas naturales. Revista de visión, 8 (7): 32 & # 821132

* Tatler, B. & # X00A0W., Hayhoe, M. & # X00A0M., Land, M. & # X00A0F., Y Ballard, D. (2011). Orientación ocular en la visión natural: reinterpretando la prominencia. Revista de visión, 11 (5): 5 & # 82115

* Zhang, L., Tong, M. & # X00A0H., Marks, T. & # X00A0K., Shan, H. y Cottrell, G. & # X00A0W. (2008). SUN: Un marco bayesiano para la prominencia utilizando estadísticas naturales. Revista de visión, 8 (7): 32 & # 821132

4. & # X00A0 Modelos de arriba hacia abajo

#Yuille, A. y Kersten, D. (2006). La visión como inferencia bayesiana: ¿análisis por síntesis? Tendencias en ciencias cognitivas, 10 (7): 301 & # 8211308

Ullman, S. (1995). Búsqueda de secuencias y contraflujos: un modelo computacional para el flujo de información bidireccional en la corteza visual. Corteza cerebral, 5 (1): 1 y # 821111

Lauritzen, S. y Spiegelhalter, D. (1988). Cálculos locales con probabilidades sobre estructuras gráficas y su aplicación a sistemas expertos. Revista de la Royal Statistical Society. Serie B (metodológica), 50 (2): 157 & # 8211224

# Mumford, D. (1992). Sobre la arquitectura computacional del neocórtex. Cibernética biológica, 66 (3): 241 & # 8211251

# * Epshtein, B., Lifshitz, I. y Ullman, S. (2008). Interpretación de imágenes mediante un único ciclo de abajo hacia arriba y hacia abajo. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 105 (38): 14298

Rao, R. P. & # X00A0N. y Ballard, D. (1999). Codificación predictiva en la corteza visual: una interpretación funcional de algunos efectos de campo receptivo extraclásicos. Nature Neuroscience, 2: 79 & # 821187

Jehee, Rothkopf, C., Beck, J. y Ballard, D. (2006). Aprendizaje de campos receptivos mediante feedback predictivo. Revista de fisiología-París, 100 (1-3): 125 & # 8211132

* Hinton, G. (2009). Aprender a representar información visual. Transacciones filosóficas de la Royal Society B: Ciencias biológicas, 365 (1537): 177 & # 8211184

# * Lamme, V. y Roelfsema, P. (2000). Los distintos modos de visión que ofrece el procesamiento feedforward y recurrente. Tendencias en neurociencias, 23 (11): 571 & # 8211579

* Ringach, D. & # X00A0L. (2009). Actividad cortical espontánea e impulsada: implicaciones para la computación. Opinión actual en neurobiología, 19 (4): 439 & # 8211444

Tu, Z., Chen, X., Yuille, A. y Zhu, S. (2005). Análisis de imágenes: unificando la segmentación, la detección y el reconocimiento. En International Journal of Computer Vision, páginas 113 & # 8211140. Univ Calif Los Angeles, Dept Stat, Los Ángeles, CA 90095 EE. UU.

* von & # x00A0der Heydt, R. (2002). Mecanismos de análisis de imágenes de la corteza visual. páginas 1 & # 821125

4.1. & # X00A0Modelos de arriba hacia abajo: & # 8220Shutup & # 8221 o & # 8220Stop chismes & # 8221?

# * Cardin, V., Friston, K. & # x00A0J. Y Zeki, S. (2011). Modulaciones de arriba hacia abajo en la vía de la forma visual reveladas con el modelado causal dinámico. Corteza cerebral, 21 (3): 550 & # 8211562

* Cichy, R. & # x00A0M., Heinzle, J. y Haynes, J. & # X00A0D. (2011). Imágenes y percepción comparten representaciones corticales de contenido y ubicación. Corteza cerebral

* Hsieh, P. & # X00A0J., Vul, E. y Kanwisher, N. (2010). El reconocimiento altera el patrón espacial de activación de fMRI en la corteza retinotópica temprana. Revista de neurofisiología, 103 (3): 1501 & # 82111507

* Alink, A., Schwiedrzik, C. & # X00A0M., Kohler, A., Singer, W. y Muckli, L. (2010).La previsibilidad del estímulo reduce las respuestas en la corteza visual primaria. Revista de neurociencia, 30 (8): 2960 & # 82112966

Furl, N., van Rijsbergen, N. & # x00A0J., Kiebel, S. & # X00A0J., Friston, K. & # X00A0J., Treves, A. y Dolan, R. & # X00A0J. (2010). Modulación de la percepción y la actividad cerebral mediante trayectorias predecibles de expresiones faciales. Corteza cerebral, 20 (3): 694 & # 8211703

Vanni, S. y Rosenstr m, T. (2010). Las interacciones locales no lineales en la corteza visual pueden reflejar una descorrelación global. Revista de neurociencia computacional, 30 (1): 109 & # 8211124

#Ban, H., Yamamoto, H., Fukunaga, M., Nakagoshi, A., Umeda, M., Tanaka, C. y Ejima, Y. (2006). Hacia un círculo común: modulación contextual interhemisférica en áreas visuales tempranas humanas. J. Neurosci. , 26 (34): 8804 & # 82118809

#Lee, T. & # X00A0S. y Mumford, D. (2003). Inferencia bayesiana jerárquica en la corteza visual. J Opt Soc Am A Opt Image Sci Vis, 20 (7): 1434 & # 82111448

#Friston, K. (2005). Una teoría de las respuestas corticales. Transacciones filosóficas de la Royal Society B: Ciencias biológicas, 360 (1456): 815 & # 8211836

4.2. & # X00A0Modelos de arriba hacia abajo: tareas

* McManus, J. N. & # X00A0J., Li, W. y Gilbert, C. & # X00A0D. (2011). Procesamiento adaptativo de formas en la corteza visual primaria. Actas de la Academia Nacional de Ciencias, 108 (24): 9739 & # 82119746

# * McMains, S. y Kastner, S. (2011). Interacciones de los mecanismos de arriba hacia abajo y de abajo hacia arriba en la corteza visual humana. Revista de neurociencia, 31 (2): 587 & # 8211597

* Williams, M. & # X00A0A., Baker, C. & # X00A0I., Op & # x00A0de Beeck, H. & # X00A0P., Shim, W. & # X00A0M., Dang, S., Triantafyllou, C., y Kanwisher, N. (2008). Retroalimentación de la información del objeto visual a la corteza retinotópica foveal. Nature Neuroscience, 11 (12): 1439 & # 82111445

* Harrison, S. & # x00A0A. y Tong, F. (2009). La decodificación revela el contenido de la memoria de trabajo visual en áreas visuales tempranas. Naturaleza, 458 (7238): 632 & # 8211635

Fang, F., Boyaci, H., Kersten, D. y Murray, S. & # X00A0O. (2008). Representación dependiente de la atención de una ilusión de tamaño en V1 humano. Biología actual: CB, 18 (21): 1707 & # 82111712

Fang, F., Boyaci, H. y Kersten, D. (2009). Selectividad de propiedad de la frontera en la corteza visual temprana humana y su modulación por la atención. Revista de neurociencia, 29 (2): 460 & # 8211465

Kaas, A., Weigelt, S., Roebroeck, A., Kohler, A. y Muckli, L. (2010). Imágenes de un objeto en movimiento: el papel de la corteza occipital y la MT / V5 + humana. NeuroImage, 49 (1): 794 & # 8211804

* Smith, F. & # x00A0W. y Muckli, L. (2010). Las áreas visuales tempranas no estimuladas llevan información sobre el contexto circundante. Actas de la Academia Nacional de Ciencias, 107 (46): 20099 & # 821120103

Weidner, R., Krummenacher, J., Reimann, B., Müller, H. & # X00A0J. Y Fink, G. & # X00A0R. (2009). Fuentes de control de arriba hacia abajo en la búsqueda visual. Revista de neurociencia cognitiva, 21 (11): 2100 & # 82112113

# * Neri, P. (2011). Las propiedades globales de las escenas naturales dan forma a las propiedades locales de los detectores de bordes humanos. i-Percepción

Gilbert, C. & # x00A0D. y Sigman, M. (2007). Estados cerebrales: influencias de arriba hacia abajo en el procesamiento sensorial. Neurona, 54 (5): 677 & # 8211696

* Chen, J., Zhou, T., Yang, H. y Fang, F. (2010). Dinámica cortical que subyace a la terminación facial en el sistema visual humano. Revista de neurociencia, 30 (49): 16692 & # 821116698

Rothkopf, C. & # x00A0A. y Ballard, D. & # x00A0H. (2009). Estadísticas de imágenes en el punto de mira durante la navegación humana. Neurociencia visual, 26 (01): 81

# * Egner, T., Monti, J. & # X00A0M. Y Summerfield, C. (2010). La expectativa y la sorpresa determinan las respuestas de la población neuronal en el flujo visual ventral. Revista de neurociencia, 30 (49): 16601 & # 821116608

#Li, W., Pich, V. y Gilbert, C. & # X00A0D. (2004). Aprendizaje perceptivo e influencias de arriba hacia abajo en la corteza visual primaria. Nat Neurosci, 7 (6): 651 & # 8211657

5. & # X00A0 Estructuras, procesos y rutinas de amplificación

Lee, T. & # x00A0S. y Yuille, A. & # x00A0L. (2006). Codificación eficiente de escenas visuales por agrupación y segmentación: predicciones teóricas y evidencia biológica. En Doya, K., Ishii, S., Pouget, A. y Rao, R. & # x00A0P., Editores, Bayesian Brain: Probabilistic Approaches to Neural Coding, páginas 1 & # 821129

* Ullman, S. (1984). Rutinas visuales. COGNICIÓN, 18 (1-3): 97 & # 8211159

5.1. & # X00A0 Estructuras, procesos y rutinas de amplificación: representación

Kovacs, I. y julesz, B. (1993). Una curva cerrada es mucho más que una incompleta: efecto del cierre en la segmentación del terreno de la figura. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 90 (16): 7495 & # 82117497

# * Kimia, B. & # X00A0B. (2003). Sobre el papel de la geometría medial en la visión humana. Revista de fisiología-París, 97 (2-3): 155 & # 8211190

#Roelfsema, P. & # x00A0R. (2006). Algoritmos corticales para agrupación perceptual. Annu Rev Neurosci, 29: 203 y # 8211227

#Connor, C. & # X00A0E., Brincat, S. & # X00A0L., Y Pasupathy, A. (2007). Transformación de información de forma en la vía ventral. Curr Opin Neurobiol, 17 (2): 140 & # 8211147

5.2. & # X00A0 Estructuras, procesos y rutinas de amplificador: Relleno

# * Anderson, B. & # X00A0L., O & # 8217Vari, J. y Barth, H. (2011). Síntesis de contorno no bayesiano. Biología actual: CB, 21 (6): 492 & # 8211496

Boyaci, H., Fang, F., Murray, S. & # X00A0O. Y Kersten, D. (2010). Procesamiento de la ligereza dependiente del agrupamiento perceptivo en la corteza visual temprana humana. Revista de visión, 10 (9): 1 & # 821112

Davey, M., Maddess, T. y Srinivasan, M. (1998). Las propiedades espacio-temporales del efecto Craik-O & # 8217Brien-Cornsweet son consistentes con & # 8217filling-in & # 8217. Investigación de la visión, 38 (13): 2037 & # 82112046

* Imber, M. & # X00A0L., Shapley, R. & # x00A0M., Y Rubin, N. (2005). Las diferencias en la percepción de la forma real e ilusoria reveladas por el enmascaramiento hacia atrás. Investigación de la visión, 45 (1): 91 & # 8211102

* Nishina, S., Okada, M. y Kawato, M. (2003). Dinámica espacio-temporal de la propagación en profundidad en una región uniforme. Investigación de la visión, 43 (24): 2493 & # 82112503

# * Dakin, S. & # X00A0C. y Bex, P. & # x00A0J. (2003). Las estadísticas de imagen natural median el brillo & # 8217 rellenando & # 8217. Actas de la Royal Society B: Biological Sciences, 270 (1531): 2341 & # 82112348

* Roe, A. & # X00A0W., Lu, H. & # X00A0D., Hung, C. & # X00A0P., Y Kaas, J. & # X00A0H. (2005). Procesamiento cortical de una ilusión de brillo. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 102 (10): 3869 & # 82113874

Haynes, J. & # x00A0D., Lotto, R. y Rees, G. (2004). Respuestas de la corteza visual humana a superficies uniformes. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 101 (12): 4286

Koch, C., Marroquin, J. y Yuille, A. (1986). Redes analógicas & # 8221neuronales & # 8221 en la visión temprana. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 83 (12): 4263 & # 82114267

#Roach, N. & # x00A0W., McGraw, P. & # x00A0V., Y Johnston, A. (2011). El movimiento visual induce una predicción progresiva del patrón espacial. Curr Biol, 21 (9): 740 y # 8211745

5.3. & # X00A0 Estructuras, procesos y rutinas amp: Transformaciones y relaciones

* Memisevic, R. y Hinton, G. (2007). Aprendizaje no supervisado de transformaciones de imágenes. Visión por computadora y reconocimiento de patrones, 2007. CVPR & # 821707. Conferencia IEEE en, páginas 1 y # 82118

Bergmann, U. y von & # x00A0der Malsburg, C. (2011). Autoorganización de redes topográficas bilineales para reconocimiento invariante. Computación neuronal, páginas 1 y # 821128

Grimes, D. y Rao, R. P. & # X00A0N. (2003). Un modelo bilineal para codificación dispersa. Avances en los sistemas de procesamiento de información neuronal, páginas 1311 & # 82111318

* Tenenbaum, J. & # X00A0B. y Freeman, W. (2000). Separando estilo y contenido con modelos bilineales. Computación neuronal, 12 (6): 1247 & # 82111283

* Geman, S. (2006). Invarianza y selectividad en la vía visual ventral. Revista de fisiología-París

5.4. & # X00A0 Estructuras, procesos y rutinas de amplificación: programas

# * Olshausen, B. & # x00A0A., Anderson, C. & # x00A0H., Y Van & # x00A0Essen, D. (1993). Un modelo neurobiológico de atención visual y reconocimiento de patrones invariantes basado en el enrutamiento dinámico de información. The Journal of Neuroscience, 13 (11): 4700 & # 82114719

* Ommer, B. y Buhmann, J. & # X00A0M. (2007). Aprender la naturaleza compositiva de los objetos visuales. Visión por computadora y reconocimiento de patrones, 2007. CVPR & # 821707. Conferencia IEEE en, páginas 1 y # 82118

* Jin, Y. y Geman, S. (2006). Contexto y jerarquía en un modelo de imagen probabilístico. Visión por computadora y reconocimiento de patrones, 2006 IEEE Computer Society Conference en, 2: 2145 & # 82112152

#Roelfsema, P., Lamme, V. & # x00A0A. Y Spekreijse, H. (2000). La implementación de rutinas visuales. Investigación de la visión, 40 (10-12): 1385 & # 82111411

#Zylberberg, A., Dehaene, S., Roelfsema, P. & # x00A0R. Y Sigman, M. (2011). La máquina de Turing humana: un marco neuronal para programas mentales. Tendencias en ciencias cognitivas, 15 (7): 293 & # 8211300

6. & # X00A0 Estructuras, procesos y rutinas de amplificación: aprendizaje

* Roelfsema, P. & # x00A0R., Van Ooyen, A. y Watanabe, T. (2010). Reglas de aprendizaje perceptual basadas en reforzadores y atención. Tendencias en ciencias cognitivas, 14 (2): 64 & # 821171

* Kahnt, T., Grueschow, M., Speck, O. y Haynes, J.-D. (2011). Aprendizaje perceptual y toma de decisiones en la corteza frontal medial humana. Neurona, 70 (3): 549 & # 8211559

* Zhu, L. & # X00A0L., Chen, Y., Torralba, A., Freeman, W. y Yuille, A. (2010). Compartir partes y apariencias: modelos de composición recursivos para la detección de múltiples objetos y vistas múltiples. páginas 1 & # 82118

* Song, Y., Hu, S., Li, W. y Liu, J. (2010). El papel del contexto de tareas de arriba hacia abajo en el aprendizaje de la percepción de objetos. Revista de neurociencia, 30 (29): 9869 & # 82119876

# * Kourtzi, Z. y Connor, C. & # X00A0E. (2011). Representaciones neuronales para la percepción de objetos: estructura, categoría y codificación adaptativa. Revisión anual de neurociencia, 34 (1): 45 & # 821167

* Fleuret, F., Li, T., Dubout, C., Wampler, E. & # X00A0K., Yantis, S. y Geman, D. (2011). Comparación de máquinas y humanos en una prueba de categorización visual. procedimientos de la Academia Nacional de Ciencias

# * Shibata, K., Watanabe, T., Sasaki, Y. y Kawato, M. (2011). Aprendizaje perceptivo iniciado por neurofeedback de resonancia magnética funcional decodificada sin presentación de estímulo. Ciencia, 334 (6061): 1413 & # 82111415

# Fiser, J. (2009). Aprendizaje perceptivo y aprendizaje representativo en humanos y animales. Learn Behav, 37 (2): 141 & # 8211153

Referencias

[Adelson y Bergen, 1991] & # x00A0 & # x00A0 & # x00A0 Adelson, E. & # X00A0H. y Bergen, J. & # x00A0R. (1991). La función plóptica y los elementos de la visión temprana. En Landy, M. & # X00A0S. y Movshon, J. & # x00A0A., editores, Modelos computacionales de procesamiento visual. MIT Press, Cambridge, MA.

[Alink et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Alink, A., Schwiedrzik, C. & # X00A0M., Kohler, A., Singer, W. y Muckli, L. (2010). La previsibilidad del estímulo reduce las respuestas en la corteza visual primaria. Revista de neurociencia, 30 (8): 2960 & # 82112966.

[Alpert et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Alpert, S., Galun, M., Brandt, A. y Basri, R. (2011). Segmentación de imágenes por agregación probabilística de abajo hacia arriba e integración de señales. Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas.

[Anderson et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Anderson, B. & # X00A0L., O & # 8217Vari, J. y Barth, H. (2011). Síntesis de contorno no bayesiano. Biología actual: CB, 21 (6): 492 & # 8211496.

[Ban et & # x00A0al., 2006] & # x00A0 & # x00A0 & # x00A0 Ban, H., Yamamoto, H., Fukunaga, M., Nakagoshi, A., Umeda, M., Tanaka, C. y Ejima, Y . (2006). Hacia un círculo común: modulación contextual interhemisférica en áreas visuales tempranas humanas. J. Neurosci. , 26 (34): 8804 & # 82118809.

[Bergmann y von & # x00A0der Malsburg, 2011] & # x00A0 & # x00A0 & # x00A0 Bergmann, U. y von & # x00A0der Malsburg, C. (2011). Autoorganización de redes topográficas bilineales para reconocimiento invariante. Computación neuronal, páginas 1 y # 821128.

[Blake, 1995] & # x00A0 & # x00A0 & # x00A0 Blake, R. (1995). Estrategias psicoanatómicas del estudio de la percepción visual humana. En visión temprana y más allá. MIT Press.

[Boyaci et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Boyaci, H., Fang, F., Murray, S. & # X00A0O. Y Kersten, D. (2010). Procesamiento de la ligereza dependiente del agrupamiento perceptivo en la corteza visual temprana humana. Revista de visión, 10 (9): 1 & # 821112.

[Callaway, 1998] & # x00A0 & # x00A0 & # x00A0 Callaway, E. (1998). Circuitos locales en la corteza visual primaria del mono macaco. Revisión anual de neurociencia, 21: 47 & # 821174.

[Cardin et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Cardin, V., Friston, K. & # X00A0J. Y Zeki, S. (2011). Modulaciones de arriba hacia abajo en la vía de la forma visual reveladas con el modelado causal dinámico. Corteza cerebral, 21 (3): 550 & # 8211562.

[Chen et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Chen, J., Zhou, T., Yang, H. y Fang, F. (2010). Dinámica cortical subyacente a la terminación facial en el sistema visual humano. Revista de neurociencia, 30 (49): 16692 & # 821116698.

[Cichy et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Cichy, R. & # X00A0M., Heinzle, J. y Haynes, J. & # X00A0D. (2011). Imágenes y percepción comparten representaciones corticales de contenido y ubicación. Corteza cerebral .

[Connor et & # x00A0al., 2007] & # x00A0 & # x00A0 & # x00A0 Connor, C. & # X00A0E., Brincat, S. & # X00A0L., Y Pasupathy, A. (2007). Transformación de información de forma en la vía ventral. Curr Opin Neurobiol, 17 (2): 140 & # 8211147.

[Dakin y Bex, 2003] & # x00A0 & # x00A0 & # x00A0 Dakin, S. & # X00A0C. y Bex, P. & # x00A0J. (2003). Las estadísticas de imagen natural median el brillo & # 8217 rellenando & # 8217. Actas de la Royal Society B: Biological Sciences, 270 (1531): 2341 & # 82112348.

[Davey et & # x00A0al., 1998] & # x00A0 & # x00A0 & # x00A0 Davey, M., Maddess, T. y Srinivasan, M. (1998). Las propiedades espacio-temporales del efecto Craik-O & # 8217Brien-Cornsweet son consistentes con & # 8217filling-in & # 8217. Investigación de la visión, 38 (13): 2037 & # 82112046.

[Donahue y Grauman,] & # x00A0 & # x00A0 & # x00A0 Donahue, J. y Grauman, K. Anotador Razones para el reconocimiento visual. Actas de la Conferencia Internacional sobre Visión por Computador (ICCV).

[Egner et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Egner, T., Monti, J. & # X00A0M. Y Summerfield, C. (2010). La expectativa y la sorpresa determinan las respuestas de la población neuronal en el flujo visual ventral. Revista de neurociencia, 30 (49): 16601 & # 821116608.

[Epshtein et & # x00A0al., 2008] & # x00A0 & # x00A0 & # x00A0 Epshtein, B., Lifshitz, I. y Ullman, S. (2008). Interpretación de imágenes mediante un único ciclo de abajo hacia arriba y hacia abajo. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 105 (38): 14298.

[Fang et & # x00A0al., 2009] & # x00A0 & # x00A0 & # x00A0 Fang, F., Boyaci, H. y Kersten, D. (2009). Selectividad de propiedad de la frontera en la corteza visual temprana humana y su modulación por atención. Revista de neurociencia, 29 (2): 460 & # 8211465.

[Fang et & # x00A0al., 2008] & # x00A0 & # x00A0 & # x00A0 Fang, F., Boyaci, H., Kersten, D. y Murray, S. & # X00A0O. (2008). Representación dependiente de la atención de una ilusión de tamaño en V1 humano. Biología actual: CB, 18 (21): 1707 & # 82111712.

[Fei-Fei et & # x00A0al., 2007] & # x00A0 & # x00A0 & # x00A0 Fei-Fei, L., Iyer, A., Koch, C. y Perona, P. (2007). ¿Qué percibimos en una mirada a una escena del mundo real? Revista de visión, 7 (1): 10 & # 821110.

[Fiser, 2009] & # x00A0 & # x00A0 & # x00A0 Fiser, J. (2009). Aprendizaje perceptivo y aprendizaje representativo en humanos y animales. Learn Behav, 37 (2): 141 & # 8211153.

[Fleuret et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Fleuret, F., Li, T., Dubout, C., Wampler, E. & # X00A0K., Yantis, S. y Geman, D. (2011). Comparación de máquinas y humanos en una prueba de categorización visual. Procedimientos de la Academia Nacional de Ciencias .

[Friston, 2005] & # x00A0 & # x00A0 & # x00A0 Friston, K. (2005). Una teoría de las respuestas corticales. Transacciones filosóficas de la Royal Society B: Ciencias biológicas, 360 (1456): 815 & # 8211836.

[Furl et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Furl, N., van Rijsbergen, N. & # x00A0J., Kiebel, S. & # X00A0J., Friston, K. & # X00A0J., Treves , A. y Dolan, R. & # x00A0J. (2010). Modulación de la percepción y la actividad cerebral mediante trayectorias predecibles de expresiones faciales. Corteza cerebral, 20 (3): 694 & # 8211703.

[Geman, 2006] & # x00A0 & # x00A0 & # x00A0 Geman, S. (2006). Invarianza y selectividad en la vía visual ventral. Revista de fisiología-París.

[Gilbert y Sigman, 2007] & # x00A0 & # x00A0 & # x00A0 Gilbert, C. & # X00A0D. y Sigman, M. (2007). Estados cerebrales: influencias de arriba hacia abajo en el procesamiento sensorial. Neuron, 54 (5): 677 & # 8211696.

[Graf et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Graf, A. B. & # X00A0A., Kohn, A., Jazayeri, M., y Movshon, J. & # X00A0A. (2011). Decodificación de la actividad de poblaciones neuronales en la corteza visual primaria de macacos. Nature Publishing Group, 14 (2): 239 & # 8211245.

[Green et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Green, C. & # X00A0S., Pouget, A. y Bavelier, D. (2010). Inferencia probabilística mejorada como mecanismo de aprendizaje general con videojuegos de acción.Biología actual: CB, 20 (17): 1573 & # 82111579.

[Grill-Spector y Malach, 2004] & # x00A0 & # x00A0 & # x00A0 Grill-Spector, K. y Malach, R. (2004). LA CORTEZA VISUAL HUMANA. Revisión anual de neurociencia, 27 (1): 649 & # 8211677.

[Grimes y Rao, 2003] & # x00A0 & # x00A0 & # x00A0 Grimes, D. y Rao, R. P. & # X00A0N. (2003). Un modelo bilineal para codificación dispersa. Avances en los sistemas de procesamiento de información neuronal, páginas 1311 & # 82111318.

[Guillery y Sherman, 2002] & # x00A0 & # x00A0 & # x00A0 Guillery, R. & # X00A0W. y Sherman, S. & # x00A0M. (2002). Funciones de relevo talámico y su papel en la comunicación corticocortical: generalizaciones del sistema visual. Neurona, 33 (2): 163 & # 8211175.

[Harrison y Tong, 2009] & # x00A0 & # x00A0 & # x00A0 Harrison, S. & # X00A0A. y Tong, F. (2009). La decodificación revela el contenido de la memoria de trabajo visual en áreas visuales tempranas. Naturaleza, 458 (7238): 632 & # 8211635.

[Hayhoe y Ballard, 2005] & # x00A0 & # x00A0 & # x00A0 Hayhoe, M. y Ballard, D. (2005). Movimientos oculares en comportamiento natural. Tendencias en ciencias cognitivas, 9 (4): 188 & # 8211194.

[Haynes et & # x00A0al., 2004] & # x00A0 & # x00A0 & # x00A0 Haynes, J. & # X00A0D., Lotto, R. y Rees, G. (2004). Respuestas de la corteza visual humana a superficies uniformes. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 101 (12): 4286.

[Hinton, 2009] & # x00A0 & # x00A0 & # x00A0 Hinton, G. (2009). Aprender a representar información visual. Transacciones filosóficas de la Royal Society B: Ciencias biológicas, 365 (1537): 177 & # 8211184.

[Hsieh et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Hsieh, P. & # X00A0J., Vul, E. y Kanwisher, N. (2010). El reconocimiento altera el patrón espacial de activación de fMRI en la corteza retinotópica temprana. Revista de neurofisiología, 103 (3): 1501 & # 82111507.

[Imber et & # x00A0al., 2005] & # x00A0 & # x00A0 & # x00A0 Imber, M. & # X00A0L., Shapley, R. & # x00A0M., Y Rubin, N. (2005). Las diferencias en la percepción de la forma real e ilusoria reveladas por el enmascaramiento hacia atrás. Investigación de la visión, 45 (1): 91 & # 8211102.

[Itti y Baldi, 2009] & # x00A0 & # x00A0 & # x00A0 Itti, L. y Baldi, P. (2009). La sorpresa bayesiana atrae la atención humana. Investigación de la visión, 49 (10): 1295 & # 82111306.

[Jehee et & # x00A0al., 2006] & # x00A0 & # x00A0 & # x00A0 Jehee, Rothkopf, C., Beck, J. y Ballard, D. (2006). Aprendizaje de campos receptivos mediante feedback predictivo. Revista de fisiología-París, 100 (1-3): 125 & # 8211132.

[Jin y Geman, 2006] & # x00A0 & # x00A0 & # x00A0 Jin, Y. y Geman, S. (2006). Contexto y jerarquía en un modelo de imagen probabilístico. Visión por computadora y reconocimiento de patrones, 2006 IEEE Computer Society Conference, 2: 2145 & # 82112152.

[Kaas et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Kaas, A., Weigelt, S., Roebroeck, A., Kohler, A. y Muckli, L. (2010). Imágenes de un objeto en movimiento: el papel de la corteza occipital y la MT / V5 + humana. NeuroImage, 49 (1): 794 & # 8211804.

[Kahnt et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Kahnt, T., Grueschow, M., Speck, O. y Haynes, J.-D. (2011). Aprendizaje perceptual y toma de decisiones en la corteza frontal medial humana. Neurona, 70 (3): 549 & # 8211559.

[Kimia, 2003] & # x00A0 & # x00A0 & # x00A0 Kimia, B. & # X00A0B. (2003). Sobre el papel de la geometría medial en la visión humana. Revista de fisiología-París, 97 (2-3): 155 & # 8211190.

[Koch et & # x00A0al., 1986] & # x00A0 & # x00A0 & # x00A0 Koch, C., Marroquin, J. y Yuille, A. (1986). Redes analógicas & # 8221neuronales & # 8221 en la visión temprana. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 83 (12): 4263 & # 82114267.

[Kourtzi y Connor, 2011] & # x00A0 & # x00A0 & # x00A0 Kourtzi, Z. y Connor, C. & # X00A0E. (2011). Representaciones neuronales para la percepción de objetos: estructura, categoría y codificación adaptativa. Revisión anual de neurociencia, 34 (1): 45 & # 821167.

[Kovacs y julesz, 1993] & # x00A0 & # x00A0 & # x00A0 Kovacs, I. y julesz, B. (1993). Una curva cerrada es mucho más que una incompleta: efecto del cierre en la segmentación del terreno de la figura. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 90 (16): 7495 & # 82117497.

[Lamme y Roelfsema, 2000] & # x00A0 & # x00A0 & # x00A0 Lamme, V. y Roelfsema, P. (2000). Los distintos modos de visión que ofrece el procesamiento feedforward y recurrente. Tendencias en neurociencias, 23 (11): 571 & # 8211579.

[Tierra, 2009] & # x00A0 & # x00A0 & # x00A0 Tierra, M. & # X00A0F. (2009). Visión, movimientos oculares y comportamiento natural. Neurociencia visual, 26 (01): 51.

[Lauritzen y Spiegelhalter, 1988] & # x00A0 & # x00A0 & # x00A0 Lauritzen, S. y Spiegelhalter, D. (1988). Cálculos locales con probabilidades sobre estructuras gráficas y su aplicación a sistemas expertos. Revista de la Royal Statistical Society. Serie B (metodológica), 50 (2): 157 & # 8211224.

[Lee y Mumford, 2003] & # x00A0 & # x00A0 & # x00A0 Lee, T. & # X00A0S. y Mumford, D. (2003). Inferencia bayesiana jerárquica en la corteza visual. J Opt Soc Am A Opt Image Sci Vis, 20 (7): 1434 & # 82111448.

[Lee y Yuille, 2006] & # x00A0 & # x00A0 & # x00A0 Lee, T. & # X00A0S. y Yuille, A. & # x00A0L. (2006). Codificación eficiente de escenas visuales por agrupación y segmentación: predicciones teóricas y evidencia biológica. En Doya, K., Ishii, S., Pouget, A. y Rao, R. & # x00A0P., Editores, Bayesian Brain: Probabilistic Approaches to Neural Coding, páginas 1 & # 821129.

[Leibo et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Leibo, J., Mutch, J. y Rosasco, L. (2010). Aprendizaje de invariancias genéricas en el reconocimiento de objetos: traducción y escala.

[Lennie, 1998] & # x00A0 & # x00A0 & # x00A0 Lennie, P. (1998). Unidades únicas y organización cortical visual. PERCEPCIÓN-LONDRES-, 27: 889 & # 8211936.

[Li et & # x00A0al., 2004] & # x00A0 & # x00A0 & # x00A0 Li, W., Pich, V. y Gilbert, C. & # x00A0D. (2004). Aprendizaje perceptivo e influencias de arriba hacia abajo en la corteza visual primaria. Nat Neurosci, 7 (6): 651 & # 8211657.

[Logothetis, 2008] & # x00A0 & # x00A0 & # x00A0 Logothetis, N. & # x00A0K. (2008). Qué podemos hacer y qué no podemos hacer con fMRI. Naturaleza, 453 (7197): 869 & # 8211878.

[Ma y Pouget, 2006] & # x00A0 & # x00A0 & # x00A0 Ma, W. & # X00A0J. y Pouget, A. (2006). Inferencia bayesiana con códigos poblacionales probabilísticos. Nature Neuroscience, 9 (11): 1432 & # 82111438.

[McMains y Kastner, 2011] & # x00A0 & # x00A0 & # x00A0 McMains, S. y Kastner, S. (2011). Interacciones de los mecanismos de arriba hacia abajo y de abajo hacia arriba en la corteza visual humana. Revista de neurociencia, 31 (2): 587 & # 8211597.

[McManus et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 McManus, J. N. & # X00A0J., Li, W. y Gilbert, C. & # X00A0D. (2011). Procesamiento adaptativo de formas en la corteza visual primaria. Actas de la Academia Nacional de Ciencias, 108 (24): 9739 & # 82119746.

[Memisevic y Hinton, 2007] & # x00A0 & # x00A0 & # x00A0 Memisevic, R. y Hinton, G. (2007). Aprendizaje no supervisado de transformaciones de imágenes. Visión por computadora y reconocimiento de patrones, 2007. CVPR & # 821707. Conferencia IEEE en, páginas 1 & # 82118.

[Mumford, 1992] & # x00A0 & # x00A0 & # x00A0 Mumford, D. (1992). Sobre la arquitectura computacional del neocórtex. Cibernética biológica, 66 (3): 241 & # 8211251.

[Neri, 2011] & # x00A0 & # x00A0 & # x00A0 Neri, P. (2011). Las propiedades globales de las escenas naturales dan forma a las propiedades locales de los detectores de bordes humanos. i-Percepción.

[Nishina et & # x00A0al., 2003] & # x00A0 & # x00A0 & # x00A0 Nishina, S., Okada, M. y Kawato, M. (2003). Dinámica espacio-temporal de la propagación en profundidad en una región uniforme. Investigación de la visión, 43 (24): 2493 & # 82112503.

[Olshausen et & # x00A0al., 1993] & # x00A0 & # x00A0 & # x00A0 Olshausen, B. & # X00A0A., Anderson, C. & # X00A0H., Y Van & # x00A0Essen, D. (1993). Un modelo neurobiológico de atención visual y reconocimiento de patrones invariantes basado en el enrutamiento dinámico de información. The Journal of Neuroscience, 13 (11): 4700 & # 82114719.

[Ommer y Buhmann, 2007] & # x00A0 & # x00A0 & # x00A0 Ommer, B. y Buhmann, J. & # X00A0M. (2007). Aprender la naturaleza compositiva de los objetos visuales. Visión por computadora y reconocimiento de patrones, 2007. CVPR & # 821707. Conferencia IEEE en, páginas 1 & # 82118.

[Parih y Grauman, 2011] & # x00A0 & # x00A0 & # x00A0 Parih, D. y Grauman, K. (2011). Atributos relativos. Actas de la Conferencia Internacional sobre Visión por Computador (ICCV).

[Peelen et & # x00A0al., 2009] & # x00A0 & # x00A0 & # x00A0 Peelen, M. & # X00A0V., Fei-Fei, L. y Kastner, S. (2009). Mecanismos neuronales de la categorización rápida de escenas naturales en la corteza visual humana. Naturaleza, 460 (7251): 94 & # 821197.

[Poggio, 2011] & # x00A0 & # x00A0 & # x00A0 Poggio, T. (2011). La magia computacional de la corriente ventral: hacia una teoría. Precedencias de la naturaleza.

[Rao y Ballard, 1999] & # x00A0 & # x00A0 & # x00A0 Rao, R. P. & # X00A0N. y Ballard, D. (1999). Codificación predictiva en la corteza visual: una interpretación funcional de algunos efectos de campo receptivo extraclásicos. Nature Neuroscience, 2: 79 & # 821187.

[Riesenhuber y Poggio, 1999] & # x00A0 & # x00A0 & # x00A0 Riesenhuber, M. y Poggio, T. (1999). Modelos jerárquicos de reconocimiento de objetos en la corteza. Nature Neuroscience, 2: 1019 & # 82111025.

[Ringach, 2009] & # x00A0 & # x00A0 & # x00A0 Ringach, D. & # X00A0L. (2009). Actividad cortical espontánea e impulsada: implicaciones para la computación. Opinión actual en neurobiología, 19 (4): 439 & # 8211444.

[Roach et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Roach, N. & # x00A0W., McGraw, P. & # x00A0V., Y Johnston, A. (2011). El movimiento visual induce una predicción progresiva del patrón espacial. Curr Biol, 21 (9): 740 & # 8211745.

[Roe et & # x00A0al., 2005] & # x00A0 & # x00A0 & # x00A0 Roe, A. & # X00A0W., Lu, H. & # X00A0D., Hung, C. & # X00A0P., Y Kaas, J. & # x00A0H. (2005). Procesamiento cortical de una ilusión de brillo. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 102 (10): 3869 & # 82113874.

[Roelfsema et & # x00A0al., 2000] & # x00A0 & # x00A0 & # x00A0 Roelfsema, P., Lamme, V. & # x00A0A., Y Spekreijse, H. (2000). La implementación de rutinas visuales. Investigación de la visión, 40 (10-12): 1385 & # 82111411.

[Roelfsema, 2006] & # x00A0 & # x00A0 & # x00A0 Roelfsema, P. & # x00A0R. (2006). Algoritmos corticales para agrupación perceptual. Annu Rev Neurosci, 29: 203 & # 8211227.

[Roelfsema et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Roelfsema, P. & # x00A0R., Van Ooyen, A. y Watanabe, T. (2010). Reglas de aprendizaje perceptual basadas en reforzadores y atención. Tendencias en ciencias cognitivas, 14 (2): 64 & # 821171.

[Rothkopf y Ballard, 2009] & # x00A0 & # x00A0 & # x00A0 Rothkopf, C. & # X00A0A. y Ballard, D. & # x00A0H. (2009). Estadísticas de imágenes en el punto de mira durante la navegación humana. Neurociencia visual, 26 (01): 81.

[Schwartz et & # x00A0al., 2009] & # x00A0 & # x00A0 & # x00A0 Schwartz, O., Sejnowski, T. & # X00A0J. Y Dayan, P. (2009). Organización perceptiva en la ilusión de inclinación. Revista de visión, 9 (4): 19.1 & # 821120.

[Serre et & # x00A0al., 2007] & # x00A0 & # x00A0 & # x00A0 Serre, T., Oliva, A. y Poggio, T. (2007). Una arquitectura Feedforward permite una categorización rápida. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 104 (15): 6424 & # 82116429.

[Sharon, 2006] & # x00A0 & # x00A0 & # x00A0 Sharon, E. (2006). Jerarquía y adaptabilidad en la segmentación de escenas visuales. Naturaleza, 442 (7104): 810 & # 8211813.

[Shibata et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Shibata, K., Watanabe, T., Sasaki, Y. y Kawato, M. (2011). Aprendizaje perceptivo iniciado por neurofeedback de resonancia magnética funcional decodificada sin presentación de estímulo. Ciencia, 334 (6061): 1413 & # 82111415.

[Smith y Muckli, 2010] & # x00A0 & # x00A0 & # x00A0 Smith, F. & # X00A0W. y Muckli, L. (2010). Las áreas visuales tempranas no estimuladas llevan información sobre el contexto circundante. Actas de la Academia Nacional de Ciencias, 107 (46): 20099 & # 821120103.

[Soltani y Koch, 2010] & # x00A0 & # x00A0 & # x00A0 Soltani, A. y Koch, C. (2010). Cálculos de prominencia visual: mecanismos, restricciones y el efecto de la retroalimentación. Revista de neurociencia, 30 (38): 12831 & # 821112843.

[Song et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Song, Y., Hu, S., Li, W. y Liu, J. (2010). El papel del contexto de tareas de arriba hacia abajo en el aprendizaje de la percepción de objetos. Revista de neurociencia, 30 (29): 9869 & # 82119876.

[Spratling, 2010] & # x00A0 & # x00A0 & # x00A0 Spratling, M. & # X00A0W. (2010). Codificación predictiva como modelo de propiedades de respuesta en el área cortical V1. Revista de neurociencia, 30 (9): 3531 & # 82113543.

[Spratling, 2011] & # x00A0 & # x00A0 & # x00A0 Spratling, M. & # X00A0W. (2011). Codificación predictiva como modelo de la hipótesis del mapa de prominencia V1. Redes neuronales .

[Tappen et & # x00A0al., 2005] & # x00A0 & # x00A0 & # x00A0 Tappen, M., Freeman, W. y Adelson, E. (2005). Recuperación de imágenes intrínsecas a partir de una única imagen. Análisis de patrones e inteligencia de máquinas, transacciones IEEE en, 27 (9): 1459 & # 82111472.

[Tatler et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Tatler, B. & # X00A0W., Hayhoe, M. & # X00A0M., Land, M. & # X00A0F., Y Ballard, D. (2011 ). Orientación ocular en la visión natural: reinterpretando la prominencia. Revista de visión, 11 (5): 5 & # 82115.

[Tenenbaum y Freeman, 2000] & # x00A0 & # x00A0 & # x00A0 Tenenbaum, J. & # X00A0B. y Freeman, W. (2000). Separando estilo y contenido con modelos bilineales. Computación neuronal, 12 (6): 1247 & # 82111283.

[Thorpe et & # x00A0al., 1996] & # x00A0 & # x00A0 & # x00A0 Thorpe, S., Fize, D. y Marlot, C. (1996). La velocidad de procesamiento en el sistema visual humano. Naturaleza, 381 (6582): 520 & # 8211522.

[Tu et & # x00A0al., 2005] & # x00A0 & # x00A0 & # x00A0 Tu, Z., Chen, X., Yuille, A. y Zhu, S. (2005). Análisis de imágenes: unificando la segmentación, la detección y el reconocimiento. En International Journal of Computer Vision, páginas 113 & # 8211140. Univ Calif Los Ángeles, Departamento de Estadística, Los Ángeles, CA 90095 EE. UU.

[Ullman, 1984] & # x00A0 & # x00A0 & # x00A0 Ullman, S. (1984). Rutinas visuales. COGNICIÓN, 18 (1-3): 97 & # 8211159.

[Ullman, 1995] & # x00A0 & # x00A0 & # x00A0 Ullman, S. (1995). Búsqueda de secuencias y contraflujos: un modelo computacional para el flujo de información bidireccional en la corteza visual. Corteza cerebral, 5 (1): 1 & # 821111.

[Vanni y Rosenstr m, 2010] & # x00A0 & # x00A0 & # x00A0 Vanni, S. y Rosenstr m, T. (2010). Las interacciones locales no lineales en la corteza visual pueden reflejar una descorrelación global. Revista de neurociencia computacional, 30 (1): 109 & # 8211124.

[von & # x00A0der Heydt, 2002] & # x00A0 & # x00A0 & # x00A0 von & # x00A0der Heydt, R. (2002). Mecanismos de análisis de imágenes de la corteza visual. páginas 1 y # 821125.

[Weidner et & # x00A0al., 2009] & # x00A0 & # x00A0 & # x00A0 Weidner, R., Krummenacher, J., Reimann, B., Müller, H. & # x00A0J. Y Fink, G. & # X00A0R . (2009). Fuentes de control de arriba hacia abajo en la búsqueda visual. Revista de neurociencia cognitiva, 21 (11): 2100 & # 82112113.

[Williams et & # x00A0al., 2008] & # x00A0 & # x00A0 & # x00A0 Williams, M. & # X00A0A., Baker, C. & # X00A0I., Op & # x00A0de Beeck, H. & # X00A0P., Shim, W. & # x00A0M., Dang, S., Triantafyllou, C. y Kanwisher, N. (2008). Retroalimentación de la información del objeto visual a la corteza retinotópica foveal. Nature Neuroscience, 11 (12): 1439 & # 82111445.

[Yuille y Kersten, 2006] & # x00A0 & # x00A0 & # x00A0 Yuille, A. y Kersten, D. (2006). La visión como inferencia bayesiana: ¿análisis por síntesis? Tendencias en ciencias cognitivas, 10 (7): 301 & # 8211308.

[Zeiler et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Zeiler, M. & # X00A0D., Krishnan, D., Taylor, G. & # X00A0W., Y Fergus, R. (2010). Redes deconvolucionales. En 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), páginas 2528 & # 82112535. IEEE.

[Zhang et & # x00A0al., 2008] & # x00A0 & # x00A0 & # x00A0 Zhang, L., Tong, M. & # X00A0H., Marks, T. & # X00A0K., Shan, H. y Cottrell, G. & # x00A0W. (2008). SUN: Un marco bayesiano para la prominencia utilizando estadísticas naturales. Revista de visión, 8 (7): 32 & # 821132.

[Zhang et & # x00A0al., 2012] & # x00A0 & # x00A0 & # x00A0 Zhang, X., Zhaoping, L., Zhou, T. y Fang, F. (2012). Actividades neuronales en V1 Cree un mapa de prominencia de abajo hacia arriba. Neuron, 73 (1): 183 & # 8211192.

[Zhu et & # x00A0al., 2010] & # x00A0 & # x00A0 & # x00A0 Zhu, L. & # X00A0L., Chen, Y., Torralba, A., Freeman, W. y Yuille, A. (2010). Compartir partes y apariencias: modelos de composición recursivos para la detección de múltiples objetos y vistas múltiples. páginas 1 & # 82118.

[Zhu, 2003] & # x00A0 & # x00A0 & # x00A0 Zhu, S. (2003). Modelado estadístico y conceptualización de patrones visuales. Análisis de patrones e inteligencia de máquinas, transacciones IEEE en, 25 (6): 691 & # 8211712.

[Zylberberg et & # x00A0al., 2011] & # x00A0 & # x00A0 & # x00A0 Zylberberg, A., Dehaene, S., Roelfsema, P. & # x00A0R., Y Sigman, M. (2011). La máquina de Turing humana: un marco neuronal para programas mentales. Tendencias en ciencias cognitivas, 15 (7): 293 & # 8211300.


Figura complementaria 1 Tipos de imágenes utilizadas, rendimiento en diferentes DCNN menos profundos y comparación de modelos con humanos.

a) Ejemplos de diferentes tipos de imágenes utilizados en las pruebas de comportamiento. Los diferentes tipos de imágenes incluían imágenes sintéticas que contenían un objeto en un fondo no correlacionado, imágenes con desenfoque, objetos de tamaño pequeño, oclusión, objetos incompletos, objetos deformados, escenas desordenadas, objetos fusionados y fotografías naturales. B) Comparación del comportamiento de comportamiento de los monos agrupados y tres modelos DCNN con arquitectura similar, VGG-S, NYU y AlexNet. Cada barra corresponde a una imagen. Las barras rojas indican las imágenes del desafío. La línea punteada negra muestra la diferencia de umbral (establecida en 1,5) utilizada para determinar las imágenes de desafío. C) Comparación del desempeño humano (datos agrupados en 88 sujetos humanos) y el desempeño de DCNN (AlexNet 'fc7'). Cada punto representa el desempeño de la tarea conductual (I1 consulte Métodos) para una sola imagen. Identificamos de manera confiable las imágenes de desafío (puntos rojos n = 266 imágenes) y de control (puntos azules n = 149 imágenes). Las barras de error se arrancan en un instante en más de 1000 remuestreos en n = 88 intentos por imagen.

Figura complementaria 2 Comparación objeto por objeto del rendimiento de los monos agrupados (datos agrupados de 2 monos) y el rendimiento de DCNN (AlexNet "fc7").

Cada punto representa el desempeño de la tarea conductual (I1 consulte Métodos) para obtener una sola imagen del objeto correspondiente. Identificamos de manera confiable desafío (puntos rojos) y control (puntos azules) imágenes. Las barras de error se inician en el s.e.m. en 1000 remuestreos para 123 ensayos por imagen. n = 132 imágenes por objeto (correspondiente a cada subpanel).

Figura complementaria 3 Imagen de desafío y estimación del tiempo de solución del objeto realizada por separado para las imágenes de MS COCO.

a) Comparación del rendimiento de AlexNet ("fc7") y el comportamiento de los monos agrupados en las imágenes de MS COCO (n = 200 47 control y 38 imágenes de desafío). Las barras de error muestran los s.em en 1000 remuestreos de 123 ensayos por imagen. B). Distribución de la imagen de desafío (rojo) y control (azul) OST. ΔOST se estimó en

Figura complementaria 4 Comparación del rendimiento de la imagen de control y de desafío, tanto la precisión de decodificación conductual como neuronal, durante exposiciones repetidas de imágenes y durante las tres primeras pruebas, respectivamente.

a) Cambio en el comportamiento de comportamiento de los monos agrupados I1 con exposición repetida de las imágenes de control (azul) y de desafío (rojo). Cada punto de datos se estimó agrupando 10 ensayos (alrededor de los números de ensayo indicados en el eje x). La figura muestra que las imágenes de control y desafío no mostraron una curva de aprendizaje diferente a lo largo del tiempo después de que se introdujeron durante la prueba. Las barras de error se muestran a lo largo de las imágenes. B) Precisiones de decodificación de TI a lo largo del tiempo para imágenes de control (azul) y de desafío (rojo) estimadas para los primeros 3 ensayos por imagen solamente. Esto muestra que las soluciones retrasadas para las imágenes de desafío existen desde los períodos de exposición muy tempranos de las imágenes durante las pruebas de comportamiento y no es el resultado de cambios en las respuestas de TI debido a la exposición repetida (o alguna forma de aprendizaje por refuerzo). La línea punteada en d ’= 1 se utilizó como umbral para aproximar la diferencia en las latencias del decodificador entre estos dos conjuntos de imágenes. Las barras de error se encuentran en el s.e.m. a través de imágenes.

Figura complementaria 5 Estimación de qué tan buenas son las precisiones de decodificación cuando se entrena y se prueba en diferentes momentos.

a) y B) Matriz de entrenamiento cruzado temporal para imágenes de control (n = 149) y desafío (n = 266) respectivamente, mostradas por separado. Para estimar el valor en cada elemento de la matriz, entrenamos un decodificador de población neuronal de TI (n = 424) (consulte Métodos) en un tiempo "t1" ms y lo probamos en el tiempo "t2" ms. C) El color denota la diferencia porcentual en el rendimiento de la diagonal (es decir, cuando el decodificador se entrenó y probó en el mismo punto de tiempo, por lo tanto, todos los valores diagonales son ceros). Esto es similar a la métrica de clasificación de resistencia (CE) utilizada por Salti et al. 2015. Observamos una falta de generalización en los tiempos de los trenes y las pruebas. Por ejemplo, una inspección más cercana (mostrada en un rectángulo punteado verde) de C) revela que los decodificadores entrenados, por ejemplo, a 110-120 ms (OST promedio de las imágenes de control) pierden más del 50% de su precisión de decodificación (mostrada en verde *) cuando se prueban a & gt140 ms (OST promedio de las imágenes de desafío). Esto sugiere que la información del objeto está codificada por un código de población dinámico consistente con la entrada de entradas recurrentes durante las últimas fases de la respuesta de TI.

Figura complementaria 6 Controla los análisis para descartar hipótesis alternativas.

a) Dependencia de OST en el mono agrupado I1 nivel. Las curvas roja y azul muestran los valores OST promediados en las imágenes con comportamiento I1 precisión dentro de los límites mostrados en el eje x, para imágenes de desafío (n = 67,145, 42, 12 imágenes para cada valor x) y control (n = 54,44,41,10 imágenes para cada valor x) respectivamente Barras de error son sem a través de imágenes. B) Comparación de las latencias de inicio (tcomienzo) por neurona (n = n = 424 neuronas), entre las 266 desafío (eje y) y 149 control (eje x) imágenes promediadas a través de imágenes de cada grupo. Las barras de error horizontales y verticales indican s.e.m en las imágenes. C) Ejemplos de dos imágenes, antes y después de que se implementó el algoritmo SHINE 31 (Espectro, histograma y normalización y ecualización de intensidad). D) La población de TI promedio se descodifica a lo largo del tiempo después de que se implementó la técnica SHINE, para el control (azul) y desafío imágenes (rojas). Las barras de error indican algunos elementos en las imágenes. La línea negra indica el comportamiento promedio I1 para la población de monos agrupada en todas las imágenes. La región sombreada en gris indica la desviación estándar del comportamiento I1 para la población de monos agrupada en todas las imágenes. El recuadro muestra una comparación de las tasas de disparo normalizadas promedio (en 424 neuronas) a lo largo del tiempo, tanto para las imágenes de desafío (n = 266 imágenes en rojo) como de control (n = 149 imágenes en azul) después de BRILLAR. Las barras de error indican s.e.m en las imágenes.

Figura complementaria 7 Comparación de latencias en las respuestas neuronales evocadas por imágenes de control y de desafío en el área V4.

El panel superior muestra la colocación de implantes de matriz Utah crónicos en TI y V4 de dos monos. Debajo, mostramos el curso temporal de las tasas de activación neuronal normalizadas (promediadas en la población V4 de 151 sitios) para las imágenes de control (n = 149 imágenes en azul) y de desafío (n = 266 imágenes en rojo). Las nubes de error indican s.e.m a través de las neuronas (n = 151). La distribución de las latencias de inicio promedio en las imágenes de control (azul) y de desafío (rojo) se muestra en los dos paneles inferiores, respectivamente. Estas dos distribuciones no son significativamente diferentes.

Figura complementaria 8 Prueba de la dependencia de los retrasos de decodificación en la selectividad de categoría de las neuronas y las propiedades de la imagen.

Consideramos la posibilidad de que la diferencia en la OST entre las imágenes de control y de desafío para cada categoría de objeto sea impulsada principalmente por neuronas que prefieren específicamente esa categoría (neuronas relevantes para el objeto: número para cada categoría que se muestra en B). Para abordar esto, primero preguntamos si las neuronas relevantes para el objeto muestran una diferencia significativa en la latencia de respuesta (es decir, Δtcomienzo (desafío - imagen de control) & gt 0) cuando se mide para su categoría de objeto preferida. a) muestra 4 categorías de objetos de ejemplo y la dependencia de Δtcomienzo (Δ latencia de inicio, ms: desafío - control) sobre la selectividad del objeto neuronal. El valor de correlación de Spearman, R y los valores p asociados se indican como recuadros. El panel superior de C) resume estos ejemplos y muestra que el Δt generalcomienzo no fue significativamente mayor que cero (prueba t no apareada p & gt0.5). De hecho, una inspección más cercana (panel superior de c) revela que para algunos objetos (por ejemplo, oso, elefante, perro) Δtcomienzo fue realmente negativo, es decir, una tendencia de más corta latencia de respuesta para imágenes de desafío. Finalmente, para probar la posibilidad de que hubiera una tendencia general de que las neuronas más selectivas mostraran un Δt significativocomienzo, calculamos la correlación entre el Δtcomienzo y la selectividad de objeto individual por neurona, por categoría de objeto como se indica en a). El panel inferior de c) muestra que no hubo dependencia de la selectividad de objeto por neurona de las diferencias de latencia de respuesta. En resumen, el OST medio posterior para las imágenes de desafío no puede explicarse simplemente por latencias de respuesta más largas en las neuronas de TI que "se preocupan" por las categorías de objetos. D-h) Dependencia de los tiempos de solución del objeto en diferentes factores basados ​​en imágenes probados por separado para las imágenes de control y de desafío. D-H muestra los factores desorden, desenfoque, contraste, tamaño y excentricidad, respectivamente. A pesar de cierta dependencia general de la OST en uno o más de estos factores, Δ OST(desafío-control) es mantenido

30 ms en cada nivel probado de estos factores. Las líneas discontinuas muestran un ajuste lineal de los datos.

Figura complementaria 9 Resultados de la tarea de fijación pasiva.

a) Comparación de las respuestas de tasa de disparo normalizadas (promediadas en los 424 sitios de TI) con el control (n = 149 imágenes en azul) y las imágenes de desafío (n = 266 imágenes en rojo). La caída inicial en la tasa de disparo es causada por las respuestas de compensación relacionadas con el estímulo anterior. La barra gris muestra los intervalos de tiempo para la comparación de las respuestas de las imágenes de desafío frente a las de control, informadas en el manuscrito. B) Estimaciones de decodificaciones neuronales a lo largo del tiempo. Cada línea delgada representa una única imagen de control (azul) o de desafío (rojo). La línea gruesa azul y roja representan el control promedio y las descodificaciones de imágenes de desafío a lo largo del tiempo, respectivamente. La línea discontinua horizontal representa el rendimiento promedio en las imágenes de control y de desafío (el área gris es la desviación estándar entre las imágenes). Esto demuestra los tiempos de solución retrasados ​​para las imágenes de desafío. C) Caída de la predictividad de TI durante el tiempo de solución del objeto. Errorbars muestra s.e.m en 424 sitios de TI.

Figura complementaria 10 Comparación de decodificaciones neuronales a lo largo del tiempo entre la corteza de TI de monos entrenados y no entrenados durante las tareas de visualización pasiva y discriminación activa.

a) Resultados de monos no entrenados: la población de TI se decodifica con el tiempo para imágenes de control (curva azul 86) y de desafío (curva roja 117 imágenes). El umbral para estimar la latencia de decodificación, indicado por la línea negra discontinua, se estableció en 1.8. Las grabaciones se realizaron en 168 sitios (consulte 6). B) Resultados de monos entrenados durante la tarea de visualización pasiva: la población de TI se decodifica a lo largo del tiempo para imágenes de control (curva azul) y de desafío (curva roja). El umbral para estimar la latencia de decodificación, indicado por la línea negra discontinua, se estableció en 1.8. Las grabaciones se submuestrearon al azar de 168 sitios (sin embargo, de 424, la selección se restringió al hemisferio izquierdo y las matrices pIT y cIT). C) Resultados de monos entrenados durante tareas de discriminación de objetos activa: la población de TI se decodifica a lo largo del tiempo para imágenes de control (curva azul) y de desafío (curva roja). El umbral para estimar la latencia de decodificación, indicado por la línea negra discontinua, se estableció en 1.8. Las grabaciones se submuestrearon al azar de 168 sitios (sin embargo, de 424, la selección se restringió al hemisferio izquierdo y las matrices pIT y cIT). Para A-C trazamos la precisión media para el intervalo de tiempo correspondiente en todas las imágenes probadas para cada intervalo de tiempo. Todas las barras de error se muestran a través de las imágenes (n = 117 para las imágenes de desafío, n = 86 para las imágenes de control).

Figura complementaria 11 Predicción de respuestas neuronales de TI con funciones DCNN.

a) Esquema del procedimiento de prueba de predicción y ajuste neural DCNN. Esto incluye tres pasos principales. Recopilación de datos: se recopilan respuestas neuronales para cada una de las 1320 imágenes (50 repeticiones), por ejemplo, se muestra el ejemplo del sitio neuronal n. ° 3, en intervalos de tiempo de 10 ms. Mapeo: dividimos las imágenes y las características neuronales correspondientes (R TRAIN) en una división de prueba de tren 50-50. Para las imágenes del tren, calculamos las activaciones evocadas por imágenes (F TRAIN) del modelo DCNN de una capa específica. Luego usamos la regresión de mínimos cuadrados parciales para estimar el conjunto de pesos (w) y sesgos (β) que nos permite predecir mejor R TRAIN a partir de F TRAIN. Predicciones de prueba: una vez que tenemos el mejor conjunto de pesos (w) y sesgos (β) que mapean linealmente las características del modelo en las respuestas neuronales, generamos las predicciones (M PRED) de esta neurona sintética para las activaciones evocadas de la imagen de prueba de la modelo F TEST. Luego, comparamos estas predicciones con las características neuronales evocadas de la imagen de prueba (R TEST) para calcular la predictividad de TI del modelo. B) Gráficos de dispersión de predictividad (% EV) de TI (n = 424 neuronas) de diferentes CNN profundas, profundas y recurrentes profundas con respecto a AlexNet con imágenes (n = 319) que se resuelven entre 150-250 ms post inicio. Observamos que la predictividad de TI de las CNN profundas no es significativamente diferente de AlexNet. Sin embargo, tanto las CNN más profundas como los pases tardíos de CORnet (una CNN de recurrencia profunda) son mejores en la predictividad de TI en comparación con AlexNet.


Clase 9.1: Tomaso Poggio - iTheory: Visual Cortex y amp Deep Networks

Descripción: Describe la base teórica y empírica de la i-teoría, que encarna un modelo de procesamiento de red jerárquico de retroalimentación en la vía visual ventral del cerebro de los primates, para respaldar el reconocimiento invariante de objetos.

Instructor: Tomaso Poggio

Clase 9.2: Haim Sompolins.

El siguiente contenido se proporciona bajo una licencia Creative Commons. Su apoyo ayudará a que MIT OpenCourseWare continúe ofreciendo recursos educativos de alta calidad de forma gratuita. Para hacer una donación o ver materiales adicionales de cientos de cursos del MIT, visite MIT OpenCourseWare en ocw.mit.edu.

TOMASO POGGIO: Hablaré de i-teoría, corteza visual, redes de aprendizaje profundo. El trasfondo de esto es este marco conceptual que tomamos como guía para presentar el trabajo en visión en este centro - La idea de que tienes una fase en la percepción visual, esencialmente hasta la primera sacada - digamos, 100 milisegundos desde el inicio de una imagen, en la que la mayor parte del procesamiento se realiza en la corteza visual. Y esas señales de arriba hacia abajo ... Odio el término retroalimentación en este caso, pero las proyecciones hacia atrás que van desde áreas visuales superiores, como la corteza inferotemporal, a V2 y otras áreas corticales no están activas en estos primeros cien milisegundos.

Ahora, todo esto es una conjetura basada en una serie de datos. Por eso tiene que ser probado. Para nosotros es solo una motivación, una guía, para estudiar primero el procesamiento de feedforward en, como dije, los primeros 100 milisegundos más o menos. Y pensar que otros tipos de teoría, como los modelos generativos, la inferencia probabilística de la que has oído hablar, las rutinas visuales que has escuchado de Shimon, son importantes no tanto en los primeros 100 milisegundos, sino más adelante. Sobre todo cuando entran en juego la retroalimentación mediante retroproyección, pero también mediante movimientos de los ojos que adquieren nuevas imágenes en función de la primera que hayas visto.

está bien. Esto es solo para motivar el avance. Y, por supuesto, la evidencia a la que me refiero es evidencia como: has escuchado de Jim DiCarlo, para la fisiología, hay bastantes datos que muestran que las neuronas en TI se vuelven activas y selectivas para lo que está en la imagen alrededor de 80 o 90 milisegundos después del inicio del estímulo. Y esto básicamente implica que no hay grandes ciclos de retroalimentación de un área a otra. Se necesitan 40 milisegundos para llegar a V1 y 10 milisegundos aproximadamente para cada una de las siguientes áreas.

Entonces, el problema es la visión computacional. El tipo de la izquierda es David Marr. Y aquí es realmente donde probablemente se lleva a cabo una gran cantidad de reconocimiento de objetos, es la corriente ventral de V1 a V2, V4 y el complejo de TI.

Así que esa es la parte de atrás de la cabeza. Como dije, se necesitan 40 milisegundos para que las señales eléctricas provengan del ojo en el frente a través del LGN y regresen a las neuronas en V1. Células complejas simples. Y luego, para que las señales vayan de atrás hacia adelante, esa es la parte de retroalimentación.

Y en la parte inferior derecha, ya has visto esta imagen. Esto es de Van Essen, editado recientemente por Movshon. Es el tamaño de las áreas y el tamaño de la conexión son aproximadamente proporcionales al número de neuronas y fibras. Entonces ves que V1 es tan grande como V2. ambos tienen alrededor de 200 millones de neuronas. Y V4 es aproximadamente 50 millones, y el complejo inferotemporal es probablemente 100 millones aproximadamente.

Nuestro cerebro tiene alrededor de un millón de moscas. Una mosca tiene alrededor de 300.000 neuronas. Una abeja es un millón. Y como creo que mencionó Jim DiCarlo, existen estos modelos que se han desarrollado desde Hubel y Wiesel, así que eso es el 59, que intentaron modelar el procesamiento anticipado de V1 a TI. Y parten de celdas simples y complejas, este S1 y C1, siendo celdas simples esencialmente equivalentes a filtros de Gabor, filtros de Gabor orientados en diferentes posiciones, diferentes orientaciones.

Y luego celdas complejas que juntan las señales de celdas simples de la misma preferencia de orientación, pero de diferente posición, y por lo tanto tienen más tolerancia de posición que las celdas simples. Y luego una repetición de este esquema básico, con celdas S2 que representan más complejas, llamémoslas características, que líneas. Quizás una combinación de líneas. Y luego las células C2 vuelven a juntar las células de la misma preferencia para obtener más invariancia en la posición.

Y hay evidencia del antiguo trabajo de Hubel y Wiesel sobre celdas simples y complejas en V1. Entonces, S1 y C1, aunque la identidad morfológica de las células complejas y simples sigue siendo una pregunta abierta, ya sabes, qué células específicas. Podemos discutir eso más tarde. Pero para el resto, esta jerarquía continúa en otras áreas, como V2 y V4 e IT, esta es una conjetura en un modelo como este.

Y nosotros, como otros antes que nosotros, modelamos hace 15 años esta área diferente. Es V1, V2 y V4 con este tipo de modelo. Y la razón para hacerlo no fue realmente para hacer un reconocimiento de objetos, sino para tratar de ver si podíamos obtener las propiedades fisiológicas de un sentido diferente en un modelo de retroalimentación, de los que la gente ha registrado y publicado. Y podríamos hacer eso para reproducir la propiedad.

Por supuesto, algunos de ellos los ponemos en propiedades de células simples y complejas. Pero otros, como cuánta invariancia en la posición había en el nivel superior, lo sacamos del modelo de acuerdo con los datos.

Una cosa sorprendente que tuvimos con este modelo fue que, aunque no fue diseñado para funcionar bien en el reconocimiento de objetos, en realidad funcionó bastante bien. Entonces, el tipo de cosas en las que debe pensar es la categorización rápida. Ya lo has visto. Y la tarea es, para cada imagen, ¿hay un animal o no? Y puedes tener la sensación de que puedes hacer eso.

En el experimento real, tienes una imagen y luego una máscara, otra imagen. Y luego puedes decir que sí, hay una imagen, o no, no la hay. A esto se le llama categorización rápida. Fue introducido por Molly Potter y, más recientemente, Simon Thorpe en Francia lo usó. Y es una forma de obligar al observador a trabajar en modo feedforward, porque no tiene tiempo para mover los ojos, para fijarse. Existe alguna evidencia de que la máscara puede impedir que funcionen las proyecciones posteriores.

Entonces, esta es una situación en la que podría comparar el desempeño humano con estos modelos de retroalimentación, que de todos modos no son una descripción completa de la visión, porque no toman en cuenta la fijación y retroalimentación de los ojos diferentes y procesos superiores, como ... como dije. , inferencia probabilística y rutinas. Pase lo que pase, muy probablemente en visión normal, en la que tienes tiempo para mirar a tu alrededor.

Entonces, en este caso, este d prime es una medida de desempeño, qué tan bien estás haciendo esta tarea. Y puede ver, en primer lugar, el rendimiento absoluto, 80% correcto en una determinada base de datos. Esta tarea, animal no animal, es similar entre el modelo en humanos. Y las imágenes que son difíciles para las personas, como las imágenes en las que hay mucho desorden, los animales son pequeños, también son difíciles para el modelo. Y los fáciles son fáciles para ambos. Entonces, existe una correlación entre los modelos y los humanos.

Esto no dice que el modelo sea correcto, por supuesto, pero da una pista de que el modelo de este tipo captura algo de lo que está sucediendo en la vía visual.Y Jim DiCarlo habló sobre una versión más sofisticada de estos modelos de retroalimentación, incluido el entrenamiento con propagación hacia atrás, que da muy buenos resultados también en términos de concordancia entre neuronas y unidades en el modelo.

Entonces la pregunta es por qué funcionan estos modelos. Son muy simples, feedforward. Ha sido sorprendentemente difícil entender por qué funcionan tan bien como lo hacen. Cuando comencé a trabajar en este tipo de cosas hace 15 años, pensé que este tipo de arquitectura no funcionaría. Pero luego funcionaron mucho mejor de lo que pensaba.

Y si cree en el aprendizaje profundo en estos días, lo que yo hago, por ejemplo, en el rendimiento en ImageNet, supongo que funcionan mejor que los humanos, en realidad, porque la comparación correcta para los humanos en ImageNet sería la de categorización rápida. Así que presentan imágenes brevemente. Porque eso es lo que tienen los modelos: solo una imagen. No hay posibilidad de obtener una segunda vista.

De todos modos, esa es una discusión más compleja que tiene que ver también con cómo modelar el hecho de que a nuestros ojos, en nuestra corteza, cada solución depende de la excentricidad. Es una resolución que decae rápidamente a medida que se aleja de la fóvea y tiene algunas implicaciones importantes para todos estos temas. Llegaré a eso.

Lo que quiero hacer hoy es, una forma de ver esto para tratar de comprender cómo funcionan este tipo de modelos de retroalimentación: la i-teoría se basa en tratar de comprender cómo los modelos que son células simples y complejas y se pueden integrar en una La arquitectura jerárquica puede proporcionar un conjunto característico de características que son invariables a las transformaciones observadas durante el desarrollo y, al mismo tiempo, mantienen la selectividad. No pierde ninguna selectividad por diferentes objetos.

Y luego quiero ver lo que dicen sobre las redes de aprendizaje convolucional profundo y ver algunos de los, comenzando con la teoría sobre el aprendizaje profundo. Y luego quiero ver un par de predicciones, particularmente relacionadas con la resolución dependiente de la excentricidad provenientes de la i-teoría, que son interesantes por el bien de la física y el modelado. Y luego es básicamente la hora de la basura, si está interesado en detalles matemáticos y pruebas de teoremas y antecedentes históricos.

está bien. Comencemos con la i-teoría. Este es el tipo de cosas que, idealmente, queremos explicar. Esta es la corteza visual de la izquierda. Modelos como HMAX o modelos feedforward. Y a la derecha están las redes convolucionales de aprendizaje profundo, un par de ellas, que básicamente tienen etapas de etapa convolucional muy similares a S1, y etapas de agrupación similares a C1. Pero muchas de esas capas.

¿Cuántos de ustedes conocen sobre el aprendizaje profundo? Todo el mundo, ¿verdad? está bien. Este es el tipo de preguntas que la i-teoría intenta responder: por qué estas jerarquías funcionan bien, qué es realmente la corteza visual, cuál es el objetivo de V1 to IT. Sabemos mucho sobre celdas simples y complejas, pero nuevamente, ¿cuál es el objetivo computacional de estas celdas simples y complejas? ¿Por qué tenemos Gabor tuning en las primeras áreas? ¿Y por qué tenemos una afinación bastante genérica, como en la primera área visual, pero una afinación bastante específica para diferentes tipos de objetos como caras y cuerpos más arriba?

La principal hipótesis con el inicio de la i-teoría es que uno de los principales objetivos de la corteza visual, es una hipótesis, es calcular un conjunto de características, una representación de imágenes, que es invariante a las transformaciones que ha experimentado el organismo. - transformaciones visuales-- y permanece selectivo.

Ahora bien, ¿por qué es importante la invariancia? Gran parte del problema de reconocer objetos es el hecho de que puedo ver una vez la cara de Rosalie, y luego la próxima vez es la misma cara, pero la imagen es completamente diferente, porque ahora es mucho más grande porque estoy más cerca, o la iluminación. es diferente. Entonces los píxeles son diferentes. Y a partir de un solo objeto, puede producir de esta manera, a través de la traducción, el escalado, la iluminación diferente, el punto de vista, puede producir miles de imágenes diferentes.

Entonces, la intuición es que si pudiera obtener una descripción por computadora, digamos, vectores largos de rasgos de su rostro, que no cambia bajo estas transformaciones, el reconocimiento sería mucho más fácil. Más fácil significa, especialmente, que podría aprender a reconocer un objeto con muchos menos ejemplos etiquetados.

Aquí a la derecha tiene una demostración muy simple de lo que quiero decir, demostración empírica. Entonces tenemos en la parte inferior diferentes autos y diferentes aviones. Y hay un clasificador lineal que se entrena directamente sobre el píxel. Clasificador muy estúpido. Y lo entrenas con un auto y un avión, esto está a la izquierda, o dos autos, dos aviones. Y luego pruebas con otras imágenes.

Y como puede ver, cuando se entrena con los ejemplos inferiores, que se encuentran en todo tipo de puntos de vista y tamaños, el rendimiento del clasificador al responder si es un automóvil o es un avión, es del 50%. Es casualidad. No aprende nada.

Por otro lado, suponga que tengo un oráculo que es ... Conjeturaré que es la corteza visual, esencialmente, que le da los vectores de características para cada imagen, que es invariante a estas transformaciones. Entonces es como tener imágenes de autos en esta línea B. Están todos en la misma posición, la misma iluminación, y así sucesivamente, y lo mismo para los aviones.

Y repito este experimento. Utilizo un par, un automóvil, un avión, para entrenar, o dos automóviles, dos aviones, y veo de inmediato que cuando se prueban en nuevas imágenes, este clasificador está cerca del 90%. Mucho mejor. Entonces, corregir, tener una representación invariante puede ayudar mucho.

Esa es la demostración empírica y simple. Y puede probar teoremas diciendo lo mismo, que si tiene una representación invariante, puede tener una complejidad simple mucho menor, lo que significa que necesita muchos menos ejemplos etiquetados para entrenar a un clasificador para lograr un cierto nivel de precisión.

Entonces, ¿cómo se puede calcular una representación invariante? Hay muchas formas de hacerlo. Pero te describiré una que me parece atractiva, porque neurofisiológicamente es muy plausible. La suposición básica que hago aquí es que las neuronas son dispositivos muy lentos. No hacen bien muchas cosas.

Una de las cosas que probablemente hacen mejor son los productos punto de alta dimensión. Y la razón es que tienes un árbol dendrítico y en las neuronas corticales tienes entre 1.000 y 10.000 sinapsis. Entonces tienes entre 1,000 y 10,000 entradas. Y cada entrada se multiplica esencialmente por el peso de la sinapsis, que se puede cambiar durante el aprendizaje. Es de plastico. Y luego la despolarización o hiperpolarización postsináptica, por lo que los cambios eléctricos en las sinapsis, se suman en el soma.

Entonces tienes algo de i. Xi son sus entradas, Wi son sus sinapsis. Eso es un producto escalar. Y esto sucede automáticamente, en un milisegundo. Así que es una de las pocas cosas que hacen bien las neuronas. Creo que es una de las características distintivas de las neuronas del cerebro en relación con nuestros componentes electrónicos, que en cada neurona, en cada unidad del cerebro, hay unos 10.000 cables que entran o salen. Cuando digo en, transistor o unidades lógicas en nuestras computadoras, la cantidad de cables es más como tres o cuatro.

Así que esta es la suposición de que este tipo de productos punto son fáciles de hacer. Y esto sugiere este tipo de algoritmo para calcular la invariancia. Suponga que es un bebé en la cuna. Estás jugando con un juguete, es una bicicleta, y lo estás girando, por ejemplo. Por simplicidad. Haremos cosas más complejas.

El aprendizaje no supervisado que debe hacer en este punto es solo almacenar la película de lo que le sucede a su juguete. Por ejemplo, suponga que obtiene una rotación perfecta. Esta es una película allá arriba. Hay ocho cuadros. Sí. Los almacena y los conserva para siempre.

Está bien. Entonces, cuando veas una nueva imagen, podría ser la cara de Rosalie o este pez. Y quiero calcular un vector de características que sea invariante a la rotación, incluso si nunca he visto girar al pez. Lo que hago es calcular un producto escalar de la imagen del pez con cada uno de los fotogramas. Entonces obtengo ocho números.

Y la afirmación es que estos ocho números, no su orden, sino los números, son invariables a la rotación del pez. Entonces, si veo el pez ahora en un ángulo de rotación diferente, supongamos que es vertical, todavía obtendría los mismos ocho números. Probablemente en un orden diferente. Podrías tener ... estos son ocho números. Lo que dije, son invariantes a la rotación del pez.

Hay varias cantidades que puede utilizar para representar de forma compacta el hecho de que son iguales independientemente de la rotación. Por ejemplo, la distribución de probabilidad, el histograma, de estos valores no depende del orden. Entonces, si haces un histograma, estos deben ser independientes de la rotación, invariantes a la rotación, o momentos del histograma, como el promedio, la varianza, el momento de orden infinito.

Y, por ejemplo, la ecuación para calcular un histograma está escrita allí. Tienes el producto escalar de la imagen, el pez, con una plantilla para la bicicleta, la bicicleta Tk. Tienes varias plantillas, no solo una. Y Gi es el elemento del grupo de rotación. Entonces obtienes varias rotaciones de ... simplemente porque has observado eso. No es necesario conocer su grupo de rotación. No necesitas calcular eso. Estas son solo imágenes que ha almacenado.

Y puede haber diferentes umbrales de células simples. Y sigma podría ser solo una función de umbral, por ejemplo. Resulta que lo describiré más tarde. Y suma es la piscina. Los describiré más adelante. Pero sigma, las no linealidades pueden ser, de hecho, casi cualquier cosa. Esto es muy robusto para diferentes opciones de no linealidad y agrupación.

Aquí hay algunos ejemplos en los que ahora la transformación es la traducción que has observado para la bicicleta. Y si calculo un histograma, a partir de más de ocho fotogramas, en este caso, obtengo el histograma rojo del pez y puede ver que el histograma rojo no cambia, incluso si se traduce la imagen del pez.

Lo mismo ocurre con el Instagram azul, que es el conjunto de características correspondientes al gato. También es invariable a la traducción. Pero es diferente al rojo. Entonces, estas cantidades, los histogramas, pueden ser invariantes, por supuesto, pero también selectivas, que es lo que quieres.

Para tener una selectividad tan alta como desee, necesita más de una plantilla. Y algunos resultados sobre cuántos necesitas. Puedo entrar en más detalles sobre esto. Pero esencialmente, necesita una serie de plantillas, de plantillas como la bicicleta, en su ejemplo original, que sea logarítmica en la cantidad de imágenes que desea separar. Por ejemplo, suponga que desea poder distinguir 1000 caras o 1000 objetos. Entonces, el número de plantillas que necesita es del orden de 1000 log. Entonces no aumenta tanto.

Sí. Entonces, hay dos cosas, una, que usted insinuó. La razón por la que hablé de la rotación del plano de la imagen, porque la rotación es un grupo compacto. Para que nunca salgas. Vuelve. La traducción, puedes ... en principio, matemáticamente, entre más infinito o menos infinito. Por supuesto que no tiene sentido, pero matemáticamente esto significa que es un poco más difícil probar los mismos resultados en el caso de la traducción y la escala. Pero nosotros podemos hacerlo. Ese es el primer punto.

El segundo, la combinatoria de diferentes transformaciones. Resulta que ... un enfoque para esto es tener lo que parece tener el sistema visual, en el que tienes rangos de invariancia relativamente pequeños en diferentes etapas. De modo que en la primera etapa, digamos en V1, tiene agrupación por las celdas complejas en un pequeño rango de traducciones, y probablemente escala. Y luego, en la segunda etapa, tiene un rango más amplio. Llegaré a eso más tarde. Pero es un punto muy interesante.

No entraré en esto. Estos son: extensión técnica de estos grupos de observadores parciales, estos grupos no compactos. La transformación no grupal de esta invariancia aproximada a rotaciones en 3D, o cambios de expresión, etc. Y luego, ¿qué sucede cuando tienes una jerarquía de solo módulos? Diré brevemente algo sobre cada uno.

Una es que si miras las plantillas que te dan simultánea, entonces lo que queremos hacer, queremos obtener invariancia de escala y posicionamiento. Y suponga que desea plantillas que maximicen el rango simultáneo de invariancia a escala y posición. Resulta que las plantillas de Gabor, los filtros de Gabor, son los que hacen eso. Entonces, esa puede ser una razón computacional de por qué los filtros de Gabor son algo bueno para procesar imágenes.

Entonces, para obtener aproximadamente una buena invariancia para las transformaciones no grupales, debe tener algunas condiciones. La principal es que la plantilla debe transformarse de manera similar al objeto que se va a calcular, como caras. Y que estas propiedades sean ciertas para una jerarquía de módulos.

Piense en este triángulo invertido como un conjunto de celdas simples en la base y una celda compleja, el círculo rojo en la parte superior. Entonces, la arquitectura que estamos viendo es simple y compleja. Esto sería como V1. Y junto a él, otro módulo complejo simple. Todo esto es V2. Y luego tiene V1 en la segunda capa, que está obteniendo la entrada de V1. Y repites lo mismo, pero en la salida de V1.

Esto es exactamente como una red de aprendizaje profundo. Es como la corteza visual, donde tienes diferentes etapas y los campos receptivos efectivos aumentan a medida que asciendes, como ves aquí. Entonces, este sería el aumento en la agrupación espacial, es decir, la invariancia, y también, como mencioné, no se dibuja aquí, sino la escala. Agrupación de tamaño, escala. Y puede demostrar que, si lo siguiente es cierto, déjeme ver. ¿Es esto animado? No.

Lo que necesita tener, y varias redes diferentes, ciertamente las que describí, tienen esta propiedad de covarianza. Entonces, suponga que tiene un objeto que se traduce en la imagen. está bien. Lo que necesito es que la actividad neuronal, los círculos rojos en el primer nivel, también se traduzcan. Esta es la covarianza.

Entonces lo que pasa es lo siguiente. Supongamos que el objeto es más pequeño que esos campos receptivos y este dibujo es igual de grande. Pero supongamos que es más pequeño. Luego, si traduce uno de esos campos receptivos, yendo de un punto a otro, porque cada uno tiene invariancia a las traducciones dentro del campo receptivo, se está acumulando sobre ellos, la traducción en el campo receptivo dará el mismo resultado. Tendrá invariancia allí mismo.

Pero suponga que tiene una imagen, y luego la siguiente, el objeto se mueve a un campo receptivo diferente, o sale del campo receptivo. Entonces no tienes invariancia en la primera capa. Pero si tiene covarianza, o la actividad neuronal se mueve, en esa capa superior, puede tener invariancia bajo ese campo receptivo. En otras palabras, en esta construcción, si tiene esta propiedad de covarianza, en algún punto de la red, uno de estos campos receptivos será invariante.

AUDIENCIA: ¿Puede explicar eso de nuevo?

TOMASO POGGIO: Sí. El argumento es ... supongamos que tengo un objeto como este. Tengo una imagen. Y luego ... tengo otra imagen en la que el objeto está aquí. Obviamente, la respuesta a este nivel, la respuesta de esta celda cambiará, porque antes veía este objeto. Ahora, están estas otras células que ven eso. Entonces la respuesta ha cambiado. No tienes invariancia.

Sin embargo, si miras lo que sucede, digamos, en el círculo rojo superior allí, el círculo rojo superior verá algo de actividad en la primera imagen aquí, porque se activó para esto. Y en el segundo caso, vemos alguna actividad allí, que debería ser equivalente. Y bajo estos campos receptivos, las traducciones darán lugar a la misma firma. Bajo este gran campo receptivo, tiene invariancia para la traducción dentro de él.

Entonces, el argumento es que, o tiene invariancia en una capa, porque el objeto simplemente se movió dentro de ella, y entonces ya está. Es invariante y todo lo demás es invariante. O no tiene invariancia en esta capa, pero la tendrá en alguna capa superior. Entonces, en cierto sentido, si vuelves a esto, haré este punto más tarde. Pero si vuelve a esto, a este algoritmo, la idea básica es que desea tener invariancia a la rotación. Y entonces promedia las rotaciones.

Pero suponga que quiere tener invariancia; quiere tener una estimación de la rotación, pero no le interesa la identidad. Entonces, lo que haces, no lo haces en exceso de rotación. Detienes diferentes objetos en una rotación. Entonces puedes hacer ambas cosas. ¿Está bien?

AUDIENCIA: Mi pregunta era más fisiológica que teórica.

TOMASO POGGIO: Sí. Fisiológico: habíamos hecho experimentos hace mucho tiempo en TI con Jim DiCarlo, Gabriel Kreiman. Y de la misma población de neuronas, pudimos leer la identidad, la identidad del objeto, invariantes a la escala y la posición. Y también podríamos leer la posición invariable a la identidad. Y--

AUDIENCIA: Lo mismo del--

TOMASO POGGIO: Misma población. No digo la misma neurona, sino la misma población de 200 neuronas. Y entonces puedes imaginar que podrías tener diferentes situaciones. Uno podría ser que algunas de las neuronas solo transmiten posición, y otras son completamente invariantes. Y cuando lea con un clasificador, funcionará. O tienes neuronas que ya están combinando esta información, porque los canales, de cualquier manera.

Bien, déjame hacer esto, y luego podemos tomarnos un descanso. Quiero hacer la conexión con células simples y complejas. Ya mencionamos esto, pero este conjunto de operaciones, puede pensar en este producto sigma punto, n delta, esta es una celda simple.

Entonces, este es un producto escalar de la imagen con un campo receptivo de la célula simple. Eso es lo que es este paréntesis. Tienes un sesgo, o un umbral, y la no linealidad. Podría ser el pico de no linealidad. Podría ser, como dije, un rectificador. Las neuronas no generan picos negativos. Y entonces todo esto es muy plausible desde el punto de vista biológico. Y la celda simple simplemente se agrupará, se hará cargo de las diferentes celdas simples. Así que eso es lo que mencioné antes, que la no linealidad puede ser casi cualquier cosa.

Y quiero mencionar algo que podría ser interesante para la fisiología. Desde el punto de vista de este algoritmo, esta puede ser una solución a este problema que existe desde hace unos 30 años, y es que Hubel y Wiesel y otros fisiólogos posteriores a ellos identificaron células simples y complejas en términos de sus propiedades fisiológicas. No pudieron ver desde donde están grabando.

Pero había células que se comportaban de diferentes formas. Las células simples tenían el pequeño campo receptivo. La célula compleja tenía un campo receptivo más grande. Las celdas complejas eran más invariables. Y luego, los fisiólogos de hoy están usando criterios en los que la célula compleja es más no lineal que la célula simple.

Ahora, desde el punto de vista de la teoría, la diferencia real es que uno está haciendo la agrupación: las células complejas. La celda simple no lo es. Y el enigma es que a pesar de estas diferencias fisiológicas, nunca pudieron decir que este tipo de célula piramidal es simple, y este tipo de célula piramidal es compleja. Y parte de la razón podría ser que quizás las celdas simples y complejas sean la misma celda. Para que la operación se pueda realizar en la misma celda.

Si observa la teoría, lo que puede suceder es que tenga una dendrita jugando el papel de una celda simple. Tienes entradas, pesos sinápticos. Entonces esto podría dar lugar, por ejemplo, al campo receptivo tipo Gabor. Y luego ... estas otras dendritas a otra célula simple. Es similar a Gabor en una posición ligeramente diferente en el plano de la imagen, en la retina. Necesitas las no linealidades.

Y pueden ser, en lugar de la salida de la celda, pueden ser las llamadas conductancias dependientes del voltaje y del tiempo en las dendritas. Mientras tanto, sabemos que las células piramidales de la corteza visual tienen estas no linealidades, como si casi tuvieran generación de picos en las dendritas. Y luego el soma resumirá todo. Esto es lo que hace la célula compleja.

Y si una de las celdas está calculando algo así como un promedio, que es uno de los momentos de una distribución, entonces la no linealidad ni siquiera será necesaria. Y luego los fisiólogos, usando los criterios que usan hoy, clasificarían esa célula como simple, incluso si desde ese punto de vista de la teoría sigue siendo compleja.

De todos modos, esa es la maquinaria propuesta que proviene de la teoría. Eso es todo lo que necesitamos. Y dirá que la celda simple y compleja podría ser una celda.


Vía y arquitectura de la corriente ventral propuesta por el grupo de Poggio - Biología

Implicaciones neurotróficas para las acciones de las drogas psicotróficas

Efraín C. Azmitia, Ph.D. y Patricia M. Whitaker-Azmitia, Ph.D.

Las neuronas productoras de serotonina en los núcleos del rafe del tronco encefálico tienen el sistema eferente más grande y complejo del cerebro humano. Supera lo descrito para las neuronas productoras de catecolaminas del tronco encefálico o el sistema de proyección cortical descendente. Los transmisores de aminoácidos son más abundantes en todo el cerebro, pero carecen de los límites anatómicos estrictos característicos de las neuronas productoras de serotonina. En otras palabras, las neuronas serotoninérgicas pueden ejercer una influencia global, que se coordina a partir de un conjunto anatómico unificado de neuronas. El glutamato, la glicina y el GABA tienen neuronas distribuidas por todo el cerebro, y estas neuronas transmisoras de aminoácidos participan en un sistema local y de proyección que no tiene cohesión funcional o anatómica. La naturaleza especial de las neuronas del tronco encefálico del rafe fue reconocida por el neuroanatomista clásico Ram & oacuten y Cajal (90), quien describió estas neuronas gigantes en la línea media del tallo cerebral, pero no pudo seguir sus extensas proyecciones. El trabajo de Dahlstrom y Fuxe con fluorescencia histoquímica proporcionó detalles sobre la arquitectura anatómica (45). Inmediatamente quedó claro que estas antiguas neuronas, ubicadas cerca de los canales ventriculares del cerebro, inervaban todo el neuroeje. Nuestro trabajo trazó un mapa de cinco vías ascendentes principales y tres vías descendentes que proporcionaron rutas de entrada redundantes a las regiones terminales (14, 20). La aplicación de la inmunocitoquímica reveló los detalles celulares precisos de las ramas axonales masivas que fluyen hacia arriba y hacia abajo del cerebro (98, 101).

Un químico aisló la serotonina (5-hidroxitriptamina, 5-HT) de la sangre como un factor sérico que aumentaba el tono del músculo liso (R). El profesor DW Woolley, químico del Instituto Rockefeller, describió las acciones comparables del LSD y la serotonina en la corteza del gato. Este hallazgo lo intrigó tanto que escribió un libro profético en 1962 titulado The Biochemical Basis of Psychosis The Serotonin Hypothesis About Mental Disease (113). Brodie y Shore (37) propusieron que la serotonina y las catecolaminas funcionan como el sistema nervioso autónomo del cerebro proporcionando influencias que contrarrestan los estados afectivos. En la actualidad, se acepta generalmente que la serotonina es importante en una variedad de trastornos psiquiátricos (véanse los capítulos clínicos).

La explosión de la farmacología de 5-HT ha proporcionado a los médicos una variedad de fármacos para manipular el sistema 5-HT mediante la interacción con subtipos de receptores de 5-HT individuales. Los receptores 5-HT1 tienen una alta afinidad (nanomolar) por 5-HT y se han clonado varios miembros de esta familia (A-F). Este receptor ligado a la proteína G tiene un efecto inhibidor sobre la actividad de la adenilato ciclasa y abre un canal de K + que produce hiperpolarización. Los receptores 5-HT2 son receptores de baja afinidad (micromolar) y también se han clonado varios miembros de este grupo (A-D). La activación de este receptor ligado a la proteína G aumenta los niveles de Ca ++ al estimular la hidrólisis del fosfoinositol y despolariza las neuronas al cerrar el canal de K +. El receptor 5-HT3 es un canal de cationes y la activación de este receptor da como resultado la despolarización neuronal. Se observan grandes cantidades de este receptor en áreas límbicas, donde pueden desempeñar un papel en la ansiedad y la psicosis, y en el área postrema, donde desempeñan un papel en la emesis inducida químicamente. Las familias de receptores 5-HT4-7 están unidas a la proteína G y acopladas positivamente a la adenilato ciclasa. Estos receptores se encuentran en neuronas y células gliales y tienen distribuciones variadas por todo el cerebro.

Los fármacos que actúan sobre receptores particulares han demostrado su utilidad para corregir los desequilibrios químicos. Desafortunadamente, los déficits morfológicos que produjeron el desequilibrio químico a menudo no se controlan. En muchos casos, el tratamiento farmacológico debe mantenerse indefinidamente, con la carga adicional de aumentar la dosis debido a la disminución de la eficacia del fármaco. Además, el tratamiento del desequilibrio químico puede retrasar o prevenir la autocorrección del trastorno morfológico subyacente. Por ejemplo, si se eliminan parcialmente las fibras de serotonina del cerebro de los roedores, se altera el comportamiento del animal. Puede volverse más agresivo o sexualmente receptivo. Es posible que se alteren la secreción hormonal y los ritmos diarios. La temperatura corporal, comer y dormir pueden volverse anormales. Sin embargo, con el tiempo (generalmente de varias semanas a meses), las fibras de 5-HT restantes pueden sentir un aumento en los factores de crecimiento disponibles y comenzar a recolonizar el tejido de 5-HT vacante (11, 12, 21). El restablecimiento de la señal trófica parece activarse cuando estos receptores están desocupados.

Además de considerar el papel de la serotonina, este sistema neuronal parece tener muchas interacciones con el eje pituitario-adrenal. Los esteroides suprarrenales pueden influir en el metabolismo, la farmacología y el crecimiento de las neuronas serotoninérgicas (9, 17, 18). Los glucocorticoides y la serotonina funcionan como factores de maduración durante el desarrollo temprano (16). Por lo tanto, tanto los factores neuronales como los endocrinos son importantes para promover el brote recuperativo.

El siguiente capítulo describe la anatomía de las neuronas 5-HT que se proyectan al prosencéfalo y la médula espinal. Se discuten la síntesis y liberación de 5-HT. Se ha demostrado que muchos factores influyen en la supervivencia, el metabolismo y el alargamiento de las neuronas serotoninérgicas del SNC (22, 38, 46, 49, 59, 74, 76, 85, 104). Primero revisamos esta área de influencias tróficas en las neuronas serotoninérgicas hace casi 10 años utilizando cultivos primarios de tejido neuronal como método para estudiar la maduración y supervivencia serotoninérgicas. Los neuropéptidos, como ACTH, leu-encefalina, sustancia P y neuropéptido-Y, pueden influir en el crecimiento de neuronas serotoninérgicas en cultivo y durante el desarrollo temprano (22, 46, 104). Nuestro laboratorio y otros han encontrado evidencia de efectos tróficos de una amplia gama de factores proteicos como S100 b (13, 75), BDNF (49, 76, 85) y factor similar a la insulina (13, 75). Los animales transgénicos que sobreexpresan el factor de crecimiento transformante alfa (TGF alfa) muestran cambios específicos de género en el desarrollo de la serotonina (59). También hay evidencia que sugiere que los factores básicos de crecimiento de fibroblastos FGF-2 (38) y FGF-5 (74) son tróficos para las neuronas serotoninérgicas. En este capítulo, presentaremos evidencia de las propiedades de extensión de neuritas de S100 b, un factor glial bajo el control del receptor 5-HT1A (112), y también presentaremos brevemente algunas de las pruebas de que el BDNF funciona como un factor de supervivencia ( 85). Finalmente, se presenta el papel trófico de 5-HT en sus células diana. El propósito de este capítulo es enfatizar las dos funciones de la serotonina en el cerebro de los mamíferos: neurotransmisor y factor neurotrópico (8). Es importante que el lector comprenda que el 5-HT desempeña ambos roles a lo largo de la vida del cerebro. Además, ambos roles deben tenerse en cuenta para comprender los trastornos serotoninérgicos y las acciones de los psicofármacos. Por lo tanto, las siguientes secciones resaltan no solo la anatomía y la biología celular, sino también el desarrollo y la plasticidad de las neuronas serotoninérgicas del SNC y las células que inervan.

LA ANATOMÍA DEL SISTEMA 5-HT

La anatomía y el desarrollo de los núcleos del rafe del tronco encefálico que se proyectan hacia el prosencéfalo y la médula espinal se han revisado previamente (14). El siguiente es un breve resumen de las principales agrupaciones nucleares, vías de fibra y patrones de inervación terminal para el lector interesado.

Durante el desarrollo prenatal temprano según Wallace y Lauder (105), son visibles dos grupos de neuronas serotoninérgicas, un grupo superior en el límite entre el mesencéfalo y la protuberancia, y un grupo inferior separado que se extiende desde la protuberancia caudal hasta la médula espinal cervical.

Las neuronas superiores 5-HT en desarrollo expresan 5-HT a medida que migran e inmediatamente comienzan a enviar procesos finos. En cuestión de horas, se ven fibras de 5-HT-IR cruzando la línea media (73, 105). Se ha descrito que el grupo superior de neuronas 5-HT tiene dos conjuntos de neuronas, rostral y caudal. La colección rostral da lugar al núcleo lineal caudal y la mayor parte del núcleo dorsal del rafe. La colección caudal desciende de la zona ependimaria en dos corrientes de células que se encuentran en la línea media para formar el núcleo central superior (núcleo medio del rafe y la porción interfascicular del núcleo dorsal del rafe) [Fig. 1]. En el ser humano, el núcleo del rafe dorsal es el más grande de los núcleos ascendentes, con 235.000 neuronas inmunorreactivas 5-HT (25). El 5-HT1A es el autorreceptor del cuerpo celular, localizado en las neuronas del rafe y en las neuronas diana, astrocitos y células ependimarias (23). Las neuronas serotoninérgicas en los núcleos del rafe normalmente tienen una frecuencia de activación lenta y rítmica cuando los animales están despiertos. La actividad de la mayoría de estas células está relacionada con la actividad motora (tronco encefálico y médula espinal) (63). La activación de los autorreceptores 5-HT1A da como resultado una poderosa inhibición de la velocidad de disparo. El receptor 5-HT1D también se ha localizado en los cuerpos celulares serotoninérgicos y se cree que inhibe la liberación local de 5-HT (ver Fig. 4).

Núcleo lineal caudal (CLN)

El grupo más rostral es el CLN que comienza a nivel del núcleo rojo. Las neuronas 5-HT están ubicadas entre las raicillas de los núcleos oculomotores y se extienden dorsalmente desde el borde anterior del núcleo interpeduncular para fusionarse con el núcleo del rafe dorsal rostral. Las neuronas a menudo están situadas rostrales al núcleo medio del rafe (MRN) y se consideran incorrectamente como parte de la MRN. Las proyecciones de estas regiones se extienden hasta el tálamo y la corteza.

El DRN se divide en componentes medial, lateral (las alas) y caudal. El componente medial se puede dividir en un componente mediodorsal (superior) y un componente interfascicular (Fig. 2). El componente superior está en el gris central, justo debajo del acueducto cerebral. El componente interfascicular rodea la FML y es especialmente prominente entre los fascículos. Estas neuronas se mezclan con el MRN caudal. El componente lateral (las alas) forma la división más grande del DRN y se extiende hasta rostralmente hasta los núcleos oculomotores. En el ser humano, las alas laterales se pueden dividir en una subdivisión dorsal y ventral (101).

El MRN es un grupo de células paramediano y mediano que se encuentran por debajo y caudal a la decusación cerebelosa superior (SCD) [Fig. 2)]. Las células 5-HT dispersas del MRN se ven ventrolaterales al MLF. Estas células situadas lateralmente se encuentran en el núcleo pontis centralis oralis (87) y forman un anillo alrededor del tracto tegmental central, una de las vías ascendentes más primitivas que transportan axones reticulotalámicos. Según el atlas del cerebro humano de Olsewski y Baxter (87), el MRN es solo una parte del núcleo central superior (SCN) más grande, que incluye el aspecto interfascicular del DRN. Aunque existe evidencia anatómica, funcional y de desarrollo sustancial que respalda la inclusión de las neuronas interfasciculares DRN en el SCN, el uso actual prescribe mantener la clasificación original de DRN y MRN propuesta por Dahlstrom y Fuxe (45).

Núcleo supralemniscal (SLN)

Este grupo (originalmente clasificado como B9) se ubica a lo largo de la superficie superior del lemnisco medial, desde el borde rostral de la aceituna inferior hasta el nivel del núcleo rojo. Estas células son ocasionalmente continuas con las células del MRN y forman el borde ventral del anillo de células dispersas que rodea el tracto tegmental central en la formación reticular pontina.

Estas colecciones de neuronas 5-HT muestran un patrón de desarrollo diferente del grupo superior de neuronas serotoninérgicas. Expresan el fenotipo 5-HT después de haber migrado al tegmento del tronco encefálico (105). Estas neuronas muestran la localización característica a lo largo de la línea media, pero además se extienden a varios núcleos reticulares bien conocidos.

Nucleus Raphe Obscrus (NRO)

Este grupo (originalmente clasificado como B2) es una colección de neuronas multipolares medianas y grandes. Forman un grupo paramediano simétrico a cada lado de la línea media. Este núcleo situado dorsalmente se extiende desde la protuberancia caudal hacia la médula espinal cervical. Las neuronas 5-HT de la médula espinal se encuentran ventrales al canal central y en el borde medial del asta ventral. Las neuronas 5-HT suelen estar entremezcladas con el fascículo longitudinal medial (FML), el tracto tectoespinal (tst) y la cara dorsal de la decusación piramidal. El núcleo es más denso caudalmente en la médula al nivel del par craneal VI, está menos denso que el NRM situado ventralmente o el NRPa.

El componente extrarráfico de NRO se describió en el cerebro humano basándose en la tinción de Nissl (87). Estas neuronas 5-HT forman un grupo escindido de NRO y se encuentran justo ventrales al cuarto ventrículo al nivel del núcleo craneal VII. Estas neuronas se denominaban previamente núcleo rafe ventricularis (14).

Nucleus Raphe Pallidus (NRPa)

Este grupo (originalmente designado como B1) es un grupo de neuronas 5-HT multipolares de tamaño mediano en columnas paramedianas. El núcleo se extiende desde el par craneal XII hasta el extremo anterior de la oliva inferior. Las caras laterales del núcleo se extienden sobre la superficie mediodorsal de los tractos piramidales, mientras que el cuerpo principal del núcleo se encuentra entre los tractos piramidales. Las células parecen ser contiguas al NRM anteriormente y al VLM lateralmente.

Esta colección de neuronas 5-HT de medianas a grandes (originalmente clasificadas como B3) se extiende desde el olivo superior rostral hacia atrás hasta el par craneal XII. Este núcleo se encuentra entre NRPa y NRO, y en los puntos los límites entre estos tres núcleos son difíciles de demarcar. El núcleo está invadido tanto por el cuerpo trapezoide como por el borde dorsal del lemnisco medial. En ocasiones, las neuronas 5-HT muy grandes se ven más lateralmente en el límite del núcleo reticularis gigantocellularis.

Médula ventral lateral (VLM)

En la médula ventral lateral se observa una gran cantidad de neuronas 5-HT multipolares de tamaño mediano (originalmente parte de B1 / B3). El núcleo se extiende desde la aceituna inferior hasta el XII par craneal. Las neuronas están estrechamente asociadas con el tracto piramidal, el cuerpo trapezoide y el lemnisco medial. Este núcleo se superpone con dos importantes núcleos reticulares rostralmente y forma el componente medial del núcleo paragigantocelularis lateral reticular, mientras que caudalmente forma la parte medial del núcleo reticular inferior. En su posición más ventral, las neuronas se encuentran contra la superficie pial y están estrechamente entrelazadas con los grandes vasos sanguíneos que entran en la médula.

Se trata de una gran colección de neuronas 5-HT muy pequeñas que se encuentran ventrales al cuarto ventrículo y están asociadas con el área parabraquial. Las neuronas se consideran inmaduras y tienen una forma bipolar u ovalada simple.

Las vías de las fibras serotoninérgicas son extremadamente complejas de describir, ya que incluyen aspectos de todas las vías principales del cerebro. Hay cinco rutas hacia el prosencéfalo y tres rutas hacia la médula espinal (Fig. 3). Estas rutas dan lugar a innumerables ramas que siguen otras vías neuronales, ramificaciones de los vasos sanguíneos, el revestimiento ependimario del sistema ventricular e incluso la superficie pial. Las moléculas responsables de esta expansión parecen ser producidas tanto por células gliales como por neuronas. Las células gliales, especialmente las inmaduras, tienen laminina en su superficie. Se ha demostrado que este factor de unión guía el crecimiento de fibras serotoninérgicas, incluso en el cerebro adulto (116). La S100 b es una proteína soluble abundante producida y secretada por las células gliales (15, 21). La secreción de S100 b disminuye cuando los niveles de 5-HT se reducen (19, 55) y se estimulan con un agonista de 5-HT1A (112). S100 b parece funcionar estabilizando el citoesqueleto y permitiendo la formación de neuritas largas. Otra proteína que aumenta las neuronas 5-HT es el BDNF. El BDNF aumenta la síntesis de 5-HT, la supervivencia neuronal y el brote (76, 85). Sin embargo, el aumento de la brotación puede requerir S100 b (85).

Se deben consultar publicaciones detalladas para conocer la red local precisa de los brotes de 5-HT. En esta revisión, se enumeran las principales vías para las proyecciones descendentes y ascendentes, con algunos ejemplos de redes locales.

La inervación del tronco encefálico es muy extensa. Los núcleos motores y sensoriales están densamente llenos de fibras 5-HT y se sabe mucho sobre las redes locales. Los subnúcleos de cada núcleo tienen sus propios patrones de inervación diferencial. Las funciones importantes de las neuronas 5-HT en los sistemas del tronco encefálico que regulan la respiración, el sueño, la función cardiovascular, el metabolismo, la temperatura y los efectos de activación cortical-reticular están respaldadas por la inervación selectiva de los diversos subnúcleos.

INNERVACIÓN DEL CEREBRO

Las fibras serotoninérgicas que se proyectan al prosencéfalo se originan principalmente en el grupo superior de núcleos del rafe. Se han descrito al menos cinco vías ascendentes separadas en ratas y primates (Fig. 3). En la rata, la vía más grande es el haz del prosencéfalo medial, que transporta fibras desde el MRN y el DRN a una amplia gama de áreas objetivo en el prosencéfalo. En los primates, un número significativo de estas fibras (

25%) están muy mielinizados (14). Además, en los primates, la vía más grande parece ser el tracto cortical del rafe dorsal, que ingresa a la corteza a través de la red de la cápsula interna. Las fibras que contienen 5-HT se asocian con todos los tractos de fibras del cerebro, desde el fórnix hasta los tractos piramidales. Además, se observan fibras serotoninérgicas a lo largo de los vasos sanguíneos, en las células ependimarias que recubren los ventrículos, la piamadre, dentro de los órganos circunventriculares (p. Ej., El área postrema, órgano subcomisural, eminencia media y neurohipófisis) y el plexo coroideo.

En el prosencéfalo adulto, se observa una inervación densa en el núcleo supraquiasmático (centro del ritmo), la sustancia negra (fuente de neuronas de dopamina), el circuito de Papez y los centros límbicos relacionados, y alrededor y en los ventrículos. Las fibras serotoninérgicas en la corteza son abundantes en las áreas límbicas y las áreas sensoriales y de asociación primarias (A13). Los niveles más bajos se encuentran en las regiones motoras del lóbulo frontal. Todas estas fibras tienen abundantes ramificaciones, con miles de varicosidades y terminales llenando las áreas terminales. Prácticamente todas las células del cerebro están muy próximas a una fibra 5-HT y son capaces de responder a 5-HT mediante el proceso de difusión de volumen.Se han identificado siete familias de receptores 5-HT en el prosencéfalo y complementan la amplia distribución de fibras y funciones relacionadas con 5-HT.

En la corteza, las fibras de 5-HT son el primer sistema aferente en llegar y el último en establecer su patrón de inervación (73). Las fibras de 5-HT fluyen a través de las capas superficial y profunda de la corteza primordial para inervar todas las capas corticales de manera difusa. Se produce una ramificación más extensa en las capas de células granulares (capa IV de la corteza) [7]. La estrecha asociación entre las fibras 5-HT y las neuronas granulares se observa en todas las áreas corticales, incluso en el hipocampo, donde las neuronas granulares se limitan a la circunvolución dentada. Estas células granulares completan su mitosis final en el cerebro adulto mucho después de la capa piramidal (2). Las neuronas granulares reciben conexiones talamocorticales directas, por lo que la 5-HT estaría posicionada para modular la entrada eléctrica en la corteza e influir en el funcionamiento cognitivo. El receptor 5-HT2A tiene una ubicación postsináptica en las interneuronas GABA en la corteza piriforme y grandes neuronas piramidales ubicadas en la capa 5 (véase el capítulo aghajaniano). Es la base de muchos de los efectos motores de la 5-HT y participa en las acciones de las principales drogas alucinógenas. Los receptores 5-HT2A y 5-HT2C están ubicados en las células astrogliales y regulan la disponibilidad de energía al estimular la descomposición del glucógeno (89).

Las proyecciones de 5-HT de una sola neurona o grupo de neuronas pueden inervar varias regiones objetivo interconectadas sinápticamente (5, 62). Por ejemplo, el MRN inerva la corteza cingulada, los núcleos septales y el hipocampo, mientras que el DRN inerva la sustancia negra, el cuerpo estriado, la amígdala y el núcleo accumbens. Las neuronas individuales en el DRN y MRN de la rata pueden proyectarse a porciones sensoriomotoras de la corteza cerebral y cerebelosa, o a porciones visuales de ambas (106). Las conexiones hechas por neuronas enlazadas sinápticamente podrían madurar mediante las colaterales de una sola neurona serotoninérgica. Cuando las neuronas serotoninérgicas están activas (p. Ej., Durante la actividad motora o la excitación, véase el capítulo de Jacobs, este volumen), las conexiones se estabilizarían, pero cuando las neuronas 5-HT están en silencio (p. Ej., Durante el sueño), las neuronas diana quedarían expuestas. a una influencia des-diferenciadora. Como se mencionó anteriormente, las fibras de 5-HT son las últimas aferentes extrínsecas en completar su inervación de la corteza y el hipocampo (10). Se propuso que la inervación de serotonina señala la finalización de varios circuitos neuronales y participa en la verificación y consolidación de los contactos interneuronales (73). Sin embargo, proponemos que los circuitos neuronales nunca están completos (terminados, estabilizados) y adelantamos la idea de que los circuitos neuronales normalmente son capaces de modificación y corrección continuas para adaptarse a un entorno cambiante.

INNERVACIÓN DE LA MÉDULA ESPINAL

Hay al menos tres rutas principales de entrada a la médula espinal. El núcleo rafe oscuro inerva el cuerno ventral de la médula espinal utilizando el fascículo posterior de la médula espinal. Las fibras de 5-HT siguen el FML y el tracto tectoespinal a medida que estas vías barren ventralmente desde su posición más dorsal en la médula. Se ven muchas fibras finas varicosas de 5-HT a lo largo del asta ventral. Las fibras 5-HT inervan densamente las motoneuronas alfa primarias, donde las fibras rodean toda la motoneurona. Las motoneuronas contienen receptores 5-HT1A y 5-HT2A. Usando un anticuerpo antipéptido contra el receptor 5-HT1A (24), hemos visto la distribución del receptor en las dendritas, el soma y más fuertemente en el segmento axonal proximal (23, 67).

El núcleo rafe magnus inerva el asta dorsal. Un plexo muy denso de finas fibras varicosas se extiende a través de la sustancia gelatinosa. Existe una inervación más escasa en los otros núcleos del asta dorsal. Este patrón diferencial se extiende hacia la médula, donde los subnúcleos nociceptivos de los núcleos del trigémino reciben una infiltración muy densa por fibras de 5-HT (43).

La última entrada importante en la médula espinal proviene de las neuronas 5-HT medulares ventrales laterales. Estas fibras utilizan el fascículo lateral de la médula espinal para inervar el cuerno lateral. Las fibras 5-HT utilizan el tracto retículo-espinal medular para alcanzar el gris intermedio. Las fibras de 5-HT inervan los núcleos sensorial y motor del sistema autónomo ubicado en cada nivel espinal.

Una vez que las fibras han alcanzado sus objetivos, se debe liberar 5-HT para que ejerza sus funciones eléctricas y neurotrópicas, pero la despolarización no es el único medio de liberar 5-HT. También puede liberarse de las vesículas y a través de la proteína transportadora 5-HT (Fig. 5). En la siguiente sección, se analizan los diversos mecanismos locales que influyen en la liberación. Muchos lectores se sorprenderán al saber que el transportador 5-HT libera 5-HT, trabajando a la inversa de su método normalmente previsto. Sin embargo, esta forma de liberación se conoce para el sistema de la dopamina desde los estudios clásicos de Fisher que usan anfetamina para inducir la liberación (50). La 5-HT también puede ser liberada por compuestos como metanfetamina, MDMA, MDA y fenfluramina y, en mucho menor grado, por cocaína y fluoxetina (29). Además, este capítulo propondrá la interesante idea de que la liberación vesicular y no vesicular están ligadas y en equilibrio intracelular (53). La consecuencia de este acoplamiento de liberación a la neurotransmisión después de la administración de compuestos liberadores de 5-HT merece un estudio adicional, ya que puede tener relevancia clínica.

La 5-HT se sintetiza a partir del triptófano, un aminoácido esencial que es captado preferentemente por las neuronas serotoninérgicas. Los niveles de serotonina y, de hecho, su disponibilidad para su liberación, dependen de los niveles de L-triptófano. El triptófano también es necesario para la biosíntesis de varias moléculas que tienen importantes funciones celulares y neuronales. Estos incluyen melatonina, triptamina, N-metil-triptamina, quinurenina, ácido antranílico y ácido quinólico. Además, el ácido quinólico puede combinarse con el ácido nicotínico para formar los cofactores importantes NAD y NADP. La mayoría de estas vías metabólicas predominan sobre la vía de la serotonina.

La síntesis de 5-HT, que es bloqueada por p-clorofenilalanina (PCPA), un inhibidor específico de la triptófano hidroxilasa (la enzima limitante de la velocidad en la biosíntesis de serotonina), aumenta por una estimulación dependiente de Ca ++ en presencia de glucocorticoides suprarrenales (54). El 5-HT recién sintetizado se almacena en grupos vesiculares y se puede liberar cuando se activa la neurona. La 5-HT extracelular, la 5-HT que se libera de una neurona serotoninérgica, es destruida rápida y preferentemente por la monoaminooxidasa (MAO) A (inhibida por la clorgilina). El 5-HT extracelular debe tener acceso a otras células para ser destruido por MAO-A. La MAO-A se encuentra en una amplia variedad de neuronas (p. Ej., Neuronas dopaminérgicas, piramidales) y células no neuronales (endoteliales, astrocitos) [53, 71]. La 5-HT es captada tanto por las neuronas dopaminérgicas como por los astrocitos (véase el capítulo sobre proteínas transportadoras).

Cualquier 5-HT que escape al metabolismo se devuelve rápidamente al citoplasma de la neurona 5-HT (recaptación). Este proceso está mediado por la proteína transportadora, que es impulsada por el gradiente de Na + (32, 50, 53). El 5-HT en el citoplasma puede almacenarse, transportarse a vesículas o degradarse por la monoamino oxidasa-B (inhibida por deprenil). La 5-HT es transportada a las vesículas sinápticas por una proteína transportadora sensible a la reserpina (96). Es degradado por MAO-B solo cuando los niveles alcanzan aproximadamente 10 -5 M, ya que esta forma de MAO tiene una afinidad menor por 5-HT que MAO-A. El 5-HT que queda en el citoplasma está disponible para una forma alternativa de liberación, mediada por el transportador de serotonina. Esta liberación puede iniciarse con una variedad de fármacos, que incluyen fenfluramina, p-cloroanfetamina y 3,4-dioximetilen-metanfetamina (MDMA) [29]. Curiosamente, estos mismos fármacos en dosis bajas pueden inhibir la recaptación de 5-HT. La cocaína y la fluoxetina son principalmente bloqueadores de la recaptación de 5-HT y pueden inhibir la liberación de 5-HT por fenfluramina, MDMA y PCA (29).

El 5-HT almacenado en grupos citoplásmicos y vesiculares se encuentra en una relación de estado estacionario (53, 102). Cuando se libera 5-HT de un grupo, se puede tomar del otro grupo (53). Por ejemplo, las neuronas estimuladas por MDMA liberan 5-HT a través del transportador 5-HT. Sin embargo, un componente de la 5-HT liberada en realidad se origina en los depósitos vesiculares. La reserpina, un inhibidor de la captación de 5-HT en las vesículas, agota las reservas vesiculares de 5-HT y también reduce la cantidad de 5-HT que sale de la célula después de la exposición a MDMA. Además, si la MAO-B es inhibida por deprenilo, aumenta la liberación de 5-HT inducida por despolarización. Cuando se combinan la despolarización y la MDMA, se observa una liberación mayor que el aditivo (53). Por último, el 5-HT almacenado en realidad puede ser transportado desde un área objetivo distante (por ejemplo, hipocampo) de regreso a los cuerpos de las células del rafe del mesencéfalo dentro de los axones de 5-HT por flujo retrógrado (6).

SEROTONINA COMO FACTOR TROFICO

Los primeros estudios mostraron que el agotamiento perinatal de serotonina en ratas con PCPA o 5,7-DHT retrasó la maduración y el período posnatal de proliferación neuronal en el prosencéfalo (69), redujo la tasa de aumento del peso del prosencéfalo (60) y disminuyó la densidad de las espinas dendríticas de células granulosas, condiciones que empeoraron a medida que los animales crecían hasta la adolescencia (56). Hemos encontrado una pérdida permanente (hasta 180 días) de dendritas, acompañada de cambios profundos en el aprendizaje y la memoria, después de las inyecciones de PCPA durante la sinaptogénesis máxima (PND 10-20). Chubakov y sus colegas demostraron que la serotonina juega un papel en el crecimiento de neuritas en la región objetivo, aumenta las interconexiones eléctricas y promueve la sinaptogénesis en cultivos de hipocampo (41).

En animales adultos, la pérdida de 5-HT da como resultado una pérdida de proteínas y marcadores moleculares asociados con un fenotipo neuronal maduro. Estas pérdidas son transitorias y hemos sugerido que la serotonina es necesaria para mantener la maduración neuronal. En ratas adultas, el PCPA, administrado durante 8 días, produjo una disminución de hasta un 50% en el número de sinapsis no monoaminérgicas en la corteza somatosensorial (40). También produjo una reducción marcada tanto en MAP-2-IR como en sinaptofisina-IR en el hipocampo de ratas adultas (109). El PCA, un liberador de 5-HT que daña los axones serotoninérgicos, dio como resultado la aparición de neuronas degenerativas observadas en toda la corteza (42) y produjo una reducción sustancial de MAP-2-IR y sinaptofisina-IR en todo el cerebro (19).

Estos estudios indicaron que la 5-HT no solo promovió la maduración neuronal durante el desarrollo, sino que también mantuvo el estado de maduración en el adulto. Se acepta comúnmente que los factores de crecimiento tienen efectos en el cerebro adulto. De hecho, muchas de las ideas sobre la demencia asociadas con el envejecimiento atribuyen la pérdida de la función neural a la pérdida de moléculas o receptores tróficos. Esto implica, aunque no se ha dicho directamente antes, que los factores de crecimiento deben estar involucrados de alguna manera en el mantenimiento de la morfología neuronal madura. Una simple analogía serían los efectos de la luz solar sobre el crecimiento de las plantas. La luz es necesaria para promover el crecimiento y sostenerlo, y cuando la luz se vuelve limitante (por ejemplo, durante el invierno), la planta retrocede. Pierde su morfología, las hojas se caen y, en ciertos casos, toda la planta parece haber muerto. Sin embargo, normalmente el sistema radicular está intacto y cuando las condiciones vuelven a ser favorables (por ejemplo, durante la primavera), la planta crece con mayor vigor que antes. Las neuronas, por supuesto, no son plantas, pero parecen crecer en respuesta a la presencia de 5-HT. El crecimiento de las neuronas consiste en mitosis, migración y maduración. Este último proceso es el que más obviamente se ve afectado por la serotonina, aunque hay muchos informes de la acción de la 5-HT tanto en la migración como en la mitosis (ver ref. 68). En términos de maduración, los principales procesos son expresión, alargamiento, elaboración y compromiso. Durante el desarrollo temprano, una neurona inmadura expresa los genes y proteínas necesarios para producir, liberar y regular moléculas de neurotransmisores. Estos pequeños neuroblastos comienzan rápidamente a alargar sus axones. En el caso de la 5-HT, este proceso comienza en el primer trimestre y los axones altamente ramificados llegan a todas las áreas del neuroeje. A continuación se produce la elaboración dendrítica y las dendritas multipolares están salpicadas de espinas. Las neuronas maduras, utilizando receptores, forman compromisos con una variedad de células, tanto neuronales como no neuronales. Todos estos eventos están bajo el control de una gran cantidad de genes y proteínas (algunos de ellos se discutirán a continuación). Curiosamente, muchos de los eventos que gobiernan el crecimiento ocurren independientemente del control genético. Cajal, el gran neuroanatomista español, demostró que los axones podían seguir creciendo y brotando durante un tiempo, incluso cuando el axón estaba separado del cuerpo celular (91). Además, muchos de los eventos involucrados en la formación y estabilización del citoesqueleto están regulados por mecanismos de fosforilación (ver más abajo). Por lo tanto, el proceso de maduración y desmaduración puede regularse rápida y eficazmente mediante un mecanismo no genómico en el entorno local. De hecho, los ribosomas para fabricar proteínas se distribuyen abundantemente por las dendritas. El posible papel de la 5-HT en influir en los cambios dinámicos de maduración de las neuronas del prosencéfalo se presenta a continuación, pero el lector debe comprender que este nuevo concepto no se limita a las acciones de la 5-HT (por importantes que sean) sino que es aplicable a todas las moléculas tróficas y tropicales que tienen efectos sobre la maduración neuronal.

En los próximos párrafos, nos centraremos en S100 b, porque parece ser fundamental para estabilizar el citoesqueleto y porque su liberación está regulada por el receptor 5-HT1A. Sin embargo, es importante señalar que S100 b no parece ser un factor de supervivencia (13, 75). El factor de crecimiento neuronal derivado del cerebro promueve la supervivencia de las neuronas 5-HT en el cerebro. Las neuronas serotoninérgicas contienen el ARNm de los receptores trk-B, los receptores de transducción de señales del BDNF (79). Cuando se aplica BDNF (10-100 ng / ml) a cultivos primarios de rafe del tronco encefálico, el número y el tamaño de las neuronas serotoninérgicas aumentan drásticamente (85). Curiosamente, el BDNF también promueve la aparición de neuronas serotoninérgicas, tanto en cultivo como in vivo (76). En cultivo, la aplicación de anticuerpos producidos contra S100 b bloquea el aumento del alargamiento de neuritas (85). Por tanto, las acciones del BDNF sobre el brote serotoninérgico podrían estar mediadas mediante la liberación de S100 b de las células gliales, ya sea directamente a través de los receptores trk-B o indirectamente mediante la liberación de 5-HT de las neuronas serotoninérgicas. Se ha propuesto un modelo de las interacciones potenciales entre S100 by BDNF de la ref. 85).

Muchos de los efectos tróficos de la serotonina en los tejidos diana son producidos por el receptor 5-HT1A. El receptor 5-HT1A juega un papel en la migración de las células de la cresta neural craneal (81), está asociado con la plasticidad sináptica en la corteza visual de ratas criadas en la oscuridad (82), aumenta la actividad de la colina acetiltransferasa y el crecimiento y ramificación de neuritas en cultivos colinérgicos septales. neuronas (93) y estimula el crecimiento de varicosidades de sinaptofisina-IR en cultivos de células del hipocampo (84). Los efectos de la depleción de PCPA en el recién nacido se revierten con la buspirona, agonista de 5-HT1A (57). Las ratas recién nacidas tratadas con un fármaco reductor de 5-HT o el antagonista de 5-HT-1A NAN-190 muestran una pérdida de espinas en las neuronas piramidales del hipocampo (114).

Existe evidencia de la participación de otros receptores 5-HT. El receptor 5-HT1B puede estar involucrado en la regulación postnatal de la formación de patrones en la corteza somatosensorial (30, 70, 92). Varios investigadores también han sugerido un papel trófico para el receptor 5-HT2A, incluidas las acciones sobre la sinaptogénesis (85).

Los receptores 5-HT se distribuyen en muchos tipos de células en el cerebro y el cuerpo (23, 63, 110). Las células astrogliales poseen varios receptores de neurotransmisores diferentes, incluidos los receptores 5-HT1A, 5-HT2A, 5-HT2C y 5-HT7. Cuando se estimula el receptor 5-HT1A, la célula astroglial responde liberando S-100 by alcanzando una morfología madura, con un cambio de una morfología aplanada a una morfología portadora de procesos (112). En este tratamiento, existe una inhibición por retroalimentación efectiva, ya que, a medida que madura la célula glia, se une a los receptores 5-HT-1 (108). El receptor 5-HT2A en las células astrogliales regula al alza la glucogenólisis (R). Por tanto, la 5-HT, al estimular tanto el receptor 5-HT-1A como el receptor 5-HT2A / C, regula la liberación de S100 by glucosa, dos factores necesarios para el brote neuronal. Se ha discutido la farmacología de estos receptores gliales (107). La expresión de estos receptores gliales puede regularse negativamente mediante agonistas del receptor 5-HT1A y AMP cíclico o regularse positivamente mediante dexametasona y PCPA (72, 84, 108, 111).

Gran parte de la influencia de la serotonina en los tejidos diana del cerebro maduro parece estar relacionada con las acciones del receptor 5-HT1A. En ratas adultas, las disminuciones en MAP-2-IR y sinaptofisina-IR observadas después de las inyecciones de PCA se restablecen rápidamente a niveles de control después de tres días de inyecciones con un agonista de 5-HT-1A (19). La eliminación de glucocorticoides, mediante adrenalectomía, da como resultado la pérdida del fenotipo adulto de las neuronas granulares en la circunvolución dentada (72, 97) y una reexpresión del pico transitorio en el receptor 5-HT-1A (39, 77). Los cambios morfológicos inducidos por la pérdida de glucocorticoides pueden revertirse rápidamente (24-72 h) tanto por reemplazo de esteroides como por un agonista de 5-HT-1A (60). También hay evidencia de un papel trófico de los receptores 5-HT2A / C en la médula espinal adulta (94).

La pérdida de sinapsis, terminales y dendritas en adultos puede considerarse una retracción del estado maduro más que una evidencia de degeneración neuropatológica. Esto es consistente con la rápida reversibilidad de la morfología cuando se reemplaza el 5-HT o se activa el receptor 5-HT1A (16). La serotonina mantiene la morfología adulta mediante la estabilización del citoesqueleto de la célula, ya sea disminuyendo los niveles de AMPc o liberando el factor glial S-100 b.

S-100 b es un factor importante en la regulación del desarrollo de neuronas corticales y astrocitos (15, 21). Por lo tanto, cualquier factor que influya en la liberación de S-100 b de los astrocitos donde se produce también puede regular la maduración de las neuronas y sus células de soporte estabilizando el citoesqueleto. La mayor parte de la liberación cortical de este factor parece deberse a la estimulación de los receptores 5-HT1A. Las inyecciones perinatales de PCPA, PCA, 5,7-DHT o cocaína reducen todos los niveles de S100 b (1, 19, 55). Por tanto, la 5-HT, al actuar sobre los receptores gliales vinculados a la liberación de S100, puede mantener el citoesqueleto maduro. Las implicaciones clínicas de la activación acelerada de este sistema se discuten a continuación.

ESTRÉS, ESTEROIDES Y BROTE

El estrés puede tener efectos profundos en el sistema 5-HT. La relación entre el estrés, los esteroides y la síntesis y el recambio de 5-HT se informó por primera vez hace casi 30 años (9, 18). Recientemente, usando un anticuerpo antipéptido específico contra una región única de la proteína triptófano hidroxilasa, se confirmó un aumento en la cantidad de proteína en animales adrenalectomizados tanto por inmunotransferencias occidentales como por inmunocitoquímica de los núcleos del rafe después de la exposición a dexametasona (17). El estrés tiene efectos significativos sobre el metabolismo cerebral de la 5-HT que son bloqueados por la adrenalectomía (ADX) y restaurados por el reemplazo de corticosterona o dexametasona (31, 47).Además, el crecimiento de fibras de 5-HT durante el desarrollo y después del daño puede requerir la presencia de esteroides suprarrenales (99, 115).

El aumento en la síntesis y el recambio de 5-HT se asocia con cambios en el receptor 5-HT1A. La adrenalectomía a corto plazo aumenta la unión de 8-OH-DPAT a las membranas del hipocampo (78). Los estudios de hibridación in situ indicaron un aumento de la expresión del ARNm del receptor 5-HT1A en el cuerno amónico del hipocampo. Esto pareció estar mediado por el receptor de mineralocorticoides (MR) de tipo 1 [39]. Por el contrario, la adrenalectomía a largo plazo dio como resultado una disminución de la expresión del ARNm de 5-HT1A en la circunvolución dentada (72). Esta disminución fue revertida por la dexametasona, un agonista del receptor de glucocorticoides tipo 2 (GR). Es posible que estos cambios reflejen una localización neuronal vs. glial del receptor 5-HT1A, con el receptor glial 5-HT1A regulado por GR y el receptor neuronal por MR (84). Esto sería consistente con el bloqueo del cambio mediado por el receptor 5-HT1A en un canal de K + independiente de Ca ++ en las neuronas por los mineralocorticoides (65). Las múltiples interacciones entre la 5-HT y el estrés hacen que esta área de la neurociencia sea un desafío para diseñar una terapia eficaz a largo plazo.

En los seres humanos, los receptores 5-HT1A son más altos al principio de la gestación (26) y disminuyen con la edad (44, 80). El potencial de plasticidad muestra una disminución correspondiente a medida que el cerebro madura. Los trastornos del desarrollo, como el síndrome de Down, están asociados con cambios en los niveles de los receptores 5-HT1A. Dado el interés reciente en la esquizofrenia como un trastorno del desarrollo, puede ser pertinente que los receptores 5-HT1A en realidad aumenten drásticamente en el cerebro esquizofrénico (66).

Las manipulaciones de la serotonina producen cambios transitorios en la morfología del cerebro de los animales de experimentación. Hay una serie de trastornos en los que pueden estar ocurriendo cambios similares en los seres humanos. Los inhibidores de la captación de serotonina son eficaces en el tratamiento de la anorexia nerviosa (3). En los estudios de resonancia magnética de niños anoréxicos, se produce una pérdida dramática de volumen cerebral, que se normaliza cuando los niños están bien (58, 95). Esta observación indica que son posibles cambios inducidos farmacológicamente en el volumen del cerebro humano, especialmente porque la recuperación se puede mejorar con agonistas de 5-HT1A.

La exposición prenatal al alcohol o la cocaína altera la maduración normal del desarrollo de las fibras serotoninérgicas y, por lo tanto, puede contribuir a algunos de los daños que se observan en los bebés crack o en el síndrome de alcoholismo fetal. En ambos modelos, los agonistas de 5-HT1A revierten la pérdida de fibras de 5-HT y la maduración cerebral retardada observada en ratas recién nacidas (1, 100). Las ratas que prefieren el alcohol muestran una marcada alteración de la inervación serotoninérgica del prosencéfalo (117). En los alcohólicos humanos, hay una pérdida significativa de volumen cerebral que se correlaciona inversamente con el estado de la enfermedad (64). Estos ejemplos de pérdida de volumen cerebral inducida químicamente y su regreso al rango normal indican que la contracción morfológica severa no es terminal.

Se ha informado que los pacientes con trastorno de estrés postraumático (TEPT) con dependencia del alcohol responden bien a la sertralina, un ISRS (35). Los pacientes con TEPT muestran una pérdida de volumen cerebral (36) y responden bien a los fármacos serotoninérgicos (35). Otros tipos de depresión son el resultado de la pérdida de los niveles cerebrales de 5-HT. El PCPA y una bebida sin triptófano inducen una rápida aparición de la depresión clínica en pacientes con episodios depresivos previos que respondieron al tratamiento con fármacos 5-HT (48). Esto indica que la pérdida de serotonina en sí misma puede producir evidencia clínica de depresión. Además, el suicidio a menudo se considera una forma extrema de depresión. Las regiones cerebrales seleccionadas de pacientes suicidas muestran una reducción de las fibras de 5-HT y un aumento de la unión al receptor de 5-HT1A (5). Estos estudios indican una correlación entre la pérdida de fibras 5-HT y la depresión. En el caso del PTSD, se ha sugerido una pérdida correspondiente (transitoria) de volumen cerebral.

Con base en el papel trófico de 5-HT presentado en este volumen, es tentador especular que la pérdida de 5-HT puede ser más que una correlación. Si existe una pérdida correspondiente de morfología neuronal en el prosencéfalo humano asociada con el TEPT, no sería irrazonable (si la pérdida de 5-HT fuera persistente en ciertas regiones del cerebro) asumir que la depresión severa también podría estar asociada con la pérdida de la morfología neuronal en estas mismas regiones. Esta hipótesis explicaría muchos de los síntomas clínicos persistentes de la depresión, que incluyen abstinencia, letargo, pérdida de ritmo, estado vegetativo, incapacidad para sentir placer y recompensa, pérdida de recuerdos agradables, déficits cognitivos y pérdida del apetito. También proporcionaría una explicación del "lapso de tiempo" evidente en la mayoría de los casos de recuperación clínica que se basan en el tratamiento con monoaminas.

Podemos especular que la pérdida de 5-HT conduce a la desdiferenciación neuronal (desmaduración) y luego a la depresión. Esto estaría consistente con la literatura animal, donde se observó que la pérdida de 5-HT producía disminuciones en las sinapsis y una variedad de proteínas marcadoras neuronales, como MAP-2 y sinaptofisina (19). En estudios con animales, la pérdida es transitoria y depende de la menor disponibilidad de S100 b. En los seres humanos, la pérdida de materia gris cortical observada en el PTSD puede reflejar la inestabilidad del fenotipo neuronal maduro. Como se explicó anteriormente, cuando se rompe el citoesqueleto, los procesos dendríticos neuronales colapsan y la neurona asume una morfología más pequeña y menos elaborada. La recuperación completa requeriría la restauración morfológica de las conexiones neurales retraídas.

Un trabajo reciente ha demostrado que la activación del enlace 5-HT-S100 b puede resultar en una maduración acelerada y un envejecimiento prematuro. Esto parece ser particularmente relevante para el desarrollo observado en ratones transgénicos S100 b, donde los marcadores sinápticos en el hipocampo muestran una maduración muy acelerada pero también un declive temprano (Whitaker-Azmitia, en preparación). Dado que se cree que el síndrome de Down es el resultado de la trisomía del cromosoma 18, donde se localiza el gen S100 b (28), el desarrollo acelerado puede ser responsable de muchos de los déficits observados en estos niños (34). Es de destacar que todos los pacientes de Down eventualmente desarrollan la enfermedad de Alzheimer si sobreviven hasta la mediana edad (52). Por tanto, la sobreestimulación o prematura de la liberación de S100 b puede tener efectos perjudiciales a largo plazo.

Los vínculos entre la 5-HT y el síndrome de Down son fuertes. Hace veinticinco años, los científicos reconocieron que los pacientes de Down tenían sistemas 5-HT atenuados. En 1965, Tu y Zellweger (103) informaron niveles sanguíneos bajos de 5-HT en los niños de Down, y Bazelon (27) mostró que el 5-HTP podría revertir la hipotonía en estos niños. Los investigadores describieron que estos niños mostraban un envejecimiento acelerado (34), y el receptor trófico 5-HT1A muestra un pico prenatal muy temprano en los fetos de Down (27). Por lo tanto, parece que la activación prematura del sistema 5-HT da como resultado un envejecimiento acelerado y niveles más bajos de 5-HT al nacer. Aunque hay una mejora a largo plazo con los fármacos 5-HT o las dietas especiales ricas en triptófano (51), la progresión de la enfermedad no se altera. Curiosamente, las enzimas colinérgicas como la colina acetiltransferasa y la acetilcolinesterasa no son anormales en los niños pequeños con síndrome de Down (28).

En resumen, hemos proporcionado evidencia de que la pérdida de morfología puede ser fundamental para la etiología de muchos trastornos clínicos asociados con un sistema 5-HT alterado. El desafío es reconocer y utilizar las propiedades tróficas y tropicales de la serotonina y otros neurotransmisores y factores cerebrales para estimular el recrecimiento de las conexiones neuronales perdidas sin producir una condición de hiperinnervación.

El sistema serotoninérgico es filogenética y ontogenéticamente antiguo. Dos grupos principales de cuerpos celulares neuronales producen serotonina: los núcleos del rafe superior e inferior. El grupo superior inerva el mesencéfalo y el prosencéfalo, mientras que el grupo inferior inerva el cerebelo, la protuberancia, la médula y la médula espinal. Las neuronas serotoninérgicas del grupo superior se encuentran en el núcleo lineal caudal, el núcleo del rafe dorsal, el núcleo del rafe mediano y el núcleo supralemniscal. El grupo inferior está formado por el núcleo rafe obscrus, el núcleo rafe magnus, el núcleo rafe pallidus y los núcleos reticulares de la médula ventral lateral.

Los núcleos del rafe superior utilizan cinco vías para inervar el prosencéfalo: las dos principales son el haz del prosencéfalo medial y el tracto cortical del rafe dorsal. Los núcleos del rafe inferior inervan toda la médula espinal a través del fascículo longitudinal medial, el haz tectoespinal y el haz reticuloespinal. Muchas ramas se forman a partir de estas vías principales. Las ramas más pequeñas de 5-HT crecen a lo largo de otras vías neuronales, vasos sanguíneos, células ependimarias que recubren los ventrículos y a lo largo de la superficie pial que rodea el cerebro y la médula espinal. Existe evidencia de que la laminina y S-100 son los principales responsables de la extensa red creada por las neuronas 5-HT.

La red 5-HT permite que se libere 5-HT en todo el cerebro y la médula espinal. La liberación de 5-HT depende de la activación de los cuerpos celulares del rafe del tronco encefálico y de la síntesis local de serotonina, que puede escapar a través de la proteína transportadora 5-HT. La descarga está regulada principalmente por el receptor 5-HT1A, mientras que la liberación está regulada por el receptor 5-HT1B / D. La evidencia sugiere que la activación neuronal del rafe está influenciada por las vías corticoespinales descendentes asociadas con la actividad locomotora, mientras que la síntesis local está influenciada por factores como la disponibilidad de sustrato (triptófano, oxígeno, biopterina), esteroides, energía y fosforilación.

En los últimos años, se ha vuelto cada vez más evidente que la comunicación entre las neuronas y sus células gliales de soporte es crucial para el funcionamiento normal del cerebro de los mamíferos. Las funciones así reguladas incluyen no solo los mecanismos homeostáticos normales para proporcionar energía y eliminar los desechos, sino también funciones más vitales: el desarrollo y envejecimiento de todo el cerebro. Un resultado de la señalización entre neuronas serotoninérgicas y astrocitos puede ser la liberación de S-100 b. Esta proteína soluble es un mitógeno glial y un potente factor de extensión de neuritas para neuronas serotoninérgicas, neuronas corticales y motoneuronas espinales (15, 21). La 5-HT puede entonces regular su propio crecimiento (autótrofo) e inducir la maduración de una variedad de células diana a través de esta proteína glial.

Los desequilibrios de 5-HT inducidos por estrés, fármacos y esteroides pueden alterar la arquitectura del cerebro y dar lugar a trastornos mentales que pueden tratarse fomentando el brote serotoninérgico selectivo. El fuerte vínculo 5-HT entre la estructura y la función es una idea importante para los neuropsicofarmacólogos interesados ​​en el rediseño permanente del cerebro para corregir los trastornos mentales.


Notas al pie

Descargo de responsabilidad del editor: Este es un archivo PDF de un manuscrito sin editar que ha sido aceptado para publicación. Como servicio a nuestros clientes, proporcionamos esta primera versión del manuscrito. El manuscrito se someterá a corrección de estilo, composición tipográfica y revisión de la prueba resultante antes de que se publique en su forma citable final. Tenga en cuenta que durante el proceso de producción se pueden descubrir errores que podrían afectar el contenido, y todas las renuncias legales que se aplican a la revista pertenecen.


Ver el vídeo: Qué es fenomenología? - FÁCIL, RÁPIDO Y SENCILLO (Noviembre 2022).